오늘날 디지털 시대에 데이터는 중요한 요소가 되었으며 새로운 시대의 석유로 간주됩니다. 동영상을 시청할 때 좋아요, 컬렉션, 댓글 등의 행동이 데이터를 생성하는데 이는 세상에 존재하는 방대한 데이터 중 극히 일부일 뿐입니다. 단 한 문장으로 전 세계적으로 400만GB 이상의 데이터가 생성됐다. 놀랍게도 전 세계 데이터의 약 90%가 지난 2년 동안 생성되었으며, 데이터 생성 속도는 계속 가속화되어 전 세계 데이터의 양이 4년마다 두 배로 증가합니다. 제품 반복, 비즈니스 의사결정, AI 개발 및 기타 여러 측면이 데이터에 의존합니다.
대기업의 경우, 방대한 양의 데이터를 처리하는 것은 쉬운 일이 아닙니다. 추상적 관점에서 볼 때 전체 데이터 파이프라인은 수집 및 수집, 계산, 저장 및 소비의 다섯 가지 부분으로 구성되지만 실제 상황은 훨씬 더 복잡합니다. 선택할 수 있는 오픈 소스 구성 요소가 많으며 순서가 고정되어 있지 않고 서로 얽혀 있습니다. 1. 데이터 수집 및 섭취 : 데이터 수집은 다양한 데이터 소스로부터 데이터를 얻는 것을 의미합니다. MYSQL과 같은 데이터베이스는 주로 트랜잭션 데이터 저장에 사용되지만 분석에 사용되는 경우 데이터 소스로 수집되는 경향이 있습니다. 이 밖에도 스마트홈, 스마트카 등 IoT 기기에서 나오는 스트리밍 데이터는 물론, 다양한 애플리케이션에서 나오는 데이터도 있다. 데이터 소스를 확보한 후에는 데이터 파이프라인으로 데이터를 수집해야 합니다. 일부 데이터는 먼저 Kafka와 같은 스트리밍 프레임워크에 들어가고, 일부 데이터는 정기적인 배치 수집을 통해 데이터 레이크에 저장되며, 수집 후 직접 계산되는 경우도 있습니다. 2. 데이터 컴퓨팅 : 데이터 컴퓨팅은 크게 배치 프로세싱과 스트림 프로세싱의 두 가지 유형으로 구분됩니다. Spark Blink와 같은 최신 데이터 처리 프레임워크는 배치 스트림 통합을 실현하고 동시에 두 가지 시나리오를 처리할 수 있어 배치 처리만 지원하는 HDP MapReduce를 점차적으로 대체합니다. 일괄 처리는 매일 모든 제품의 판매를 요약하는 등 대량의 데이터를 예정된 시간에 정기적으로 처리하는 것이며, 스트림 처리는 실시간 데이터에 적합하며 데이터가 도착하는 즉시 처리됩니다. 3. 데이터 저장 : 저장 유형은 다양합니다. 데이터 레이크는 기계 학습과 같은 추가 데이터 처리 시나리오를 위해 처리되지 않은 원시 데이터를 저장하는 데 사용됩니다. 데이터 웨어하우스는 처리된 구조화된 데이터를 저장하는 데 사용되며 BI에서 자주 사용됩니다. , 데이터 시각화 및 기타 쿼리 시나리오. 최근에는 프로세스를 단순화하기 위해 이 두 가지를 결합한 통합 스토리지 서비스가 많이 등장했습니다. 4. 데이터 소비 : 이전 일련의 복잡한 작업은 궁극적으로 데이터를 효율적으로 소비하도록 설계되었습니다. 이러한 데이터는 데이터 사이언스 예측 및 분석에 사용될 수 있으며 PM이나 상사의 데이터 시각화 및 보고서 생성을 촉진할 수 있으며 AI 교육에도 사용할 수 있습니다. 동시에 데이터 파이프라인으로서 작업 간에 상호 의존성이 있으며 실행 순서를 합리적으로 예약해야 합니다. Airflow와 같은 도구를 사용하면 사용자는 DAG를 정의하여 작업 종속성을 명확히 한 다음 각 단계를 예약할 수 있습니다.
일반적으로 기업의 빅 데이터 아키텍처는 많은 오픈 소스 구성 요소로 구성되어야 합니다. 오프라인 데이터, 실시간 데이터, 일괄 처리, 스트림 처리 및 기타 범주가 비즈니스에 사용되며 많은 수의 구성 요소가 관련되므로 개발, 운영 및 유지 관리 비용이 높습니다.
데이터 중심 인공지능 시대에는 거의 모든 소프트웨어가 재설계되고 있다. 최근 출시된 Tencent tc house-X 데이터 플랫폼을 예로 들어보겠습니다. 이는 AI 시대에 많은 차이점을 보여줍니다. 1. 통합 설계 : 전통적인 방식으로 데이터 아키텍처를 구축하는 것은 빌딩 블록을 직접 구축하는 것과 같아서 시간과 노동 집약적입니다. 그러나 상자에서 꺼내자마자 TC house-X는 마치 벽돌로 만든 성처럼 보입니다. 이 통합 설계는 편리할 뿐만 아니라 기존 방식의 다양한 구성 요소에 있는 여러 데이터 복사본 문제를 방지합니다. 이를 통해 사용자는 단일 데이터를 기반으로 여러 가상 데이터 웨어하우스를 생성하여 다양한 비즈니스를 지원하고 데이터 불일치 위험을 피하고 저장 공간을 절약할 수 있습니다. 또한 각 가상 데이터 웨어하우스의 리소스는 서로 격리되어 있어 과도한 컴퓨팅 작업이 다른 비즈니스의 쿼리 경험에 영향을 미치지 않으며 각 가상 데이터 웨어하우스를 독립적으로 확장할 수 있습니다. 2. 클라우드 네이티브 기능이 제공하는 유연성 : tc house - 컴퓨팅 및 스토리지를 독립적으로 확장할 수 있어 리소스 낭비를 크게 줄일 수 있습니다. 예를 들어 Tencent의 일부 비즈니스를 플랫폼으로 마이그레이션한 후 컴퓨팅 리소스 소비는 원래 양의 1/10 미만이었습니다. 자원을 절약하는 동시에 최고의 성능을 추구하며 자체 핵심 엔진 기술을 개발합니다. Tencent 컨퍼런스 팀이 마이그레이션한 후 원래 컴퓨팅 리소스의 1/3만 사용했지만 쿼리 성능은 원래보다 2~4배 더 높았습니다. 3. 인텔리전스 : 플랫폼의 인텔리전스는 두 가지 측면에서 반영됩니다. AI는 데이터이고, 데이터는 AI입니다. 데이터용 AI는 AI 기술을 사용하여 사용자가 자연어를 사용하여 데이터를 쿼리할 수 있도록 하여 SQL을 이해하지 못하는 사용자를 용이하게 하는 등 데이터 플랫폼을 더욱 강력하게 만듭니다. 또한 기계 학습을 통해 로드 타이밍 특성을 분석하고 필요한 리소스를 예측하고 동적으로 조정할 수 있습니다. , 고객 비용을 절감합니다. 데이터는 AI에 힘을 실어 데이터 플랫폼이 AI에 더 나은 서비스를 제공할 수 있도록 해줍니다. 기존 아키텍처에서는 빅데이터와 AI 아키텍처가 분리되어 있어 두 시스템을 별도로 개발하고 운영해야 하며 데이터를 여러 번 가져오고 내보내야 합니다. TC 하우스에서 -
tc house와 같은 플랫폼 - 지속적인 기술 개발을 통해 미래에는 유사한 혁신적인 제품이 더 많이 출시되어 기업을 데이터 처리 및 애플리케이션 분야에서 새로운 차원으로 끌어올릴 것이라고 믿습니다. 앞으로 데이터 플랫폼의 발전을 어떻게 보시나요? 댓글 영역에 메시지를 남기고 공유하는 것을 환영하며, 더 많은 사람들이 빅 데이터 아키텍처의 신비를 이해할 수 있도록 이 기사를 좋아요하고 공유하는 것을 잊지 마십시오.
트위터에 공유 페이스북에 공유
코멘트
현재 댓글이 없습니다