ビッグデータアーキテクチャの徹底した分析：複雑なプロセスからAI時代のイノベーションまで

投稿者: XinYe 2 months, 1 week ago

今日のデジタル時代において、データは重要な要素となっており、新時代の石油と考えられています。ビデオを視聴すると、あなたの「いいね！」、コレクション、コメント、その他の行動によってデータが生成されますが、これは世界中の膨大なデータのほんの一部にすぎません。たった 1 文で、世界中で 400 万 GB を超えるデータが生成されました。驚くべきことに、世界のデータの約 90% は過去 2 年間に生成されており、データ生成のペースは加速し続けており、世界のデータ量は 4 年ごとに 2 倍になっています。製品の反復、ビジネス上の意思決定、AI 開発、その他多くの側面がデータに依存しています。

エンタープライズビッグデータアーキテクチャの複雑な構成

大企業にとって、大量のデータを処理することは簡単な作業ではありません。抽象的な観点から見ると、データパイプライン全体には、収集と取り込み、計算、保存、消費の 5 つの部分が含まれていますが、実際の状況はさらに複雑です。選択できるオープンソースコンポーネントは数多くありますが、その順序は固定されておらず、相互に絡み合っています。 1.データ収集と取り込み: データ収集とは、さまざまなデータソースからデータを取得することを指します。 MYSQL のようなデータベースは主にトランザクションデータのストレージに使用されますが、分析に使用される場合はデータソースとして収集される傾向があります。さらに、スマートホームやスマートカーなどの IoT デバイスからのデータや、さまざまなアプリケーションからのデータがストリーミングされます。データソースを取得したら、データをデータパイプラインに取り込む必要があります。一部のデータは最初に Kafka などのストリーミングフレームワークに入力され、一部のデータは定期的なバッチ取り込みを通じてデータレイクに保存され、場合によっては取り込み後に直接計算されます。 2.データコンピューティング：データコンピューティングは主にバッチ処理とストリーム処理の 2 種類に分けられます。 Spark Blink などの最新のデータ処理フレームワークは、バッチストリームの統合を実現し、2 つのシナリオを同時に処理できるため、バッチ処理のみをサポートする HDP MapReduce を段階的に置き換えます。バッチ処理は、毎日の全商品の売上を集計するなど、大量のデータを定期的に処理する処理で、ストリーム処理はリアルタイムデータに適しており、データが到着したらすぐに処理されます。 3.データストレージ: ストレージにはさまざまな種類があります。データレイクは、機械学習などのさらなるデータ処理シナリオのために未処理の生データを保存するために使用され、データウェアハウスは、処理された構造化データを保存するために使用され、BI でよく使用されます。、データ視覚化、その他のクエリシナリオ。近年、プロセスを簡素化するために、この 2 つを組み合わせた統合ストレージサービスが多数登場しています。 4.データ消費: これまでの一連の複雑な操作は、最終的にはデータを効率的に消費するように設計されています。これらのデータは、データサイエンスの予測と分析に使用して、PM や上司によるデータの視覚化とレポート作成を容易にすることができ、AI トレーニングにも使用できます。同時に、データパイプラインとして、タスク間には相互依存関係があり、実行シーケンスは合理的にスケジュールされる必要があります。 Airflow などのツールを使用すると、ユーザーは DAG を定義してタスクの依存関係を明確にし、各ステップをスケジュールすることができます。

一般に、企業のビッグデータアーキテクチャは、多くのオープンソースコンポーネントから組み立てられる必要があります。ビジネスではオフラインデータ、リアルタイムデータ、バッチ処理、ストリーム処理などが使用され、多数のコンポーネントが関与するため、開発コストや運用保守コストが高くなります。

テンセントTCハウス - AI時代のXデータプラットフォームの革新と変革

データ中心の人工知能の時代には、ほぼすべてのソフトウェアが再設計されています。リリースされたばかりの Tencent TC house-X データプラットフォームを例に挙げると、AI 時代における多くの違いがわかります。 1.統合設計: 従来の方法でデータアーキテクチャを構築することは、ビルディングブロックを自分で構築するようなもので、時間と労力がかかります。しかし、tc house-Xは箱から出した瞬間、レンガでできたお城のように見えます。この統合された設計は便利なだけでなく、従来の方法で異なるコンポーネントにデータが複数コピーされる問題も回避します。これにより、ユーザーは 1 つのデータに基づいて複数の仮想データウェアハウスを作成し、さまざまなビジネスをサポートできるため、データの不整合のリスクを回避し、ストレージスペースを節約できます。さらに、各仮想データウェアハウスのリソースは相互に分離されているため、負荷の高いコンピューティングタスクが他のビジネスのクエリエクスペリエンスに影響を与えることはなく、各仮想データウェアハウスを独立して拡張できます。 2.クラウドネイティブ機能がもたらす柔軟性: TC ハウス - コンピューティングとストレージを独立して拡張できるため、リソースの無駄が大幅に削減されます。たとえば、Tencent のビジネスの一部をプラットフォームに移行した後、コンピューティングリソースの消費量は元の量の 10 分の 1 以下になりました。資源を節約しながら究極のパフォーマンスを追求し、独自のエンジンコア技術を開発します。 Tencent カンファレンスチームが移行した後、使用したコンピューティングリソースは元の 3 分の 1 にすぎませんでしたが、クエリのパフォーマンスは元の 2 ～ 4 倍になりました。 3.インテリジェンス: プラットフォームのインテリジェンスは 2 つの側面に反映されます。AI はデータであり、データは AI です。 AI for data は、AI テクノロジーを使用してデータプラットフォームをより強力にし、SQL を理解できないユーザーでも簡単に自然言語を使用してデータをクエリできるようにするほか、機械学習を通じて負荷タイミング特性を分析し、必要なリソースを予測して動的に調整することもできます。、顧客のコストを節約します。データは AI を強化し、データプラットフォームが AI に適切にサービスを提供できるようにします。従来のアーキテクチャでは、ビッグデータと AI アーキテクチャが分離されているため、2 つのシステムを別々に開発および運用する必要があり、データのインポートとエクスポートを複数回行う必要があります。 by TCハウス -

TC ハウスのようなプラットフォーム - テクノロジーの継続的な発展により、将来的には同様の革新的な製品がさらに登場し、企業をデータ処理とアプリケーションの新たな高みに押し上げると思います。データプラットフォームの今後の発展をどのように見ていますか?メッセージを残してコメントエリアで共有することを歓迎します。より多くの人がビッグデータアーキテクチャの謎を理解できるように、この記事を「いいね！」して共有することを忘れないでください。

現在評価されていません

現在コメントはありません

コメントする前にログインしてください: ログイン

著者

フィード

RSS / 原子

ビッグデータアーキテクチャの徹底した分析：複雑なプロセスからAI時代のイノベーションまで

投稿者: XinYe 2 months, 1 week ago

エンタープライズビッグデータアーキテクチャの複雑な構成

テンセントTCハウス - AI時代のXデータプラットフォームの革新と変革

コメント

最近の投稿

アーカイブ

2025

2024

2023

2022

2021

2020

カテゴリー

タグ

著者

フィード