(0 のコメント)
今日のデジタル時代において、データは重要な要素となっており、新時代の石油と考えられています。ビデオを視聴すると、あなたの「いいね!」、コレクション、コメント、その他の行動によってデータが生成されますが、これは世界中の膨大なデータのほんの一部にすぎません。たった 1 文で、世界中で 400 万 GB を超えるデータが生成されました。驚くべきことに、世界のデータの約 90% は過去 2 年間に生成されており、データ生成のペースは加速し続けており、世界のデータ量は 4 年ごとに 2 倍になっています。製品の反復、ビジネス上の意思決定、AI 開発、その他多くの側面がデータに依存しています。
大企業にとって、大量のデータを処理することは簡単な作業ではありません。抽象的な観点から見ると、データ パイプライン全体には、収集と取り込み、計算、保存、消費の 5 つの部分が含まれていますが、実際の状況はさらに複雑です。選択できるオープンソース コンポーネントは数多くありますが、その順序は固定されておらず、相互に絡み合っています。 1.データ収集と取り込み: データ収集とは、さまざまなデータ ソースからデータを取得することを指します。 MYSQL のようなデータベースは主にトランザクション データのストレージに使用されますが、分析に使用される場合はデータ ソースとして収集される傾向があります。さらに、スマート ホームやスマート カーなどの IoT デバイスからのデータや、さまざまなアプリケーションからのデータがストリーミングされます。データ ソースを取得したら、データをデータ パイプラインに取り込む必要があります。一部のデータは最初に Kafka などのストリーミング フレームワークに入力され、一部のデータは定期的なバッチ取り込みを通じてデータ レイクに保存され、場合によっては取り込み後に直接計算されます。 2.データコンピューティング:データコンピューティングは主にバッチ処理とストリーム処理の 2 種類に分けられます。 Spark Blink などの最新のデータ処理フレームワークは、バッチ ストリームの統合を実現し、2 つのシナリオを同時に処理できるため、バッチ処理のみをサポートする HDP MapReduce を段階的に置き換えます。バッチ処理は、毎日の全商品の売上を集計するなど、大量のデータを定期的に処理する処理で、ストリーム処理はリアルタイム データに適しており、データが到着したらすぐに処理されます。 3.データストレージ: ストレージにはさまざまな種類があります。データ レイクは、機械学習などのさらなるデータ処理シナリオのために未処理の生データを保存するために使用され、データ ウェアハウスは、処理された構造化データを保存するために使用され、BI でよく使用されます。 、データ視覚化、その他のクエリ シナリオ。近年、プロセスを簡素化するために、この 2 つを組み合わせた統合ストレージ サービスが多数登場しています。 4.データ消費: これまでの一連の複雑な操作は、最終的にはデータを効率的に消費するように設計されています。これらのデータは、データ サイエンスの予測と分析に使用して、PM や上司によるデータの視覚化とレポート作成を容易にすることができ、AI トレーニングにも使用できます。同時に、データ パイプラインとして、タスク間には相互依存関係があり、実行シーケンスは合理的にスケジュールされる必要があります。 Airflow などのツールを使用すると、ユーザーは DAG を定義してタスクの依存関係を明確にし、各ステップをスケジュールすることができます。
一般に、企業のビッグ データ アーキテクチャは、多くのオープン ソース コンポーネントから組み立てられる必要があります。ビジネスではオフライン データ、リアルタイム データ、バッチ処理、ストリーム処理などが使用され、多数のコンポーネントが関与するため、開発コストや運用保守コストが高くなります。
データ中心の人工知能の時代には、ほぼすべてのソフトウェアが再設計されています。リリースされたばかりの Tencent TC house-X データ プラットフォームを例に挙げると、AI 時代における多くの違いがわかります。 1.統合設計: 従来の方法でデータ アーキテクチャを構築することは、ビルディング ブロックを自分で構築するようなもので、時間と労力がかかります。しかし、tc house-Xは箱から出した瞬間、レンガでできたお城のように見えます。この統合された設計は便利なだけでなく、従来の方法で異なるコンポーネントにデータが複数コピーされる問題も回避します。これにより、ユーザーは 1 つのデータに基づいて複数の仮想データ ウェアハウスを作成し、さまざまなビジネスをサポートできるため、データの不整合のリスクを回避し、ストレージ スペースを節約できます。さらに、各仮想データ ウェアハウスのリソースは相互に分離されているため、負荷の高いコンピューティング タスクが他のビジネスのクエリ エクスペリエンスに影響を与えることはなく、各仮想データ ウェアハウスを独立して拡張できます。 2.クラウド ネイティブ機能がもたらす柔軟性: TC ハウス - コンピューティングとストレージを独立して拡張できるため、リソースの無駄が大幅に削減されます。たとえば、Tencent のビジネスの一部をプラットフォームに移行した後、コンピューティング リソースの消費量は元の量の 10 分の 1 以下になりました。資源を節約しながら究極のパフォーマンスを追求し、独自のエンジンコア技術を開発します。 Tencent カンファレンス チームが移行した後、使用したコンピューティング リソースは元の 3 分の 1 にすぎませんでしたが、クエリのパフォーマンスは元の 2 ~ 4 倍になりました。 3.インテリジェンス: プラットフォームのインテリジェンスは 2 つの側面に反映されます。AI はデータであり、データは AI です。 AI for data は、AI テクノロジーを使用してデータ プラットフォームをより強力にし、SQL を理解できないユーザーでも簡単に自然言語を使用してデータをクエリできるようにするほか、機械学習を通じて負荷タイミング特性を分析し、必要なリソースを予測して動的に調整することもできます。 、顧客のコストを節約します。データは AI を強化し、データ プラットフォームが AI に適切にサービスを提供できるようにします。従来のアーキテクチャでは、ビッグデータと AI アーキテクチャが分離されているため、2 つのシステムを別々に開発および運用する必要があり、データのインポートとエクスポートを複数回行う必要があります。 by TCハウス -
TC ハウスのようなプラットフォーム - テクノロジーの継続的な発展により、将来的には同様の革新的な製品がさらに登場し、企業をデータ処理とアプリケーションの新たな高みに押し上げると思います。データプラットフォームの今後の発展をどのように見ていますか?メッセージを残してコメント エリアで共有することを歓迎します。より多くの人がビッグ データ アーキテクチャの謎を理解できるように、この記事を「いいね!」して共有することを忘れないでください。
Twitterでシェアする Facebookでシェア
コメント
現在コメントはありません