Im heutigen digitalen Zeitalter sind Daten zu einem entscheidenden Element geworden und gelten als das Öl des neuen Zeitalters. Wenn Sie sich ein Video ansehen, generieren Ihre Likes, Sammlungen, Kommentare und andere Verhaltensweisen Daten, und dies ist nur ein kleiner Teil der riesigen Datenmengen auf der Welt. Mit nur einem Satz wurden weltweit mehr als 4 Millionen GB Daten generiert. Erstaunlicherweise wurden etwa 90 % der weltweiten Daten in den letzten zwei Jahren generiert, und das Tempo der Datengenerierung nimmt weiterhin zu, wobei sich die Menge der globalen Daten alle vier Jahre verdoppelt. Produktiteration, Geschäftsentscheidungen, KI-Entwicklung und viele andere Aspekte basieren auf Daten.
Für große Unternehmen ist der Umgang mit riesigen Datenmengen keine leichte Aufgabe. Aus abstrakter Sicht umfasst die gesamte Datenpipeline fünf Teile: Sammlung und Aufnahme, Berechnung, Speicherung und Verbrauch, aber die tatsächliche Situation ist viel komplexer. Es stehen viele Open-Source-Komponenten zur Auswahl, deren Reihenfolge nicht festgelegt ist und die miteinander verflochten sind. 1. Datenerfassung und -aufnahme : Unter Datenerfassung versteht man das Abrufen von Daten aus verschiedenen Datenquellen. Während Datenbanken wie MYSQL in erster Linie für die Speicherung von Transaktionsdaten verwendet werden, werden sie in der Regel auch als Datenquellen für Analysen erfasst. Hinzu kommen Streaming-Daten von IoT-Geräten wie Smart Homes und Smart Cars sowie Daten aus verschiedenen Anwendungen. Nachdem Sie über die Datenquelle verfügen, müssen Sie die Daten in die Datenpipeline aufnehmen. Einige Daten gelangen zunächst in Streaming-Frameworks wie Kafka, andere werden durch regelmäßige Batch-Aufnahme im Data Lake gespeichert und in einigen Fällen direkt nach der Aufnahme berechnet. 2. Datenberechnung : Die Datenberechnung wird hauptsächlich in zwei Typen unterteilt: Stapelverarbeitung und Stream-Verarbeitung. Moderne Datenverarbeitungs-Frameworks wie Spark Blink realisieren die Batch-Stream-Integration und können zwei Szenarien gleichzeitig verarbeiten und ersetzen nach und nach HDP MapReduce, das nur Batch-Verarbeitung unterstützt. Bei der Stapelverarbeitung handelt es sich um die regelmäßige Verarbeitung großer Datenmengen zu festgelegten Zeiten, z. B. um die tägliche Zusammenfassung aller Produktverkäufe. Die Stream-Verarbeitung eignet sich für Echtzeitdaten und die Daten werden sofort nach ihrem Eintreffen verarbeitet. 3. Datenspeicherung : Es gibt viele Arten der Speicherung. Data Lakes werden zum Speichern unverarbeiteter Rohdaten für weitere Datenverarbeitungsszenarien wie maschinelles Lernen verwendet; Data Warehouses dienen zum Speichern verarbeiteter strukturierter Daten und werden häufig in BI verwendet. , Datenvisualisierung und andere Abfrageszenarien. Um den Prozess zu vereinfachen, sind in den letzten Jahren viele integrierte Speicherdienste entstanden, die beides kombinieren. 4. Datenverbrauch : Die vorherige Reihe komplexer Vorgänge ist letztendlich darauf ausgelegt, Daten effizient zu nutzen. Diese Daten können für datenwissenschaftliche Vorhersagen und Analysen verwendet werden, um die Datenvisualisierung und die Berichterstellung durch PMs oder Vorgesetzte zu erleichtern, und können auch für KI-Schulungen verwendet werden. Gleichzeitig gibt es als Datenpipeline gegenseitige Abhängigkeiten zwischen Aufgaben und die Ausführungssequenz muss angemessen geplant werden. Mit Tools wie Airflow können Benutzer Aufgabenabhängigkeiten klären, indem sie einen DAG definieren und dann jeden Schritt planen.
Im Allgemeinen muss die Big-Data-Architektur eines Unternehmens aus vielen Open-Source-Komponenten zusammengestellt werden. Offline-Daten, Echtzeitdaten, Stapelverarbeitung, Stream-Verarbeitung und andere Kategorien werden in Unternehmen verwendet und umfassen eine große Anzahl von Komponenten, was zu hohen Entwicklungs-, Betriebs- und Wartungskosten führt.
Im Zeitalter der datenzentrierten künstlichen Intelligenz wird fast jede Software neu gestaltet. Nehmen Sie als Beispiel die gerade veröffentlichte Datenplattform Tencent tc house-X, die viele Unterschiede in der KI-Ära zeigt. 1. Integriertes Design : Der Aufbau einer Datenarchitektur auf herkömmliche Weise ist wie das Selbstbauen von Bausteinen, was zeit- und arbeitsintensiv ist. Allerdings sieht tc house-X direkt nach dem Auspacken aus wie ein Schloss aus Ziegelsteinen. Dieses integrierte Design ist nicht nur praktisch, sondern vermeidet auch das Problem mehrerer Datenkopien in verschiedenen Komponenten auf herkömmliche Weise. Es ermöglicht Benutzern, mehrere virtuelle Data Warehouses auf der Grundlage eines Datenelements zu erstellen, um verschiedene Unternehmen zu unterstützen, wodurch das Risiko von Dateninkonsistenzen vermieden und Speicherplatz gespart wird. Darüber hinaus sind die Ressourcen jedes virtuellen Data Warehouse voneinander isoliert, sodass eine umfangreiche Rechenaufgabe die Abfrageerfahrung anderer Unternehmen nicht beeinträchtigt und jedes virtuelle Data Warehouse unabhängig erweitert werden kann. 2. Flexibilität durch cloudnative Funktionen : tc house – seine Rechenleistung und sein Speicher können unabhängig voneinander erweitert werden, wodurch die Ressourcenverschwendung erheblich reduziert wird. Nach der Migration einiger Unternehmen von Tencent auf die Plattform betrug der Rechenressourcenverbrauch beispielsweise weniger als 1/10 des ursprünglichen Betrags. Während wir Ressourcen sparen, streben wir gleichzeitig nach höchster Leistung und entwickeln unsere eigene Kerntechnologie für Motoren. Nach der Migration des Tencent-Konferenzteams nutzte es nur 1/3 der ursprünglichen Rechenressourcen, aber die Abfrageleistung war zwei- bis viermal höher als die ursprüngliche. 3. Intelligenz : Die Intelligenz der Plattform spiegelt sich in zwei Aspekten wider: KI ist Daten und Daten sind KI. KI für Daten nutzt KI-Technologie, um die Datenplattform leistungsfähiger zu machen, indem sie beispielsweise Benutzern ermöglicht, Daten in natürlicher Sprache abzufragen, damit Benutzer, die SQL nicht verstehen, auch Ladezeiteigenschaften durch maschinelles Lernen analysieren, erforderliche Ressourcen vorhersagen und dynamisch anpassen können und Kundenkosten sparen. Daten stärken die KI und ermöglichen es der Datenplattform, die KI besser zu unterstützen. Bei der traditionellen Architektur sind Big Data und KI-Architektur getrennt, sodass die beiden Systeme separat entwickelt und betrieben werden müssen und Daten mehrmals importiert und exportiert werden müssen. von tc house -
Plattformen wie tc house – mit der kontinuierlichen Weiterentwicklung der Technologie glaube ich, dass es in Zukunft weitere ähnliche innovative Produkte geben wird, die Unternehmen zu neuen Höhen in der Datenverarbeitung und -anwendungen führen werden. Wie sehen Sie die zukünftige Entwicklung von Datenplattformen? Hinterlassen Sie gerne eine Nachricht und teilen Sie sie im Kommentarbereich. Vergessen Sie nicht, diesen Artikel zu liken und zu teilen, damit mehr Menschen die Geheimnisse der Big-Data-Architektur verstehen können.
Auf Twitter teilen Auf Facebook teilen
Kommentare
Derzeit liegen keine Kommentare vor