Análisis en profundidad de la arquitectura de big data: de procesos complejos a innovación en la era de la IA

(0 comentarios)

En la era digital actual, los datos se han convertido en un elemento crítico y se consideran el petróleo de la nueva era. Cuando miras un video, tus me gusta, colecciones, comentarios y otros comportamientos generan datos, y esto es solo una pequeña parte de los datos masivos que existen en el mundo. Con tan solo una frase se generaron más de 4 millones de GB de datos a nivel global. Sorprendentemente, alrededor del 90% de los datos del mundo se generaron en los últimos dos años, y el ritmo de generación de datos continúa acelerándose, con la cantidad de datos globales duplicándose cada cuatro años. La iteración de productos, la toma de decisiones comerciales, el desarrollo de la IA y muchos otros aspectos dependen de los datos.

La compleja composición de la arquitectura de big data empresarial

Para las grandes empresas, manejar cantidades masivas de datos no es una tarea fácil. Desde un punto de vista abstracto, todo el proceso de datos incluye cinco partes: recopilación e ingestión, cálculo, almacenamiento y consumo, pero la situación real es mucho más compleja. Hay muchos componentes de código abierto para elegir, su orden no es fijo y están entrelazados. 1. Recopilación e ingesta de datos : la recopilación de datos se refiere a la obtención de datos de diversas fuentes de datos. Si bien las bases de datos como MYSQL se utilizan principalmente para el almacenamiento de datos transaccionales, tienden a recopilarse como fuentes de datos si se utilizan para análisis. Además, se transmiten datos de dispositivos IoT, como hogares y automóviles inteligentes, así como datos de diversas aplicaciones. Una vez que tenga la fuente de datos, debe incorporar los datos en la canalización de datos. Algunos datos ingresan primero a marcos de transmisión como Kafka, y otros se almacenan en el lago de datos mediante la ingestión regular por lotes y, en algunos casos, se calculan directamente después de la ingestión. 2. Computación de datos : La computación de datos se divide principalmente en dos tipos: procesamiento por lotes y procesamiento de flujo. Los marcos de procesamiento de datos modernos, como Spark Blink, logran la integración de flujos por lotes y pueden procesar dos escenarios al mismo tiempo, reemplazando gradualmente a HDP MapReduce, que solo admite el procesamiento por lotes. El procesamiento por lotes es el procesamiento regular de grandes cantidades de datos en horarios programados, como resumir las ventas de todos los productos todos los días. El procesamiento en flujo es adecuado para datos en tiempo real y los datos se procesan inmediatamente después de su llegada. 3. Almacenamiento de datos : existen muchos tipos de almacenamiento. Los lagos de datos se utilizan para almacenar datos sin procesar para escenarios de procesamiento de datos posteriores, como el aprendizaje automático, se utilizan para almacenar datos estructurados procesados ​​y, a menudo, se utilizan en BI. , visualización de datos y otros escenarios de consulta. En los últimos años, para simplificar el proceso, han surgido muchos servicios de almacenamiento integrados que combinan ambos. 4. Consumo de datos : la serie anterior de operaciones complejas está diseñada en última instancia para consumir datos de manera eficiente. Estos datos se pueden utilizar para la predicción y el análisis de la ciencia de datos, para facilitar la visualización de datos y la producción de informes por parte de los PM o jefes, y también se pueden utilizar para la capacitación en IA. Al mismo tiempo, como canal de datos, existen interdependencias entre las tareas y la secuencia de ejecución debe programarse de manera razonable. Herramientas como Airflow permiten a los usuarios aclarar las dependencias de las tareas definiendo un DAG y luego programando cada paso.

En términos generales, la arquitectura de big data de una empresa debe ensamblarse a partir de muchos componentes de código abierto. En los negocios se utilizan datos fuera de línea, datos en tiempo real, procesamiento por lotes, procesamiento de flujo y otras categorías, que involucran una gran cantidad de componentes, lo que genera altos costos de desarrollo, operación y mantenimiento.

Tencent tc house-Innovación y transformación de la plataforma de datos X en la era de la IA

En la era de la inteligencia artificial centrada en datos, casi todo el software está siendo rediseñado. Tomemos como ejemplo la plataforma de datos Tencent tc house-X recién lanzada, que muestra muchas diferencias en la era de la IA. 1. Diseño integrado : construir una arquitectura de datos de la manera tradicional es como construir usted mismo los bloques de construcción, lo que requiere mucho tiempo y mano de obra. Sin embargo, nada más sacarlo de la caja, tc house-X parece un castillo hecho de ladrillos. Este diseño integrado no sólo es conveniente, sino que también evita el problema de múltiples copias de datos en diferentes componentes de la manera tradicional. Permite a los usuarios crear múltiples almacenes de datos virtuales basados ​​en un solo dato para respaldar diferentes negocios, evitando el riesgo de inconsistencia de datos y ahorrando espacio de almacenamiento. Además, los recursos de cada almacén de datos virtual están aislados entre sí, de modo que una tarea informática pesada no afectará la experiencia de consulta de otras empresas, y cada almacén de datos virtual se puede expandir de forma independiente. 2. Flexibilidad aportada por las funciones nativas de la nube : tc house: su informática y almacenamiento se pueden ampliar de forma independiente, lo que reduce en gran medida el desperdicio de recursos. Por ejemplo, después de migrar algunos de los negocios de Tencent a la plataforma, el consumo de recursos informáticos fue inferior a 1/10 de la cantidad original. Al mismo tiempo que ahorramos recursos, también buscamos el máximo rendimiento y desarrollamos nuestra propia tecnología de motor central. Después de la migración del equipo de la conferencia Tencent, solo utilizó 1/3 de los recursos informáticos originales, pero el rendimiento de la consulta fue de 2 a 4 veces mayor que el original. 3. Inteligencia : La inteligencia de la plataforma se refleja en dos aspectos: la IA son datos y los datos son IA. La IA para datos utiliza tecnología de IA para hacer que la plataforma de datos sea más poderosa, como permitir a los usuarios consultar datos usando lenguaje natural para facilitar que los usuarios que no entienden SQL también puedan analizar las características del tiempo de carga a través del aprendizaje automático, predecir y ajustar dinámicamente los recursos necesarios; y ahorrar costes al cliente. Los datos potencian la IA, permitiendo que la plataforma de datos sirva mejor a la IA. Bajo la arquitectura tradicional, la arquitectura de big data y de IA están separadas, lo que requiere que los dos sistemas se desarrollen y operen por separado, y los datos deben importarse y exportarse varias veces. por tc house-

Plataformas como tc house: con el desarrollo continuo de la tecnología, creo que habrá más productos innovadores similares en el futuro, lo que llevará a las empresas a nuevas alturas en aplicaciones y procesamiento de datos. ¿Cómo ve el desarrollo futuro de las plataformas de datos? Bienvenido a dejar un mensaje y compartir en el área de comentarios, y no olvide darle me gusta y compartir este artículo para que más personas puedan comprender los misterios de la arquitectura de big data.

Actualmente sin clasificar

Comentarios


Actualmente no hay comentarios

Por favor inicia sesión antes de comentar: Acceso

Mensajes recientes

Archivo

2025
2024
2023
2022
2021
2020

Categorías

Etiquetas

Autores

Feeds

RSS / Átomo