Análise aprofundada da arquitetura de big data: dos processos complexos à inovação na era da IA

(0 comments)

Na era digital de hoje, os dados tornaram-se um elemento crítico e são considerados o petróleo da nova era. Quando você assiste a um vídeo, suas curtidas, coleções, comentários e outros comportamentos estão gerando dados, e isso é apenas uma pequena parte da enorme quantidade de dados existentes no mundo. Com apenas uma frase, mais de 4 milhões de GB de dados foram gerados globalmente. Surpreendentemente, cerca de 90% dos dados mundiais foram gerados nos últimos dois anos, e o ritmo de geração de dados continua a acelerar, com a quantidade de dados globais a duplicar a cada quatro anos. A iteração de produtos, a tomada de decisões de negócios, o desenvolvimento de IA e muitos outros aspectos dependem de dados.

A composição complexa da arquitetura corporativa de big data

Para grandes empresas, lidar com grandes quantidades de dados não é uma tarefa fácil. Do ponto de vista abstrato, todo o pipeline de dados inclui cinco partes: coleta e ingestão, cálculo, armazenamento e consumo, mas a situação real é muito mais complexa. Existem muitos componentes de código aberto para escolher, e sua ordem não é fixa e eles estão interligados. 1. Coleta e ingestão de dados : A coleta de dados refere-se à obtenção de dados de várias fontes de dados. Embora bancos de dados como MYSQL sejam usados ​​principalmente para armazenamento de dados transacionais, eles tendem a ser coletados como fontes de dados se usados ​​para análise. Além disso, há streaming de dados de dispositivos IoT, como casas inteligentes e carros inteligentes, bem como dados de diversas aplicações. Depois de ter a fonte de dados, você precisa ingerir os dados no pipeline de dados. Alguns dados entram primeiro em estruturas de streaming, como Kafka, e alguns dados são armazenados no data lake por meio de ingestão regular em lote e, em alguns casos, são calculados diretamente após a ingestão. 2. Computação de dados : A computação de dados é dividida principalmente em dois tipos: processamento em lote e processamento em fluxo. Estruturas modernas de processamento de dados, como Spark Blink, realizam integração de fluxo em lote e podem processar dois cenários ao mesmo tempo, substituindo gradualmente o HDP MapReduce, que oferece suporte apenas ao processamento em lote. O processamento em lote é o processamento regular de grandes quantidades de dados em horários programados, como resumir as vendas de todos os produtos todos os dias, o processamento de fluxo é adequado para dados em tempo real e os dados são processados ​​imediatamente após chegarem; 3. Armazenamento de dados : Existem muitos tipos de armazenamento. Os data lakes são usados ​​para armazenar dados brutos não processados ​​para cenários adicionais de processamento de dados, como data warehouses de aprendizado de máquina, são usados ​​para armazenar dados estruturados processados ​​e são frequentemente usados ​​em BI; , visualização de dados e outros cenários de consulta. Nos últimos anos, para simplificar o processo, surgiram muitos serviços de armazenamento integrados que combinam os dois. 4. Consumo de dados : A série anterior de operações complexas foi projetada para consumir dados de forma eficiente. Esses dados podem ser usados ​​para previsão e análise de ciência de dados, para facilitar a visualização de dados e a produção de relatórios por PMs ou chefes, e também podem ser usados ​​para treinamento de IA. Ao mesmo tempo, como um pipeline de dados, existem interdependências entre as tarefas e a sequência de execução precisa ser razoavelmente agendada. Ferramentas como o Airflow permitem que os usuários esclareçam as dependências das tarefas definindo um DAG e agendando cada etapa.

De modo geral, a arquitetura de big data de uma empresa precisa ser montada a partir de muitos componentes de código aberto. Dados offline, dados em tempo real, processamento em lote, processamento de fluxo e outras categorias são utilizados nos negócios, envolvendo um grande número de componentes, resultando em altos custos de desenvolvimento e operação e manutenção.

Tencent tc house-Inovação e transformação da plataforma de dados X na era da IA

Na era da inteligência artificial centrada em dados, quase todos os softwares estão sendo redesenhados. Tomemos como exemplo a recém-lançada plataforma de dados Tencent tc house-X, que mostra muitas diferenças na era da IA. 1. Projeto integrado : Construir uma arquitetura de dados da maneira tradicional é como construir você mesmo blocos de construção, o que consome muito tempo e mão de obra. No entanto, assim que sai da caixa, tc house-X parece um castelo feito de tijolos. Este design integrado não é apenas conveniente, mas também evita o problema de múltiplas cópias de dados em diferentes componentes da forma tradicional. Ele permite que os usuários criem vários data warehouses virtuais com base em um único dado para dar suporte a diferentes negócios, evitando o risco de inconsistência de dados e economizando espaço de armazenamento. Além disso, os recursos de cada armazém de dados virtual são isolados uns dos outros, de modo que uma tarefa pesada de computação não afetará a experiência de consulta de outras empresas, e cada armazém de dados virtual pode ser expandido de forma independente. 2. Flexibilidade trazida pelos recursos nativos da nuvem : tc house - sua computação e armazenamento podem ser expandidos de forma independente, reduzindo bastante o desperdício de recursos. Por exemplo, após a migração de alguns negócios da Tencent para a plataforma, o consumo de recursos computacionais foi inferior a 1/10 do valor original. Ao mesmo tempo que economizamos recursos, também buscamos o melhor desempenho e desenvolvemos nossa própria tecnologia de motor principal. Após a migração da equipe de conferência da Tencent, ela usou apenas 1/3 dos recursos de computação originais, mas o desempenho da consulta foi 2 a 4 vezes maior que o original. 3. Inteligência : A inteligência da plataforma se reflete em dois aspectos: IA são dados e dados são IA. A IA para dados usa tecnologia de IA para tornar a plataforma de dados mais poderosa, como permitir que os usuários consultem dados usando linguagem natural para facilitar que usuários que não entendem SQL também possam analisar características de tempo de carregamento por meio de aprendizado de máquina, prever e ajustar dinamicamente os recursos necessários; e economizar custos para o cliente. Os dados capacitam a IA, permitindo que a plataforma de dados sirva melhor a IA. Na arquitetura tradicional, a arquitetura de big data e de IA são separadas, exigindo que os dois sistemas sejam desenvolvidos e operados separadamente, e os dados precisam ser importados e exportados várias vezes. por casa tc -

Plataformas como tc house - com o desenvolvimento contínuo da tecnologia, acredito que haverá mais produtos inovadores semelhantes no futuro, levando as empresas a novos patamares em processamento de dados e aplicações. Como você vê o desenvolvimento futuro das plataformas de dados? Bem-vindo a deixar uma mensagem e compartilhar na área de comentários, e não se esqueça de curtir e compartilhar este artigo para que mais pessoas possam entender os mistérios da arquitetura de big data.

Atualmente sem classificação

Comentários


Atualmente não há comentários

Faça login antes de comentar: Entrar

Postagens recentes

Arquivo

2025
2024
2023
2022
2021
2020

Categorias

Tag

Autores

Feeds

RSS / Átomo