Углубленный анализ архитектуры больших данных: от сложных процессов к инновациям в эпоху искусственного интеллекта

(0 комментариев)

В современную цифровую эпоху данные стали важнейшим элементом и считаются нефтью новой эпохи. Когда вы смотрите видео, ваши лайки, коллекции, комментарии и другие действия генерируют данные, и это лишь малая часть огромных данных в мире. Всего одним предложением было создано более 4 миллионов ГБ данных по всему миру. Поразительно, но около 90% мировых данных было создано за последние два года, и темпы создания данных продолжают ускоряться: объем глобальных данных удваивается каждые четыре года. Итерация продукта, принятие бизнес-решений, разработка искусственного интеллекта и многие другие аспекты зависят от данных.

Сложная структура архитектуры больших данных предприятия.

Для крупных компаний обработка огромных объемов данных — непростая задача. С абстрактной точки зрения весь конвейер данных состоит из пяти частей: сбор и прием, расчет, хранение и потребление, но реальная ситуация гораздо сложнее. Существует множество компонентов с открытым исходным кодом на выбор, их порядок не фиксирован и они переплетены. 1. Сбор и обработка данных . Сбор данных подразумевает получение данных из различных источников данных. Хотя такие базы данных, как MYSQL, в основном используются для хранения транзакционных данных, они, как правило, собираются в качестве источников данных, если используются для анализа. Кроме того, осуществляется потоковая передача данных с устройств Интернета вещей, таких как умные дома и умные автомобили, а также данные из различных приложений. После того как у вас есть источник данных, вам необходимо загрузить данные в конвейер данных. Некоторые данные сначала поступают в потоковые платформы, такие как Kafka, а некоторые данные сохраняются в озере данных посредством регулярного пакетного приема, а в некоторых случаях вычисляются непосредственно после приема. 2. Вычисление данных . Вычисление данных в основном делится на два типа: пакетная обработка и потоковая обработка. Современные платформы обработки данных, такие как Spark Blink, реализуют интеграцию пакетного потока и могут обрабатывать два сценария одновременно, постепенно заменяя HDP MapReduce, который поддерживает только пакетную обработку. Пакетная обработка — это регулярная обработка больших объемов данных в запланированное время, например, ежедневное подведение итогов продаж всех продуктов; потоковая обработка подходит для данных в реальном времени, и данные обрабатываются сразу после их поступления. 3. Хранение данных . Существует множество типов хранения. Озера данных используются для хранения необработанных необработанных данных для дальнейших сценариев обработки данных, таких как машинное обучение. Хранилища данных используются для хранения обработанных структурированных данных и часто используются в BI. , визуализация данных и другие сценарии запросов. В последние годы, чтобы упростить этот процесс, появилось множество интегрированных сервисов хранения данных, объединяющих эти два процесса. 4. Потребление данных . Предыдущая серия сложных операций в конечном итоге предназначена для эффективного использования данных. Эти данные могут использоваться для прогнозирования и анализа данных, для облегчения визуализации данных и составления отчетов менеджерами по проектам или руководителями, а также могут использоваться для обучения ИИ. В то же время, как конвейер данных, между задачами существуют взаимозависимости, и последовательность выполнения должна быть разумно запланирована. Такие инструменты, как Airflow, позволяют пользователям уточнять зависимости задач, определяя группу обеспечения доступности баз данных, а затем планируя каждый шаг.

Вообще говоря, архитектуру больших данных предприятия необходимо собирать из множества компонентов с открытым исходным кодом. Автономные данные, данные в реальном времени, пакетная обработка, потоковая обработка и другие категории используются в бизнесе, включая большое количество компонентов, что приводит к высоким затратам на разработку, эксплуатацию и обслуживание.

Tencent TC house – Инновации и трансформация платформы данных X в эпоху искусственного интеллекта

В эпоху искусственного интеллекта, ориентированного на данные, практически все программное обеспечение подвергается переработке. В качестве примера возьмем только что выпущенную платформу данных Tencent tc house-X, которая показывает множество отличий в эпоху искусственного интеллекта. 1. Комплексное проектирование . Построение архитектуры данных традиционным способом похоже на самостоятельное создание строительных блоков, что требует много времени и труда. Однако прямо из коробки TC house-X выглядит как замок из кирпичей. Такая интегрированная конструкция не только удобна, но и позволяет избежать проблемы традиционных копий данных в разных компонентах. Это позволяет пользователям создавать несколько виртуальных хранилищ данных на основе одного фрагмента данных для поддержки различных предприятий, избегая риска несогласованности данных и экономя место для хранения. Более того, ресурсы каждого виртуального хранилища данных изолированы друг от друга, поэтому тяжелые вычислительные задачи не влияют на обработку запросов других предприятий, и каждое виртуальное хранилище данных можно расширять независимо. 2. Гибкость, обеспечиваемая собственными функциями облака : tc house — его вычислительные ресурсы и хранилище можно расширять независимо, что значительно снижает потери ресурсов. Например, после миграции на платформу некоторых предприятий Tencent потребление вычислительных ресурсов составило менее 1/10 от первоначального объема. Экономя ресурсы, мы также стремимся к максимальной производительности и разрабатываем собственную технологию ядра двигателя. После миграции команда конференции Tencent использовала только 1/3 исходных вычислительных ресурсов, но производительность запросов была в 2–4 раза выше исходной. 3. Интеллект . Интеллект платформы отражается в двух аспектах: ИИ — это данные, а данные — это ИИ. ИИ для данных использует технологию ИИ, чтобы сделать платформу данных более мощной, например, позволяя пользователям запрашивать данные, используя естественный язык, чтобы облегчить работу пользователей, которые не понимают SQL. Он также может анализировать характеристики времени загрузки с помощью машинного обучения, прогнозировать и динамически корректировать необходимые ресурсы; и сэкономить расходы клиентов. Данные расширяют возможности ИИ, позволяя платформе данных лучше обслуживать ИИ. В традиционной архитектуре большие данные и архитектура искусственного интеллекта разделены, что требует разработки и эксплуатации двух систем отдельно, а данные необходимо импортировать и экспортировать несколько раз. от ТК Хаус -

Такие платформы, как tc house, — я уверен, что благодаря постоянному развитию технологий в будущем появится больше подобных инновационных продуктов, которые подтолкнут предприятия к новым высотам в области обработки данных и приложений. Каким вы видите будущее развитие платформ данных? Добро пожаловать, оставьте сообщение и поделитесь им в области комментариев, а также не забудьте поставить лайк и поделиться этой статьей, чтобы больше людей могли понять тайны архитектуры больших данных.

Ещё не оценен

Комментарии


Пока комментариев нет

Пожалуйста, войдите, прежде чем комментировать: Вход

Последние записи

Архив

2025
2024
2023
2022
2021
2020

Категории

Теги

Авторы

Ленты

RSS / Atom