在当今的数字时代,数据已成为关键要素,被视为新时代的石油。当你观看视频时,你的点赞、收藏、评论等行为都在产生数据,而这只是世界海量数据中的很小一部分。仅仅一句话,全球就产生了超过400万GB的数据。令人震惊的是,全球约90%的数据是在过去两年产生的,而且数据产生的速度不断加快,全球数据量每四年翻一番。产品迭代、企业决策、AI开发等很多方面都依赖于数据。
对于大公司来说,处理海量数据并不是一件容易的事。从抽象的角度来看,整个数据管道包括收集和摄取、计算、存储和消费五个部分,但实际情况要复杂得多。有很多开源组件可供选择,它们的顺序并不固定,而且相互交织。 1. 数据收集和摄取:数据收集是指从各种数据源获取数据。虽然像MYSQL这样的数据库主要用于事务性数据存储,但如果用于分析,则往往会作为数据源进行收集。此外,还有来自智能家居、智能汽车等物联网设备的流数据,以及来自各种应用程序的数据。有了数据源后,需要将数据摄入到数据管道中。有些数据首先进入Kafka等流式框架,有些数据通过定期批量摄取存储在数据湖中,在某些情况下,摄取后直接计算。 2. 数据计算:数据计算主要分为批处理和流处理两种。现代数据处理框架,如Spark Blink,实现了批流一体化,可以同时处理两种场景,逐渐取代只支持批处理的HDP MapReduce。批处理是在预定时间定期处理大量数据,例如汇总每天所有产品的销售情况;流处理适合实时数据,数据到达后立即处理。 3. 数据存储:有多种存储类型。数据湖用于存储未处理的原始数据,以供机器学习等进一步的数据处理场景使用;数据仓库用于存储处理后的结构化数据,常用于BI中。 、数据可视化等查询场景。近年来,为了简化流程,出现了许多将两者结合起来的湖仓一体化存储服务。 4. 数据消费:前面一系列的复杂操作最终都是为了高效地消费数据。这些数据可以用于数据科学预测和分析,方便PM或老板进行数据可视化和报告制作,也可以用于AI培训。同时,作为数据管道,任务之间存在相互依赖关系,需要合理调度执行顺序。 Airflow等工具允许用户通过定义DAG来澄清任务依赖关系,然后安排每个步骤。
一般来说,企业的大数据架构需要由很多开源组件组装而成。业务中均用到离线数据、实时数据、批处理、流处理等类别,涉及大量组件,导致开发和运维成本较高。
在以数据为中心的人工智能时代,几乎所有软件都在重新设计。以刚刚发布的腾讯tc house-X数据平台为例,它展现了AI时代的诸多差异。 1. 集成设计:传统方式构建数据架构就像自己搭积木一样,费时费力。然而,tc house-X 开箱即用,就像一座由积木拼凑而成的城堡。这种一体化的设计不仅方便,而且避免了传统方式中数据在不同组件中多次复制的问题。它允许用户基于一份数据创建多个虚拟数据仓库来支持不同的业务,既避免了数据不一致的风险,又节省了存储空间。而且,每个虚拟数据仓库的资源相互隔离,使得一项繁重的计算任务不会影响其他业务的查询体验,并且每个虚拟数据仓库都可以独立扩展。 2. 云原生特性带来的灵活性:tc house - 其计算和存储可以独立扩展,大大减少资源浪费。例如,腾讯的部分业务迁移到平台后,计算资源消耗不到原来的1/10。在节省资源的同时,也追求极致性能,研发自己的核心发动机技术。腾讯会议团队迁移后,只使用了原来1/3的计算资源,查询性能却是原来的2到4倍。 3. 智能:平台的智能体现在两个方面:AI为数据、数据为AI。 AI for data利用AI技术让数据平台更加强大,比如允许用户使用自然语言查询数据,方便不懂SQL的用户;它还可以通过机器学习分析负载时序特征,预测并动态调整所需资源,节省客户成本。数据赋能AI,让数据平台更好的服务AI。传统架构下,大数据和AI架构是分离的,需要两个系统分开开发和运营,数据需要多次导入导出。通过 tc house -
tc house这样的平台——随着技术的不断发展,相信未来还会有更多类似的创新产品,推动企业在数据处理和应用方面迈向新的高度。您如何看待数据平台未来的发展?欢迎在评论区留言分享,别忘了点赞分享这篇文章,让更多的人了解大数据架构的奥秘。
分享到Twitter 在脸书上分享
评论
目前没有任何评论