
2022年接近尾声,本篇文章将从云数仓、数据管理、DataOps、AI+等角度,分析大数据现状与趋势。
文 | 宇飞 来自字节跳动数据平台开发套件团队

以云数仓为中心的数据架构开始形成
数仓的发展历程
纵观整个数仓的发展历程,笔者认为大体上可以分为 4 个阶段:
第 1 阶段:传统的一体机数仓,代表产品有 Oracle Exadata、IBM Netezza 等;
第 2 阶段:基于 MPP 架构的数仓,它可以实现软硬件分离,数据不用再存储在特定的服务器上,代表产品有 GreenPlum、Vertica 等;
第 3 阶段:随着互联网发展,企业数据量迅速增长,擅长处理海量数据的 Hadoop 框架和生态得到了普及与发展,诞生了依托 Hadoop 生态的批处理等模式,代表产品有 Hive;
第 4 阶段:伴随云的发展,云上数据仓库解决方案日趋成熟,进一步降低了用户使用成本,这个阶段的代表产品有 Amazon Redshift、Snowflake 等;
尽管在当下,第 2、3、4 阶段的数仓产品仍处于共存状态——它们仍旧分别被各类企业所使用,但在企业数字化转型和企业上云的整体趋势背景下,我们有理由相信,未来处于第 4 阶段的云数仓,将会被越来越多的企业采用。
云数仓架构的核心优势
云数仓开始成为企业的 single source of truth
数据源之间点对点集成方式形成依赖,交织成复杂的网,维持数据间的同步越发困难;
数据源之间都很孤立,形成一个个数据烟囱,数据很难整合起来发挥最大化价值。

数据工具更加易用与专精
数据管理成为企业基础设施增长最快的领域之一
更多细分创新领域涌现,下一代行业标准正在悄然建立
架构可扩展性,不光是数据源 connector 可插拔,还有不同场景的集成能力,包括批、流和 CDC;
丰富的基础功能,作为一个垂直领域,数据集成存在很多独特的问题,比如脏数据、数据源承载能力、数据源类型不一致、数据源读写延迟、任务读写监控等;
系统稳定性,这对于数据量大的企业而言是非常明显的痛点,比如如何保证几十万任务的海量数据传输;
数据质量,如何做好数据的不重不丢,及异常数据的及时发现等问题。
将易用性以及用户体验做到极致,但架构比较简单,不支持分布式部署,容错性一般,处理能力以及场景比较受限;
提供了丰富的数据集成基础功能,并将资源使用率做到极致,架构上基于单机多线程架构,不支持分布式和实时功能,使用场景比较受限;
主打用户使用场景,支持离线、实时数据同步,并提供分布式的数据处理能力。但引擎资源开销较大,基础功能支持比较一般。
架构灵活性:connector 层、框架层、引擎层,每一层都采取可插拔的设计,同时 connector 层、框架层做到完全与引擎解耦,整体结构比较清晰和灵活,可扩展性较强。可以应对不同规模的数据同步场景,同时具备单机以及分布式能力,在引擎的选择上采取智能选择策略,兼顾小数据量场景的资源利用率以及大数据量场景的稳定性;
集成能力完善性:在框架层提供了丰富的基础能力,比如异构数据源类型转换、脏数据处理、流控、自动并发度推断、任务运行监控、事件时间归档等;
企业级稳定性:在特定导入场景,提供了更多的企业级特性,在性能、稳定性、成熟度上更有保障。比如 Kafka2Hive 通道,针对大数据量场景做了相关优化和重构,包括如何提升大并发场景下一致性快照成功率、提升大并发场景的容错性、兼容乱序写入场景等等。
数据链路本身的复杂程度升高:随着现代数据堆栈的发展,整个数据链路的建设需要多个不同的 SaaS 产品和服务,极大增加了数据端到端交付质量的运维和管理成本。
数据对业务的重要性上升:数据驱动决策越来越普遍,故数据不及时或数据发生错误造成的成本也变得更高。决策对数据质量和实时性的依赖越高,对数据可观测性的需求也会越高。

DataOps 兴起,但行业标准尚未成型

图注:Gartner 2022 数据管理成熟度模型


研发质量
研发效率

AI 能力进一步融入,释放更多人力

结语
国内的数据管理产品偏 all in one 形式,而国外现代数据堆栈在各领域都有细分的工具支持。以数据集成为例,国外数据转换和任务调度编排等每个领域都有独立的针对这个场景的厂商支持,国内则通常是一个厂商把几个领域场景的问题都解决了。整体上国内更重交付,产品力的打磨相比国外的细分 SaaS 产品存在一定劣势。 国内私有化场景交付更多,而国外 SaaS 发展更成熟。国外 SaaS 产品的标准化程度更高,因此用户选择不同细分 SaaS 产品拼接组合的成本也更低。
产品介绍
火山引擎大数据研发治理套件DataLeap
一站式数据中台套件,帮助用户快速完成数据集成、开发、运维、治理、资产、安全等全套数据中台建设,帮助数据团队有效的降低工作成本和数据维护成本、挖掘数据价值、为企业决策提供数据支撑。后台回复数字“2”了解产品。
字节跳动数据平台开发套件团队火热招人中!后台回复“招聘”,获取岗位信息。
点击阅读原文进入官网,了解DataLeap更多产品信息





