
哈啰,各位小伙伴们,这里是每天进步一点点的花栗鼠小K
本期小K依旧带大家探索数据领域,上期我们聊了数据湖和数据仓库,但是二者都有自己的偏重,都在各自的领域熠熠生辉,一旦跨领域,可能效果就大打折扣了。今天咱就来讲一下,他们下一代的演进方向:湖仓一体。
概念先行
01
—
什么是湖仓一体
湖仓一体是一种新的数据管理模式,将数据仓库和数据湖两者之间的差异进行融合,并将数据仓库构建在数据湖上,从而有效简化了企业数据的基础架构,提升数据存储弹性和质量的同时,还能降低成本,减小数据冗余。
引自湖仓一体是什么
从数据管理架构的发展来看,湖仓一体技术的发展可分为三个阶段:
第一阶段是上世纪80年代开始的“数据仓库”阶段
第二阶段是2011年伴随着大数据发展而产生的“数据湖”技术
第三阶段就是近年来开始的数据湖与数据仓库的融合趋势,业界称为“湖仓一体”。
引自都在喊的湖仓一体是什么?深度解读《湖仓一体技术研究报告》
数据管理架构的革新,是在企业需求的推动下进行的,新兴技术催生新的市场需求,从而导致数据管理架构相应调整。以湖仓一体为例,当下企业海量大数据场景下的实时处理,非结构化数据治理等需求,都是推动数据湖与数据仓库融合的重要动力。
如图:
数据管理架构演进
02
—
技术对比
数据仓库是决策支持系统(DSS
)和联机分析应用数据源的结构化数据环境。数据仓库产生的背景主要在于传统交易核心数据库脑容量不足,擅长事务型工作,但不擅长分析型工作,无法满足企业对于数据分析的发展需求。
从数据仓库架构图可以看出,数据仓库的主要功能,是将企业信息化管理系统中联机事务处理所积累的大量数据,通过数据仓库特有的信息存储架构,系统化分析整理,进而支持如决策支持系统、主管资讯系统的创建,帮助决策者快速有效的从大量数据中分析出有价值的信息,以利于后期决策拟定及对外在环境变化的快速回应,帮助其构建商业智能。
数据仓库技术架构图
在大数据时代数据量剧增背景下,催生了数据湖技术。数据湖是一个存储企业各种各样原始数据的大型仓库,可供数据存取、处理、分析以及传输,可看作一种大型数据存储库和处理引擎。相比于数据仓库而言,数据湖存储容量更大,数据类型更为丰富,增加了对半结构化数据和非结构化数据的支持,同时对所有数据进行集中式存储。并具有庞大的PB级数据存储规模以及计算能力,提供多元化数据信息交叉分析,及大容量高速度的数据管道。
数据湖技术架构图
湖仓一体则是一种新型的开放式架构,打通了数据仓库和数据湖,并融合了两种架构的优势。其底层支持多种数据类型并存,且实现数据间的相互共享。上层可以通过统一封装的接口进行访问,可同时支持实时查询和分析。湖仓一体使得数据入湖后可原地进行数据处理加工,避免数据多份冗余以及流动导致的算力、网络及成本开销,可作为超大型的数据存储资源池,实现对全量数据的实时处理。
湖仓一体技术架构图
相比于数据湖,湖仓一体架构的主要功能是增强了实时业务处理以及非结构化数据的治理能力。湖仓一体的优势主要体现在四个方面,一是具备完善的数据管理能力,二是数据可实现及时追溯,三是支持丰富的计算引擎,四是更高的数据实时性。
03
—
湖仓一体的关键属性
湖仓一体的特性
事务支持:在企业中,数据往往要为业务系统提供并发的读取和写入。对事务的ACID支持,可确保数据并发访问的一致性、正确性,尤其是在 SQL
c的访问模式下。数据的模型化和数据治理:「湖仓一体」可以支持各类数据模型的实现和转变,支持 DW
模式架构,例如星型模型、雪花模型等。该系统应当保证数据完整性,并且具有健全的治理和审计机制。BI支持:「湖仓一体」支持直接在源数据上使用 BI
工具,加快分析效率,降低数据延时。另外相比于在数据湖和数据仓库中分别操作两个副本的方式,更具成本优势。存算分离:存算分离的架构,也使得系统能够扩展到更大规模的并发能力和数据容量。 开放性:采用开放、标准化的存储格式,提供丰富的 API
支持,各种工具和引擎(包括机器学习和Python R库)可以高效地对数据进行直接访问。支持多种数据类型(结构化、非结构化): Lakehouse
可为许多应用程序提供数据的入库、转换、分析和访问。数据类型包括图像、视频、音频、半结构化数据和文本等。支持各种工作负载:支持包括数据科学、机器学习、 SQL
查询、分析等多种负载类型端到端流:实时报表已经成为企业中的常态化需求,实现了对流的支持后,为实时数据服务构建专用的系统。
DW:即Data Warehouse 数据仓库
BI:即Business Intelligence 商务智能
Lakehouse:湖仓一体
这是数据「湖仓一体」的一些关键属性。当然,企业级的系统还需要其他的补充功能。其中,数据安全和访问控制是至关重要的,包括数据的审计、保留周期、数据血缘管理,尤其在隐私保护相关法律法规的监管之下,这些需求更为迫切,一些允许数据探索拓展的工具如数据目录(Data Catalog)和数据使用量度(Data Usage Metric),都存在类似需求。在「湖仓一体」架构下,这些企业级的需求功能,都可以在「湖仓一体」平台中部署、测试和管理。
引自什么是湖仓一体?
04
—
价值与意义
湖仓一体技术的出现,在实现了对数据湖与数据仓库技术融合,借助海量、实时、多模的数据处理能力,实现全量数据价值的持续释放的同时,也成为企业数字化转型过程中的关注焦点,为用户带来了新的意义价值。

一是弥补原架构的不足。相比数据湖来说,湖仓一体架构能够支撑实时查询和实时分析场景,弥补了Hadoop技术对于数据实时处理能力的不足。而相比数据仓库来说,湖仓一体架构作为支持实时处理的统一数据底座,具备多引擎实时处理多类型数据的能力,避免了数据仓库无法分析非结构化数据的问题,以及不同平台间数据移动所带来的成本。 二是能够降低企业成本,提高效率。湖仓一体架构能够降低数据流动带来的开发成本及计算存储开销,提升企业效率。 三是助力企业数字化转型。在企业数字化转型的过程中,企业需要根据自身业务场景及发展诉求来设计系统架构,单一模式已然无法满足。而湖仓一体架构能够帮助企业构建起全新的数据融合平台,打破了数据湖与数据仓库割裂的体系,将数据湖的灵活性、数据多样性以及丰富的生态与数据仓库的企业级数据分析能力进行了融合。 四是降低能耗,实现低碳节能。湖仓一体技术能够从基础架构上打通数据湖与数据仓库,提供实时查询以及实时分析能力,从而有效的降低了能耗。
05
—
总结
本文主要介绍了湖仓一体,从架构上对比了数据湖、数据仓库、湖仓一体的区别。湖仓一体应对的是实际业务中的痛点问题,是大型企业不可忽视的技术架构,希望给各位小伙伴开拓眼界。
本期就到这了,这里是花栗鼠小K,下次有🌰,我再来,拜拜~~~
作者 花栗鼠小K
编辑 一口栗子












