暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

从数据分层到价值跃升——实时湖仓的三层架构设计实战

偶数 2025-03-28
485

架构设计是实时湖仓数据平台建设的首要环节,是针对数据平台系统较高层次的描述与整体规划,以满足建设需求对技术实现的要求,同时定义各模块的设计原则、具体功能及交互接口等,并总体考虑数据平台的系统管理、性能优化与未来扩展。一般的,架构设计包含总体架构(或总体技术架构,逻辑的或物理的)、数据架构、应用架构、ETL架构(或数据集成架构)、部署架构等不同方面的工作内容。

实时湖仓数据平台的建设,必需以数据资产管理为切入点,以分析应用支撑为落脚点,以数字化转型战略赋能为制高点。由此,实时湖仓数据平台体系架构设计的主要原则包括:

  1. 基于湖仓一体的理论依据并充分吸纳新进技术趋势;

  2. 合理的层次划分与模块接口,秉持松耦合架构设计理念;

  3. 充分考虑系统的稳定性、安全性与可扩展性;

  4. 持续的业务支持能力与优异的加工处理性能;

  5. 充分的数据管控与严密的数据隐私及数据安全策略。

体系架构设计的一般过程如下图所示:

 

体系架构设计过程

总体架构

如前文所述,实时湖仓数据平台融合了数据仓库与数据湖两种架构的不同特点与各自优势,基于ANCHOR规范真正实现了企业数据资产的一体集成、统一管理、高效处理、全面服务。从逻辑架构角度而言,实时湖仓数据平台主要包含了数据摄取层、计算存储层、分析服务层、用户应用层等不同的功能层级,各功能部件遵循自有的数据处理机制与管理方法,基于模块化组合形成统一的“以数据为中心的”面向分析应用的支撑框架。

偶数建议的实时湖仓数据平台逻辑架构如下图所示:

实时湖仓数据平台逻辑架构

必须看到,实时湖仓数据平台所面临的企业数据环境与业务分析诉求与之前相比已大为不同,数据摄取的更加快速、计算存储的更加全面、分析服务的更加深刻、应用形式的更加众多,共同促进着企业操作型信息环境与分析型信息环境的更加融合,推动了数据分析支撑从决策支持向自动决策的跃进。而在实时湖仓数据平台的逻辑架构中,批流一体的数据摄取、存算分离的架构等鲜明特性,是必须要在架构设计中加以考虑的。

功能架构

偶数建议的实时湖仓数据平台功能架构如下图所示:

实时湖仓数据平台功能架构

数据架构

数据架构是实时湖仓数据平台架构设计的核心工作。按照DCMM(Data Management Capability Maturity Assessment Model,即数据管理能力成熟度评估模型)的定义,数据架构是用于定义数据需求、指导对数据资产的整合与控制、是数据投资与业务战略相匹配的一套整体构建规范。数据架构包括正式的数据命名、全面的数据定义、有效的数据结构、精确的数据完整性规则以及健全的数据文档。

数据架构基于不同数据层(Data Layer)及所属的多个数据区(Data Zone)来组织管理摄入实时湖仓的多源异构源数据并一致、高效、持续地服务分析用户、分析应用、资产运营等多种消费模式,以提升决策智能水平并最终获取业务价值。偶数认为,总体上数据层可分为着陆层(Landing Data Layer)、整合层(Integration Data Layer)、交付层(Delivery Data Layer)三层,着陆层用来接入并暂存原始形态的数据以供后续处理,整合层需对原始形态数据进行重整、重组(可以基于不同数据建模方法,维度建模或者范式建模)并施加治理管制措施以达到长期数据资产管理要求,交付层则面向不同应用形式、场景模式的具体要求提供特定的数据消费服务。偶数建议的实时湖仓数据分层架构具体如下图所示:

实时湖仓数据分层架构

相关数据分层的基本规格定义如下:

(1)着陆层(Landing Data Layer)

即原始数据的技术性存储,具有原始形态、包含最细节粒度数据、短期历史(以天计)、一般不对最终用户开放等特征。一般采用贴源模型(即不做数据模型的调整、改变);典型数据区一般依据数据来源、功能需要的数据分区,如实时处理区、 ETL缓存区、非结构化数据暂存区、ODS短存区等。

(2)整合层(Integration Data Layer)

即数据资产的长期性保存,具有整合形态(即重新组织、治理后的形态,并保持长期的一致性)、包含最细节粒度数据、长期历史(能数年维持完整变化)、可以对最终用户开放等特征。一般采用3NF关系建模(Relational Modeling)、维度模型(Dimensional Modeling)或DataVault模型。典型数据区一般依据业务主题的数据分区,如客户主题区、产品主题区、财务主题区等。

(3)交付层(Delivery Data Layer)

即具体需要的特定性模式,具有应用形态(最终需要的特定形态)、一般为汇总粒度(尽量避免最细节粒度数据)、视最终需要而定的保存历史、对最终用户开放等特征。一般采用维度模型;典型数据区一般依据应用需要、消费模式的数据分区,如公共汇总区、指标集市区、特征集市区、部门集市区、交换集市区等。

数据分层架构是一种典型的解耦的架构设计思想,其用意在于,作为一个长期(以数年计)集中保存企业数据资产的环境,需要有效消解来自来源系统(如业务系统的升级改造)与业务需求(如需求本身的上线下线以及分析应用向操作性环境的不断渗透融合)两方的变化影响冲击,而三层数据架构为其间最简明且最敏捷的定义选择。




推荐阅读



↑扫描上方二维码↑
拉你进入技术交流群

偶数成立于2016年,是国家级专精特新“小巨人”企业。专注于云数据平台产品和解决方案,自主研发云原生分布式数据库OushuDB及实时湖仓数据平台Skylab。总部位于北京,在上海、南京、广州、武汉等地设有分支机构。偶数服务了国家电网、中国移动、建设银行等众多世界500强客户。获得国际著名投资机构红杉中国、腾讯、红点中国与金山云的四轮投资,是微软加速器和腾讯加速器成员企业。被评为福布斯中国企业科技50强,Gartner Cool Vendor,IDC Innovator。



点击下方阅读原文获取行业报告

文章转载自偶数,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论