作者:稀饭
1、数仓模型中心
数仓模型为如何组织数据提供了思路,数仓模型中心是数据加工的底层基础,也是指标加工的基础,还是数据成本的主要承担者。因此,在建设数仓模型中心的时候,需要按照规范的流程进行,从而对数仓的数据模型进行有效地控制与治理。
2、建设思路
(1)控制数据源
数仓中心的底层为ODS层(操作数据存储层),该层汇集了来自不同数据存储系统的数据,从ODS层开始往下游做数据分发,所以ODS层是数仓的源头,也是数据中台所有数据加工的起点。必须要控制住ODS层的数据变化,从而进行规范化开发。
(2)划分主题域
由于数据中台归根结底还是面向业务分析,所以讲业务过程或者维度进行抽象的集合,就形成了主题域。在划分主题域的时候,需要能涵盖当前所有的业务需求,且当有新业务进入时,可以被已有的主题域或扩展的新主题域包含。
(3)构建一致性维度
在明确了每个主题域下的业务过程之后,就需要开始定义分析维度。需要构建全局一致性的维度,从而便于对不同部门和领域的数据进行表关联分析。
(4)构建总线矩阵
在明确了主题域、每个主题域下的业务过程,以及每个业务过程涉及到的维度之后,就可以开始构建总线矩阵。构建过程中需要明确业务过程与哪些维度有关,并定义每个主题域下的业务过程与分析维度。
(5)数仓分层建设
主要包括ODS层(操作数据存储层)、CDM层(公共维度模型层,包括DWD、DIM和DWS层)、ADS层(应用数据层)。
3、数仓建设效果的评估
数据定义规范、完善、复用度高的数仓模型是建设的目标。有以下评价规则:
(1)规范度衡量
采用表归类率。计算公式为“表归类率 = 有分层信息与主题域信息的表的数量占比”。
(2)完善度衡量
可以采用公共层的表引用率(ODS层的表直接被DWD层引用的表占所有ODS层活跃表的比例)、汇总层的查询比例(DWD ADS层的查询占所有查询的比例)来衡量。
(3)复用度衡量
主要采用公共层的模型调用热度(DWD层的数据模型被DWS ADS层调用并加工产出新模型的平均数量)来进行衡量。
广告区↓





