暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数仓模型中心的建设思路

839


作者:稀饭


本文850字,数理内容较少,泛读需4分钟,精读需7分钟



1、数仓模型中心

 

数仓模型为如何组织数据提供了思路,数仓模型中心是数据加工的底层基础,也是指标加工的基础,还是数据成本的主要承担者。因此,在建设数仓模型中心的时候,需要按照规范的流程进行,从而对数仓的数据模型进行有效地控制与治理。

 

2、建设思路

 

1控制数据源

 

数仓中心的底层为ODS层(操作数据存储层),该层汇集了来自不同数据存储系统的数据,从ODS层开始往下游做数据分发,所以ODS层是数仓的源头,也是数据中台所有数据加工的起点。必须要控制住ODS层的数据变化,从而进行规范化开发。

 

2划分主题域

 

由于数据中台归根结底还是面向业务分析,所以讲业务过程或者维度进行抽象的集合,就形成了主题域。在划分主题域的时候,需要能涵盖当前所有的业务需求,且当有新业务进入时,可以被已有的主题域或扩展的新主题域包含。

 

3构建一致性维度

 

在明确了每个主题域下的业务过程之后,就需要开始定义分析维度。需要构建全局一致性的维度,从而便于对不同部门和领域的数据进行表关联分析。

 

4构建总线矩阵

 

在明确了主题域、每个主题域下的业务过程,以及每个业务过程涉及到的维度之后,就可以开始构建总线矩阵。构建过程中需要明确业务过程与哪些维度有关,并定义每个主题域下的业务过程与分析维度。

 

5数仓分层建设

 

主要包括ODS层(操作数据存储层)、CDM层(公共维度模型层,包括DWDDIMDWS层)、ADS层(应用数据层)。

 

3、数仓建设效果的评估

 

数据定义规范、完善、复用度高的数仓模型是建设的目标。有以下评价规则:

 

1规范度衡量

 

采用表归类率。计算公式为“表归类率 = 有分层信息与主题域信息的表的数量占比”。

 

2完善度衡量

 

可以采用公共层的表引用率(ODS层的表直接被DWD层引用的表占所有ODS层活跃表的比例)、汇总层的查询比例(DWD ADS层的查询占所有查询的比例)来衡量。

 

3复用度衡量

 

主要采用公共层的模型调用热度(DWD层的数据模型被DWS ADS层调用并加工产出新模型的平均数量)来进行衡量。




广告区↓


互联网数据分析岗位求职备战




文章转载自稀饭居然不在家,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论