数据仓库的分层，你知道吗？

勾叔谈大数据 2021-05-25

1039

大家好，我是勾叔。今天和大家谈一下数据仓库的分层。

数据仓库更多代表的是一种对数据的管理和使用的方式，它是一整套包括了数据建模、ETL（数据抽取、转换、加载）以及作用调度等在内的完整的理论体系流程。

数据仓库在构建过程中通常都需要进行分层处理。业务不同，分层的技术处理手段也不同。分层的主要原因是在管理数据的时候，能对数据有一个更加清晰的掌控。详细来讲，主要有如下几个原因。

清晰的数据结构每一个数据分层都有它的作用域，在使用表的时候能更方便地定位和理解。
将复杂的问题简单化将一个复杂的任务分解成多个步骤来完成，每一层只处理单一的问题，比较简单和容易理解。而且便于维护数据的准确性，当数据出现问题之后，可以不用修复所有的数据，只需要从有问题的地方开始修复。
减少重复开发规范数据分层，开发一些通用的中间层数据，能够减少极大的重复计算。
屏蔽原始数据的异常屏蔽业务的影响，不必改一次业务就需要重新接入数据。
数据血缘的追踪最终给业务呈现的是一个能直接使用业务表，但是它的来源很多，如果有一张来源表出问题了，借助血缘最终能够快速准确地定位到问题，并清楚它的危害范围。

数仓的常见分层一般为三层，即数据操作层、数据仓库层和应用数据层（数据集市层）。当然根据研发人员经验或者业务，可以分为更多不同的层，只要能达到流程清晰、方便查数即可。

下面，通过一张图来展示数仓仓库的分层情况，如图所示：

接下来，勾叔给大家详细介绍数据仓库的分层情况。

数据仓库源头系统的数据表通常会原封不动的存储一份，这称为ODS层，也称为准备区。它们是后续数据仓库层加工数据的来源。ODS层数据的主要来源是业务数据库、埋点日志、其他数据源。

该层包含DWD、DWS、DIM层，由ODS层数据加工而成，主要是完成数据加工与整合，建立一致性的维度，构建可复用的面向分析和统计的明细事实表，以及汇总公共粒度的指标。

DWD（Data Warehouse Detail 细节数据层），是业务层与数据仓库的隔离层。以业务过程作为建模驱动，基于每个具体的业务过程特点，构建细粒度的明细层事实表。可以结合企业的数据使用特点，将明细事实表的某些重要维度属性字段做适当冗余，也即宽表化处理。
DWS（Data Warehouse Service 服务数据层），基于DWD的基础数据，整合汇总成分析某一个主题域的服务数据。以分析的主题为建模驱动，基于上层的应用和产品的指标需求，构建公共粒度的汇总指标事实表。
DIM（公共维度层），基于维度建模理念思想，建立一致性维度。
TMP层：临时层，存放计算过程中临时产生的数据。

该层是基于DW层的数据，整合汇总成主题域的服务数据，用于提供后续的业务查询等。

数据仓库层次的划分不是固定不变的，可以根据实际需求进行适当裁剪或者是添加。如果业务相对简单和独立，可以将DWD、DWS进行合并。下面，以第三方支付企业支付宝数据仓库体系结构为例进行展示，如下图所示：

大家如果想进行更深入的了解和学习，请关注勾叔谈大数据参与更多互动。