
阅读本文需要10分钟,以数据之名,践资产之行。
1 、以数据之名 简介
微信公众号、今日头条知乎和稀土掘金,主体均为“以数据之名”; 欢迎扫码关注,回复「666」加入“以数据之名”微信交流群; 本文主要介绍数据资产管理平台体系拆解(3):DAMP数据模型管理

2 、数据模型的基本概念
数据模型是数据管理特征的抽象,是数据管理的核心;真实、易于理解、方便实现。
2.1 数据模型三要素
数据结构:基础数据的类型、性质以及关系;
数据操纵:数据结构上的操作类型与操作方式;
数据约束:数据间的语法、语义联系,它们间的制约与依存关系,数据动态变化的规则。
2.2 数据模型三层次
概念数据模型(概念模型):面向客观世界、面向用户,与DBMS及具体的计算机平台无关;
逻辑数据模型(逻辑模型):面向数据库系统,着重于在数据库系统一级实现。
物理数据模型(物理模型):面向数据库物理表示,给出数据模型在计算机物理结构的表示。
3 、数据模型的四个世界

现实世界:用户所关注的世界,是客观世界中划定边界的一个部分环境;
概念世界:是对现实世界的抽象,从纷繁的现实世界中抽取出能反映现实本质的概念和基本关系,它与具体的数据库和计算机平台无关;
信息世界:将概念世界中的概念和关系,以一定的形式映射到计算机世界中去;
计算机世界:将信息世界中的模型在计算机物理结构上实现。
4 、概念世界与概念模型
4.1 E-R 模型
E-R模型的基本要素
实体
客观存在并可相互区分的事物叫实体
如学生张三、工人李四、计算机系、数据库概论
属性
实体所具有的某一特性。由属性名、属性型、属性值组成
一个实体可以由若干个属性来刻画
例如,学生可由学号、姓名、年龄、系等组成
联系
实体之间的相互关联
联系也可以有属性,如学生与课程之间有选课联系,每个选课联系都有一个成绩作为其属性
E-R模型中联系的分类
两个实体集间的联系
一对一的联系(1:1)
一对多或多对一的联系(1:m或m:1)
多对多的联系(m:n)
多个实体集间的联系
一个实体集内部的联系
E-R图的表示方法
实体集表示法(学生、课程)
属性表示法(学号、姓名、年龄)
联系表示法(选修)

4.2 面向对象模型
以类为处理单位,以类间的继承、聚合为关联所构成的模型称为面向对象模型。面向对象模型能描述复杂的现实世界。
对象的组成
对象标识符(OID)
能唯一标识对象的符号
对象的静态特性
对对象属性的刻画
类似于E-R模型中的属性
对象的动态特性
对对象实施的操作
称为方法或操作
对象的特点
对象的封装性
对象标识符的独立性
对象标识符的独立性
类与类的特性
类
将一组具有相同属性、方法的对象集合称为类;
类中的对象称为实例。
子类与超类
子类
超类
普化
特化
聚合与分解
由简单的对象组合成复杂的对象称为类的聚合;
反之,为类的分解。
5 、信息世界与逻辑模型
5.1 层次模型
用树形结构表示实体之间联系的模型叫层次模型。层次模型是最早用于商品数据库管理系统的数据模型。
层次模型的物理存储有两种实现方法:
顺序法:按照层次顺序把所有的记录邻接存放,即通过物理空间的位置相邻来实现层次顺序。
指针法:各个记录存放时不是按层次顺序,而是用指针按层次顺序把它们链接起来。

5.2 网状模型
用网络结构表示实体类型及其实体之间联系的模型。网状模型是一种可以灵活地描述事物及其之间关系的数据库模型。
网状模型的数据结构主要有以下两个特征:
允许有一个以上的节点无双亲;
至少有一个节点可以有多于一个的双亲。

5.3 关系模型
使用表格表示实体和实体之间关系的数据模型称之为关系数据模型。关系型数据库是我们最常使用的。
5.4 面向对象模型
见第4.2章节
5.3 对象-关系模型
对象关系模型兼顾了关系型数据库和面向对象开发方法的优点,对关系型数据库进行了有效的拆分和封装,把数据库抽象成各种对象,实现了数据层和业务层的分离。常见的如ORM框架(Hibernate、MyBatis等)
6 、计算机世界与物理模型
6.1 数据库物理模型的三个层次

6.2 数据库物理模型的数据存储空间结构

7 、数据模型分层架构

8 、数据模型主题域划分
8.1 主题域关系

8.2 主题域说明
当事人(PARTY)
内部组织机构(INTERNAL ORGANIZATION)
产品(PRODUCT)
协议(AGREEMENT)
资产(ASSET)
地域(LOCATION)
事件(EVENT)
渠道(CHANNEL)
营销活动(CAMPAIGN)
帐务(FINANCE)
8.3 数据模型命名
单实例数据库数仓模型可带上数仓分层作为前缀或后缀,多实例数据库可以把数仓分层体现在实例层。数据模型主题域对应模型命名规则如下,供参考:金融数据仓库之分层命名规范

9 、数仓通用建模流程
数据模型通用的建模流程,一般是由业务建模【概念建模】过渡到数据建模【逻辑建模】,再发展到物理建模。

9.1 模型设计
可以从雪花型、星型、Data Vault模型三种模型设计思想出发,构建整体数据仓库模型体系。其中Data Vault模型有中心表(Hub)、链接表(Link)、附属表(Satellite)三个主要组成部分。中心表记录业务主键,链接表记录业务关系,附属表记录业务描述。
9.2 维度模型
维度模型是一种趋向于支持最终用户对数据仓库进行查询的设计技术,是围绕性能和易理解性构建的。
9.3 事实与维度分解
事实表示对业务数据的度量,而维度是观察数据的角度。
事实包含业务的度量,是定量的数据,如销售价格、销售数量、距离、速度、重量等是事实。
维度是对事实数据属性的描述,如日期、产品、客户、地理位置等是维度。

9.4 Kimball数仓星型建模示例
以事实表为中心,以维度表为附属,构建以下基础实践星型物理模型体系,为整体数据仓库的建设,奠定夯实的基石。

10 、数据模型管理系统
10.1 系统功能架构图

备注:权限中心,走平台统一鉴权SSO
10.2 系统功能操作预览图
表信息查询与编辑、附加信息查询与编辑、ER关系图预览、分类分级操作、版本控制、上线流程接入、物理化配置、质量评分、热点分析、流程审批等应用视图。

图片参考阿里Dataphin
10 、数据平台文章集锦
小编心声
虽小编一己之力微弱,但读者众星之光璀璨。小编敞开心扉之门,还望倾囊赐教原创之文,期待之心满于胸怀,感激之情溢于言表。一句话,欢迎联系小编投稿您的原创文章!
欢迎关注,欢乐交流,共同成长
参考资料
数据资产白皮书5.0:中国信通院
[2]数据资产白皮书4.0:中国信通院
[3]数据资产白皮书3.0:中国信通院
Markdown模板: https://product.mdnice.com/articles/




