暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据资产管理平台体系拆解(3):数据模型管理

以数据之名 2022-03-26
291

阅读本文需要10分钟,以数据之名,践资产之行。

1 、以数据之名 简介

  • 微信公众号、今日头条知乎和稀土掘金,主体均为以数据之名”;
  • 欢迎扫码关注,回复「666」加入以数据之名”微信交流群;
  • 本文主要介绍数据资产管理平台体系拆解(3):DAMP数据模型管理

2 、数据模型的基本概念

数据模型是数据管理特征的抽象,是数据管理的核心;真实、易于理解、方便实现。

2.1 数据模型三要素

    • 数据结构:基础数据的类型、性质以及关系;

    • 数据操纵:数据结构上的操作类型与操作方式;

    • 数据约束:数据间的语法、语义联系,它们间的制约与依存关系,数据动态变化的规则。

2.2 数据模型三层次

    • 概念数据模型(概念模型):面向客观世界、面向用户,与DBMS及具体的计算机平台无关;

    • 逻辑数据模型(逻辑模型):面向数据库系统,着重于在数据库系统一级实现。

    • 物理数据模型(物理模型):面向数据库物理表示,给出数据模型在计算机物理结构的表示。

3 、数据模型的四个世界

现实世界:用户所关注的世界,是客观世界中划定边界的一个部分环境;

概念世界:是对现实世界的抽象,从纷繁的现实世界中抽取出能反映现实本质的概念和基本关系,它与具体的数据库和计算机平台无关;

信息世界:将概念世界中的概念和关系,以一定的形式映射到计算机世界中去;

计算机世界:将信息世界中的模型在计算机物理结构上实现。


4 、概念世界与概念模型

4.1 E-R 模型

  • E-R模型的基本要素

    • 实体

      • 客观存在并可相互区分的事物叫实体

      • 如学生张三、工人李四、计算机系、数据库概论

    • 属性

      • 实体所具有的某一特性。由属性名、属性型、属性值组成

      • 一个实体可以由若干个属性来刻画

      • 例如,学生可由学号、姓名、年龄、系等组成

    • 联系

      • 体之间的相互关联

      • 联系也可以有属性,如学生与课程之间有选课联系,每个选课联系都有一个成绩作为其属性

  • E-R模型中联系的分类

    • 两个实体集间的联系

      • 对一的联系(1:1)

      • 一对多或多对一的联系(1:m或m:1)

      • 多对多的联系(m:n)

    • 多个实体集间的联系

    • 一个实体集内部的联系

  • E-R图的表示方法

    • 实体集表示法(学生、课程)

    • 性表示法(学号、姓名、年龄)

    • 联系表示法(选修)

4.2 面向对象模型

以类为处理单位,以类间的继承、聚合为关联所构成的模型称为面向对象模型。面向对象模型能描述复杂的现实世界。

  • 对象的组成

    • 象标识符(OID)

      • 能唯一标识对象的符号

    • 对象的静态特性

      • 对对象属性的刻画

      • 类似于E-R模型中的属性

    • 对象的动态特性

      • 对对象实施的操作

      • 称为方法或操作

  • 对象的特点

    • 对象的封装性

    • 对象标识符的独立性

    • 对象标识符的独立性

  • 类与类的特性

      • 将一组具有相同属性、方法的对象集合称为类;

      • 类中的对象称为实例。

    • 子类与超类

      • 子类

      • 超类

      • 普化

      • 特化

    • 聚合与分解

      • 由简单的对象组合成复杂的对象称为类的聚合;

      • 反之,为类的分解。

5 、信息世界与逻辑模型

5.1 层次模型

用树形结构表示实体之间联系的模型叫层次模型。层次模型是最早用于商品数据库管理系统的数据模型。

 层次模型的物理存储有两种实现方法:

    • 顺序法:按照层次顺序把所有的记录邻接存放,即通过物理空间的位置相邻来实现层次顺序。

    • 指针法:各个记录存放时不是按层次顺序,而是用指针按层次顺序把它们链接起来。


5.2 网状模型

用网络结构表示实体类型及其实体之间联系的模型。网状模型是一种可以灵活地描述事物及其之间关系的数据库模型

网状模型的数据结构主要有以下两个特征:

    • 允许有一个以上的节点无双亲;

    • 至少有一个节点可以有多于一个的双亲。

5.3 关系模型

使用表格表示实体和实体之间关系的数据模型称之为关系数据模型。关系型数据库是我们最常使用的。

5.4 面向对象模型

第4.2章节

5.3 对象-关系模型

    对象关系模型兼顾了关系型数据库和面向对象开发方法的优点,对关系型数据库进行了有效的拆分和封装,把数据库抽象成各种对象,实现了数据层和业务层的分离。常见的如ORM框架(Hibernate、MyBatis等)

6 、计算机世界与物理模型

6.1 数据库物理模型的三个层次

6.2 数据库物理模型的数据存储空间结构

7 、数据模型分层架构

8 、数据模型主题域划分

8.1 主题域关系

8.2 主题域说明

  • 当事人(PARTY)

  • 指银行作为一个金融机构所服务的任意对象和感兴趣进行分析的各种个人或团体客户、潜在客户、代理机构、雇员、分行、部门等。
  • 内部组织机构(INTERNAL ORGANIZATION)

  • 指金融机构的内部组织和业务单元,如分行、客服中心、支行、储蓄所、部门、销售团队等等
  • 产品(PRODUCT)

  • 金融机构销售或提供的可市场化的产品、产品包和服务。如果有必要,在模型中可以包括竞争对象所提供的产品
  • 协议(AGREEMENT)

  • 金融机构与客户之间针对某种特定产品或服务而签立的契约关系
  • 资产(ASSET)

  • 指所有可能采集到的各种客户的资产(负债)信息,包括有形的和无形的各种客户资产/负债,也可以存储银行向外租赁的各种资产信息。
  • 地域(LOCATION)

  • 指银行希望关注或考察的任何层次的地理区域和地址。如国家、省份、城市、县、乡村等。
  • 事件(EVENT)

  • 银行与客户或潜在客户之间的联系或交易活动,它记录了详细的行为和交易数据,包括存取款、收费、计息、咨询投诉、查询、市场调查、网上交易等。
  • 渠道(CHANNEL)

  • 用户通过渠道向金融机构获取关金融机构或金融机构产品信息以及使用金融产品。金融机构通过渠道向用户销售产品或提供服务。
  • 营销活动(CAMPAIGN)

  • 为了获取、维护、增强银行与客户的关系而开展的一些促销的活动。
  • 帐务(FINANCE)

  • 主要包含银行或金融机构的总账科目、费用科目、资产科目、财务预算等信息;

8.3 数据模型命名

单实例数据库数仓模型可带上数仓分层作为前缀或后缀,多实例数据库可以把数仓分层体现在实例层。数据模型主题域对应模型命名规则如下,供参考:金融数据仓库之分层命名规范


9 、数仓通用建模流程

数据模型通用的建模流程,一般是由业务建模【概念建模】过渡到数据建模【逻辑建模】,再发展到物理建模

9.1 模型设计

可以从雪花型、星型、Data Vault模型三种模型设计思想出发,构建整体数据仓库模型体系。其中Data Vault模型有中心表(Hub)、链接表(Link)、附属表(Satellite)三个主要组成部分。中心表记录业务主键,链接表记录业务关系,附属表记录业务描述。

9.2 维度模型

维度模型是一种趋向于支持最终用户对数据仓库进行查询的设计技术,是围绕性能和易理解性构建的。

9.3 事实与维度分解

事实表示对业务数据的度量,而维度是观察数据的角度。

事实包含业务的度量,是定量的数据,如销售价格、销售数量、距离、速度、重量等是事实。

维度是对事实数据属性的描述,如日期、产品、客户、地理位置等是维度。

9.4 Kimball数仓星型建模示例

以事实表为中心,以维度表为附属,构建以下基础实践星型物理模型体系,为整体数据仓库的建设,奠定夯实的基石。

10 、数据模型管理系统

10.1 系统功能架构图

备注:权限中心,走平台统一鉴权SSO

10.2 系统功能操作预览图

表信息查询与编辑、附加信息查询与编辑、ER关系图预览、分类分级操作、版本控制、上线流程接入、物理化配置、质量评分、热点分析、流程审批等应用视图。

图片参考阿里Dataphin

10 、数据平台文章集锦

数据资产管理平台体系拆解(1):“DAMP概述”

数据资产管理平台体系拆解(2):“DAMP系统分解”

MySQL死磕到底系列第一篇“围城之困”

MySQL死磕到底系列第二篇“破冰之旅”

MySQL死磕到底系列第三篇“踏浪之途”

MySQL死磕到底系列第四篇“刨根之程”

MyCAT来生续缘第三篇

无Hive,不数仓

基于Hive+HBase双引擎完善数据仓库更新机制

基于TiDB构建高性能综合数据服务平台

基于Kettle快速构建基础数据仓库平台

金融数据仓库之分层命名规范

一入数据深似海,集市仓库湖中台

BI选型哪家强,以数据之名挑大梁

数仓小白快速成长为技术专家视频资料集合

小编心声

虽小编一己之力微弱,但读者众星之光璀璨。小编敞开心扉之门,还望倾囊赐教原创之文,期待之心满于胸怀,感激之情溢于言表。一句话,欢迎联系小编投稿您的原创文章!

让我们携手成为技术专家

欢迎关注,欢乐交流,共同成长

参考资料

[1]

数据资产白皮书5.0:中国信通院

[2]

数据资产白皮书4.0:中国信通院

[3]

数据资产白皮书3.0:中国信通院

[4]

Markdown模板: https://product.mdnice.com/articles/


文章转载自以数据之名,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论