暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

【运营商】大数据平台数据治理架构方案(上)

大数据研习社 2022-06-18
799

长按二维码关注

大数据领域必关注的公众号


1、范围

本规范规定了中国移动企业级省大数据平台数据治理子系统的建设内容,适用于中国移动各省(直辖市、自治区)公司企业级省大数据平台数据治理子系统的建设。


2、规范性引用文件

下列文件中的条款通过本规范的引用而成为本规范的条款。凡是标注日期的引用文件,其随后所有的修改单(不包括勘误的内容)或修订版均不适用于本规范。然而,鼓励根据本规范达成协议的各方对是否使用这些文件的最新版本进行研究。凡是不标注日期的引用文件,其最新版本适用于本规范。


3、术语、定义和缩略语

下列术语、定义适用于本规范


字母
名词
解释
C
CWM
CWM标准是OMG组织定义的数据仓库和相关系统的国际元数据标准,给出了各种元数据结构的标准定义。CWM标准的目的在于:使数据仓库和商业智能软件的元数据在异构的数据分析工具、数据仓库平台、元数据存储库等系统之间进行交互。
E
ETL
特指从数据源系统到大数据平台的数据抽取、转换和加载。
G
管理元数据
描述大数据平台中管理领域相关概念、关系、规则的数据,主要包括人员角色、岗位职责、管理流程等信息。
H
核心元模型
大数据平台核心元模型是以CWM为基础扩展形成的,针对大数据平台的物理模型、逻辑模型、数据处理过程、接口单元、指标和维度编码等主要实体进行精确定义,并要求各省大数据平台统一遵循的元模型。定义核心元模型的目的是建立大数据平台的统一元数据管理标准,为元数据管理的功能层与应用层解耦、为企业级总部大数据平台和企业级省大数据平台的元数据交换和相互理解提供统一的语义基础。
H
核心元模型参照表
核心元模型参照表是对核心元模型中的枚举类型属性进行枚举值定义的编码表。参照表为枚举类型属性的每个枚举值定义了唯一的编码,并明确该编码的语义,是核心元模型标准化定义的重要组成部分。
J
技术元数据
描述大数据平台中技术领域相关概念、关系、规则的数据。主要包括对数据结构、数据处理方面的特征描述,覆盖大数据平台数据源接口、数据仓库、ETLOLAP、数据挖掘、前端展现等全部数据处理环节。
S
数据处理过程
数据从数据源系统到大数据平台前端使用的整个处理过程,包含大数据平台数据仓库内部的数据抽取、转换和加载。
S
数据采集点
覆盖大数据平台数据处理环节的、获取每个环节运行状态的实体。该实体可以是程序实体也可以是任务实体
S
数据质量报告
数据质量报告是对数据质量日常监控以及质量评估等过程累积的各种信息进行汇总、梳理、统计和分析,形成的统计报告
S
数据质量监控
通过获取大数据平台各环节的数据质量监控信息,结合元数据库中的有关检查规则,对各个环节的数据质量情况进行判断,并及时向数据质量监控人员报告。
S
数据质量规则库
数据质量规则库是对数据质量管理活动所用到的各种判断及校验规则进行归类和存放的存储结构,存储的内容包括采集规则、监控规则、告警规则和审计规则等
S
数据质量信息库
数据质量管理子系统存储层上的存储结构,用于存储数据质量信息采集程序采集的数据质量信息、质量评估信息、问题解决方案和问题处理流程信息等
S
省公司
中国移动通信集团各省(直辖市、自治区)移动通信有限公司。
S
SQL脚本
自动解析
SQL脚本自动解析指通过对SQL脚本的词法、语法和语义进行分析,自动生成满足CWM规范要求的数据处理过程的技术元数据的功能。
Y
业务元数据
描述大数据平台中业务领域相关概念、关系、规则的数据。主要包括业务术语、信息分类、指标定义(指标口径)、业务规则等信息。
Y
元模型
元模型是描述元数据的基础模型结构,用于说明元数据对象的各种属性、结构和关系。
Y
元数据
元数据是描述数据间关系的数据。大数据平台中元数据泛指描述数据概念(Concepts)、数据间关系(Roles)、数据处理规则(Rules)的数据,其中,领域语义(Semantics)和知识(Knowledge)也属于元数据的范畴。
D
数据标准
指在中国移动台企业级省大数据平台下为了使企业内外部使用和交换的数据是一致和准确的,经协商一致制定并由大数据治理委员会主管机构批准,具有行业特点且共同使用和重复使用的一种规范性约束。
D
数据标准体系
指数据标准按照中国移动企业级省大数据平台需求对数据进行标准化的划分归类。
D
数据标准内容
按照数据标准体系划分的要求分别给出各数据标准制定的规范内容。
D
行业参考模型实体
中国移动规范中原定义或新增加的逻辑数据模型LDM实体。
D
公共代码标准
需要引用外部公共标准机构的标准。如:世界各国和地区名称代码等。


下列略缩语适用于本规范


缩写
英文描述
中文描述
AST
Abstract Syntax Tree
抽象语法树
BOSS
Business Operation Support System
业务运营支撑系统
CWM
Common Warehouse Metamodel
公共仓库元模型
ETL
Extraction Transformation Loading
抽取、转换和加载
OLAP
On-line Analysis Process
在线分析处理
XMI
XML Metadata Interchange
XML元数据交换
BI
Business Intelligence
商务智能
REST
Representational State Transfer
表述性状态转移


4、总体说明


4.1 概述

本规范用于指导企业级省大数据平台数据治理子系统建设,规定了省大数据平台数据治理的范围和要求,明确了数据治理子系统的体系结构,制定了数据治理子系统的功能和处理流程。数据治理子系统包含数据标准管理、元数据管理、数据质量管理、数据资产管理、数据安全管理等功能模块。本方案借鉴资产管理的方法理论来管理数据,将数据作为一种特殊的资产,对进入平台的数据进行标准化的规范约束,并以元数据作为驱动,连接数据的标准管理、数据质量管理、数据数据安全管理的各个阶段,形成统一、完善的数据治理体系,以解决实际业务问题为导向,增强数据治理子系统对业务发展的支撑能力。


4.2 目标

数据治理子系统的建设为数据治理工作提供强有力的系统支撑。本期规范建设目标是以元数据为驱动,建立省大数据平台完整的数据治理体系。从组织架构、系统功能等方面增强数据宏观管控,并实现精细化管理,具体包括:

  • 数据治理组织架构管理:定义数据治理所需人员组织上的岗位和职责,从管理角度支撑数据治理工作的落地和执行。
  • 数据标准管理:建立企业级省大数据平台数据标准体系,并制定数据标准运维管控制度和流程。
  • 元数据管理:降低元数据使用难度、提升用户体验,使大数据平台各类用户均能参与到元数据运营维护当中。
  • 数据质量管理:为内、外部用户提供平台化的数据质量监控;通过扩充和优化公共规则库、保证数据的完整性、一致性、准确性、及时性、合法性,提升用户使用感知;并提供数据质量应用满足个性化需求。
  • 数据资产管理:重点建设从规划、注册、运维到注销的全流程管理体系,使数据资产管理系统化、可视化。
  • 数据安全管理:建立体系化的数据安全管控策略,通过用户安全管理、数据安全管理实现全方位数据安全管控机制,通过技术手段与管理措施相结合的方式落实数据安全,做到事前可管、事中可控、事后可查。
4.3 原则
企业级省大数据平台数据治理子系统建设应遵循以下基本原则: 

1.有效性原则

体现大数据平台数据治理过程中数据的标准、质量、价值、管控的有效性、高效性。

2.价值化原则

体现数据治理过程中以数据资产为价值核心,最大化大数据平台的数据价值。

3.统一性原则

体现大数据平台架构统一、标准统一、元数据统一、质量流程统一、资产价值统一的一体化管控平台体系。

4.开放性原则

体现平台化、开放性运维思想,实现人人参与数据治理、人人参与数据运维。

5.产品化原则

体现大数据平台数据治理能力的显性化,通过产品化互联网思维服务大数据平台数据生态圈用户。

6.安全性原则

体现安全的重要性、必要性,保障大数据平台数据安全和数据治理过程中数据的安全可控。

5 数据治理体系

5.1 总体框架

数据治理总体框架包括组织架构、数据治理模块、数据运维三部分。通过组织架构建立管理办法,制定工作流程,确定角色职责。数据治理模块主要包括数据标准管理、元数据管理、数据质量管理、数据资产管理、数据安全管理,各模块协同运营,确保大数据平台的数据一致、安全、有效。数据运维贯穿整个数据治理体系的流程中,实现平台化的运维管理思路。数据治理总体框架如图5-1所示:


图5-1 数据治理体系框架

5.2 组织架构

数据治理组织的构建旨在通过建立数据治理组织架构明确各级角色和职责,保障数据治理的各项管理办法、工作流程的实施,推送数据治理工作的有序开展。


5.2.1 组织构成

数据治理组织架构主要由数据治理委员会、数据治理中心和各业务部门构成。组织架构划分和角色设定如图5-2所示:

 

图 5-2 数据治理组织架构图

5.2.2 角色职责

组织责任体系是数据治理责任落地的保障,数据治理组织架构通过明确各角色职责,实行认责制度,让数据治理工作更好的融入到数据日常使用和相关的工作中,从而推动数据运维自治的实现,如表5-1。

表5-1数据治理组织架构角色职责定义内容
组织结构
角色
角色描述
角色主要职责
数据治理委员会
数据管理决策者
由公司主管领导和各业务部门领导组成
负责牵头数据治理工作;制定数据治理的政策、标准、规则、流程,协调认责冲突;
对数据事实治理,保证数据的质量和隐私;
在数据出现质量问题时负责仲裁工作。
数据治理中心
数据平台运营者
数据管理中心机构的平台运营人员
负责提交数据标准的要求及数据质量规则和业务规范,解释数据的业务规则和含义;监督各项数据规则和规范的约束的落实情况;
负责数据治理平台中整体数据的管控流程制定和平台功能系统支撑的实施;
负责平台的整体运营、组织、协调。
各业务部门
数据提供者
相关数据开发提供人员
负责数据及相关系统的开发,有责任执行数据标准和数据质量内容;
负责从技术角度解决数据质量问题;
作为数据出现质量问题时的主要责任者。

数据维护者
数据维护人员
制定相关数据标准、数据制度和规则;
遵守和执行数据标准管控相关的流程,根据数据标准要求提供相关数据规范;
作为数据出现质量问题时的次要责任者。

数据消费者
数据使用人员,包含内部用户和外部用户
作为数据治理平台数据管控流程的最后参与使用者;
是数据资产价值的获益人;
作为数据治理平台数据闭环流程的发起人。

5.3 系统架构

5.3.1  系统功能框架

数据治理功能框架明确了数据治理在企业级省大数据平台中的定位,并以合理的功能层次划分指导数据治理系统相关功能建设。系统功能框架如图5-3所示。


图5-3 数据治理功能框架图

  • 企业级省大数据平台门户:

企业级省大数据平台统一的访问接口,供企业内、外部用户、第三方独立开发者访问及使用数据治理相关产品或功能,并负责统一访问认证及日志记录。

  • 能力开放平台:

企业级省大数据平台统一的对外服务层,数据治理相关的产品及应用均通过这个层次进行注册、发布,并对内、外部开放。

  • 数据治理系统:

数据标准:在数据标准管理组织架构推动和指导下,遵循协商一致制定的数据标准规范,借助标准化管控流程得以实施数据标准化的整个过程。

 元数据:采用集中式管理模式进行元数据管理,全公司元数据逻辑集中,即元数据管理模块作为公司元数据的统一发布源,集中管理元数据,提供元数据集中创建、维护、查询功能。

 数据质量:对数据从计划、获取、存储、共享、维护、应用、消亡生命周期的每个阶段里可能引发的各类数据质量问题,进行识别、度量、监控、预警等一系列管理活动,并通过改善和提高组织的管理水平使得数据质量获得进一步提高。

 数据资产:规划、控制、提供数据及信息资产的一组业务职能,包括开发、执行和监督有关数据的计划、政策、方案、项目、流程、方法和程序,从而控制、保护、提高数据资产的价值。

 数据安全:通过计划、制定、执行数据安全政策和安全策略措施,为企业级大数据平台的数据和信息提供行之有效的认证、授权、访问和审计。

 数据运维:包括数据资产运维、数据质量运维,借鉴互联网思维,通过产品化运维工具来整体提升企业级大数据平台数据运维效率。

  • 企业级省大数据平台:

 大数据基础平台,负责数据的接入、存储、管理、应用及相关基础功能支撑。


5.3.2 系统模块流程

图5-4 数据治理系统功能各模块关系图

如图5-4所示,数据治理系统各模块之间,根据数据操作的流程产生相互关联,各模块业务流程关系说明如下:

L1:数据标准管理模块将标准定义映射到元数据信息上,实现数据标准的规范要求落地。

L2:元数据管理模块为数据资产管理模块提供存储模型、属性信息查询服务。

L3:元数据管理模块为数据质量管理模块提供元数据相关属性信息。

L4:用户通过元数据定义大数据平台的数据结构。

L5:数据质量管理模块根据采集需求从大数据平台采集数据。

L6:数据质量管理模块将数据质量问题反馈给大数据平台。

L7:数据质量管理模块向资产模块提交数据质量评估结果。

L8:元数据管理模块为数据安全管理模块提供隐私级别定义服务。

L9:数据资产管理模块发起资产访问申请,由数据安全管理模块控制用户访问权限,控制数据资产的增加、删除、变更操作权限,对访问的数据内容、数据属性等操作进行管控。

L10:数据安全管理模块为大数据平台提供数据访问权限策略。


5.4 系统边界

企业级省大数据平台数据治理子系统与其它子系统之间存在数据交互、功能调用、流程穿插等关联。数据治理子系统与大数据平台系统内其它子系统的关系示意如图5-5所示:


图5-5 数据治理子系统与各子系统边界图

5.4.1 与企业级省大数据平台关系

企业级省大数据平台上的数据资产是数据治理的主要对象;数据治理为企业级省大数据平台提供数据标准指导、元数据定义、数据质量监控、数据安全等方面的全面支撑,使大数据平台上的数据资产清晰、有序、安全、可控。


5.4.2 与对外能力开放平台关系

数据治理为对外能力开放平台提供元数据查询、数据安全管理支持;对外能力开放平台为数据治理提供统一的数据治理产品及功能注册、发布、使用服务。


5.4.3 与平台运维系统关系

数据治理子系统支撑大数据平台的数据管控流程,并与平台运维交互协调,共同支撑大数据平台整体的安全运维、数据运维和管理运维。

欢迎点赞 + 收藏 + 在看  素质三连 


往期精彩回顾
程序员,如何避免内卷
Apache 架构师总结的 30 条架构原则
【全网首发】Hadoop 3.0分布式集群安装
大数据运维工程师经典面试题汇总(附带答案)
大数据面试130题
某集团大数据平台整体架构及实施方案完整目录
大数据凉凉了?Apache将一众大数据开源项目束之高阁!
实战企业数据湖,抢先数仓新玩法
Superset制作智慧数据大屏,看它就够了
Apache Flink 在快手的过去、现在和未来
华为云-基于Ambari构建大数据平台(上)
华为云-基于Ambari构建大数据平台(下)
【HBase调优】Hbase万亿级存储性能优化总结
【Python精华】100个Python练手小程序
【HBase企业应用开发】工作中自己总结的Hbase笔记,非常全面!
【剑指Offer】近50个常见算法面试题的Java实现代码

长按识别左侧二维码

     关注领福利    

  领10本经典大数据书

文章转载自大数据研习社,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论