

长按二维码关注
大数据领域必关注的公众号

中国移动企业级省大数据平台数据标准是在经营分析系统数据管控要求基础之上,借鉴互联网企业数据治理的经验而提出的。数据标准是指在中国移动企业级省大数据平台下,保障企业内外部使用和交换数据的一致性和准确性,具有行业特点且共同使用的一种规范性约束。
数据标准是企业级省大数据平台数据治理的基础性工作,是数据治理建设中的首要环节。首先,数据标准为企业级省大数据平台提供统一的数据标准定义和平台逻辑模型。其次,数据标准是企业级省大数据平台进行数据治理的依据和根本。再次,数据标准是衡量企业级省大数据平台数据资产运营和管理的评估依据。最后,中国移动通过数据标准管理的实施,实现对企业级省大数据平台全网数据的统一运营管理。
企业级省大数据平台数据治理体系中数据标准管理如图6-1所示,包括制定数据标准的规范性文件、进行数据标准化管控及数据标准管理组织。

企业级省大数据平台数据标准管理与原经营分析系统数据管控的区别如下表6-1所示:
企业级省大数据平台数据标准管理 | 原经营分析系统数据管控 | |
数据范围 | 涉及企业内外部数据运营相关的数据,包含BOM三域数据、外部数据。 | 数据仅限于市场经营活动的B域和部分O,M域数据。 |
业务应用模式 | 以数据标准为基础的数据治理体系,实现数据的资产化,贯穿整个数据运营的全流程,形成以中国移动大数据平台为核心的大数据生态圈,服务于企业内外部客户。 | 以支撑企业内部经营分析为主。 |
服务对象 | 服务于整个大数据生态圈。 | 原经营分析系统使用人员。 |
数据标准管理的总体目标:通过统一的数据标准制定和发布,结合制度约束、系统控制等手段,实现中国移动企业级省大数据平台数据的完整性、有效性、一致性、规范性、开放性和共享性管理,提高企业级省大数据平台数据治理水平。
数据标准制定的原则:
● 开放性:标准制定人人参与。
● 共享性:数据标准化信息在大数据生态圈共享使用。
● 完整性:涵盖客户、产品、服务、帐务、资源、网络等全部重要数据信息。
● 有效性:信息准确度高、理解上不存在歧义。
● 一致性:做到“五统一”,定义统一、口径统一、名称统一、来源统一、参照统一。
● 规范性:制度规范、流程控制、系统管理等。
数据标准制定如图6-2所示,包括数据标准体系划分和数据标准内容制定,数据标准体系可分为基础类数据标准和指标类数据标准。

数据标准内容的制定按照数据标准体系分类的要求分别给出数据标准制定的规范要求。
基础类数据标准是通过各种业务处理产生或各类渠道采集的基础性数据,在全国范围内必须是唯一定义的,如“用户品牌”、“归属地市”。基础类数据标准分为行业参考模型实体标准和公共代码标准。
行业参考模型实体标准指按照行业需求和中国移动省级数据逻辑模型实体规范要求,继承以往数据逻辑模型实体规范,将各域的逻辑模型实体定义抽象为模型实体标准要求。行业参考模型实体数据标准体系定义内容如表6-2所示。
行业参考模型实体标准 | 标准体系属性说明 |
数据标准编码 | 根据数据标准编码命名规则进行编写。 |
标准主题 | 数据标准归属主题 |
标准子类 | 数据标准归属类型 |
中文名称 | 数据标准中文名称。 |
英文名称 | 数据标准英文名称。 |
实体编号 | 根据行业参考模型实体编号命名规则进行编写。 |
实体名称 | 根据行业参考模型实体名称命名规则进行编写。 |
数据版本 | 该数据标准的版本信息。 |
数据体系分类 | 根据数据分类规则对数据进行分类,以保证数据体系的易用性,以及符合用户查找习惯。 |
重要级别 | 集团规范定义的数据为一级,省公司定义的数据为二级,其它常用的数据为三级。 |
数据提供部门 | 该数据标准定义数据的提供部门。 |
数据提供部门负责人 | 该数据标准定义数据提供负责人。 |
数据维护部门 | 该数据标准定义数据维护部门。 |
数据维护部门负责人 | 该数据标准定义数据维护负责人。 |
业务主管部门 | 该数据标准定义数据业务主管部门,该部门对数据口径、编码取值和相关专业术语有决定权。 |
业务主管部门负责人 | 该数据标准定义数据业务负责人。 |
数据来源系统 | 如:BOSS,CRM,ERP等 |
主要依据 | 关于指标的解释和描述文件。如集团规范、省公司规范、业务部门制定等等。 |
业务定义 | 指标的业务描述口径,一般由业务部门使用业务语言制定。 |
公共代码标准 | 标准体系属性说明 |
数据标准编码 | 根据数据标准编码命名规则进行编写。 |
公共标准号 | 引入外部公共标准号 |
中文标准名称 | 数据标准中文名称 |
英文标准名称 | 数据标准英文名称。 |
标准状态 | 该标准的状态,如现行、停止。 |
公共标准机构名称 | 引入该公共标准的机构名称。 |
数据标准体系 | 根据数据分类规则对数据进行分类,以保证数据体系的易用性,以及符合用户查找习惯。 |
重要级别 | 集团规范定义的数据为一级,省公司定义的数据为二级,其它常用的数据为三级。 |
数据标准引入部门 | 该数据标准引入和维护部门。 |
数据标准引入部门负责人 | 该数据标准引入和数据维护负责人。 |
数据上报系统 | 最终对数据进行计算和发布的系统,也是各部门唯一获取指标数据的来源系统。 |
具体行业参考模型实体数据标准体系定义内容示例参见《附录二:数据标准体系定义内容示例》。
指标类数据标准是数据基础上按照一定业务规则加工汇总的数据,如KPI指标数据。指标类数据又可分为基础指标和计算指标。基础指标一般不含维度信息,且具有特定业务和经济含义。计算指标通常由两个以上基础指标计算出。指标类数据标准体系定义内容如表6-4所示。
指标类标准 | 说明 |
基础属性 | |
数据标准编码 | 根据数据标准编码命名规则进行编写。 |
中文名称 | 数据标准中文名称。 |
英文名称 | 数据标准英文名称。 |
应用场景 | 该指标适用于什么场景。 |
数据版本 | 该数据标准的版本信息。 |
数据体系分类 | 根据数据分类规则对数据进行分类,以保证数据体系的易用性,以及符合用户查找习惯。 |
重要级别 | 集团规范定义的数据为一级,省公司定义的数据为二级,其它常用的数据为三级。 |
管理属性 | |
数据提供部门 | 该数据标准定义数据的提供部门。 |
数据提供部门负责人 | 该数据标准定义数据提供负责人。 |
数据维护部门 | 该数据标准定义数据维护部门。 |
数据维护部门负责人 | 该数据标准定义数据维护负责人。 |
业务主管部门 | 该数据标准定义数据业务主管部门,该部门对数据口径、编码取值和相关专业术语有决定权。 |
业务主管部门负责人 | 该数据标准定义数据业务负责人。 |
数据上报系统 | 最终对数据进行计算和发布的系统,也是各部门唯一获取指标数据的来源系统。 |
数据生成系统 | 生成数据所需的数据所在的来源系统,如BOSS系统。 |
数据上游系统 | 数据生成后上报给哪个系统,如ERP系统。 |
业务属性 | |
主要依据 | 关于指标的解释和描述文件。如集团规范、省公司规范、业务部门制定等等。 |
业务定义 | 指标的业务描述口径,一般由业务部门使用业务语言制定。 |
计算流程/算法 | 用来描述指标详细的计算过程。 |
指标类型 | 根据管理需要可以将指标分为基础指标、计算指标两类。 |
计算指标公式 | 用于描述相关指标间的平衡关系,可用于指标数据审核过程中,能有效地保证指标数据质量。 |
技术属性 | |
计量单位 | 数据使用单位如:“户”、“分钟”、“MB”、“元”、“次”、“%”等等。 |
统计精度 | 指标统计数值精确到小数还是整数。 |
数据值域 | 数据的合理取值范围。 |
统计周期 | 数据统计周期如“日”、“周”、“月”、“季度”、“半年”、“年”等等。 |
统计粒度 | 数据统计粒度如:“用户级”、“区县级”、“地市级”等。 |
统计维度 | 数据统计维度如:“地域”、“品牌”、“在网时长”、“客户等级”等。 |
指标出数表 | 指标数据来源于哪张物理表。 |
指标出数代码 | 指标数据来源于物理表的哪个。 |
具体行业参考模型实体数据标准体系定义内容示例参见《附录二:数据标准体系定义内容示例》。
数据标准的制定按照本册中数据标准管理的业务分类和定义规范指导要求,基于各企业级省大数据平台的数据管控需求进行数据标准规范的制定。其制定的数据标准规范内容在全省进行发布和告知,要求企业级省大数据平台系统按照该标准规范进行统一的数据管理。
数据标准制定包括数据标准的编制、数据标准的审查、数据标准的发布。数据标准化管理组织将数据标准以正式发文的方式在全公司范围内进行发布,并在发布后将数据标准、版本说明保存备案。最终将发布的数据标准更新至数据标准管理模块中,如图6-3所示。

数据标准的编制、审查和发布通过数据标准管理模块开发实现,其流程如图6-3示:
1、数据标准管理组织协调者组织数据提供者和执行者参与数据标准属性的收集和整理工作,并按照协商一致的原则形成数据标准初稿。
2、数据标准初稿进行多次的讨论和丰富后,形成数据标准送审稿提交给数据标准管理决策者。
3、经过数据标准管理决策者的讨论审核后,由数据标准管理组织协调者再次进行数据标准的修改完善,并完成数据标准的发布。
数省公司和各部门、分公司统一按照所制定的数据标准实施数据标准管理,数据标准的执行流程如图6-4所示。

数据标准执行的流程步骤如下:
1、数据标准制定发布后,将数据标准录入到数据标准管理模块。
2、数据标准管理执行者按照发布的数据标准,制定和发布数据标准接口。
3、数据标准管理模块将标准要求提供给数据质量管理根据已录入系统的数据标准形成稽查规则,对数据标准管理执行者制定和发布的数据标准接口中的内容进行相关的标准稽核监控。
4、将标准稽核结果发送给数据标准管理模块,并反馈给数据标准管理决策者和数据标准管理执行者。
数据标准的维护指数据标准建立后,根据业务需求的发展变化或外部数据标准要求不一致时,对数据标准的内容进行变更和版本管理,如图6-5所示。

数据标准管理的变更通过数据标准管理系统开发实现落地,其流程如图6-5所示:
1、对执行的相关数据标准进行变更请求的申请,组织该数据标准相关执行层和各数据运维者进行讨论和变更需求汇总。
2、由数据标准管理组织协调机构进行标准变更的审核。
3、讨论审议数据标准项的变更内容,并形成标准变更需求审批表提交给数据标准管理决策层进行审批。
4、决策层将审批结果反馈给标准管理组织协调者,并由其进行数据标准发布及版本维护。
数据标准监控实现对数据标准执行过程的监控,包括对数据标准的执行、效果、问题进行监控管理,为后期数据标准维护管理提供依据。
数据标准的监控通过数据标准管理和元数据管理、数据质量管理协同实现落地,监控流程如图6-6所示:

数据标准管理监控流程如下:
1.数据管理者录入数据标准和元数据信息。
2.根据数据标准制定数据标准接口。
3.根据数据标准生成的稽核规则,进行前向稽核,稽核正常进行下一流程,稽核非正常返回错误文件记录给数据管理者做数据标准的更新。
4.数据提供者将数据提交到企业级大数据平台,并且完成对元数据的采集。
5.对数据提供者数据进行后向稽核,稽核正常则数据可提供数据消费者正常使用,稽核非正常返回错误信息记录给数据提供者做数据修订。
本期数据标准管理建设范围要求涉及企业级省大数据平台中数据标准内容,但不在全集团范围内强制统一数据标准规范。
本期具体建设内容包括:
1、数据标准规范内容涵盖:
● 行业参考模型实体标准
● 指标数据标准
● 公共代码标准
2、数据标准化管控内容涵盖:
● 建立数据标准化管理组织架构。
● 搭建数据标准管理模块。
● 实现数据标准管理流程的功能系统化,并衔接元数据管理、数据质量管理和数据资产管理形成数据治理的闭环运维。
● 提供具数据标准产品,如数据标准查询APP等。
数据标准管理实施要求包括:
1、数据标准统一规划。按照企业级省大数据平台的数据治理要求,结合数据标准规范指导内容,构建适应企业级省大数据平台的数据标准体系,并制定数据标准实施方案。
2、建立数据标准管理的支撑体系。要求包括数据标准管理组织架构、数据标准管理办法和制度流程,以及数据标准管理支撑工具。
3、实现中国移动企业级省大数据平台中数据业务口径和技术口径有效协同统一。
4、支撑中国移动企业级省大数据平台的平台化、产品化和数据资产运营的需求。
5、支撑新增企业级省大数据平台数据接口内容的标准化定义。
6、满足原有数据可逐步进行数据标准规范的迁移和统一。
元数据管理模块是大数据平台数据治理体系的重要组成部分。IT研究与顾问咨询公司Gartner发布的《2013年十大战略性技术趋势》中对于企业战略性大数据的描述如下:将多个系统,包括内容管理、数据仓库、数据集市和专门的文件系统等与数据服务和元数据相互结合,组合为“逻辑的”企业数据仓库。通过对这个“逻辑的数据仓库”的有效治理,为企业后续的数据资产运营、增值以及数据服务提供有效支撑。
中国移动企业级省大数据平台是这种逻辑的企业数据仓库的一个具体落地实现,元数据管理的建设将贯穿大数据平台建设、使用、运营、维护的全过程,并发挥以下作用:
● 提供企业级数据字典,便于内外部客户更好地了解企业数据概况;
● 提供全局元数据查询检索,便于用户快速定位元数据;
● 提供元数据详细描述,使用户了解数据组成、结构及数据流向;
● 提供血缘/影响分析功能,便于用户进行分析判断、问题定位;
● 提供元数据接口服务,便于其它系统或模块使用元数据服务;
● 提供元数据应用,方便终端用户使用元数据;
● 提供统一的基于元数据描述的API管理产品,集中管理平台开放的内外部API。
● 管理范围不同:
※ 新增集群NameNode节点的管理元数据;
※ 新增集群DataNode节点的业务/技术元数据;
※ 新增大数据平台内部以及其与DW、MPP等跨工具/产品的复杂数据流元数据。
● 管理制度方面:
※ 管理流程:新增跨部门、跨系统的多层次交互式的元数据注册、维护、管理、使用流程,同时需要针对不同用户提供有针对性的元数据产品支持。
※ 角色权限:管理上更加细致的分工,不同部门需新增相应的元数据查询、管理、维护角色;
● 工具支撑方面:
※ 需支持大数据平台新增元数据范围地获取、存储与管理;
※ 需支持大数据平台海量元数据的获取、存储、管理及应用;
※ 需提供标准化定义,并支持管理集群节点快速获取分节点的运行元数据信息;
※ 需对大数据平台的文件、语音、图片等非结构化数据的标记元数据,即大数据相关的词库元数据进行管理,并提供检索查询等应用支持;
※ 需通过元数据对大数据平台的新增数据进行敏感定义及标记;
※ 需为终端用户提供简单易用的元数据产品,降低使用成本。
本期规范要求,在提升元数据用户使用体验的同时,着重改善元数据管理的运营模式,重点建设前向的元数据管控机制,并逐步探索集中的大数据平台元数据管理方式。
本期规范中,除元数据基础功能外,对元数据管理的运行维护提出以下要求:
● 对于集团统一标准规范的元数据,严格按照集团提供元数据标准落地;
● 对于大数据平台的集群NameNode、文件目录等部分元数据,通过互通机制定期按集团要求格式上报。
关于元数据标准的元模型部分,将在经分规范的核心元模型基础上,根据大数据平台新增数据结构特点进行扩充,以满足这部分元数据获取、存储、管理及应用要求。主要涉及集群节点的namenode元数据及Hadoop的文件/目录元数据。
本期规范需要上报的元数据信息,主要涉及集群NameNode元数据,包括集群的运行监控信息及文件/目录元数据。

图6-7为集团总控节点与省集群节点的元数据上报关系示意图。集群节点定期上报其自身的NameNode阶段运行信息及数据节点的数据信息,供集团了解省分节点运行、存储情况,为后续的统一管控提供基础支撑。
对于集群NameNode节点的运行监控类元数据,属于Apache Hadoop的私有定义,暂无法使用或在CWM规范基础上扩充。故直接引用Apache Hadoop的相关定义,并对其进行适当规范。
本期对NameNode节点的元数据上报信息要求如下:
英文名 | 中文名 | 类型 | 备注 |
Configured Capacity | 配置容量 | double | |
Present Capacity | 当前总容量 | double | |
DFS Remaining | 剩余容量 | double | |
DFS Used | 已用容量 | double | |
DFS Used% | 使用率 | double | 小数点后4位 |
Under replicated blocks | 待复制数据块 | double | |
Blocks with corrupt replicas | 中断复制数据块 | double | |
Missing blocks | 丢失数据块 | double | |
Datanodes available | 可用节点数 | double | |
Datanodes Non available | 不可用节点数 | double |
英文名 | 中文名 | 类型 | 备注 |
Name | 名称 | text | |
Description | 描述 | text | |
LastModified | 更新时间 | date | |
Steps | 步骤 | double | |
Status | 状态 | text | |
Owner | 拥有人 | text |
英文名 | 中文名 | 类型 | 备注 |
Name | 节点名称 | text | |
Hostname | 主机名 | text | |
Rack | 所属机架 | text | |
Decommission Status | 可用状态 | text | |
Configured Capacity | 配置容量 | double | |
DFS Used | 已用容量 | double | |
Non DFS Used | 非DFS使用容量 | double | |
DFS Remaining | 剩余容量 | double | |
DFS Used% | 已用容量 | double | 小数点后4位 |
DFS Remaining% | 使用率 | double | 小数点后4位 |
Configured Cache Capacity | 配置缓存容量 | double | |
Cache Used | 缓存使用量 | double | |
Cache Remaining | 缓存剩余量 | double | |
Cache Used% | 缓存使用率 | double | 小数点后4位 |
Cache Remaining% | 缓存剩余率 | double | 小数点后4位 |
Last contact | 最近检查时间 | date |
为支持大数据平台下文件、目录、Hbase、Hive相关元数据的集中存储,本期规范将CWM核心元模型的Table、Column、View类进行扩展,同时新增model.hadoop.hdfs模型包,里边包含目录(Directory)和文件(File)两个实体及相关属性。关于经分系统核心元模型及参考表,元模型标准CWM的相关定义,请参考《中国移动省级NG2-BASS(v5.0)技术规范核心元模型规范》中的相关章节描述。修订内容如下:
在前期元数据运行维护要求的基础上,满足本期大数据平台的数据治理要求,对元数据的维护提出以下补充要求:
● 强化元数据管理制度要求,每个元数据均需将所属部门、责任人信息补充完整;
● 为加强数据安全及隐私保护,每个元数据需提供对应的数据隐私级别信息;
● 细化元数据分类,在前期技术、业务、管理大分类的基础上,增加从系统所属部门、系统及模块角度标记每个元数据;
● 严控元数据版本,对于每次变更需详细记录变更原因、时间、人员等关键信息;
● 细化元数据权限,对于不同的部门、人员、角色,仅授予工作所需的最小权限,对于权限变化要严格审批。
基于大数据平台“逻辑集中、物理分散”的最终目标原则,元数据管理的建设也将按此目标分步实现。在本期规范中,强调元数据的运维管理及产品化支撑,元数据产品要简单易用、用户体验不断提升。主要建设以下内容:
1、元数据之家产品。基于大数据平台数据治理及改善用户体验要求,建设一个方便内外部用户使用的元数据产品。主要包括以下模块:
● 集中分类展现;
● 多样化检索;
● 详情多样化展示;
● 收藏与评价;
● 统计分析;
● 知识库;
● 权限审批。
2、元数据应用产品:
● 查询类APP,面向业务人员及大数据平台分析人员。
3、辅助开发产品:
● 团结帮API管理产品,对OpenAPI进行元数据结构化描述,用于对大数据平台开放API进行注册、发布、订阅及使用管理。
数据质量为数据的“适用性(fitness for use)”,即数据满足使用需要的合适程度。数据质量通过完整性、一致性、准确性、及时性、合法性等多类维度对数据进行度量。
在大数据平台上,数据质量为其提供洁净、结构清晰的数据,是大数据平台开发数据产品、提供数据服务、发挥大数据价值的必要前提,是企业数据资产管理的关键因素。
大数据平台数据质量和传统经营分析系统的区别如表6-5所示。
大数据平台数据质量 | 经营分析系统数据质量 | |
监控数据的类型 | 可以对非/半结构化数据中指定信息项进行监控,例如Gn日志中的终端信息等 | 仅监控结构化数据 |
数据仓库的类型 | 支持传统数据仓库、MPP和Hadoop。 | 仅支持传统数据仓库。 |
使用者 | 数据资产的所有者及其授权用户、数据应用开发者、租户等将成为大数据平台数据质量管理模块的主要使用者,负责监控规则的设置和监控结果的处理。 | 经分运维人员和数据质量管理员为主要使用者,负责将业务人员的需求在数据质量模块上实现。 |
运维工作 | 运维人员主要负责保障数据质量功能模块的正常运行和规则库的扩充,规则配置、执行和结果处理等实际工作由用户自行负责。 | 数据质量运维人员的工作范畴涵盖数据质量监控的全流程,包括采集、规则配置、告警、结果查看和处理。 |
监控模式 | 由事后监控向事中、事后监控相结合转化,用户/应用设置数据质量监控规则后,可以在计算执行过程中调用数据质量监控作业,无需等待结果出来后再进行监控。 | 用户仅能在结果出来后才能进行监控。 |
质量保障 | 数据质量功能模块是大数据平台接收源数据的屏障,保障所有接收的源数据均符合大数据平台的要求;数据质量还是大数据平台数据资产评估的重要组成部分,定期运行平台数据资产的相关质量规则,为数据资产评估提供输入。 | 未明确规定数据质量为其它功能模块提供服务。 |
大数据平台数据质量的管理范畴,涵盖从源数据接入大数据平台到应用输出的全过程。
大数据平台数据质量管理的原则包括:
● 以用户需求为中心:数据质量模块旨在为大数据平台所有用户提供服务,平台功能的增加和增强始终围绕着用户的实际使用需求;界面设计需要充分考虑不同类型用户的需求,既要满足业务用户简单易懂的需要,也要允许技术用户实现个性化的监控需求。
● 全员参与:大数据平台的用户包括数据提供者、数据开发者、数据管理者、数据消费者,均要参与平台的数据质量管理;
过程控制:数据质量监控不仅是在结果输出后,还包括对计算过程中质量监控,一旦发现问题,可以及时终止进程;
● 持续改进:数据质量的提升是一个持续的过程,需要定期对发现的问题进行评估,提出改进意见;也包括数据质量模块本身功能的提升和规则库的完善。
完





