暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据资产管理平台体系拆解(4):元数据管理

以数据之名 2022-04-08
282

阅读本文需要10分钟,以数据之名,践资产之行。

1 、以数据之名 简介

  • 微信公众号、今日头条知乎和稀土掘金,主体均为以数据之名”;
  • 欢迎扫码关注,回复「666」加入以数据之名”微信交流群;
  • 本文主要介绍数据资产管理平台体系拆解(4):DAMP元数据管理

2 、元数据的基本概念

2.1 抽象概念

元数据,简单来说就是描述数据的数据。元数据无处不在,换言之有数据存在,就有其对应元数据。完整、准确的元数据存在,有助于更好地理解数据本体,充分挖掘数据的价值。

单存的从概念来讲,确实比较抽象,我们对元数据的理解还是很模糊。那么让我们先看一段简历达人"张三"的个人简历。

这份简历中的"电话"、"工作经验"、"年龄"、"邮箱"、"教育背景"等对于张三本人的关键描述信息,就是元数据,因为它们是用来描述具体数据/信息的数据/信息。这样引用论证的方式,是不是让我们对元数据的概念一瞬间立体起来啦。

2.2 具体概念

对于企业应用的具体概念,元数据是企业所使用的物理数据、业务流程、数据结构等有关的信息,描述了数据(如数据库、数据模型)、概念(如业务流程、应用系统、技术架构)以及它们之间的关系。

元数据管理是对数据采集、存储、加工和展现等数据全生命周期的描述信息,帮助用户理解数据关系和相关属性。

3 、元数据的价值

通过元数据管理,形成整个系统信息数据资产的精准视图,通过元数据的统一视图,缩短数据清理周期、提高数据质量以便能系统性地管理数据中心项目中来自各业务系统的海量数据,梳理业务元数据之间的关系,建立信息数据标准完善对这些数据的解释、定义,形成企业范围内一致、统一的数据定义,并可以对这些数据来源、运作情况、变迁等进行跟踪分析。

元数据是企业数据资产的基础应用字典和操作指南,元数据管理有利于统一数据口径、标明数据方位、分析数据关系、管理数据变更,为企业级的数据治理提供支持,是企业实现数据自服务、推动企业数据化运营的可行路线。

4 、元数据分类

4.1 业务元数据

  • 模型元数据

    • 业务模块、分层、分类、分级

    • 数据域、主题域

    • 维度、属性

    • 资产、指标

    • 事实、度量

    • 仓库、集市、应用

  • 应用元数据

    • 代码、名称、描述、归属组织、等级、构建方式、代码量

    • 技术架构、功能架构

  • 分析元数据

    • 数据域、主题域

    • 产品、模块、过程

    • 业务规则、流程、关联、影响

    • 报表、账单、数据应用

4.2 管理元数据

  • 人员、角色、功能

  • 流程

  • 职责、岗位

  • 组织、部门

  • 人员与角色权限,角色与功能权限

4.3 技术元数据

  • 物理元数据

    • 数据中心

    • 机房

    • 服务器

    • 操作系统

    • 设备类型

    • ……

  • 数据源元数据

    • 数据源集群拓扑(多中心、多活、主备、角色等)

    • 数据源地址信息(IP/域名、PORT等)

    • 数据源实例信息(类型、版本、实例名、库名等)

    • 数据源权限信息(用户名、口令等)

  • 存储元数据

    描述对象存储的元数据,也是通常"狭义"上的元数据,包括几大类:

    • 管理属性(创建人、应用系统、业务线、业务负责人等)

    • 生命周期(创建时间、DDL时间、版本信息等)

    • 存储属性(物理位置、物理大小等)

    • 数据特征(数据倾斜、平均长度等)

    • 使用特征(DML、刷新频率等)

    • 数据结构

      • 表/分区/视图(名称、类型、备注等)

      • 列(名称、注释、类型、长度、精度等)

      • 索引(名称、类型、字段等)

      • 约束(类型、字段等)

  • 计算元数据

描述离线或实时ETL任务数据计算过程的元数据。
    • 控制元数据(配置属性、调度策略、超时机制、重试机制等)

    • 过程元数据(依赖关系、执行状态、执行日志等)

  • 质量元数据

描述数据质量的一类元数据。
    • 质量指标定义(质量指标代码、质量指标名称、质量指标描述)

    • 质量指标分类(完整性、规范性、一致性、准确性、唯一性、关联性)

    • 质量指标评分(规则制定、规则计算、规则评价、规则预警)

  • 操作元数据

描述数据是如何进行使用的一类元数据。
    • 数据产生(产生时间、作业信息等)

    • 表访问(查询、关联、聚合等)

    • 表关联(关联表、关联字段、关联类型、关联次数)

    • 字段访问(查询、关联、聚合、过滤等)

  • 运维元数据

描述系统运维层面的元数据,通常包括以下几类。
    • 应用类

    • 任务类

    • 预警类

    • 报警类

    • 事故类

  • 成本元数据

描述数据存储及计算成本的元数据。
    • 计算成本(CPU、MEM等)

    • 存储成本(空间、压缩率等)

  • 标准元数据

描述数据标准化内容的元数据。
    • 代码管理(转换规则、对外接口等)

    • 映射管理

    • 数据展示(样式、规则、语义、单位等)

  • 安全元数据

描述数据安全内容的元数据。
    • 访问安全(安全分类、安全分级)

    • 数据敏感性(是否敏感、脱敏算法等)

    • 审计中心(访问日志留存、访问记录追溯)

    • 权限中心(产品权限、应用权限、功能权限、数据权限)

  • 共享元数据

描述数据是如何共享的部分,通常使用以下几种方式:
    • 共享文件

    • 共享数据库

    • 数据服务

5 、元数据管理办法

5.1 关键活动

  • 元数据管理计划:明确元数据管理相关参与方,采集元数据管理需求;确定元数据类型、范围、属性,设计元数据架构,技术元数据与数据模型、主数据、数据开发相关架构一致;制定元数据规范;

  • 元数据管理执行:依托元数据管理平台,采集和存储元数据;可视化数据血缘;应用元数据,包括非结构化数据建模、自动维护数据资产目录等;

  • 元数据管理检查:元数据质量检查与治理;元数据治理执行过程规范性检查与技术运维;保留元数据检查结果,建立元数据检查基线;

  • 元数据管理改进:根据元数据检查结果,召集相关利益方,明确元数据优化方案;制定改进计划,持续改进元数据管理的方法、架构、技术与应用等内容。

    5.2 管理流程

    我们可以采用角色与组织联动,制定一套标准化元数据管理流程体系,贯穿于整个数据采集、管理分析与数据服务端到端的实施过程,来完善整体的元数据管理体系。


    6 、元数据管理功能

    6.1 元数据采集

    元数据管理平台通过不同的数据采集适配器,能支持从不同的数据源中采集从生产业务系统、数据中转系统、数据应用系统等端到端应用链路的数据流转过程的全量元数据,包括过程中的数据实体(系统、库、表、字段的描述)以及数据实体加工处理过程中的逻辑元数据。同时还能制定采集任务定时采集,减少人工操作的IT成本。

    6.2 元数据访问

    元数据访问服务是元数据管理软件提供的元数据访问的接口服务,一般支持Http、文件、接口库等对接形式。通过元数据访问服务支持企业元数据的共享,是企业数据治理的基础。

    6.3 元数据管理

    实现元数据的模型定义并存储,在功能层包装成各类元数据功能,最终对外提供应用及展现;提供元数据分类和建模、血缘关系和影响分析,方便数据的跟踪和回溯。

    6.4 元数据分析

    元数据的应用一般包括数据地图、数据血缘分析、关联性分析、影响分析、全链分析等,分析出元数据的来龙去脉,快速识别元数据的价值,掌握元数据变更可能造成的影响,以便更有效的评估变化带来的风险,从而帮助用户高效准确对数据资产进行清理、维护与使用。

    7 、元数据管理功能架构

    备注:权限管理中心,平台统一鉴权SSO

    8 、元数据血缘解析

    8.1 血缘解析引擎构建

    基于数据资产开发平台作为开发统一入口的前提,构建元数据血缘引擎服务体系。
    引擎体系:SQL、Kettle 、Xml、Excel、Interface、Service、Workflow 、Datax等
    任务体系:DMP(Datax任务、SQL任务、Shell任务、报表任务、监控任务)、KMP(Kettle任务)、DMS(接口和服务)、BMP(工作流和调度器)等
    目标方向:基于血缘解析引擎解析落地元数据,提供可视化的标准ETL任务元数据血缘查询服务,以及KMP/DMP/BMP三大平台任务关联性和影响性分析服务。

    8.2 血缘解析引擎机制

    基于DMP数据管理开发平台,快速实施个性化报表开发的端到端流程图,其中任务开发、血缘查询和血缘确认环节为开发人员手动实施流程,其余环节为平台系统自动化实施流程,具体如下图所示:

    9 、元数据功能预览

    9.1 血缘分析

    9.2 影响分析

    9.3 全链分析

    9.4 关联度分析

    9.5 元数据全文检索

    10 、数据平台文章集锦

    数据资产管理平台体系拆解(1):“平台概述”

    数据资产管理平台体系拆解(2):“系统分解”

    数据资产管理平台体系拆解(3):“数据模型”

    MySQL死磕到底系列第一篇“围城之困”

    MySQL死磕到底系列第二篇“破冰之旅”

    MySQL死磕到底系列第三篇“踏浪之途”

    MySQL死磕到底系列第四篇“刨根之程”

    MyCAT来生续缘第三篇

    无Hive,不数仓

    基于Hive+HBase双引擎完善数据仓库更新机制

    基于TiDB构建高性能综合数据服务平台

    基于Kettle快速构建基础数据仓库平台

    金融数据仓库之分层命名规范

    一入数据深似海,集市仓库湖中台

    湖不湖实战系列之Hudi构建湖仓一体架构

    湖不湖实战系列之Hudi源码编译

    湖不湖实战系列之Spark2部署升级

    湖不湖实战系列之Spark2构建HDFS到Hudi通路

    湖不湖实战系列之Spark2构建Hive到Hudi通路

    BI选型哪家强,以数据之名挑大梁

    数仓小白快速成长为技术专家视频资料集合

    小编心声

    虽小编一己之力微弱,但读者众星之光璀璨。小编敞开心扉之门,还望倾囊赐教原创之文,期待之心满于胸怀,感激之情溢于言表。一句话,欢迎联系小编投稿您的原创文章!

    让我们携手成为技术专家

    欢迎关注,欢乐交流,共同成长


    参考资料

    [1]

    元数据分类参考1:https://baijiahao.baidu.com/s?id=1716816372527574987

    [2]

    元数据分类参考2:https://baijiahao.baidu.com/s?id=1717306836214629073

    [3]

    数据资产白皮书5.0:中国信通院

    [4]

    Markdown模板: https://product.mdnice.com/articles/




    文章转载自以数据之名,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

    评论