重要概念和知识点
数据治理
对企业的数据管理和利用进行评估、指导和监督,通过提供不断创新的数据服务,为企业创造价值
数据源
指业务上首次正式发布某项数据的应用系统,并经过数据管理专业组织认证,作为企业范围内唯一数据源头被周边系统调用。
数据Owner
公司数据 Owner 是公司数据战略的制定者、数据文化的营造者、数据资产的所有者和数据
争议的裁决者,拥有公司数据日常管理的最高决策权。
数据 Owner 的职责包括:
① 负责数据管理体系建设。
② 负责信息架构建设。
③ 负责数据质量管理。
④ 负责数据底座和数据服务建设。
⑤ 负责数据争议裁决。
数据Owner要负责所辖领域的信息架构建设和维护,负责保障所辖领域的数据质量,承接公司各个部门对本领域数据的需求,并有责任建立数据问题回溯和奖惩机制,对所辖领域的数据问题及争议进行裁决,公司有权对不遵从信息架构或存在严重数据质量问题的责任人进行问责。
主数据
参与业务事件的主体或资源,是具有高业务价值的、跨流程和跨系统重复使用的数据。主数据与基础数据有一定的相似性, 都是在业务事件发生之前预先定义;但又与基础数据不同,主数据的取值不受限于预先定义的数据范围,而且主数据的记录的增加和减少一般不会影响流程和IT系统的变化
元数据
定义数据的数据,是有关一个企业所使用的物理数据、技术和业务流程、数据规则和约束以及数据的物理与逻辑结构的信息
元数据是描述数据的数据,用于打破业务和IT之间的语言障碍,帮助业务更好地理解数据。
元数据通常分为业务、技术和操作三类。
其中:
业务元数据:用户访问数据时了解业务含义的途径,包括资产目录、Owner、数据密级
等。
技术元数据:实施人员开发系统时使用的数据,包括物理模型的表与字段、ETL 规则、
集成关系等。
操作元数据:数据处理日志及运营情况数据,包括调度频度、访问记录等。
信息架构
信息架构的目的就是定义好整个运作过程中涉及的各种人、事、物资源,并实施有效的治理,从而确保各类数据在企业各业务单元间高效、准确地传递,上下游流程快速地执行和运作。企业级信息架构(Information Architecture)是指以结构化的方式描述在业务运作和管理决策中所需要的各类信息及其关系的一套整体组件规范,包括数据资产目录、数据标准、企业级数据模型和数据分布四个组件。
数据标准
数据标准定义公司层面需共同遵守的属性层数据含义和业务规则,是公司层面对某个数据的共同理解,这些理解一旦确定下来,就应作为企业层面的标准在企业内被共同遵守
每个数据标准应该覆盖 以下三方面。
业务视角要求:用于统一业务侧语言和理解,明确定义每个属性所遵从的业务定义和用途、业务规则、同义词,并对名称进行统一定义,避免重复。
技术视角要求:对IT实施形成必要的指引和约束,包括数据类型、长度,如果存在多个允许值,则应对每个允许值进行明确的限定。
管理视角要求:明确各业务部门在贯彻数据标准管理方面应承担的责任,包括业务规则责任主体、数据维护责任主体、数据监控责任主体,因为很多情况下这些责任并不是由同一个业务部门来负责,所以必须在标准制订时就约定清楚。例如,“客户合同” 中某些条款的规则制订者可能是财经部门,负责与客户达成约定 并在系统中录入的可能是销售业务部门,而对整个客户合同数据质量进行跟踪、监控的可能是数据专业部门。
数据湖和入湖方式
数据湖是逻辑上各种原始数据的集合,除了“原始”这一特征外,还具有“海量”和“多样”(包含结构化、非结构化数据)的特征。数据湖保留数据的原格式,原则上不对数据进行清洗、加工,但对于数据资产多源异构的场景需要整合处理,并进行数据资产注册。
数据入湖遵循信息架构,以逻辑数据实体为粒度入湖,逻辑数据实体在首次入湖时应该考虑信息的完整性。原则上,一个逻辑数据实体的所有属性应该一次性进湖,避免一个逻辑实体多次入湖,增加入湖工作量。
数据主题联接和联接方式
数据主题联接是对数据湖的数据按业务流/事件、对象/主体进行联接和规则计算等处理,形成面向数据消费的主题数据,具有多角度、多层次、多粒度等特征,支撑业务分析、决策与执行。基于不同的数据消费诉求,主要有多维模型、图模型、指标、标签、算法模型5 种数据联接方式。
数据服务和服务的颗粒度
数据服务是基于数据分发、发布的框架,将数据作为一种服务产品来提供,以满足客户的实时数据需求,它能复用并符合企业和工业标准,兼顾数据共享和安全
粒度表示数据单元的细节程度或综合程度,细节程度越高,粒度越细;细节程度越低,粒度越粗。声明粒度是维度和事实表设计的重要步骤,声明粒度意味着精确定义事实表的每一行表示什么。数据服务设计中应强调数据服务的颗粒度,数据服务颗粒度的大小直接影响着服务的可重用性和系统的整体性能,数据服务颗粒度通常应考虑的原则,如下:。
1)业务特性:将业务相近或相关、数据粒度相同的数据设计为一个数据服务。
2)消费特性:将高概率同时访问、时效性要求相同的数据设计为一 个数据服务。
3)管理特性:综合考虑企业在数据安全管理策略方面的要求。
4)能力特性:将单一能力模型设计为一个服务。
数据集服务Vs数据API服务
数据服务分类:数据集服务和数据API服务
数据集服务定义
比较常见的数据消费者有两类:一类是真实的“人”,一类是 “IT系统”。消费者是“访问”某个相对完整的“数据集”,这种消费方式称之为 “数据集服务”。数据集服务最主要的特征是由服务提供方提供相对完整的数据集合,消费方“访问”数据集合,并自行决定接下来的处理逻辑,数据服务提供方被动地公开数据以供数据消费方检索。
数据服务提供方并不定义数据处理逻辑,但数据和数据处理逻辑仍然由其控制。
数据服务的生命周期即数据访问授权的有效期
数据服务的另外一类消费者是“IT系统”,即面向某个IT系统提供数据事件驱动的“响应”,这种服务的封装方式与前面所提到的数据集不同,称为“数据API服务”。
数据API服务是对用户随机数据事件的响应,这个需求往往伴随着用户的某个任务产生,随着任务的结束,整个服务也就完成了。通过数据API服务,用户可以及时地获知任务的协同情况,并基于服务方的反馈结果,做出相应的调整。服务供给方和消费方是协同关系(互操 作),而非交接棒关系(交换情报),有效提升了面向协同任务的互操作一致性。
数据服务提供方基于随机的数据事件主动地传送数据。
数据服务提供方会基于事件定义数据处理逻辑,由消费方提前订阅并随机触发。
服务的生命周期跟着事件走,事件关闭了,服务就终止了。
数据API服务与传统系统集成相比有明显的优势。
供应/消费数据服务:应用组件间传递的是基于数据服务契约的消息,即传递对数据进行逻辑操作的结果。
高聚合:订单服务使业务逻辑变得更加集中,易于数据同源管 控。
松耦合:业务逻辑的变化对服务消费方没有直接影响。
数据API服务的设计规范业界相对统一,不在这里详细说明。
数据质量度量
企业数据质量管理是一个系统性的工程,华为数据质量从数据质量领导力、数据质量持续改
进、数据质量能力保障三方面展开,有机结合形成联动。
数据质量指“数据满足应用的可信程度”,从以下六个维度对数据质量进行描述:
完整性:指数据在创建、传递过程中无缺失和遗漏,包括实体完整、属性完整、记录完整和字段值完整四个方面。完整性是数据质量最基础的一项,例如员工工号不可为空。
及时性:指及时记录和传递相关数据,满足业务对信息获取的时间要求。数据交付要及时,抽取要及时,展现要及时。数据交付时间过长可能导致分析结论失去参考意义。
准确性:指真实、准确地记录原始数据,无虚假数据及信息。 数据要准确反映其所建模的“真实世界”实体。例如员工的身份信息必须与身份证件上的信息保持一致。
一致性:指遵循统一的数据标准记录和传递数据和信息,主要 体现在数据记录是否规范、数据是否符合逻辑。例如同一工号对应的不同系统中的员工姓名需一致。
唯一性:指同一数据只能有唯一的标识符。体现在一个数据集 中,一个实体只出现一次,并且每个唯一实体有一个键值且该键值只指向该实体。例如员工有且仅有一个有效工号。
有效性:指数据的值、格式和展现形式符合数据定义和业务定义的要求。例如员工的国籍必须是国家基础数据中定义的允许值。
异常数据监控
质量控制是通过监控质量形成过程,消除全过程中引起不合格或不满意效果的因素,以达到质量要求而采用的各种质量作业技术和活动。要保证最终交付质量,必须对过程进行质量控制,通常是在过程中设置关键质量控制点。例如,可以在数据录入阶段设置规则程序,从源头避免不可接受的数据进入系统。
数据质量控制的目的是致力于满足数据质量要求,消除或减少异常数据。数据质量控制可以在数据的生命周期内的不同时点被应用,来测试数据的质量和其是否适合于其所在的系统。
异常数据监控分为以下三个步骤:
识别监控对象范围,确定监控内容
数据质量控制从明确业务需求开始,根据业务规划和数据相关方的需求,阶段性确定数据质量控制范围。
从定性、定量两个维度识别关键数据,定性维度参考以下原则
重要性原则:关键主数据和基础数据、关键的事务数据、痛点问题
成本效益原则
数据源剖析
在着手设计数据质量规则前,需对数据进行快速数据剖析,目的是分析数据源的内容、质量和结构,同时发现和分析数据源中的所有数据不规范问题和使数据项目处于危险中的隐藏数据问题。
可以从以下三个方面对数据源进行剖析
数据源内容
数据源结构:包括技术结构和业务结构。技术结构指空值频率、相异值频率、值范围(最大值、最小值)、模式、长度、数据类型。业务结构如组织结构存储是平面结构还是树状结构。
根据数据标准分析剖析结果的数据质量,例如必填字段是否有空值存储,有允许值列表中的值个数与相异值频率是否一致等
设计和配置监控规则,自动监测异常数据
数据质量监控平台已实现质量规则的可配置、数字化、快速部署、 自动监控识别异常数据等能力,并可随时间推移,制定周期性监控计 划,监视数据质量的进展情况,并通过虚拟化的方式快速、灵活发布监控结果。
可利用自助分析工具开发在线数据质量分析报告,通过前端工具 不仅能够查看监控结果汇总数据,而且能够通过钻取功能查看异常明细数据,以便业务人员准确定位业务系统的异常数据。
高防区隔离
高防区隔离就是我们通过在数据底座独立部署单独的防火墙以及配合流向控制、堡垒机等措施,对高密资产重点防护。关键要点就是有独立的防火墙,并且内部区分脱敏开发区以及明文业务访问区,让数据开发人员在脱敏区工作。高防区数据经过审核后才能发布到明文区,给业务部门使用。
动态脱敏
动态脱敏则是一项基于身份的访问控制。通常Web应用都是使用自己的菜单和角色权限进行职责分离,对于数据权限,很难做到字段级别的控制。而动态脱敏可以对某些数据表、数据字段根据身份进行脱敏,从而做到更细颗粒度的保护。
数据保护能力架构
在充分识别数据风险并标识数据安全隐私后,数据底座产品还需要提供不同程度的数据保护
能力。数据保护能力包括存储保护、访问控制、可追溯三种,每种保护能力都面向不同的业
务管理需求。
为打造“安全合规”的数据可控共享能力,我们践行了数据安全隐私管理不仅仅是一套IT工具组合的思路,基于安全隐私的两个公司级治理文件,通过“数据底座共享与安全管理规定”和“数据底座的 隐私保护规定”,落实管理要求,分别建设了数据标识、存储保护、 授权控制、访问控制的能力。同时平台调用了传统IT安全措施,通过态势感知、堡垒机、日志服务等,结合数据安全治理方法与传统的IT安全手段,做好数据的内外合规,形成完整的数据安全与隐私保护, 实现让数据使用更安全这一目标。数据安全与隐私保护能力架构如图。
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-yqebwqL3-1639643992172)(https://s3-us-west-2.amazonaws.com/secure.notion-static.com/8164a1e5-1ba3-464e-9d85-81c145880ad3/Untitled.png)]
数据授权VS数据权限管理
数据授权和数据权限是两个不同的概念。
数据授权主要是面向组织,指数据Owner对组织授予数据访问权的过程,让数据与组织绑定,为组织提供长期的数据订阅权限。数据授权包含两个场景。
1)数据加工授权:由于数据主题联接资产建设中需要跨组织进行数据联接、加工、训练需要转移数据而发生的数据授权场景。
2)数据消费授权:由于业务用户数据的分析需要订阅数据服务而发生的数据授权场景。
数据权限管理是基于访问管控规范,对授予的数据访问权限进行管理的过程。面向个人和面向与岗位绑定的综合管理者的管理策略不同。
面向个人,指业务制定数据访问管控规范,授予个人数据访问权限的过程,具有与个人绑定、短期有效的特点。基于消费数据类型的差异,个人数据权限分为两大场景:1)业务分析师获取数据资产(原材料场景)2)业务用户获取报告访问权限(成品场景)。
基于企业IAM(身份识别与访问管理)和IDM(账号权限管理), 结合数据分级管理机制,让数据权限随人员流动而改变,并统一规 则、集中管控高风险数据,实现对个人权限授予、销权、调动全生命周期集中管控。
问题与思考: .
元数据与数据治理中的关系?
元数据是描述数据的数据,用于打破业务和IT之间的语言障碍, 帮助业务更好地理解数据。元数据通常分为业务、技术和操作三类。
业务元数据:用户访问数据时了解业务含义的途径,包括资产目录、Owner、数据密级等。
技术元数据:实施人员开发系统时使用的数据,包括物理模型的表与字段、ETL规则、集成关系等。
操作元数据:数据处理日志及运营情况数据,包括调度频度、访问记录等。
基于高质量的元数据,通过数据地图就能在企业内部实现方便的数据搜索。
无论结构化数据,还是非结构化数据,或者外部数据,最终都会通过元数据治理落地。华为
将元数据治理贯穿整个数据价值流,覆盖从数据产生、汇聚、加工到消费的全生命周期。
在企业的数字化运营中,元数据作用于整个价值流,在从数据源到数据消费的五个环节中都能充分体现元数据管理的价值。
1)数据消费侧:元数据能支持企业指标、报表的动态构建
2)数据服务侧:元数据支持数据服务的统一管理和运营,并实现利用元数据驱动IT敏捷开发。
3)数据主题侧:元数据统一管理分析模型,敏捷响应井喷式增长的数据分析需求,支持数据增值、数据变现。
4)数据湖侧:元数据能实现暗数据的透明化,增强数据活性,并能解决数据治理与IT落地脱节的问题。
5)数据源侧:元数据支撑业务管理规则有效落地,保障数据内容合格、合规。
元数据管理架构包括产生元数据、采集元数据、注册元数据和运维元数据
主数据在数据治理中的地位?
主数据是参与业务事件的主体或资源,是具有高业务价值的、跨流程和跨系统重复使用的数据。主数据与基础数据有一定的相似性, 都是在业务事件发生之前预先定义;但又与基础数据不同,主数据的取值不受限于预先定义的数据范围,而且主数据的记录的增加和减少一般不会影响流程和IT系统的变化。但是,主数据的错误可能导致成百上千的事务数据错误,因此主数据最重要的管理要求是确保同源多用和重点进行数据内容的校验。主数据管理策略:唯一性、联邦控制、单一数据源、【数据、流程、IT协同】、事前的数据质量策略。
主数据范围包括客户、产品、供应商、组织、人员主题, 每个主数据都有相应的架构、流程及管控组织来负责管理。鉴于主数据管理的重要性,对于每个重要的主数据,都会发布相应的管理规范,数据管家依据数据质量标准定期进行数据质量的度量与改进。 同时,对于主数据的集成消费按照如下管理框架进行管理
数字化转型与数据治理的关系?
面向数字化转型的扩展:对象数字化、过程数字化、规则数字化,并打造与之相应的能力。
1)对象数字化
对象数字化的目标是建立对象本体在数字世界的映射。这种映射不是传统意义上基于流程要求的少量数据的管理,而是管理某个对象的全量数据
在推行对象数字化后,就可以通过数据感知等手 段在设计的各个环节记录上述这些数据,并按项目编码进行更新,这样就可以向供应环节提供准确并且全量的数据。
2)过程数字化
过程数字化要实现业务活动线上化,并记录业务活动的执行或操作轨迹,一般通过观测数据来实现轨迹记录
3)规则数字化
规则数字化的目的是把复杂场景下的复杂规则用数字化手段进行管理。良好的规则数字化管理,应该能实现业务规则与IT应用解耦, 所有关键业务规则数据要实现可配置,能够根据业务的变化灵活调整。
华为数字化转型蓝图包括 5 项举措:
举措 1:实现“客户交互方式”的转变,
举措 2:实现“作战模式”的转变,
举措 3:实现“平台能力”提供方式的转变,
举措 4:实现“运营模式”的转变,
举措 5:云化、服务化的 IT 基础设施和 IT 应用,统一公司 IT 平台,同时构建智能服务。
其中,举措 4 涉及数据治理和数字化运营,是华为数字化转型的关键,承接了打破数据孤
岛、确保源头数据准确、促进数据共享、保障数据隐私与安全等目标。华为数字化转型对数
据治理的要求如下:
1)基于统一的数据管理规则,确保数据源头质量以及数据入湖,形成清洁、完整、一致的
数据湖,这是华为数字化转型的基础。
2)业务与数据双驱动,加强数据联接建设,并能够以数据服务方式,灵活满足业务自助式
的数据消费诉求。
3)针对汇聚的海量内外部数据,能够确保数据安全合规。
4)不断完善业务对象、过程与规则数字化,提升数据自动采集能力,减少人工录入。
华为数据工作建设的整体框架:
1)数据源:业务数字化是数据工作的前提,通过业务对象、规则与过程数字化,不断提升
数据质量,建立清洁、可靠的数据源。
2)数据湖:基于“统筹推动、以用促建”的建设策略,严格按六项标准,通过物理与虚拟两种
入湖方式,汇聚华为内部和外部的海量数据,形成清洁、完整、一致的数据湖。
3)数据主题联接(中台):通过五种数据联接方式,规划和需求双驱动,建立数据主题联接,
并通过服务支撑数据消费。
2)和 3)与数字底座相关
4)数据消费:对准数据消费场景,通过提供统一的数据分析平台,满足自助式数据消费需
求。
5)数据治理:为保障各业务领域数据工作的有序开展,需建立统一的数据治理能力,如数
据体系、数据分类、数据感知、数据质量、安全与隐私等。
传统数据集成方式的问题与解决? .
过去,数据获取大部分依赖于传统集成方式,即将数据从一个系统复制到另一个系统。随着企业规模的扩大,需要在几十个甚至上百个IT系统中进行数据集成,这样一来,随着系统集成的复杂度的提升,会带来一系列数据质量问题。
数据在不同的系统间不断“搬家”,数据的一致性很难得到保障,尤其是经过多次搬家后,源头数据往往和下游各系统之间的数据差异巨大。
同时,较复杂的数据集成还会导致企业管理成本上升,每个系统都存在数据的大量重复构建,这样一来,每当源头数据出现变化时, 整个业务流上的相关系统都要执行变更。
这种通过集成获取数据的方式不仅会导致当前的诸多问题,而且会给未来的业务发展带来更大的挑战。
解决:在这样的背景下,华为公司进行了大规模的数据服务建设,通过数据服务替代原有数据集成方式,解决了数据交互过程中的诸多问题,取得了数据获取效率和数据安全之间的平衡。
大数据治理的重要作用?
有效的大数据治理能够促进大数据服务创新和价值的创造
科学的大数据治理框架有助于提升组织的大数据管理和决策水平
有效的大数据治理能够产生高质量的数据,增强数据可信度,降低成本
有效的大数据治理有助于提高合规监管和安全控制,并降低成本
「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。




