暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

生成数据血缘的八大好处

erwin数据建模与治理 2022-10-14
869


        我们认识到数据沿袭的好处很重要。

        随着公司数据治理计划的成熟,已达成一致的数据策略的数据存量迅速增长。其中包括数据质量保证、合规性和数据透明化的指导方针,以及其他信息利用举措。

        在将其定义的数据策略转换为已实施的流程和程序方面面临挑战的组织,开始寻找可以补充组织数据策略实施和实践方式的工具和技术。

        其中一种技术,数据血缘,作为数据治理技术架构的核心运营业务组件,正日益突出。数据血缘包括流程和技术,以提供数据在整个企业中流动方式的全方位可视性。

        对于数据驱动的企业来说,数据血缘的好处是显著的。数据血缘工具用于调查、记录并使数据管理员能够查询和可视化信息单元的端到端的数据流,这些信息单元从其起源点经过一系列转换和处理阶段,一直到其最终目的地。

        数据血缘的好处

        数据管理人员被数据血缘所吸引,因为数据血缘的好处有助于许多不同的治理实践,包括:

        1.智能运维

        数据血缘的核心是捕获组织中快速增长的数据管道数量的映射。可视化信息流景观可以深入了解数据消费和使用的“统计数据”,回答诸如“哪些数据源为最多的下游源提供数据”或“哪些数据分析员使用从特定数据源接收的数据”之类的问题。“收集有关数据环境的信息,可以更好地为数据管理员提供执行治理策略的定位。

        2.业务术语的一致性

        最令人困惑的数据治理挑战之一是理解数据管理上下文中业务术语的语义。由于应用程序开发传统上是在每个业务功能中独立进行的,因此在不同的数据模型中使用相同(或类似)的术语,即使设计者没有花时间来调整定义和含义。数据血缘允许数据管理员查找常见的业务术语,审查其定义,并确定术语使用方式的不一致之处。

        3.数据事件根本原因分析

        长期以来,人们一直认为,当数据使用者发现数据错误时,该错误很可能是在处理的早期阶段引入环境的。然而,如果没有一个“路线图”来指示数据处理的处理阶段,就很难推测错误实际上是在哪里引入的。但是,通过使用数据血缘,数据管理员可以在信息流中插入验证探针,以验证数据值并确定数据管道中发生错误的阶段。

      长期以来,人们一直认为,当数据使用者发现数据错误时,该错误很可能是在处理的早期阶段引入环境的。然而,如果没有一个“路线图”来指示数据处理的处理阶段,就很难推测错误实际上是在哪里引入的。但是,通过使用数据沿袭,数据管理员可以在信息流中插入验证探针,以验证数据值并确定数据管道中发生错误的阶段。      

        4.数据质量修复评估

        根本原因分析只是数据质量过程的第一部分。一旦数据管理员确定了引入数据缺陷的位置,下一步就是确定错误发生的原因。同样,使用数据血缘映射,管理员可以通过信息流进行追溯,以检查应用于数据的标准化和转换,验证转换是否正确执行,或者识别一个(或多个)执行错误的转换,从而导致数据缺陷。

        5.影响分析

        企业总是会发生变化;外部强加的需求(如合规性)不断发展,内部业务指令可能会影响用户的期望,接收的数据源模型可能会意外更改。当环境发生变化时,评估对企业应用程序环境的影响是很有价值的。在数据预期发生变化的情况下,数据血缘提供了一种方法来确定哪些下游应用程序和流程受此变化的影响,并有助于规划应用程序更新。

        6.性能考核

        数据血缘不仅提供了数据管道映射的集合,还允许识别潜在的性能瓶颈。具有许多传入路径的数据管道阶段是候选瓶颈。使用一组数据沿袭映射,性能分析人员可以跨不同的管道分析执行时间,并重新分配处理以消除瓶颈。

        7.合规性

        数据策略可以通过业务规则的规范来实现。通过在数据管道中嵌入业务规则验证控件,可以使用数据血缘简化对这些业务规则的遵从性。当存在不符合的数据实例时,这些控件可以生成警报。

        8.数据管道的可审计性

        在许多情况下,合规性是强制实施一组定义的数据策略以及证明整个流程符合要求的能力的组合。数据血缘提供了对数据管道和信息流的可视性,可以对其进行审核,从而支持合规流程。

        评估企业数据血缘工具

        虽然数据血缘的好处显而易见,但拥有复杂数据管道和数据流的大型组织在采用记录企业数据管道的技术方面确实面临挑战。其中包括:

            调查企业 – 收集有关数据管道的来源、流和配置的信息。

            维护 – 配置一种方法来维护数据管道的最新视图。

            可交付性 – 提供一种方法,让数据使用者能够看到血缘图。

            可持续性 – 确保数据血缘映射生成过程的可持续性。

            生成最新数据血缘映射的集合,以便不同的数据使用者轻松查看,取决于能否解决这些挑战。在考虑数据衍生工具时,在评估这些工具能够满足数据治理需求的程度时,请记住这些问题。

            erwin Data Intelligence(erwin DI)可以帮助组织自动化其数据沿袭计划。


文章转载自erwin数据建模与治理,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论