暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
企业数据质量提升实践的几个关键点.pdf
32
5页
0次
2024-07-11
10墨值下载
820日,由工信部国家工业信息安全发展研究中心主办的信息技术大讲堂之DCMM系列培训会顺利举
行。星环科技咨询服务部的数据治理咨询团队就企业数据质量管理专题进行了专项分享,对大数据时
代下数据质量问题的表象与根因分析、数据质量管理体系的构建思路、数据管理过程和数据管理工具的
实践等热点方向进行了经验分享。本文就其中的精彩内容进行整理分享。
大数据是数字时代的新型战略资源,也是服务创新、驱动发展的重要抓手。由于大数据具有分散存储+
合使用、分析处理时间及空间复杂度高、数据整体及其关系协同呈现高价值的三大特征,因此数据质量
往往难以保障。但数据质量对于使用、用好大数据起到决定性的作用。质量低不仅会降低决策质量,难
以获得高质量的产品和长足的发展,更可能带来难以估量的灾难性损失。本文先从数据质量的概念入
手,通过对常见数据质量问题的归纳总结与根源分析,展开对数据质量管理体系的构建思路介绍,然后
着重讲解了评价数据质量高低的方法,以及如何用数据质量管理工具对数据质量问题进行有效监控和分
析,最后对数据质量管理工作未来的挑战和威胁进行展望。
数据质量的概念
在企业实际使用和管理数据时,尤其在涉及跨业务的流程数据拉通或者尝试跨系统、跨组织的数据交互
时,企业中的多个部门可能都会对数据质量提出质疑,但业务部门和信息部门却分别有不同的侧重点。
比如业务人员最多的对数据质量抱怨可能会是这数据很难用,各种坑这数据我用不了,没权限,甚
至直接默默地不再使用数据而去寻找其他的解决办法;而IT人员面对扑面而来抱怨也是一肚子苦水,内
心默念我也无能为力,这些问题我解决不了。尤其是企业建设信息系统越多,拥有的业务功能的数据
越完整,却不能顺利的通过数据来支撑和驱动业务时,内部更容易产生挫败情绪。
质量问题的归纳与分析
基于实践中遇到的大量而广泛的数据质量问题,我们从人员、流程、技术和信息等多个方面总结了引起
数据质量问题的十个常见原因。
1、数据的多源性:当同一个数据有多个数据来源时,很可能会导致不同的值,这在系统设计和业务流程
设计时都可能会引起这一问题。但是,很多企业往往会忽视数据多源性这个根源,因为企业内部的多个
数据生产流程绝大部分时间依旧是独立运作,持续地产生着不同的数据值,导致这个根源很难被直接察
觉。
2、数据生成过程中的主观判断:如果在数据的生成过程中包含主观判断结果,那么会导致数据中含有主
观偏见因素。通常认为存储在数据库中的数据都是客观事实,却忽略了采集这些事实的过程可能存在
主观的判断。
3、计算资源有限:缺乏足够的计算资源会限制相关数据的可访问性。
4、安全性和可访问性之间的权衡:数据的可访问性与数据的安全性、隐私和保密性本质上是矛盾的。对
数据消费者而言,必须能够访问高质量的数据;同时,出于保护隐私、保密和安全性的考量,必须对访
问设置权限。因此,高质量的数据可访问性与数据的安全性之间就产生了冲突。
5、跨学科的数据编码:由于缺乏不同专业领域的数据编码互相映射或缺乏可解释性,因此对于不同专业
领域的编码总是难以辨识和理解,这也导致了数据采集的不全面和检索不到相应的信息。
6、复杂数据的表示方法:对于文本和图像数据等数据,其可分析性很差且没有定义属性,不能进行汇
总、处理数据以及判断变化的趋势,为数据的处理带来不便。
7、数据量过大:过大数据量会使数据消费者难以在合理的时间内获得所需的数据。
8、输入规则过于严苛或被忽视:过于严苛的数据库编写规则或不必要的数据输入规则引入,都可能会导
致某些重要数据的丢失,或者产生错误的数据。这是因为数据采集者可能为了遵守这些规则,随意改变
某个或某些字段的值,或者由于某些值无法输入对应的字段而丢弃整条记录。
9、数据需求的改变:当数据消费者的任务和组织环境发生变化时,所谓有用的数据也随之改变,只有
满足数据消费者需求的数据才是高质量的数据。
10、分布式异构系统:对于分布式、异构的数据系统,缺乏适当的整合机制会导致其内部出现数据定
义、格式、规则和值的不一致性。跨系统的查询和汇总数据往往需要太多的时间,降低了数据的可访问
性。
在对这十大类根源问题进行分析后,可以制订相应的干预方案。比如针对数据多样来源,我们可以制定
一些规则,只保留一个数据源、只允许更新这个数据源的数据,并只从这个数据源向其他副本同步数
据,如设定企业标准并建立好映射,来辨别同义词和同形异义词等。
数据质量管理体系介绍
在归纳了数据质量问题产生的原因并判断发现有效的干预措施后,为了系统性、持续有效的进行数据质
量提升,我们设计了这套数据质量管理体系。
这个体系包括五大部分,中间最上层的是数据质量管理战略,包括数据质量管理的愿景和原则。在实践
中我们发现,获得企业高层对数据质量提升项目的认可和支持是施行有效质量管理最重要的一个挑战,
规划一个与企业战略一致、并且清晰可行的数据管理战略,是数据质量提升的关键起点。图中左边是数
据质量管理体系,包括数据质量管理的组织架构,角色、职责、岗位和流程机制等。管理体系的建立要
确保数据质量政策及其流程与企业战略、经营方针和业务流程保持一致,并围绕数据质量进行角色及其
职责的划分;同时还要积极主动地调整管理策略以应对数据需求的变化,把保持数据质量成果的工作纳
入业务日程,营造一个有利于学习和鼓励创新数据质量活动的环境。图中右边是需要对接数据安全管理
体系,就像前面提到的那样,数据安全和数据质量中的可访问性在本质上是矛盾的,因此需要创建一种
机制来找到两者之间的平衡。
图中间是数据质量管理过程和数据质量管理工具。数据质量管理过程从数据使用出发,首先根据业务痛
点和数据质量问题的*值分析,经过对数据剖析、追踪根本并制定体系化的解决方案并实施后,将其放入
日常的运营监控中,把数据质量切实提升并积极的保持长效。
数据质量管理工具是来支持更快更有效实现数据管理过程的手段,它承接了数据标准管理和元数据管理
两个模块的管理成果,通过企业内的数据标准和具体业务规则来设计制定数据质量规则,结合元数据管
理对要进行评测的数据集进行抽样抽取,并把数据质量规则映射到对应的元数据上。通过运行数据质量
检查作业,可以定期或不定期的得到数据质量评估报告,并不断收集数据质量问题,为数据质量的管理
提供决策支持。数据质量管理过程和数据质量管理工具两个部分是紧密有序的工作组合:管理过程层往
管理工具层输出具体的质量规则制定方向、原则甚至具体规则,管理工具层可以往管理过程层输出具体
质量问题的预警以及实体与统计类的描述,来支撑更进一步的数据质量PDCA闭环提升。
of 5
10墨值下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜