4、安全性和可访问性之间的权衡:数据的可访问性与数据的安全性、隐私和保密性本质上是矛盾的。对
数据消费者而言,必须能够访问高质量的数据;同时,出于保护隐私、保密和安全性的考量,必须对访
问设置权限。因此,高质量的数据可访问性与数据的安全性之间就产生了冲突。
5、跨学科的数据编码:由于缺乏不同专业领域的数据编码互相映射或缺乏可解释性,因此对于不同专业
领域的编码总是难以辨识和理解,这也导致了数据采集的不全面和检索不到相应的信息。
6、复杂数据的表示方法:对于文本和图像数据等数据,其可分析性很差且没有定义属性,不能进行汇
总、处理数据以及判断变化的趋势,为数据的处理带来不便。
7、数据量过大:过大数据量会使数据消费者难以在合理的时间内获得所需的数据。
8、输入规则过于严苛或被忽视:过于严苛的数据库编写规则或不必要的数据输入规则引入,都可能会导
致某些重要数据的丢失,或者产生错误的数据。这是因为数据采集者可能为了遵守这些规则,随意改变
某个或某些字段的值,或者由于某些值无法输入对应的字段而丢弃整条记录。
9、数据需求的改变:当数据消费者的任务和组织环境发生变化时,所谓“有用的”数据也随之改变,只有
满足数据消费者需求的数据才是高质量的数据。
10、分布式异构系统:对于分布式、异构的数据系统,缺乏适当的整合机制会导致其内部出现数据定
义、格式、规则和值的不一致性。跨系统的查询和汇总数据往往需要太多的时间,降低了数据的可访问
性。
在对这十大类根源问题进行分析后,可以制订相应的干预方案。比如针对数据多样来源,我们可以制定
一些规则,只保留一个数据源、只允许更新这个数据源的数据,并只从这个数据源向其他副本同步数
据,如设定企业标准并建立好映射,来辨别同义词和同形异义词等。
数据质量管理体系介绍
在归纳了数据质量问题产生的原因并判断发现有效的干预措施后,为了系统性、持续有效的进行数据质
量提升,我们设计了这套数据质量管理体系。
这个体系包括五大部分,中间最上层的是数据质量管理战略,包括数据质量管理的愿景和原则。在实践
中我们发现,获得企业高层对数据质量提升项目的认可和支持是施行有效质量管理最重要的一个挑战,
规划一个与企业战略一致、并且清晰可行的数据管理战略,是数据质量提升的关键起点。图中左边是数
据质量管理体系,包括数据质量管理的组织架构,角色、职责、岗位和流程机制等。管理体系的建立要
确保数据质量政策及其流程与企业战略、经营方针和业务流程保持一致,并围绕数据质量进行角色及其
职责的划分;同时还要积极主动地调整管理策略以应对数据需求的变化,把保持数据质量成果的工作纳
入业务日程,营造一个有利于学习和鼓励创新数据质量活动的环境。图中右边是需要对接数据安全管理
体系,就像前面提到的那样,数据安全和数据质量中的可访问性在本质上是矛盾的,因此需要创建一种
机制来找到两者之间的平衡。
图中间是数据质量管理过程和数据质量管理工具。数据质量管理过程从数据使用出发,首先根据业务痛
点和数据质量问题的*值分析,经过对数据剖析、追踪根本并制定体系化的解决方案并实施后,将其放入
日常的运营监控中,把数据质量切实提升并积极的保持长效。
数据质量管理工具是来支持更快更有效实现数据管理过程的手段,它承接了数据标准管理和元数据管理
两个模块的管理成果,通过企业内的数据标准和具体业务规则来设计制定数据质量规则,结合元数据管
理对要进行评测的数据集进行抽样抽取,并把数据质量规则映射到对应的元数据上。通过运行数据质量
检查作业,可以定期或不定期的得到数据质量评估报告,并不断收集数据质量问题,为数据质量的管理
提供决策支持。数据质量管理过程和数据质量管理工具两个部分是紧密有序的工作组合:管理过程层往
管理工具层输出具体的质量规则制定方向、原则甚至具体规则,管理工具层可以往管理过程层输出具体
质量问题的预警以及实体与统计类的描述,来支撑更进一步的数据质量PDCA闭环提升。
评论