作者简介
符山
北京中软国际信息技术有限公司系统与咨询部大数据解决方案室高级顾问,主要从事数字化转型、数据品平台和治理相关的技术与理论研究、战略规划等工作。
邓正保
北京中软国际信息技术有限公司系统与咨询部大数据解决方案室总经理,主要从事政企数字化平台、治理以及数据应用建设的咨询与实施等工作。
于鹏
北京中软国际信息技术有限公司系统与咨询部大数据解决方案室专家,主要从事企业级数据架构和数据治理规划咨询等工作。
论文引用格式:
符山, 邓正保, 于鹏. 论数据质量的“真实性”与相关融合计算策略[J]. 信息通信技术与政策, 2022,48(2):8-15.
论数据质量的“真实性”与相关融合计算策略
符山 邓正保 于鹏
(北京中软国际信息技术有限公司,北京 100121)
摘要:数据成为数字化时代政府和企业的要素资产,数据质量是数据资产建设的核心工作。对数据质量的概念和传统“六维度”方法论进行了系统性审视,并结合实际案例阐述数字化时代应以“业务真实性”为数据质量工作的主线,并提出建设真实可信数据资产的融合计算策略。
关键词:数据治理;数据资产管理;数据质量;数据处理
中图分类号:TP309.2 文献标志码:A
引用格式:符山, 邓正保, 于鹏. 论数据质量的“真实性”与相关融合计算策略[J]. 信息通信技术与政策, 2022,48(2):8-15.
DOI:10.12267/j.issn.2096-5931.2022.2.002
0 引言
在数字化时代,数据成为生产要素和企业的核心资产。数据质量是政府和企业组织获取、开发、保有和提升数据资产过程中最重要的工作,提升数据质量也是数据治理最主要的目标之一。当前业界大多沿用国际数据管理协会(DAMA)提出的数据质量维度“六性”或其变形版本,但这一传统的数据质量观和质量改进方法在过去的快速普及过程中有技术化、形式化的趋势。而在当今复杂多变的大数据环境中,数字化转型组织打造自身数据要素资产,在数据质量方面应当更重视数据“真实可信”的第一性要求。本文尝试从数据质量概念解读入手,梳理数据质量维度的各种框架,澄清数据质量的内涵,并针对数据的“真实性”提出一种数据质量的提升策略。
1 数字化时代数据质量的“第一性”
1.1 数据质量概念从内涵看具有一定的主观性
“数据质量”一词已经广泛地被接收和使用,但业界实际上并没有一个统一的定义。DAMA的《数据管理知识手册》(DMBOK)中将高质量数据定义为“满足数据消费者预期和需求”的数据[1]。中国信息通信研究院发布的《数据资产管理白皮书》认为[2],数据质量“指在特定的业务环境下,数据满足业务运行、管理与决策的程度”。Gartner在其《数据质量解决方案魔力象限》报告中定义数据质量保证(Data Quality Assurance)为“确保数据‘适用于预期用途’(Fit for Purpose)并在一定业务场景下受到用户的信任”[3]。
尽管上述不同机构对于数据质量有着不同的表述,但显而易见,“适用”和“满足要求”程度是各方对数据质量的共识。这一理解带来了两方面的结果:一是由于存在着繁多的应用场景、目的和主体,在内涵上描述什么是数据质量实际上变得十分困难;二是从外延,也就是质量特征上全面定义数据质量也几乎成为不可能的任务。由于数据使用者往往需要参与数据质量规则的制定,而他们具有不同学科、行业和语言文化背景,采用不同分类方法、术语习惯,数据质量所覆盖的范围可以有非常大的差异。从这一角度而言,数据质量是一种依赖于具体场景和数据使用者的“主观性”概念。
1.2 数据质量的首要条件是客观地反映现实
以使用者为主视角的数据质量观念是由这一概念早期的研究者设定的。在1996年发表的一篇被认为是数据质量的奠基性论文中,WANG等[5]基于“适合使用”这一从消费者出发的产品质量观提出数据质量是“适合数据消费者使用的数据(程度)”。在国际标准ISO9001:2015中[6],定义数据“质量”为“实体的若干固有特性满足要求的程度”,从中可见数据质量对产品质量概念的承袭。
数据业界从“主观”视角发展出了完整性、唯一性、可获得性甚至安全性等诸多质量特征,或称为质量维度。尽管准确性在主流的数据质量理论体系中仅仅是众多特性之一,但事实上保证数据真实性是数据治理的本质目标,数据质量的最基本特征就是数据的准确性。作为数据质量研究的开山之作,文献[4]以“不止是准确性:数据质量对于数据消费者的含义”为标题,表明研究者们的初衷并非弱化数据准确性,而是提出信息技术人员仅从“准确无误”的角度看待数据质量是不够的,并从消费者对于数据质量的不同认知提出一个多维度的特征框架。
由于准确性一词的含义较为宽泛,在通行的数据质量理论体系中已将其分解为多个质量特征,狭义的“准确性”仅是其中之一。为了避免歧义,同时也更贴近于一般性理解,在本文中使用“真实性”一词代替准确性,指数据对业务实际状况的还原程度,即某一业务实体、过程或规则在指定时空的真实状态。
数据质量以真实为第一要求,这也是由数据的要素特殊性决定的。数据是一种特殊的生产要素,是与物理世界平行的电子虚拟物。因此,在质量方面除了和实体产品或服务一样需要满足使用者需求之外,数据本身首先需要准确反映物理物体或事件的真实状态,而这一特征并不存在于产品质量概念的范畴当中。
1.3 打造真实可信的数据资产是数字化转型的基本功
当今,数字化成为政府和企业组织发展的必由之路,数字化转型的底层逻辑更加要求数据的真实性。数字化是以数据为核心赋能业务优化和转型的过程,数字化能够提升业务的基础性、根本性逻辑则在于以数据全面、忠实地还原业务,继而能够应用计算机的强大算力实现更精细化的管理、更自动化的生产,以及跨部门、跨组织的更高水平协同。在上述过程中,“全面”就是要求打破数据孤岛、汇集全量数据,而“忠实”则要求数据能够准确地反映业务的真实状况。如果把“全面”也看作是真实的一部分,可以笼统地说数字化时代对于数据质量的“第一性”要求就是其真实性。高质量数据当然还是要满足数据使用者的需求,但在这之前,数据首先要真实可信。
对数据真实无误的要求并非新内容,但数字化时代复杂多变的大数据环境给这一要求带来了新的挑战。大数据具有3个基础特性(3V),即海量(Volume)、多样(Variety)和高速(Velocity)。这3者都在一定程度上使得把握数据的真实性比传统企业信息化时代更为困难。尤其是由于存在同一实体或同一事件由多个不同系统、以不同视角或方法记录、计算和表示的情况,在多个系统、多个数据源中确定哪一项或哪一些数据更真实地反映了业务实际状况就变得异常复杂。数据由分散各异的状态变为统一高质量的数据资产,数据的打通共享、数据中台的建设等目标的达成,其前提必然是保障数据的真实性,打造真实可信的数据资产是数字化转型的基本功。
经过几十年的发展,业界对于数据质量的认识越来越丰富、相关工具也日益成熟,但也出现了数据质量概念泛化和技术化、形式化的迹象。当前业界的数据质量特征框架和管理方法通常将数据质量划分为若干个可测量的技术维度,但很少从业务真实性的角度统一考量数据的真实性;对于同一数据多个数据源情况下发生冲突的情况,却并不由数据质量这一职能负责,而是划入数据集成的范畴,这显然无助于在整体上更高效地解决数据质量问题。另外,现有的数据真值研究发现,大多集中于互联网上真假信息混杂的场景[7-9]或关于机器数据的动态确认技术[10],对于面向政企业务(to B和to G)的数据真实性问题缺乏有针对性的研究和解决方案。
本文将重新审视当前业界各主流数据质量框架中的问题,并特别讨论其中数据真实性的内涵。
2 传统的数据质量观需要完善和拓展
2.1 传统数据质量观之“六性”
在DAMA的定义中,数据质量即指高质量数据的相关特征,也指用于衡量或改进数据质量的过程。针对组织中存在的数据,如何评价数据质量的高低?在实践中,通常用一系列数据质量评估维度来衡量数据的质量。当前业界比较通行的质量评估维度大多源自DAMA UK 2013年一份白皮书中提到的以下6个核心特征[1],也被称“六性”。
(1)完整性:存储数据量与潜在数据量的百分比。
(2)唯一性:在满足对象识别的基础上,不应存在多个重复的实体实例。
(3)及时性:数据反映所关注时点现实的程度。
(4)有效性:数据符合其定义的语法。
(5)准确性:数据正确描述所描述的“真实世界”对象或事件的程度。
(6)一致性:比较事物多种表述与定义的差异。
以上6种质量评估维度,大致可以分为数据是否“足够”(完整性)、是否“合规”(一致性、有效性、唯一性、准确性)以及是否“真实”(准确性、及时性)。通过这几个方面的评估,可以对组织中的数据质量做出基本的判断,发现普遍存在数据质量问题。通过对有问题的数据进行根因分析,提出解决方案,完成质量问题整改,最终提升数据的使用价值。
2.2 传统数据质量观的误区和问题
2.2.1 数据质量并非仅有“六性”
本文提到的数据质量评估“六性”,由于满足了对数据质量的基本诉求,因此在数据治理的实践中被普遍采用。在不同的“六性”版本中,有的特征被冠以不同的名字,例如以合理性替代有效性;有的会以“相关性”“可获得性”等替换其中某一个或两个特性。但数据质量的评估维度不仅仅只有这6个。事实上,DAMA UK 2013白皮书中也描述了可用性、灵活性、置信度等其他对质量有影响的特性,而在DMBOK和其他国外研究文献中也提及了很多其他的数据质量评估框架。
(1)Strong-Wang框架:侧重于数据消费者对数据的看法,描述了数据质量的内在、场景、表达、访问四大类15个指标。
(2)Thomas Redman框架:基于数据结构、侧重元数据管理,将一个数据项定义为可表示的三元组,在数据模型、数据值和数据表达中,定义了二十多个维度。
(3)Larry English框架:是一套分为固有特征和实用特征两类的综合指标,前者侧重对数据本身的质量评估,和业界普遍采用的评估维度比较相似,而后者主要侧重在数据使用方面的质量评估。
(4)DAMA NL框架:《Dictionary of Dimensions of Data Quality》(DDQ)[11]提出了分为13类、多达60个指标的数据质量评估体系。
(5)中国国标:《GB/T 36344-2018 信息技术 数据质量评价指标》[12]相比DAMA的“六性”增加了对数据可访问性的评估,对数据唯一性的评估则归入准确性评估里面。
事实上,在数据质量方面的评估框架其实远远不止于以上几种,文献[6]总结了四大类、17种国内外的数据质量评估和改进的框架。当前业界普遍传播的“六性”或其变形是一种简化了的数据质量观,对于数据质量工作的快速落地是有帮助的,但同时应该开放思想,认识到在基础六性之外数据质量还有更为丰富的内涵。
2.2.2 数据质量在实践中存在行业差异
尽管存在着上述国家标准和DAMA的“推荐标准”,各行业的数据治理实践中在数据质量评估维度的选择方面仍存在着一定的差异。在金融领域,中国银行保险监督管理委员会在2018年颁布了《银行业金融机构数据治理指引》[13],要求银行建立数据质量控制机制,覆盖数据全生命周期,对数据质量持续监测、分析、反馈和纠正,确保数据的真实性、准确性、连续性、完整性和及时性。虽然这一行业标准中对于数据质量各评估维度没有单独的定义,但可以看出银行和金融机构监管方所要求的数据真实性和准确性可以归入DAMA的准确性,没有明确提及数据一致性、唯一性和有效性,但增加了连续性要求。
电力行业的数据在业务统计、故障检修、发电能力评估、用户体验、生产安全等方面正在发挥越来越重要的作用,国家电网有限公司大数据中心结合电网业务和公司自身情况,从企业标准层面统一设计了数据质量评价体系,并在其企业标准《电网数据质量核查评价》中定义了包括规范性、完整性、准确性、一致性、时效性、可访问性的数据质量评价指标框架,基本沿用了国家标准中对数据质量特征的定义方法。
《数据质量的历史沿革和发展趋势》[14]在对比烟草、气象、军事、医疗、交通等行业数据质量维度的基础上认为各行业对数据质量要求不尽相同,而准确性、完整性、一致性、可获得性和及时性的出现频率较高(见表1)。综合表1对各行业数据质量特征的对比可以看到,国内对企业级数据环境中的数据质量评估尚未形成一个较为统一的认识。对数据质量理解的多样性,有其学术流派和行业差异的合理性,但无疑也在一定程度上会影响数据质量作为一种专业文化的可沟通性,并增加了制定统一普适方法论的难度。
表1 DAMA、GB/T以及各行业数据质量特征的横向对比



本文刊于《信息通信技术与政策》2022年 第2期

主办:中国信息通信研究院
《信息通信技术与政策》官网开通啦!
为进一步提高期刊信息化建设水平,为广大学者提供更优质的服务,我刊于2020年11月18日起正式推出官方网站,现已进入网站试运行阶段。我们将以更专业的态度、更丰富的内容、更权威的报道,继续提供有前瞻性、指导性、实用性的优秀文稿,为建设网络强国和制造强国作出更大贡献!

推荐阅读
你“在看”我吗?









