
本文我们将探讨管理企业数据的挑战,并解释为什么数据质量管理在所有大型组织中都是如此重要的过程,并举例说明如果数据质量管理不善,会出现什么问题。本文结束时,给出了如何减轻不良数据风险的框架建议。
数据的生成速度比以往任何时候都要快——无论你如何预测未来的数据增长,现在的数据比以往任何时候都更重要。随着世界变得越来越数据驱动,智能企业可以通过更有效地利用数据获得竞争优势。这种巨大的数据爆炸给企业带来了更新的不同的挑战——存储大量数据是一件事,但只有当数据具有合适的质量并在合适的时间到达合适的人的时候,才会带来价值。将数据视为资产的思维模式有助于组织实现这一目标。
许多大型集团,如国企和集团企业正在开发各种业务管理系统,为其业务活动提供更有效和可持续的管理。管理数据也需要这样的心态。资产是一种有价值的资源,可以为组织带来利益,因此,对待数据也需要像对待实物资产一样对待。数据就像实物资产:
★对组织有很高的价值;
★可以通过促成更好的知情决策来提高业务绩效和安全性;
★有效的管理以符合法律或法规要求;
★需要全生命周期,从设计到采集,再到操作和更新;
★如果没有得到有效的管理,会增加业务成本,从而降低效率和盈利能力。
与实物资产不同,数据支持战略决策——如果数据是错误的,组织可能会做出错误的、潜在的昂贵的、可能产生长期影响的决策。此外,与物理资产不同的是,当数据资产被使用时,它不会被消耗或破坏——事实上,使用的数据越多,产生的价值就越大。
无论组织的哪个部门管理数据,都可以从将数据视为组织的资产中获益。这意味着要考虑驱动组织决策和活动的数据,而不仅仅是使用它的软件和应用程序。
“像对待资产一样对待数据”这句话被越来越频繁地使用,然而,资产有多种形式。那么,企业数据是什么类型的资产呢?

有些资产可能是大型的稳健的固定资产,一旦建成,就会存在几个世纪,比如胡佛大坝。数据从来没有像这样健壮过,可能需要考虑得更像沙堡——单个的沙粒代表数据项,沙堡是对组织有价值的信息。沙堡是一种脆弱的资产,很容易被风浪侵蚀。就像沙堡一样,数据和信息是脆弱的资产,很容易被人、系统和流程破坏。如果数据的状况得不到监测,质量得不到理解和保障,数据就有失去可信度的风险。
数据,就像组织中的其他资产一样,也有生命周期。因此,高质量数据的好处可以在从获取数据到最终归档和删除的各个周期或不同阶段中获取。

数据采集 | •指定需要的数据 •采集或购买数据 |
数据存储 | •存储在数据库中 |
访问使用 | •过程的输入和输出 •可用于决策支持工具 |
数据优化 | •纠正已发现的数据质量问题 •当数据需求改变时,收集额外的属性 |
数据存档 | •识别“实时”系统中不需要的历史数据 •将数据移动到离线数据存储 |
数据删除 | •永久删除对组织不再有价值的数据,且没有保留的法律要求 |
在整个数据生命周期中,如果没有有效地监视和维护,数据的质量可能会下降,或者变得完全冗余。这种数据质量的长期、隐形的下降是很难逆转的——数据备份只会把你带回一天、一周或一个月前的数据版本。然而,如果数据质量在许多个月或几年里下降,那么几乎不可能逆转。特别是如果依赖数据来做决定,这可能会给组织带来很高的成本和安全风险。
大型组织往往是复杂的,有许多重叠的过程、功能、系统和数据集。单个数据字段可能是多个过程的输入(和输出),因此,管理这些数据的质量更有挑战性,因为可能需要考虑更多的因素。在拥有大量历史系统和数据的组织中,这往往更为重要,因为系统在过去可能是多种方式开发的,“非商业”系统可能是由用户使用基于电子表格的工具开发的,这使情况进一步复杂化。
通常,人们认为“IT”部门对数据负责。然而,他们通常只关心无效的数据(不正确的格式)或数据丢失导致应用程序错误的数据。对于IT来说,有效但不准确的数据通常不会是一个“问题”(他们可能很难识别出不准确的数据),然而,业务用户是能够识别(并可能纠正)不准确数据的人。
有些人建议分配“数据所有者”,然而,正如我们看到的,由于许多过程可能会影响数据的质量,那么数据所有者可能处于一个相对无权的位置。也许更好的方法是确保流程所有者被识别,并且确保他们在流程中创建/更新的数据具有合适的质量。这将意味着,如果决定分配数据所有者,他们将对自己负责的数据有更多的控制权限。
在有多个历史系统和数据存储的组织中,要确保在正确的时间将正确的数据提供给正确的人并达到足够高的质量水平可能会更加困难。下表描述了管理数据最常见的挑战,我们将这些挑战分为人员、技术和过程三个方面。
我们很容易将数据看作不受人影响的资产类型,但是人的本性总会影响到业务流程。以下是人的行为如何影响企业数据的例子:
人的挑战 | 描述 | 问题 |
勤奋 | 人们可能有相互竞争的目标和压力,或者可能不理解数据的重要性 | 不要把时间和精力花在那些可能会丢失或糟糕的数据上 |
能力 | 缺乏支持数据管理任务的适当技能、知识和培训 | 不同组织的管理经验和能力各不相同。确保员工有适当的技能和培训来支持数据管理任务 |
创新者 | 有尝试和“改进”做事方式倾向的人 | 未经授权但用意良好的方法与已批准的方法的差异 |
本地数据存储 | 本地信息存储的员工 | 公司系统中的数据可能不能反映真实情况。其他员工可能不知道这些单独的数据集 |
不同的观点 | 一些数据属性可能是主观的,对于什么是正确的有不同的看法 | 糟糕的数据定义和糟糕的流程可能会导致有差异的数据属性 |
业务系统和技术将不可避免地为数据质量带来挑战。
人的挑战 | 描述 | 问题 |
多个系统 | 同一个数据输入可能存在于多个系统中 | 没有有效的主数据管理(MDM),就很难确定正确的数据值 |
复杂的数据结构 | 数据架构由软件工具决定 | 必须使用供应商自己的数据模型,这可能会使主数据管理更具挑战性 |
数据仓库 | 数据不能存储在企业系统,必须在单独的数据存储 | 很难把所有的数据汇集在一起。当需要进行数据更新时,跨数据存储的管理将面临更多挑战 |
事实掩盖了糟糕的数据 | 新软件可能比以前的版本更有吸引力,但数据可能仍然很差 | 用户也不会发现糟糕的数据。或者批评软件实现没有修复用户知道的数据错误 |
过程,就像数据本身一样,需要不断的监控和管理,以确保它们能达到目的,帮助数据质量达到同样的目的:
过程挑战 | 描述 | 问题 |
重叠过程 | 不同的流程可以使用和更新相同的数据条目 | 难以识别数据错误的原因。对数据所有者来说是一个挑战 |
过程理解 | 由于缺乏进修和新员工培训,新员工向老员工学习 | 缺乏对需要记录哪些数据和原因的认识导致不正确的处理结果 |
竞争目标 | 生产目标可能不会给完整的数据更新留出时间 | 短期生产率的提高是以牺牲长期数据退化为代价的 |
治理 | 缺乏对过程性能和变更控制的有效控制 | 数据错误没有及早发现。效率低下和机会没有得到解决。 |
以上内容可以概括为“有效但不准确的数据会导致对现实的错误感知。
数据质量有很多定义,一个定义是:正确的数据,在正确的时间提供给正确的用户,以做出正确的决定并实现正确的结果。虽然“完美”的数据质量可能是可取的,但现实是,组织并没有时间、资源或预算来拥有“完美”的数据。因此,如果组织承认他们的数据质量不是完美的,他们就可以寻求理解和描述他们的数据质量的本质。
例如,如果某人说“天气不好”,而不说明天气是太热/太冷,太湿/太干,太大风/太静止,这句话就没有什么意义了。类似地,如果有人说他们的数据质量很差,如果没有更好的方法来描述数据质量的本质,这可能很难解释。因此,使用不同的数据质量属性是很有用的。
对于构成数据质量属性的因素有许多不同的定义,但我们发现最有用的属性是:
■准确性
■完整性
■一致性
■有效性
■及时性
■唯一性

下面的儿童玩具积木的数据表格中的数据可以说明这些方面:

■准确性:记录反映真实对象的程度。例如,看上面的数据表,通过对实物(积木)的检查,我们可以验证045积木块是否是一个黄色的木块,尺寸L 60xW 29.5xH 28.6。如果真实的对象是一块绿积木块,或者与表中的对象有不同的尺寸,那么数据是不准确的;
■完整性:是否所有记录的项目及其属性都被填充的度量。例如,积木块010的属性不完整。同样地,如果玩具盒里有一个积木块017,那么积木的数据列表是不完整的;
■一致性:在多个数据存储中记录的实体在数据存储中是可比较的。例如,上面表中的积木块015的购买日期是01/09/2001,但是在采购系统中,交易日期可能是04/12/2001。
■有效性:数据符合指定的格式。例如,购买日期字段包含许多不同的日期格式——哪一种是有效的格式?
■及时性:数据是最新的,用户可以及时获得数据。例如,积木块045的条目可能是在购买日期2个月后添加的,这可能比所需的更新频率要慢。
■唯一性:每个物理实体都有一个单独的表示形式。例如,在上面的表中,没有条目出现两次,因此很可能所有条目都是唯一的。
回想一下2.1节中的类比,考虑所有这些数据(沙粒)如何根据数据质量属性具有不同的质量级别。了解数据质量的本质有助于降低数据被错误使用的可能性,并可以让我们客观地考虑想要解决的数据质量问题。
一般来说,如果我们能提高数据的质量,就会有更好的数据来支持决策。更好的决策会带来更好的结果,反过来也会有更好的数据质量。如图所示,这将成为一个良性循环,更好的数据最终会带来更好的业务绩效。

数据质量是免费的。这不是礼物,但是免费的。需要花钱的是质量不高的数据——所有涉及第一次数据质量不正确的行为以及所有纠正这些数据质量问题的行为”(摘自Philip B. Crosby的一段引文)。
上面的引文说明了提高数据质量的好处是消除因糟糕数据而产生的不必要的成本。更高质量的数据还可以为组织提供新的商业机会和模式。
因素 | 数据质量差 | 数据质量好 |
数据应用 | 在使用数据以使其符合目的之前,核实和“清理”数据的资源和成本;员工更有可能使用和维护本地数据源,从而降低组织的数据质量 | 相信数据可以“原样”使用,全机构员工使用业务系统。 |
组织决策 | 糟糕的数据可能会对业务状况产生错误的看法,导致糟糕的决策 | 在战略、战术和操作层面上实现最佳决策,支持识别和开发新产品和服务 |
过程结果 | 结果不佳,缺乏可见度,由于服务结果差和组织声誉差而引起的顾客感知差 | 最优过程的结果,提高客户感知 |
企业指标 | 在理解性能之前,需要努力消除数据中的错误,并可能对来自多个源的数据进行操作。组织的整体绩效难以确定 | 易于快速生成准确和可信的指标报告,组织绩效很容易理解 |
产品和服务的开发 | 由于难以理解当前的表现和趋势,因此很难确定未来可行的机会 | 可信的数据使识别和利用新机会变得更容易 |
糟糕的数据质量可能会产生负面影响,包括财务、声誉等,这些影响有时非常重要。下面是一些真实的例子。
(1)根据英国国家审计署(National Audit Office)的数据,超过四分之三的公务员养老金记录(125万份)是不完整或不正确的,该机构表示,这给许多领取养老金的人带来了困难和痛苦。
(2)英国国家医疗服务体系采取了一个不寻常的步骤,关闭了一家英国医院的儿童心脏外科部门,因为他们提交的数据显示,在该部门死亡的儿童和婴儿是英国其他任何地方的两倍。英国媒体陷入了狂热;人们不假思索地讲述了他们在医院的治疗、被忽视和濒死经历。11天后,该设备重新开放。事实证明,最终死亡人数并不是原来的两倍——医院提交给NHS的数据既延迟又不完整;事实上,35%的数据完全丢失了,结果是灾难性的。糟糕的数据质量导致在NHS系统上重复和混淆的病人输入。换句话说,一个病人有多个NHS号码,或者同一个NHS号码分配给多个病人。这样做的结果可能会导致不正确和混乱的医疗记录,错过筛查请求,甚至取消手术。
(3)据报道,伦敦警察厅(Metropolitan Police)因在3年内查抄了900个错误地址而不得不支付“大约100万英镑”的罚款。
(4)在德国,国有化房地产抵押贷款的内部会计错误,德国国债被高估了550亿欧元。这对德国来说是雪上加霜,因为他们此前曾批评希腊政府会计的准确性。在一个时代两年来,德国政府一直在为一项60亿欧元的减税计划争论不休,但德国人很难想象,他们的政府竟突然间提高了550亿欧元.这一错误被发现并修正后的净效应是,德国的债务占GDP的比例将比之前认为的低2.6%
(5)美国邮政服务(USPS)在2013年估计大约有68亿封邮件无法按地址投递。事实上USPS本身花费了15亿美元来处理邮件(例如,转发,返回它,处理它,等等),并假定一个不切实际的较低的平均成本为0.50美元/邮件,这可能会导致每年34亿美元浪费由于不正确的地址数据
上面的例子都提供了数据质量差的后果的例子。大多数组织也会有自己的例子。
因此,提高数据质量的好处应该是消除这些负面影响。
虽然在一个大型、复杂、动态的组织中改善数据质量管理方式的过程似乎令人生畏,但有一些公认的方法定义了可以采用的良好实践方法。ISO8000是一套关于数据质量的标准。本标准的第150部分描述了一个基于如下9框模型的数据质量管理框架。

在现代世界,数据和任何实物资产一样是组织的一种资产,如果数据要保持其对企业的价值,就需要监控和管理。在管理数据时存在许多复杂性,而且这些复杂性只会随着时间的推移而增加;如果数据质量管理不善,就会有潜在的风险,但做好它的好处是显而易见的,甚至是关键的。ISO8000-150模型提供了一个数据质量管理参考框架,使企业能够实现本文描述的好处和减少风险。

(欢迎大家加入知识星球获取更多资讯。)

扫描二维码关注我们

我们的使命:普及数据管理知识、发展数据管理工程师行业、改变中国企业数据管理现状、提高企业数据资产管理能力、推动企业走进大数据时代。
我们的愿景:凝聚行业力量、打造数据工程师全链条平台,培养不同层级数据工程师人才、构建数据工程师生态圈。
我们的价值观:分享数据管理知识,持续提升数据管理和运营能力。

了解更多精彩内容

长按,识别二维码,关注我们吧!
数据工程师
微信号:sjgcs
构建数据工程师生态圈





