暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据质量之指标构建与实践

原创 seali2008 2022-07-01
408

 根据大数据领域的大数据处理平台的特点以及数据处理流程、数据来源、用户使用数据以及数据模型等多方面影响因素,分别从数据自身质量、数据处理过程的质量和数据效能三个方面,提出了评价指标框架,对全生命周期的数据质量进行评估和度量。根据指标是否具有对所有处理环节的数据质量进行评价的共通性,分为通用指标和特定指标两大类。

    通用指标指的是与数据的具体形态、处理的具体环节无关的评价指标、评价的是数据和数据处理过程本身的质量。而特定指标则和数据的形态格式与数据处理的具体环节紧密相关,在不同的实际环境中,会根据使用的数据接口、数据处理技术和功能的不同有不同的评价指标。

    根据能否通过采集到的信息直接进行计算,又可以分为基础指标和综合指标两大类。基础指标是通过采集信息就可以通过简单的计算得出,而综合指标则需要结合对数据的使用需求、数据重要程度考量、指标计算的可行性等多方面因素之后形成规则,依据规则再进行计算得到的评价指标。一般使用的评价方法为最小/最大值、平均值法或加权平均法。

(1)数据质量的评价指标

    评价数据质量的指标可以选取以下几个维度:

完整性:数据的记录和信息是否完整,是否存在缺失的情况;

可用性:数据对使用者来说是否是可用的、有效的,合并了一致性、有效性和准确性;

重复性:根据指定的判重规则计算重复率。

zip包可用率就是一个典型的特定指标。某个数据流转环节中,定义的数据接口是遵循行业规范对数据文件和数据描述文件进行压缩后的zip包,其中数据文件的命名、数据分隔符、数据描述文件的格式,里面包含的数据项内容、数据项的值等都需要遵循相应的行业标准规范。如果输入的数据不符合定义的格式和要求,那么数据将无法被解析,等同于无效数据。因此,在这个环节,zip数据包的可用率就是一个非常重要且必要的特定监测指标。

  (2)数据处理过程的评价指标

    数据处理的基本过程一般包括校验、传输、清洗、提取、持久化等类型。每一个处理过程都有可能带来数据处理前后的数量变化、质量变化。不同的数据处理过程不同、衡量其处理质量的指标也存在差别。同时,质量高的处理过程应该在处理时效有保证的前提下,提升输出数据相对输入数据的质量。因此,处理过程的质量也不能孤立的使用过程指标就能判定,还需要配合处理前后的数据质量才进行综合判定。

 不同环节的质量指标虽然评价的处理环节不同,但却也与具体的处理技术和细节无关。因此,如果在实际系统中,对监控更细节的处理质量存在需求,则可以根据实际情况添加更具体的评价指标。

  (3)数据效能的评估指标

    数据最终需要为应用、为终端用户所用才能展现价值,其质量的好坏才有意义。前面数据采集的再好、质量保证的再高、处理的再快,如果用户不用或极少使用这些数据,或者使用的效果不如用户所期望的,那么这些数据的价值也不算得到了体现,需要根据用户的需求进行调整。考虑到应用系统对数据的访问、使用情况能在一定程度上反映数据的利用价值,因此提出如下所示的指标作为评估数据最终价值也即数据效能的指标。同时也可以作为数据的使用情况反馈,为数据分析和数据处理的优化、调整提供参考依据。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论