暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据质量评价模型与评价方式

原创 seali2008 2022-06-30
3203

数据质量评价模型与评价方式

 数据质量评价体系需至少包含以下两个方面的基本评估指标:

  (1)数据对用户必须是可信的

    其中包括精确性、完整性、一致性、有效性、唯一性等指标。这些指标的具体含义如下:

    精确性:描述数据是否与其对应的客观实体的特征相一致。

    完整性:描述数据是否存在缺失记录或缺失字段。

    一致性:描述同一实体的同一属性的值在不同的系统或数据集中是否一致。

    有效性:描述数据是否满足用户定义的条件或在一定的值域范围内。

    唯一性:描述数据是否存在重复记录。

  (2)数据对用户必须是可用的

    其中包括时间性、稳定性等指标。这些指标的具体含义:

    时间性:描述数据是当前数据还是历史数据。

    稳定性;:描述数据是否是稳定的,是否在其有效期内。

    数据质量的评价方法,有以下几种方式:

    (1)简单比率法:指期望的结果(E)占总值(T)的比率即E/T,反映数据质量某些方面的好坏程度。当结果等于或接近于1时,表明数据质量情况好,否则质量情况差。该计算方式还能用来进行纵向比较,反映数据质量的改进情况。

    (2)最小/最大值法:适用于衡量数据质量中需要对多种指标进行加总的维度,评价的关键是要找出各类指标中的最小值或最大值。最小值和最大值分别代表了最保守和最激进的评价方法,一般适用于比较复杂的度量体系。

    (3)加权平均法:对于复杂的多指标的评价,如果评价者对每个指标在总体评价中的重要程度很容易量化,则可以使用加权平均法。根据实际情况,如果说最小值和最大值分别代表了最保守和最激进的评估方法,那么对这些指标求平均值,相对而言则是一个更稳妥、适中的评价方式。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论