暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

数据质量评价对象现状

原创 seali2008 2022-06-29
468

数据质量评价对象现状数据质量评价对象现状

    按照数据质量的评价对象的数据类型划分,可以分为结构化、半结构化和非结构化数据。结构化数据的数据质量评价,主要是针对关系数据库中存储的结构化数据,其评价指标是建立在数据库完整性约束的基础上的,如准确性、完整性和一致性,并逐步扩展到可访问性和及时性等指标,结构化数据的质量评价已有较好的研究基础。

    非结构化数据是指无固定格式或模型用以逻辑表达实现的数据,主要是一些文本、图片和视频等。大数据时代,非结构化数据的体量增长加快,组织中大量的数据都是非结构化数据,操作日志、聊天记录、邮件、图像和音频/视频信息中的非结构化数据蕴含了诸多组织效益提升的机会,对其进行质量评价有益于充分挖掘潜在数据价值。非结构化数据的多源特征为数据质量评价提出了诸多挑战,目前学者们主要是通过专家或用户打分进行内容质量分析,也有部分学者,尝试利用自动化评价技术,通过数据样本选择、特征提取、实验及评价过程对非结构化数据进行评价。

    数据质量的评价最早始于对结构化数据的评价,主要是评价存储在关系数据库中的数据,较少考虑数据的内容质量;对半结构化的数据评价主要是针对网络数据资源,除了关注数据的本质属性外,更多关注数据的内容质量;大数据环境下,非结构化数据的质量评价面临极大挑战,如大量数据的自动化评价可能产生一定的误差,而且目前计算机在自然语言处理上还不够成熟,一些反映用户需求的主观性特征难以用计算机处理,所以多数评价采取结合专家或用户打分的方式。

「喜欢这篇文章,您的关注和赞赏是给作者最好的鼓励」
关注作者
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文章的来源(墨天轮),文章链接,文章作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论