暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
数据标注研究综述-蔡莉 , 王淑婷 , 刘俊晖 , 朱扬勇.pdf
746
19页
11次
2022-05-24
免费下载
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2020,31(2):302320 [doi: 10.13328/j.cnki.jos.005977] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
数据标注研究综述
1,2
,
王淑婷
1
,
刘俊晖
1
,
朱扬勇
2
1
(云南大学 软件学院,云南 昆明 650091)
2
(复旦大学 计算机科学技术学院,上海 200433)
通讯作者: 蔡莉, E-mail: caili@ynu.edu.cn
: 数据标注是大部分人工智能算法得以有效运行的关键环节.数据标注越准确、标注的数据量越大,算法的
性能就越好.数据标注行业的发展带动了中国许多城市和城镇的就业,促使中国逐渐成为世界数据标注的中心.阐述
了数据标注的发展概况,包括起源、应用场景、分类和任务;列举了目前常用的标注数据集、开源的数据标注工
和商业数据标注平台;提出了标注中的角色、标准和流程等数据标注规范;给出了一个情感分析场景中的数据标注
实例;描述各类主流的标注质量评估算法及其特点,并对比它们优缺点;最后,从任务、工具、数据标注质量和安全性
4 个方面对数据标注的研究方向和发展趋势进行了展望.
关键词: 数据标注;人工智能;众包;大数据
中图法分类号: TP18
中文引用格式: 蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述.软件学报,2020,31(2):302320. http://www.jos.org.cn/1000-
9825/5977.htm
英文引用格式: Cai L, Wang ST, Liu JH, Zhu YY. Survey of data annotation. Ruan Jian Xue Bao/ Journal of Software, 2020,
31(2):30232 0 (in Chin ese). http://www.jos.org.cn/1000-9825/5977.htm
Survey of Data Anno tatio n
CAI Li
1,2
, WANG Shu-Ting
1
, LIU Jun-Hui
1
, ZHU Yang-Yong
2
1
(School of Software, Yunnan University, Kun ming 650091, Ch ina)
2
(School of Computer Science, Fud an Universit y, Shanghai 200433, Chin a)
Abstra ct : Data annotation is a key part of the effective operation of most artificial intelligence algorithms. The better the annotation
accuracy and quantity, the better the p erformance of the algorith m. The development of the data annotation industry boosts employment in
many cities and towns in China, prompting China to gradually become the center of world data annotation. This study summarizes its
development, including origin, application scenarios, classifications, and tasks; lists the commonly used annotation data sets, open source
data annotation tools and commercial annotation platforms; proposes the data annotation specification including roles, standards, and
processes; gives an example of data annotation in a sentiment analysis. Then, this paper describes the models and characteristics of
state-of-the-art algorithms for evaluating annotation results, and compares their advantages and disadvantages. Finally, this paper
prospects research focuses and development trends of data annotation from four aspects: tasks, tools, annotation quality, and security.
Key words: data annotation; artificial intelligence; crowdsourcing; big data
近年来,作为人工智能(artificial intel ligence,简称 AI)的核心技术,深度学习在图像、语音、文本处理等领域
取得了大量关键性突破.尤其在 2016 年和 2017 , Google 公司开发的 AlphaGo 围棋机器人,利用深度学习技
基金项目: 国家自然科学基金(61663047, U1636207); 云南大学服务云南行动计划(2016ZD05)
Foundation item: National Natural Science Foundation of China (61663047, U1636207); Project of Yunnan University Serves
Yunnan Initiativ es (2016ZD05)
收稿时间: 2019-06-22; 修改时间: 2019-08-05, 2019-0 9-17; 采用时间: 2 019-10-30; jos 在线出版时间: 2019-12-05
CNKI 网络优先出版: 2019-12-05 14:55:16, http://kns.cnki.net/kcms/d etail/11.2560.TP.20191205.1454.008.html
蔡莉 :数据标注研究综述
303
术完善了围棋算法,分别战胜围棋界的世界冠军李世石和柯洁,震惊了整个科技界
[1]
.
人工智能是机器产生的智能,在计算机领域是指根据对环境的感知,做出合理的行动并获得最大收益的计
算机程序
[2]
.也就是说,要想实现人工智能,需要把人类理解和判断事物的能力教给计算机,让计算机拥有类似人
类的识别能力
[3]
.人类在认识一个新事物时,首先要形成对该事物的初步印象.例如,要识别出飞机,就需要看到
相应的图片或者真实物体.数据标注可视为模仿人类学习过程中的经验学习,相当于人类从书本中获取已有知
识的认知行为.具体操作时,数据标注把需要计算机识别和分辨的图片事先打上标签,让计算机不断地识别这些
图片的特征,最终实现计算机能够自主识别
[4]
.数据标注为人工智能企业提供了大量带标签的数据,供机器训练
和学习,保证了算法模型的有效性.
1 数据标注概述
1.1 数据标注的起源
2007 ,斯坦福大学教授李飞飞等人开始启动 ImageNet 项目,该项目主要借助亚马逊的劳务众包平台
Mechanical Turk(AMT)来完成图片的分类和标注,以便为机器学习算法提供更好的数据集
[5]
.截至 2010 ,已有
来自 167个国家的 4 万多名工作者提供了 14 197 12 2 张标记过的图片,共分成21 841 种类别
[6]
. 2010 年到 2017
,ImageNet 项目每年举办一次大规模的计算机视觉识别挑战赛,各参赛团队通过编写算法来正确分类、检测
和定位物体及场景.ImageNet 项目的成功,改变了人工智能领域中大众的认知,即数据是人工智能研究的核心,
数据比算法重要得多
[7]
.从此,数据标注拉开了序幕.目前,学术界尚未对数据标注的概念形成一个统一的认识,
比较认可的是由王翀和李飞飞等人提出的定义.他们认为,标注
[8]
是对未处理的初级数据,包括语音、图片、
本、视频等进行加工处理,并转换为机器可识别信息的过程.原始数据一般通过数据采集获得,随后的数据标注
相当于对数据进行加工,然后输送到人工智能算法和模型里完成调用
[9]
.数据标注产业主要是根据用户或企业
的需求,对图像、声音、文字等对象进行不同方式的标注
[10]
,从而为人工智能算法提供大量的训练数据以供机
器学习使用
[11]
.1 显示了一个图像标注的示例,标注者需要识别和标注图片中的景物如天空、树木、建筑、
湖水和草等对象.
Fig.1 Example of data annotation
1 数据标注示例
1.2 数据标注的应用场景
数据标注产业的发展,促进了人工智能的蓬勃兴起,其主要的应用行业和不同行业的标注场景总结如下.
(1) 自动驾驶
[12]
:利用标注数据来训练自动驾驶模型,使其能够感知周围的环境并在很少或没有人为输入
的情况下移动.自动驾驶中的数据标注涉及行人识别、车辆识别、红绿灯识别、道路识别等内容,
of 19
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜