
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2020,31(2):302−320 [doi: 10.13328/j.cnki.jos.005977] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
数据标注研究综述
∗
蔡
莉
1,2
,
王淑婷
1
,
刘俊晖
1
,
朱扬勇
2
1
(云南大学 软件学院,云南 昆明 650091)
2
(复旦大学 计算机科学技术学院,上海 200433)
通讯作者: 蔡莉, E-mail: caili@ynu.edu.cn
摘 要: 数据标注是大部分人工智能算法得以有效运行的关键环节.数据标注越准确、标注的数据量越大,算法的
性能就越好.数据标注行业的发展带动了中国许多城市和城镇的就业,促使中国逐渐成为世界数据标注的中心.阐述
了数据标注的发展概况,包括起源、应用场景、分类和任务;列举了目前常用的标注数据集、开源的数据标注工具
和商业数据标注平台;提出了标注中的角色、标准和流程等数据标注规范;给出了一个情感分析场景中的数据标注
实例;描述各类主流的标注质量评估算法及其特点,并对比它们优缺点;最后,从任务、工具、数据标注质量和安全性
这 4 个方面对数据标注的研究方向和发展趋势进行了展望.
关键词: 数据标注;人工智能;众包;大数据
中图法分类号: TP18
中文引用格式: 蔡莉,王淑婷,刘俊晖,朱扬勇.数据标注研究综述.软件学报,2020,31(2):302−320. http://www.jos.org.cn/1000-
9825/5977.htm
英文引用格式: Cai L, Wang ST, Liu JH, Zhu YY. Survey of data annotation. Ruan Jian Xue Bao/ Journal of Software, 2020,
31(2):302−32 0 (in Chin ese). http://www.jos.org.cn/1000-9825/5977.htm
Survey of Data Anno tatio n
CAI Li
1,2
, WANG Shu-Ting
1
, LIU Jun-Hui
1
, ZHU Yang-Yong
2
1
(School of Software, Yunnan University, Kun ming 650091, Ch ina)
2
(School of Computer Science, Fud an Universit y, Shanghai 200433, Chin a)
Abstra ct : Data annotation is a key part of the effective operation of most artificial intelligence algorithms. The better the annotation
accuracy and quantity, the better the p erformance of the algorith m. The development of the data annotation industry boosts employment in
many cities and towns in China, prompting China to gradually become the center of world data annotation. This study summarizes its
development, including origin, application scenarios, classifications, and tasks; lists the commonly used annotation data sets, open source
data annotation tools and commercial annotation platforms; proposes the data annotation specification including roles, standards, and
processes; gives an example of data annotation in a sentiment analysis. Then, this paper describes the models and characteristics of
state-of-the-art algorithms for evaluating annotation results, and compares their advantages and disadvantages. Finally, this paper
prospects research focuses and development trends of data annotation from four aspects: tasks, tools, annotation quality, and security.
Key words: data annotation; artificial intelligence; crowdsourcing; big data
近年来,作为人工智能(artificial intel ligence,简称 AI)的核心技术,深度学习在图像、语音、文本处理等领域
取得了大量关键性突破.尤其在 2016 年和 2017 年,由 Google 公司开发的 AlphaGo 围棋机器人,利用深度学习技
∗ 基金项目: 国家自然科学基金(61663047, U1636207); 云南大学服务云南行动计划(2016ZD05)
Foundation item: National Natural Science Foundation of China (61663047, U1636207); Project of Yunnan University Serves
Yunnan Initiativ es (2016ZD05)
收稿时间: 2019-06-22; 修改时间: 2019-08-05, 2019-0 9-17; 采用时间: 2 019-10-30; jos 在线出版时间: 2019-12-05
CNKI 网络优先出版: 2019-12-05 14:55:16, http://kns.cnki.net/kcms/d etail/11.2560.TP.20191205.1454.008.html
评论