
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2021,32(1):2140 [doi: 10.13328/j.cnki.jos.006121] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
面向 AI 的数据管理技术综述
李国良
,
周煊赫
(清华大学 计算机科学与技术系,北京 100084)
通讯作者: 李国良, E-mail: liguoliang@tsinghua.edu.cn
摘 要: 人工智能技术因其强大的学习和泛化能力已被广泛应用于各种真实场景中.然而,现有的人工智能技术
仍然面临着三大挑战:第一,现有的 AI 技术使用门槛高,依赖于 AI 从业者选择合适模型、设计合理参数、编写程序,
因此很难被广泛应用到非计算机领域;第二,现有的 AI 算法训练效率低,造成了大量计算资源的浪费,甚至延误决策
时机;第三,现有的 AI 技术非常强地依赖于高质量数据,如果数据质量较低,可能带来计算结果的错误.数据库技术可
以有效解决这 3 个难题,因此目前,面向 AI 的数据管理得到了广泛关注.首先给出 AI 中数据管理的整体框架,然后详
细综述基于声明式语言模型的 AI 系统、面向 AI 优化的计算引擎、执行引擎和面向 AI 的数据治理引擎这 4 个方
面,最后展望未来的研究方向和所面临的挑战.
关键词: 数据管理技术;人工智能;声明性语言 E-mail: liguoliang@tsinghua.edu.cn
中图法分类号: TP311
中文引用格式: 李国良,周煊赫.面向 AI 的数据管理技术综述.软件学报,202 1 ,32 (1 ): 2140. http://www.jos.org.cn/1000-9825/
6121.htm
英文引用格式: Li GL, Zhou XH. Survey of data management techniques for supporting artificial intelligence. Ruan Jian Xue
Bao/Journal of Software, 2021 ,32(1):2140 (in Chinese). http://www.jos.org.cn/1000-982 5/6121.htm
Survey of Data Management Techni ques for Artificial Intelligence
LI Guo-Liang, ZHOU Xuan-He
(Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China)
Abstra ct : Artificial intelligence has been widely used in various scenarios due to its powerful learning and generalization ability.
However, most of the existing AI techniques are facing three major challenges. First, existing AI techniques are hard to use for ordinary
users, which depends on AI experts to select appropriate models, choose r easonable parameters and write programs, so it is difficult to be
widely used in non-IT fields. Second, the training efficiency of existing AI algorithms is low, resulting in a lot of waste of computing
resources, even delaying decision-making opportuniti es. Third, existing AI techniques are strongly dependent on high-quality d ata. If the
data quality is low, it will make error decisions. The database technolog y can effectively solve these three problems, and AI-oriented data
management has been widely studied. Firstly, this paper gives the overall framework of data management in AI. Then, it presents a
detailed overview of AI-oriented declarative language model, AI-oriented optimization, AI-oriented execution engine, and AI-orient ed
data governance. Finally, the future research dir ections and challenges are provided.
Key words: data management technology; artificial intelligence; declarative language
人工智能技术已经渗透到各行各业中.2019 年,中国人工智能核心产业规模接近 570 亿元,涉及安防、金融、
医疗、教育等诸多领域.面向不同的应用需求,人工智能技术已经衍生出了多种不同的机器学习算法,如深度学
习、主动学习、强化学习等等.然而人工智能在落地过程中还面临着 3 个挑战性问题.
基金项目: 国家自然科学基金(61925205, 61632016)
Foundation item: National Natural Science Foundation of China (6192520 5, 61632016)
收稿时间: 2019-09-03; 修改时间: 2019-10-28; 采用时间: 2019-11-28; jos 在线出版时间: 2020-07-27
评论