暂无图片
暂无图片
暂无图片
暂无图片
暂无图片
面向AI的数据管理技术综述-李国良/周煊赫.pdf
1017
20页
11次
2021-01-28
免费下载
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software,2021,32(1):2140 [doi: 10.13328/j.cnki.jos.006121] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
面向 AI 的数据管理技术综述
李国良
,
周煊赫
(清华大学 计算机科学与技术系,北京 100084)
通讯作者: 李国良, E-mail: liguoliang@tsinghua.edu.cn
: 人工智能技术因其强大的学习和泛化能力已被广泛应用于各种真实场景中.然而,现有的人工智能技术
仍然面临着三大挑战:第一,现有的 AI 技术使用门槛高,依赖于 AI 从业者选择合适模型、设计合理参数、编写程序,
因此很难被广泛应用到非计算机领域;第二,现有的 AI 算法训练效率低,造成了大量计算资源的浪费,甚至延误决策
时机;第三,现有的 AI 技术非常强地依赖于高质量数据,如果数据质量较低,可能带来计算结果的错误.数据库技术可
以有效解决这 3 个难题,因此目前,面向 AI 数据管理得到了广泛关注.首先给出 AI 中数据管理的整体框架,然后详
细综述基于声明式语言模型的 AI 系统、面向 AI 优化的计算引擎、执行引擎和面向 AI 的数据治理引擎这 4 个方
,最后展望未来的研究方向和所面临的挑战.
关键词: 数据管理技术;人工智能;声明性语言 E-mail: liguoliang@tsinghua.edu.cn
中图法分类号: TP311
中文引用格式: 李国良,周煊赫.面向 AI 的数据管理技术综述.软件学报,202 1 ,32 (1 ): 2140. http://www.jos.org.cn/1000-9825/
6121.htm
英文引用格式: Li GL, Zhou XH. Survey of data management techniques for supporting artificial intelligence. Ruan Jian Xue
Bao/Journal of Software, 2021 ,32(1):2140 (in Chinese). http://www.jos.org.cn/1000-982 5/6121.htm
Survey of Data Management Techni ques for Artificial Intelligence
LI Guo-Liang, ZHOU Xuan-He
(Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China)
Abstra ct : Artificial intelligence has been widely used in various scenarios due to its powerful learning and generalization ability.
However, most of the existing AI techniques are facing three major challenges. First, existing AI techniques are hard to use for ordinary
users, which depends on AI experts to select appropriate models, choose r easonable parameters and write programs, so it is difficult to be
widely used in non-IT fields. Second, the training efficiency of existing AI algorithms is low, resulting in a lot of waste of computing
resources, even delaying decision-making opportuniti es. Third, existing AI techniques are strongly dependent on high-quality d ata. If the
data quality is low, it will make error decisions. The database technolog y can effectively solve these three problems, and AI-oriented data
management has been widely studied. Firstly, this paper gives the overall framework of data management in AI. Then, it presents a
detailed overview of AI-oriented declarative language model, AI-oriented optimization, AI-oriented execution engine, and AI-orient ed
data governance. Finally, the future research dir ections and challenges are provided.
Key words: data management technology; artificial intelligence; declarative language
人工智能技术已经渗透到各行各业中.2019 ,中国人工智能核心产业规模接近 570 亿元,涉及安防、金融、
医疗、教育等诸多领域.面向不同的应用需求,人工智能技术已经衍生出了多种不同的机器学习算法,如深度学
习、主动学习、强化学习等等.然而人工智能在落地过程中还面临着 3 个挑战性问题.
基金项目: 国家自然科学基金(61925205, 61632016)
Foundation item: National Natural Science Foundation of China (6192520 5, 61632016)
收稿时间: 2019-09-03; 修改时间: 2019-10-28; 采用时间: 2019-11-28; jos 在线出版时间: 2020-07-27
22
Journal of Software 软件学报 Vol.32, No.1, January 2021
第一,AI 使用门槛较高.人工智能算法实际的落地情况并不容乐观.在不同领域下,我们需要构建独立
的人工智能系统来执行操作. TensorFlow 框架中,我们首先需要用 Py thon 语言书写程序,然后调用相
应的机器学习库实际执行模型.整个程序设计和执行流程都需要专门的人力和资源投入,开销比较大.
如谷歌公司进行大规模神经网络学习时,曾需要用有 255 台计算节点的集群单独训练具有 5.57 亿个参
数的 AmoebaNet-B 模型,每个节点上配备 1 024 TPU 组成的芯片组.此外,这类机器学习框架难以与
现有数据库兼容,存在数据转换和传输的额外开销;
第二,AI 训练效率较低.首先,现有的 AI 系统缺少执行优化技术(如大规模缓存、数据分块分区、索引
), 不仅会导致大量的计算、存储资源上的浪费,而且会提高程序异常的发生率(如内存溢出、进程阻
塞等),严重影响了单个任务的执行效率;其次,传统 AI 的执行方式缺少灵活性,芯片( CPUARM
GPU )算法优化(如优化函数、
评价指标等)都需要人为指定,不仅提高了对使用人员编程能力的要
,而且难以最大限度地发挥硬件资源优势,如没有动态调度机制,很多 AI 任务会被阻塞,直到 GPU
源满足要求为止,降低了整体的执行效率;
第三,AI 依赖于高质量的训练数据.传统的数据治理工作非常繁杂,需要大量人的参与,并消耗了大部
分的资源和时间.首先,大规模机器学习算法需要大量的数据进行训练,一方面,来自真实场景的原始数
据大多不能直接使用,存在大量的缺失值、错误值和异常样本等;另一方面,一个训练集可能有多个数
据源,数据源融合存在格式不一致、冗余信息多、连接开销大等问题.以图 1 为例,我们可以看出,现有
机器学习的整个数据处理流程还存在很大的优化空间.
Fig.1 Problems in the lifecycle of machine le arning
1 机器学习的生命周期及存在的问题
数据库管理系统经过近 60 年的发展,积累了很多较为成熟的数据查询和管理技术.以一条查询语句的处理
流程为例:首先,基于声明式语言,用户只需在查询语句中声明高层次条件(如数据列表、属性约束等);其次,数据
库经过逻辑和物理优化生成执行计划,利用索引、内存计算、分布式处理等技术高效地执行查询处理操作.
,关系型数据库基于关系表对数据集进行建模,利用外键等保证数据一致性.通过结合这些数据管理技术,
们可以有效地解决以上 3 个难题:其一,声明式语言( SQL)可以降低 AI 使用门槛;其二,数据库优化技术(如索
引、计划选择、视图缓存等)可以提升训练速度,降低资源使用率;其三,数据治理技术可以提升数据质量和 AI
训练质量.因此,面向 AI 的数据库技术得到了广泛关注.
本文从如下 4 个层次来介绍数据管理技术如何支持和优化人工智能技术(如图 2 所示).
1 ,用声明性的语言模型简化 AI 的使用.其一,讨论如何用声明性的 SQL 语言代替传统的 AI 高级
语言,降低 AI 的使用门槛;其二,调研面向 AI SQL 完备性相关的工作,分析如何细化 SQ
L 支持 AI
粒度;其三,调研面向 AI SQL 的智能推荐技术,: SQL 层进一步进行逻辑封装,利用可视化等技术
进一步提高 AI 的易用性(见第 1 );
2 ,用算法优化引擎优化 AI 的执行逻辑.其一,调研面向 AI 的优化引擎,分析如何支持 AI 算法中不
同的算子类型;其二,分析 AI 算子的代价估计技术, AI 算法选择提供基本资料;其三,基于声明性的语
言模型,同一个 AI 问题的描述(如类 SQL 语句)可以被解析成多种不同类型的 AI 算法.因此,这里我们
调研 AI 算法的自动生成技术,分析如何根据 AI 问题选择、
组装基本的 AI 算子,生成高效的执行逻辑;
其四,调研 AI 模型的版本管理技术,利用数据库在管理时间序列数据上的经验,帮助数据分析师高效地
组织历史训练结果(见第 2 );
of 20
免费下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜