暂无图片
暂无图片
1
暂无图片
暂无图片
暂无图片
轩辕 - AI 原生数据库系统.pdf
1386
15页
5次
2021-01-28
5墨值下载
软件学报 ISSN 1000-9825, CODEN RUXUEW E-mail: jos@iscas.ac.cn
Journal of Software, [doi: 10.13328/j.cnki.jos.000000] http://www.jos.org.cn
©中国科学院软件研究所版权所有. Tel: +86-10-62562563
XuanYuanAI 原生数据库系统
*
李国良
,
周煊赫
,
冯建华
清华大学计算机系
通讯作者: 李国良, E-mail: liguoliang@tsinghua.edu.cn
要: 大数据时代下,数据库系统主要面临着三个方面的挑战。首先,基于专家经验的传统优化技术(如代
价估计,连参数调优)已经不能满足异构数据、海量应用和大规模用户对性能的需求。我们可以设
计基于学习的数据库优化技术,使数据库更智能。其次,AI 时代很多数据库应用需要使用人工智能算法,如数据
库中的图像搜索。我们可以将人工智能算法嵌入数据库,利用数据库技术加速人工智能算法,并在数据库中提
供基于人工智能的服务。再者,传统数据库侧重于使用通用硬件(如 CPU), 发挥新硬件(如 ARMAI
芯片)的优势。此外,除数据库需要支持张量模型来加速人工智能操作。为了解决这些挑战,我们
提出了一个原生支持人工智能AI的数据库系统。一方面,我们将各种人工智能技术集成到数据库中,以提供
自监控、自配置、自优化、自诊断、自愈、自和自组装功能。另一方面,我们通过使用声明性语言让数据库
提供人工智能功能,以降低人工智能使用门槛。本文介绍了实现人工智能原生数据库的五个阶段,并给出了设计
人工智能原生数据库的挑战。我们还以自主数据库调优、基于深度强化学习的查询优化、基于机器学习的基数估
计和自主索引/视图推荐为例,展示人工智能原生数据库的优势。
关键词: 数据库;人工智能;计算框架
中图法分类号: TP311
XuanYuan: an AI-Native Database
Guoliang Li, Xuanhe Zhou
Department of Computer Science and Technology, Tsinghua University, Beijing 100084, China
Abstract: In big data era, database systems face three challenges. Firstly, the traditional empirical optimization techniques (e.g., cost
estimation, join order selection, knob tuning) cannot meet the high-performance requirement for large-scale data, various applications and
diversified users. We need to design learning-based techniques to make database more intelligent. Secondly, many database applications
require to use AI algorithms, e.g., image search in database. We can embed AI algorithms into database, utilize database techniques to
accelerate AI algorithms, and provide AI capability inside databases. Thirdly, traditional databases focus on using general hardware (e.g.,
CPU), but cannot fully utilize new hardware (e.g., ARM, GPU, AI chips). Moreover, besides relational model, we can utilize tensor model
to accelerate AI operations. Thus, we need to design new techniques to make full use of new hardware. To address these challenges, we
design an AI-native database. On one hand, we integrate AI techniques into databases to provide self-configuring, self-optimizing,
self-monitoring, self-diagnosis, self-healing, self-assembling, and self-security capabilities. On the other hand, we enable databases to
provide AI capabilities using declarative languages in order to lower the barrier of using AI. In this paper, we introduce five levels of
AI-native databases and provide several open challenges of designing an AI-native database. We also take autonomous database knob
tuning, deep reinforcement learning based optimizer, machine-learning based cardinality estimation, and autonomous index/view advisor
as examples to showcase the superiority of AI-native databases.
* 基金项目: 国家自然科学基金(61632016, 61521002, 61661166012); 973 项目(2015CB358700
收稿时间: 0000-00-00; 修改时间: 0000-00-00; 采用时间: 0000-00-00; jos 在线出版时间: 0000-00-00
CNKI 在线出版时间: 0000-00-00
2
Journal of Software 软件学报
2
Key words: database; artificial intelligence; computing architecture
1 前言
随着信息时代的发展,数据库系统已经被广泛应用在银行、政府、电信等多个领域,在数据存储、数据
管理、查询处理、数据分析、商业决策等方面发挥了极其重要作用。在过去的 50 年里,数据库主要经历了
三次变革
第一代是单机数据库,解决了数据存储、数据管理和查询处理等问题
[2]
。代表系统包括 PostgreSQL
MySQL
第二代是集群数据库,旨在为企业关键业务提供高可用性和可靠性保障。代 Oracle RACIBM
DB2 Microsoft SQL Server
第三代是分布式数据库和云原生数据库,旨在解决大数据时代的弹性计算和动态数据迁移问题
[3]
。代表
系统包括亚马逊 Aurora,华为 GaussDB 和阿里的云数据库
但是,大数据和 AI 时代带来了新的挑战:大规模异构数据、海量异构应用、大规模异质用户、多种异
计算资源,传统的数据库在大数据时代仍然存在着诸多局限性:
1)传统的数据库设计仍然基于经验方法和人工规则,需要大量的人员参与(如 DBA)来调整和维护
数据库。人工智能技术可以从个方面提升数据库可用性。首先,数据库中有数百个参数,需要 DBA 手动
调整以适应不同的场景。最近,数据库社区试图利用机器学习技术
[1,9,18]
自动调整参数,可以获得比 DBA
好的结果。第二,数据库优化器依赖于代价和基数估计,但是传统的技术不能提供准确的估计。最近人们提
出了基于深度学
[6,14]
来估计查询代价和基数,也获得了更好的结果。此外,基于学习模型的优化器
[8,12]
、索
引推荐
[15]
、自动视图生成
[10]
,也。第,传
师根据经验设计。最近一些基于学习的自设计技术,如学习型索引
[7]
学习型 NoSQL 数据库设计
[5]
,可
利用人工智能技术来优化数据库,使数据库更智能。
2)传 ,提 数据管理和分析能力。然而,在大数据时代,数据(如
图数据、时间序列数据、空间数据)和应用(如机器学习、图计算)越来越多样化,需要一个新的数据库系
统一支持多个模型(如关系模型、图模型、张量模型)以支持多种应用(如关系数据分析、图形计算和
机器学习)我们可以将人工智能算法嵌入数据库,设计数据库机器学习框架,并利用数据库技术加速和优
人工智能算法,在数据库中提供人工智能能力。
3)传统数据库多只支持通用硬件,如 CPURAM、磁盘等,不能充分利用 ARMAI 芯片、GPU
FPGANVMRDMA 等新硬件。数据库需要一个异构的计算框架,能够有效地利用各种计算能力来支持数
据管理、数据分析和数据库内置的机器学习方法。
为了解决这些问题,我们提出了一个人工智能原生数据库轩辕 XuanYuan它不仅将人工智能技术集
成到数据库中,使数据库更加智能化,而且提供了数据库中的人工智能服务。特别的是,一方面,轩辕数据
将人工智能技术集成到数据库中,为数据库提供自配置、自优化、自、自诊断、自安全、自
装等功能,提高数据库的可用性和稳定性,降低人力密集型应用开销。另一方面,轩辕数据库通过使用声
明性语言提供人工智能服务,以降低使用人工智能的门槛。此外,轩辕数据库还充分利用多种异构硬件的
算能力,支持数据分析和机器学习。
轩辕数据库可以分为五个阶段。第一阶段 AI 建议型数据库AI-advised), 人工智能引擎以外挂插件
的形式为数据库提供离线建议,如离线索引推荐、离线参数优化。第 AI 辅助型数据库AI-assisted),
将人工智能引擎内置到数据库中,提供在线监测和建议,如在线统计采集、在线数据库状态监测和在线诊
断等。第 AI 增强型数据库AI-enhanced),
of 15
5墨值下载
【版权声明】本文为墨天轮用户原创内容,转载时必须标注文档的来源(墨天轮),文档链接,文档作者等基本信息,否则作者和墨天轮有权追究责任。如果您发现墨天轮中有涉嫌抄袭或者侵权的内容,欢迎发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论

关注
最新上传
暂无内容,敬请期待...
下载排行榜
Top250 周榜 月榜