暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

趋势观察 | 人工智能与数据库双向赋能

数据库应用创新实验室 2025-02-28
209

在2024可信数据库发展大会主论坛上,大数据技术标准推进委员会正式发布《数据库发展研究报告(2024年)》,本文部分内容节选自该报告并进行扩展解读。



2024年2月,OpenAI发布了其创新型文生视频模型Sora,大幅刷新行业多项指标,标志着AIGC领域里程碑式的变革。人工智能的高速发展离不开海量数据的支撑,数据库作为存储和管理数据的基础底座,是人工智能技术不可或缺的组成部分。人工智能的高速发展,也同样深深影响着数据库技术的发展与变革。

01
AI for DB


人工智能技术的进步推动了数据处理技术的创新,大语言模型的高速发展也对数据库领域影响深远。一是数据库智能运维,数据库运维管理人员可以利用机器学习模型优化查询并提高其准确性,覆盖在性能参数采集、分析、配置、调优以及SQL诊断和优化等各个环节,最终形成自感知、自配置、自优化、自诊断以及自转换的全链路查询优化。二是大语言模型降低操作门槛,通过大语言模型,用户可以将自然语言描述转化成对应的SQL语句,有效辅助海量数据查询,降低数据库使用门槛。三是数据库自治模式实现自我管理,使得数据库实现自我管理和运维,在云计算的加持下实现数据库全生命周期自动化管理。


1.1人工智能赋能数据库智能运维

数据库系统的平稳、高效安全运行对于支撑行业高质量发展有重要价值,高效稳定的运维模式在数据库系统运行过程中起到了举足轻重的作用。随着数据规模不断增大,数据库类型和数据量不断增加,给传统数据库运维带来了挑战,与人工智能相结合的智能化运维逐步成为未来数据库运维发展重要趋势。





来源:华为技术有限公司

图1 GaussDB统一管控运维平台智能运维中心


智能运维中心作为智能化运维平台的重要组成部分,能够通过AI for DB打造自治运维平台,提供性能调优、SQL优化、异常诊断和自治运维能力。智能运维服务从下至上可以分为数据采集层、数据计算层、自治服务层及监控层。数据采集层负责数据采集同时也负责执行上层自治服务下发的各类命令操作;数据计算层将采集层的数据进行缓存、持久化以及数据加工;自治服务层包括SQL调优、安全以及数据库运维等;监控层包括异常预警、健康报告等功能。数据库智能运维是一种基于先进技术的运维模式,它通过对数据库系统进行实时监控、预测分析、自动化处理,实现故障预警、快速定位、自动修复等功能,从而提高运维效率、降低运维成本、保障系统稳定运行。未来,数据库运维管理将向着智能化的方向不断迈进,自感知、自优化、故障自愈等功能将会成为数据库运维管理主要发展方向。


1.2大语言模型降低数据库操作门槛

随着大语言模型的不断发展,用户可以通过自然语言与计算机系统进行交互。通过引入大语言模型,能够简化和普及数据库操作,提高SQL查询效率和准确性,增强数据的可访问性,推动智能时代数据库的高速发展。





来源:甲骨文软件系统有限公司

图2 完整的Text2SQL系统


在大语言模型与数据库融合方面,利用当前快速发展的大模型自然语言对话能力,人工智能的判断和上下文理解能力,与数据库进行融合,为业务人员提供使用自然语言与数据库的对话能力。随着大语言模型(LLM)技术的普及,借助大模型微调(Fine Tuning)等技术将使用自然语言进行数据库查询,目前主要有Text-to-SQL和NLQuery-to-NLAnswer两种技术路线,从而实现对数据库的查询操作。Text-to-SQL的思路是将用户的自然语言查询转化为结构化的SQL语句,NLQuery-to-NLAnswer的思路则是端到端的查询意图到查询结果的映射,中间跳过SQL生成这一步骤。综合来看,Text-to-SQL目前应用更广泛,但NLQuery-to-NLAnswer代表了未来的发展方向。二者在实现上各有利弊,但在语义理解、推理等内在能力上的要求是一致的。随着大语言模型的不断发展,这两个方向会逐渐趋同,最终形成大模型与数据库技术深度融合的新范式。在知识建模、查询优化、模型训练等层面将会进一步地进行系统性创新。此外,一些企业也创造性地设计了SQL+GQL融合语法,增加了Text to GQL能力,实现了“与图对话(Chat-to-Graph)”,使得用户能够更快速、更准确地查询和检索数据。


2023年6月,蚂蚁集团发布了数据库领域的大模型框架DB-GPT。DB-GPT通过融合先进的大模型和数据库技术,能够系统化打造企业级智能知识库、自动生成商业智能(BI)报告分析系统(GBI),以及处理日常数据和报表生成等多元化应用场景。DB-GPT是一个开源框架,专为数据库领域的大型语言模型(LLM)领域而设计。其主要目的是提供基础架构,以简化数据库相关应用程序的开发。DB-GPT支持本地部署,可以安全地与私有数据库进行交互,并且提供了多种功能,如SQL生成、SQL诊断和数据库知识问答等。这个项目的发布,可以帮助开发者在保证数据安全和隐私的前提下,更方便地开发数据库相关应用程序。DB-GPT社区自成立以来,已汇聚了京东、美团、阿里巴巴、唯品会、蚂蚁集团等众多互联网企业的开发者共同参与。此外,Oracle自制数据库的Select AI能力,通过使用AI配置文件来促进和配置对LLM的集成,并设置从自然语言提示生成SQL语句,执行SQL语句,对获取的数据进行总结等。


1.3数据库自治模式实现自我管理

人工智能为数据库的自治化提供了强大的支持,催生了自治数据库模式。这种模式使得数据库能够实现自我管理和运维,尤其是在云计算的加持下,实现数据库整个生命周期的自动化管理。





来源:甲骨文软件系统有限公司

图3 传统数据库DBA调优流程


当前,自动化供应、配置、安全管控、更新、弹性扩展和调优等能力,都成为了自治数据库的标配。自治数据库利用机器学习技术,能够自动执行数据库调优、保护、备份和更新等传统上需要DBA手动完成的任务。智能技术的应用,使得自治数据库能够自动处理各种复杂但关键的任务,如日常维护、扩展、安全性和调优等。通过机器学习和AI算法,自治数据库能够优化查询并自动管理内存和存储,实现完全的自调优。通过使用自治数据库,可以实现基于云技术的数据库服务器支持即时按需伸缩计算和内存资源、尽可能提高数据库正常运行时间和安全性、通过自动化技术消除易于出错的手动管理任务、自动执行日常任务降低成本、提升数据库管理员管理效率。


在自治数据库发展方面,很多数据库或云厂商都在这方面进行了探索,例如Oracle自治数据库,腾讯云数据库自治服务等。人工智能技术为数据库的自治化提供了强大支持,使得数据库能够实现自我管理和运维及持续不断地自动优化,从而减轻DBA的工作负担。数据库与人工智能结合,不再仅是人和工具的结合,而是人、云资源及数据库自治能力的结合。


未来,数据库将在以下方面实现突破,一是数据库基于云技术的数据库服务器支持即时按需伸缩计算和内存资源,二是尽可能提高数据库正常运行时间、性能和安全性,三是通过自动化技术消除易于出错的手动管理任务,四是自动执行日常任务,降低成本,提高工作效率,五是提升数据库管理员管理效率。

02
DB for AI


数据库是人工智能高速发展的重要基石,人工智能的产生、优化、发展及应用都离不开数据库的必要支撑。在库内集成机器学习算法、支撑大语言模型部署、提升检索精度等方面,数据库起到了举足轻重的作用。


2.1数据库助力人工智能高效建模

数据库能够通过内部原生或集成机器学习的算法帮助数据科学家进行人工智能探索与应用的过程中简化操作步骤快速构建模型。数据科学家通过使用数据库平台中SQL、R、Python、REST、自动机器学习(AutoML)和无代码用户界面进行机器学习(ML)等进行建模,使用数据库内机器学习、深度学习等方法对模型进行开发、测试、优化和发布。在建模过程中,企业可以将数据保留在数据库内,从而简化整体架构,提升数据计算、模型开发及测试的性能,确保数据同步和安全性。用户可以通过数据库集成机器学习算法,使得业务反应效率得到有效提升。


2.2数据库支撑大模型有效落地

尽管人工智能,特别是大语言模型在理论研究及实验室环境中取得了显著成果,但在实际企业应用过程中,大语言模型部署却面临着诸多挑战。大语言模型本身的数据时效性、专业与安全性、数据可解释性可扩展性等都严重影响了企业对于大语言模型的应用。大型语言模型一旦训练完成,就无法理解最新的或某些未经过训练的专业领域知识。基于向量数据库技术及检索增强生成框架(RAG)的数据管理技术,有效解决了大模型知识库更新及大模型“幻觉”等问题,为加速企业中大语言模型的应用提供了基础平台的支持,实现对人工智能模型的优化,提高模型的性能和准确性,从而推动人工智能技术在企业中的应用和发展。





来源:甲骨文软件系统有限公司

图4 RAG框架实现向量数据与大语言模型的最佳集成


以向量数据库为代表的数据库技术,有效提升了人工智能中非结构化数据处理能力。向量数据库聚焦于提高非结构化数据处理能力、加强与大模型的集成、增加智能化和自动化查询优化,以及强化数据安全和隐私保护措施。向量数据库通过嵌入的方式,将高维度的离散数据(如文本、图像、音视频等)映射到低维度的连续空间中,生成稠密向量,从而更好地捕捉数据之间的潜在关系和语义信息。这也使得向量数据库成为处理和理解海量非结构化数据的强大工具,同时向量数据库还将通过增强大模型的检索能力,推动人工智能领域的创新和应用。通过不断优化其技术架构和算法,向量数据库在智能搜索、内容推荐、自然语言处理等多个领域发挥更加关键的作用,为用户提供更加丰富与个性化的数据服务。


未来,为适应人工智能的多种发展需求,数据库技术会向着以下几种方向不断发展,一是以向量数据库为代表的向量数据处理能力不断增强,向量数据库与知识图谱相结合为高效RAG提供有力支撑;二是以多模数据库为代表的海量非结构化数据存储及管理能力持续发力,多模数据库能够更加灵活高效地处理及存储多种非结构化和半结构化数据;三是通过整合数据库能力便捷开发者进行全流程大模型搭建,实现LLM工程民主化,开发者可以通过SQL和UDF便捷地完成全流程大模型技术部署。




本文部分节选自大数据技术标准推进委员会于“2024可信数据库发展大会”上发布的《数据库发展研究报告(2024)》。

报告介绍及全文下载链接如下:《数据库发展研究报告(2024年)》正式发布!文末附下载方式


联系人

刘思源

13691032906(同微信)




数据库应用创新实验室简介




数据库是基础软件的重要一员,是支撑全球数字经济蓬勃发展的核心技术产品。为推动我国数据库产业国际地位从跟跑、并跑到领跑,多家数据库企业、应用单位、系统集成商、数据库服务企业、硬件制造商,共同成立公益性免费社群数据库应用创新实验室(以下简称“实验室”),打造了中国数据库产业的“联合舰队”。实验室持续致力于推动我国数据库产业创新发展,以实际问题为导向,以合作共赢为目标,联合政、产、学、研、用等多方力量,协同推进数据库领域应用创新的相关工作。实验室将一直秉承开放理念,持续欢迎数据库领域各企业、各机构、各组织申请加入。





实验室联系人




刘老师
13691032906
liusiyuan@caict.ac.cn

齐老师
17801071990
qidanyang@caict.ac.cn





实验室成员单位



文章转载自数据库应用创新实验室,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论