Paper Reading | 搭建面向 OLAP 的大模型数据库调优框架

KaiwuDB 2025-05-29

296

在人工智能技术席卷全球的浪潮中，数据库系统作为数据基础设施的核心，正面临前所未有的挑战与机遇。

从传统的手工参数调整到基于机器学习的自动化优化，DBA 始终在与指数级增长的配置复杂性博弈。然而，成千上万的配置参数、动态变化的工作负载、复杂的硬件资源交互，让传统基于规则或统计的优化方法举步维艰。

即便是先进的强化学习方案，也常常受限于高昂的训练成本和样本效率瓶颈。而大语言模型凭借其海量知识储备与强大的上下文推理能力，为这一领域注入了全新的解题思路 —— 它们不仅能理解技术文档中的调优建议，更能将零散的参数提示编织成完整的配置方案，犹如为数据库系统安装了一个 “智能导航”。

在本博客中，我们将深入探讨康奈尔大学研究团队发表于 SIGMOD 2025 的最新论文《λ-Tune: Harnessing Large Language Models for Automated Database System Tuning》，研究利用大型语言模型搭建了一个对在线分析处理（OLAP）工作负载进行自动化数据库系统调优的框架。

λ-Tune 通过创新的提示词生成、配置选择和配置评估，实现了从工作负载特征到最优配置方案的直接映射。与传统方法相比，λ-Tune 不仅大幅降低了人工干预成本，更在 PostgreSQL、MySQL 等主流数据库系统的实验中展现出惊人的鲁棒性，将自动化调优推向了一个全新高度。

摘要

与之前利用 LLM 提取单个参数调优提示的方法不同，λ-Tune 基于一个大型输入文档生成整个配置脚本，描述调优上下文。λ-Tune 首先生成可替代配置，然后使用原则性方法从一个小的候选配置集合中确定最佳配置。通过这样方式最大限度地减少了重新配置的开销，并确保评估开销作为最佳运行时间的函数而受到约束。通过将提示生成视为基于成本的优化问题，λ-Tune 向 LLM 传达了最相关的上下文，同时限制了输入令牌的数量，从而限制了 LLM 调用的费用。该论文使用多个基准测试以及 PostgreSQL 和 MySQL 作为调优的目标系统，将 λ-Tune 与各种基线方法进行了比较，实验结果表明 λ-Tune 比现有基线方法鲁棒性更强。

引言

数据库管理系统的性能随着各种调优选择的不同而发生显著变化，这些选择包括系统配置参数的设置以及数据库索引、分区和排序等物理设计的决策。这一现象推动了大量关于自动化数据库系统调优的研究。之前有研究人员利用机器学习寻找接近最优的配置，但面临高昂的训练和探索开销问题。随着大语言模型（LLMs）的蓬勃发展，利用 LLMs 启发式地裁剪调优搜索空间成为一种选择。与 DBAs 类似，LLMs 模型通过从文本文档如技术手册中提取常识性知识，将调优选项聚焦于当前上下文下的 “合理” 选择。

早期 LLM 增强的数据库调优方法通过解析文本文档（如数据库手册）提取特定参数值的建议，但仍需通过优化阶段将零散的参数提示组合为完整配置。由于早期语言模型（如 BERT 和 GPT-2）有较大的局限性，其输入输出被限制在数百个 token 内，因此基于早期 LLMs 的数据库调优方法通常仅能处理单参数设置而非完整配置。

时至今日，现代 LLM（如 GPT-4）已能支持数十万 token 的输入输出规模。基于上述背景，λ-Tune 能够利用最新一代 LLM（如 GPT-4 和 Claude 3）实现对数据库 OLAP 工作负载包括参数调优和物理设计建议在内的多种优化。

λ-Tune 包含提示词生成，配置选择和配置评估等三个强大的组件，它们有助于 LLM 辅助调优方法，各个组件职责如下：

提示生成

λ-Tune 首先根据输入工作负载、硬件规格和数据库系统实现自动化提示词生成步骤。该方法能够将输入的 SQL 查询分解为更小、可合并的组件，可将其称为 “查询片段”。由于现有大模型服务多按照 token 数量收费，提示词规模会直接影响 LLM 调用成本。因此，提示词要在费用最小化的前提下传达最多的相关信息。换言之，本阶段的主要目标是在给定提示令牌数量限制情况下，选出信息量最大的查询片段子集包含至提示词中。实现上述目标，本文将工作负载表示形式化为一个成本优化问题，并将其转换为整数线性规划来解决。利用生成的提示词，λ-Tune 通过多次随机化调用 LLM 获得多个候选配置，并在不同配置下执行输入查询以评估确定最优配置。

配置选择

LLM 返回的配置质量可能参差不齐，为避免糟糕配置拖慢整体调优进程，λ-Tune 采用增量式多轮评估策略来完成配置选择：

• 超时机制：每轮评估设置超时时间，限制糟糕配置对整体调优时间的影响；由于反复中断执行可能会导致冗余工作，在每轮的超时设置时采用几何级数方案来限制因中断而浪费的工作；
• 避免冗余查询：将前轮已完成工作纳入考量，避免跨轮次重复评估相同查询；
• 动态超时调整：频繁切换配置可能会导致重新配置开销（例如，索引创建）主导查询评估时间，因此，λ-Tune 动态调整查询评估超时设置以确保重配置开销与查询执行时间成比例。

配置评估

频繁切换配置，尤其是涉及索引创建时，会产生高昂开销。评估过程中如何保持较低的切换开销是一大难题。为解决以上问题，λ-Tune 提出了以下方法来最小化切换开销：

• 惰性索引创建方法：根据列引用分析，仅在查询可能使用索引前创建相关索引；
• 基于动态规划的查询调度：根据索引创建成本对查询执行顺序进行排序优化，最小化配置切换时的重构成本。

作者在 PostgreSQL 和 MySQL 上使用 Join Order Benchmark（JOB）和 TPC-H 基准测试评估 λ-Tune。实验表明，λ-Tune 在鲁棒性上显著优于现有自动化调优工具（包括 GPTuner、DB-Bert、UDO、LlamaTune 和 ParamTree），始终能识别出性能最优的配置。

λ-Tune

λ-Tune 将三个参数作为输入：包含 n 条查询的 OLAP 工作负载 W={q1，q2，…，qn}，包含内核数和内存大小的硬件规格 H，数据库系统 D。它将这三个参数集成到提示词中，并从 LLM 获得配置来对目标系统性能进行优化。如果用户希望限制 LLMs API 调用成本，可以为提示词生成器定义一个令牌预算 B，否则，λ-Tune 将根据 LLMs 令牌限制，尝试将尽可能多的信息放入提示词中。

λ-Tune 整体调优流水线运作流程如图 1 所示。

图 1 λ-Tune 调优流水线运作流程

第一步：将 3 个输入参数传递给提示词生成器。提示词生成器将首先压缩输入工作负载 W，以便将输入查询分解为更小的包含连接、选择等特定操作信息的查询片段。然后，它将根据既定预算 B 为 LLM 选择并组合最具信息量的查询片段。接下来，提示词生成器将压缩的工作负载以及其他输入参数转换并嵌入到一个提示中。

第二步：调用 LLM k 次以返回 k 个响应，每个响应包括一个完整的配置。由于 LLM 的随机化程度，每个响应返回的配置将有所不同。具体的，每个配置都包含一组符合目标数据库的 SQL 命令。例如，若目标数据库是 PostgreSQL，返回的配置通常由 “CREATE INDEX” 和 “ALTER SYSTEM SET value” 等命令列表组成。λ-Tune 的设计假设了某些返回的配置可能比有效配置慢得多。为了处理上述情况，本论文使用了一种多轮次评估相关配置的方法，其中，每轮次给定超时时间，从而防止低效的配置垄断整个调优过程。这种方法提供了可证明的时间保证。

此外，为了在评估过程中最大限度地减少索引重新配置的开销，λ-Tune 首先根据列引用将索引与可能利用它们的查询相关联，并仅在相关查询执行之前延迟创建它们。为了最小化索引重新配置成本，λ-Tune 使用动态规划算法，根据索引生成成本对查询进行最优排序。

提示词生成

提示词生成过程主要包括使用的提示词模板以及输入工作负载压缩表示生成方法。

1.提示词模板

提示词模板描述如下图所示，整体可分为三块。第 1 块提示词模板以期望 LLMs 解决的任务一般说明开始：数据库调优。这些指令相当通用，同时提供了几种调优选择的示例，比如索引或内存分配相关调优。

在一般性说明后，第 2 块提示词主要包含输入工作负载的聚合描述。由于直接在提示词中提供 SQL 查询会产生高昂的输入令牌成本。因此，λ-Tune 提供了一种压缩表示，只关注最重要的工作负载方面，同时尽可能简洁地表示信息。上图压缩负载侧重于描述输入工作负载中的连接操作，这是因为连接操作往往是最昂贵的操作之一，这类信息对于调整数据分区、索引和复制等决策非常重要。

最后一块提示词模板文本主要包含了目标系统所在的硬件属性，如系统内存大小和 CPU 核数等。本块提示词模板很容易扩展以集成硬件上的更多细节。

2.工作负载压缩

下面，我们将主要对工作负载压缩方法进行描述。

在上文中我们已经提到，本文的工作负载压缩方法首先将工作负载中的 SQL 查询分解为 “查询片段”（如连接条件），并通过整数线性规划（ILP）模型选择 token 预算内价值最大的片段。

分解和压缩过程主要包括如下两步：提取连接对和合并共享列。

• 提取连接列对：从查询中收集所有连接条件，例如，SQL 查询 SELECT * FROM Table1 JOIN Table2 ON Table1.A = Table2.B，列 Table1.A 和 Table2.B 被用于连接表 Table1 和 Table2，因此形成一个列对 ⟨A, B⟩。
• 合并共享列：将共享左列的连接合并为单行表示。原始连接对 ⟨A,B⟩, ⟨A,C⟩, ⟨A,D⟩ → 压缩为 A:B,C,D。

即便采用上述压缩策略，我们依然无法表述一个大型工作负载内多样化连接条件的完整连接结构。为了满足 LLMs 输入令牌数量和用户预算限制，我们有必要选出连接条件的一个子集表示在提示词中。为在有限令牌数内高效传递数据库查询中的关键连接信息，需要通过成本优先策略筛选高开销连接条件，本文将其建模为整数线性规划问题（ILP）。目标是在满足令牌预算限制的前提下，最大化所选条件的总优化价值，从而指导 LLMs 精准聚焦最耗资源的连接路径，平衡信息压缩与性能优化。

配置选择

LLMs 可能会生成质量参差不齐的配置。由于某些糟糕的配置，按顺序评估这些配置可能会导致巨大的开销。因此，本文使用增量超时机制、避免冗余评估等方式来快速排除低效配置，保证总调优时间可控。

1.增量超时机制

为了避免花费太多时间在评估糟糕的配置上，本文在配置选择阶段采用了一种多轮次评估策略，并且在每轮中强制每个配置超时。总体思路是：早期轮次用短超时快速排除明显低效配置（如 Q1=100 秒的配置），后期轮次用长超时验证潜在高效配置。

• 分轮评估：每轮设置超时时间，初始值 t（如 10 秒）。
• 几何级数递增：每轮超时时间乘以系数 α（如 α=2，超时序列为 10 秒、20 秒、40 秒...）。
• 多轮筛选：每轮淘汰超时未完成的配置，保留高效配置进入下一轮。

2.避免冗余工作

除非查询评估因为超时被打断，否则采用相同配置来评估相同查询是非常冗余的。为避免冗余工作，λ-Tune 会持续追踪那些在每个配置下被完整执行的查询语句。在选择某个配置在评估阶段需要执行的查询语句时，λ-Tune 会将那些已经执行过的查询直接筛除。

3.最佳配置

λ-Tune 会持续追踪那些目前已知的最佳配置（某轮次中某个配置完成全部查询执行），追踪信息包括最佳配置本身及执行时间。

为方便大家对配置选择过程有一个更加直观的认知，论文在图 2 展示了配置选择方法示例。x 轴表示执行时间，y 轴表示配置 ID。假设从 t=4 的超时开始，从一次迭代到下一次迭代，超时增加系数 α=2。每种配置都用不同的颜色表示，彩色方块表示对同一行配置的完整查询。灰色方块表示上次执行的查询因超时而中断。在第一轮中，配置 1 完成三个查询，配置 2 完成一个查询，并在执行 Q2 时中断。配置 3 和 4 执行两个查询，并在执行 Q3 时中断。在第二轮中，超时加倍为 2·t=8，这意味着第二轮在总共 12 个时间单位后停止。最后，在第 3 轮中，配置 1 在总共 14 个时间单位后完成了所有 10 个查询，这意味着现在其他每个配置都将基于配置 1 动态调整超时。其余配置均未在新的超时时间内终止。因此，λ-Tune 将配置 1 返回为最佳配置。

图 2 λ-Tune 配置选择过程示例

4.时间保证

至此，本文已经直观的证明了超时机制的合理性。为了论文严谨性，本文还提供了一个时间保证理论及其证明，表明其超时方案将总调优时间限制为 LLMs 所返回的最佳配置的函数，即总调优时间（仅查询执行时间，不含重配置相关开销）与最优配置执行时间成比例。

定理： 总调优时间（不包括重新配置开销）复杂度为 O（k·α·Cbest），其中 Cbest 是 LLM 返回的最佳配置的执行时间，α≥2。

证明： 每轮超时按 α 倍数增长，因此最后一轮超时时间 Tlast 肯定要高于最优配置执行时间 Cbest，即 Tlast≤α·Cbest。每个配置在上一轮的执行时间上限 Tlast 为，因此最后一轮 K 个配置的总执行时间为 k·Tlast≤k·α·Cbest，由于 α≥2 的几何级数设置，所有先前轮次的时间总和最多等于最后一轮时间。

5.重配置开销的影响与解决方案

上文对不同配置的查询执行时间开销进行了上限分析，但是在实际中调优时间还会取决于配置切换导致的时间开销，例如，在索引相关配置切换过程中，索引创建开销可能主导调优时间。为了避免这种情况，λ-Tune 在设置超时的时候考虑了索引生成开销，它会测量索引生成开销并相应地调整超时设置。总的来讲，λ-Tune 会首先记录每个配置的索引创建耗时，再调整超时下限，设置每轮超时至少覆盖索引创建时间，避免无效切换。

配置评估

在本章节，作者主要描述了 λ-Tune 如何有效地评估配置，同时最大限度地减少重新配置的开销。

1.查询调度成本模型

在存在执行中断风险的场景下，查询顺序对索引创建成本有显著影响。λ-Tune 通过基于概率的成本模型优化查询顺序，以最小化预期开销。

中断敏感性与顺序影响：若查询可能因超时中断，先执行高索引开销的查询会增大浪费风险。例如，假设现在要执行 q1 和 q2 两条查询，每条查询只能用一个特定的索引。q1 所用索引创建开销为 1，q2 所用索引创建开销为 5，若两条查询执行时间相同且第一条查询的执行有 50% 的概率中断，则采用 q1→q2 的执行顺序其预期的索引创建成本为 3.5（1+0.5×5），而 q2→q1 的执行顺序其索引创建成本则为 5.5（5+0.5×1），前者更优。

成本模型假设：给定 n 个查询 q1，q2，q3 至 qn，假设每个查询执行后中断的概率均为 1/n。对查询顺序 i₁→i₂→…→iₙ，若中断发生在第 k 个查询后，前 k 个查询的执行开销之和为：

基于上述推论，总的预期执行开销可表示为：

2.优化查询排序

为了解决每个配置评估轮的查询执行和索引创建的最佳排序问题，作者实现了一种基于动态规划的排序算法。

与左深树或右深树连接顺序问题类似，给定 n 个查询，那么就会有 n! 种排序可能。然而，如果前 K 个查询已完成排序，那么从剩下的 n-k 个查询中选出添加下一个查询的开销则独立于前 K 个排序。根据最优性原理，通过重新排序排序前 K 个查询来降低其预期开销并不会导致全部查询的预期开销更差。

根据上述原理，作者将 n 个查询的全排列（n! 种可能）分解为逐步扩展的子集（从单查询到全量），记录每个子集的最优顺序与成本，子问题的最优解可组合为全局最优解。若前 k 个查询顺序优化后成本更低，则全局成本必然不会变差。这种方式需遍历所有查询子集（2^n 规模），比较适用于小规模查询集。

在具体算法中，作者按照集合基数的升序枚举所有查询自己，从单查询到查询对，再到包含所有查询的集合结束。对于每个查询子集，评估所有查询排序的可能性。更准确地说，该算法考虑以下情况的所有可能性：将具有 k 个元素的查询排序扩展为包含一个额外查询的查询排序。给定一个需要计算最优排序的查询子集，它会依次将每个查询视作在相应排序中最后出现的候选项。在确定最后一个查询后，算法会检索剩余查询的最优顺序。

3.查询聚类

由于查询排序优化算法考虑了所有查询子集，因此其具有指数级复杂度。为了减轻这种情况，作者通过根据查询的索引依赖关系对查询进行 K-Means 聚类来减少算法的输入大小，然后将同一聚类内的查询视为一个整体，按聚类顺序执行。

大致聚类过程如下：

1）查询向量化： 每个查询表示为二进制向量，维度 = 所有可能索引数。例如，索引集合为 {A, B, C}，查询 q₁ 使用 A 和 B，则向量为 [1,1,0]。

2）距离度量： 欧氏距离（Euclidean Distance）衡量查询间的相似性。两查询向量越相似，说明它们依赖的索引越接近。

3）输出： k 个聚类（如 k=5），每个聚类包含相似查询。

假设以 TPC-H 查询为例进行聚类，TPC-H 包含 22 个查询，依赖 10 种索引。通过上述聚类算法，22 个查询可聚为 5 个类，计算复杂度直接从 O(2²²) 降至 O(2⁵)。

实验

实验设置

硬件与基准：所有实验在 AWS p3.2xlarge 实例上运行，采用 TPC-H（1GB/10GB）、TPC-DS（1GB）和 JOB 进行基准测试，对 PostgreSQL 12.0 与 MySQL 8.0 两个系统进行调优。初始配置方面，所有系统参数均使用默认设置（无索引）。

对比方法如下：

（1）GPTuner 基于 LLMs 链接地址：

https://dl.acm.org/doi/10.14778/3659437.3659449

（2）DB-BERT 基于 LLMs 链接地址：

https://dl.acm.org/doi/10.1145/3514221.3517843

（3）UDO 基于强化学习链接地址：

https://dl.acm.org/doi/10.14778/3484224.3484236

（4）LlamaTune 链接地址：

https://dl.acm.org/doi/abs/10.14778/3551793.3551844

（5）ParamTree 链接地址：

https://dl.acm.org/doi/10.1145/362676

对于索引选择问题，与 Dexter 和 DB2 Index Advisor 两个工具进行对比：

（1）Dexter 链接地址：

https://github.com/ankane/dexter

（2）DB2 Index Advisor 链接地址：

https://ieeexplore.ieee.org/document/839397

对比结果

作者在多个基准测试（TPC-H、JOB、TPC-DS）和数据库系统（PostgreSQL、MySQL）上执行所有方法（λ-Tune、UDO、DB-Bert 等），收集每个方法生成的候选配置。所有候选配置中执行时间最短的配置被标记为 “最优配置”，其执行时间被归一化为 1.0，其他配置的执行时间按此基准进行缩放，得到表 3。

这些基准模型中，只有 UDO 支持优化物理设计，因此，针对 UDO 和 λ-Tune，进行参数调优和物理设计，其他基准模型仅关注系统参数调优。

从表 3 可以看到，λ-Tune 平均最优（平均成本 1.41），尤其在允许初始化创建索引时表现更优（平均成本 1.21），显著优于 UDO（2.00）、DB-BERT（1.82）基准模型等。

表 3：基准模型性能对比表

如图 3 和图 4 中，x 轴表示以秒为单位的优化时间，y 轴表示以秒为单位的最佳执行时间。数据点（x, y）显示了各个框架中截止时间 x 时的最佳执行时间 y。所有实验都运行了 3 次，对于每条线图，中间线表示了 3 轮实验中最佳执行时间的平均值，阴影区表示误差范围，包含每种配置的最大和最小执行时间。每条线的起始点都是相应系统评估其第一个配置的时间点，虚线则表示相应系统在调优时间内未能成功评估任何配置的情况。

图 3 限制调优范围为系统参数调优，所有模型都不会通过索引创建来改变物理设计。换言之，所有调优方法都采用相同的索引，索引均在调优开始前完成创建。在初始化状态，所有系统参数都设置为默认值。图 4 扩展了调优范围，允许调优方法同时改变物理设计和参数设置。在开始状态，所有基准测试不创建任何索引且采用默认系统参数。可以看到，在两种场景下，无论是否涉及索引调优，λ-Tune 都能更快地找到最优配置。

表 3 对上述图表的结果进行了总结，报告了每个基准模型找到最佳配置的成本，“Initial Indexes” 列表示是否在调优开始前生成索引。

图 3：不涉及索引创建，纯参数调优

图 4：创建索引，默认情况下无索引

深度分析

作者更详细地分析了 Postgres 上的 TPC-H 基准测试的结果，如表 5 所示。

λ-Tune 通过多维度参数调优与索引策略的协同设计提升了 OLAP 负载性能：在内存管理上，将 shared_buffers 设为系统内存的 25%（如 61GB 内存中设为 15GB）以扩大缓存池、减少 I/O，同时提升 maintenance_work_mem 加速索引维护；针对查询优化器，通过增加 effective_cache_size（如 45GB）和降低 random_page_cost（如 1.1）引导优化器优先使用索引扫描，并提升 effective_io_concurrency（如 2GB）以增强大表扫描效率。索引策略聚焦高频查询列（如外键 orders.custkey 和过滤列 lineitem.shipdate），创建单列 B 树索引，同时通过参数调整与索引的协同作用（如高缓存设定与低 I/O 成本假设）确保优化器充分利用索引。这些调整在 TPC-H、TPC-DS 等基准中形成统一的内存优化框架（如 shared_buffers 一致性）与差异化的并发策略，兼顾通用性与负载特异性，最终实现全查询性能提升且无性能回退。

表 5：TPC-H 1GB（Postgres）的最佳 λ-tune 配置

表 4 对比了各调优工具的试验次数（即配置评估次数），结果显示 λ-Tune 在样本效率上显著优于多数基线方法：其仅评估由大语言模型（LLM）生成的 5 个配置，而 DB-BERT、GPTuner 需测试更多组合，UDO 则因依赖强化学习需数百次评估（但仅通过负载抽样，结果可能不准确）。在 TPC-H（1GB）中，λ-Tune 成为最有效的样本基线之一，紧随其后的是 LlamaTune（通过降维提高样本效率）。当数据规模扩大（10GB）时，因单次评估耗时增加，多数工具的试验次数骤减，但 λ-Tune 和 ParamTree（固定规则调参）不受影响。

表 4 每个基线评估的配置数量（Postgres）

最后，作者比较了默认设置和 λ-Tune 为 TPC-H 选择的配置之间的每次查询执行时间。图 5 报告了相应的结果。事实证明，与默认设置相比，通过 λ-Tune 提出的配置获得的性能增益转化为每个查询的增益或至少相等的性能。

图 5 查询执行时间（TPC-H 1GB，Postgres）：λ-Tune 与默认配置

结论

本研究提出的 λ-Tune 框架通过创新性地利用大语言模型（LLMs）进行数据库调优，显著提升了自动化数据库调优的效率和鲁棒性。与以往基于 LLMs 的调优方法不同，λ-Tune 突破了传统单参数优化的局限性，通过动态提示词生成、配置选择策略和延迟索引创建技术，实现了对 OLAP 工作负载的高效适配。其核心贡献在于将 LLM 的语义理解能力与系统调优的约束条件相结合，通过数学建模（如整数线性规划）和动态规划调度算法，在有限的计算开销和 API 成本下确保配置质量，为数据库自治管理提供了新范式。

λ-Tune 的成功验证了现代 LLMs 在复杂系统优化任务中的潜力，其设计原则（如基于成本的提示压缩和增量式超时评估）为 LLMs 在数据库领域的深度应用提供了方法论参考。λ-Tune 为基于 LLM 的系统优化开辟了道路，其设计思想可迁移至其他资源管理场景，具有广泛的工业应用前景。

笔者展望

λ-Tune 通过将大语言模型与数据库调优深度结合并取得显著进展，其创新点体现在：

1）突破传统单参数优化范式，利用大模型理解全局上下文生成配置；

2）基于 ILP 的提示压缩机制和动态规划调度算法实现效率与效果的平衡；

3）实验验证了 LLM 在复杂配置空间探索中的潜力。

未来工作可沿五个方向拓展：

1）扩展支持更多数据库系统和负载形态（如分布式数据库）和混合事务分析负载（HTAP）；

2）结合检索增强生成（RAG）技术构建领域知识增强架构，动态整合数据库部署手册、运维手册、SQL 支持手册、版本特性说明等外部知识库以提升调优上下文的理解深度，使大模型生成的配置方案既符合系统语法规范，又能在手册指导下快速完成调优；

3）优化调度算法以应对超大规模工作负载的实时性需求；

4）物理设计优化进一步覆盖现代数据库高级特性（如向量化索引、自适应分区等）；

随着大模型及其生态的进一步繁荣发展，大模型全面赋能数据库成为必然趋势。Gartner 在其最新的 “Emerging Tech: How to Avoid the Risk of GenAI’s Impact on DBMS” 报告中指出，2025 年生成式 AI 赋能的数据库解决方案收入将首次超过传统数据库系统，当前主流的数据库厂商均在布局整合生成式 AI 相关功能。预计到 2034 年，生成式 AI 赋能的数据库解决方案相关市场将达到 4130 亿美元，远超传统数据库解决方案。由此可见，生成式 AI，尤其是大模型的爆发式增长已不可避免地影响到数据管理系统领域发展方向，其在数据库安装部署、查询优化、智能运维以及数据分析等方面的能力将大幅提升数据库的性能、易用性和智能化程度。

从技术发展与迭代角度来看，以 MCP（Model Context Protocol）协议为代表的大模型开放式标准协议在大模型与数据源和工具之间架起一座桥梁，传统数据管理、分析与系统运维形态正在发生剧烈变化。KaiwuDB 研发团队以 MCP 等标准协议为底座，结合大模型微调和检索增强生成技术，研发 KaiwuDB 智能体工具，旨在面向内部研发测试人员和外部用户对 KaiwuDB 开发测试、安装部署、数据管理分析、故障运维、性能调优等全生命周期过程进行大模型赋能，从而有效提升 KaiwuDB 面向不同工作负载的性能、易用性、辅助决策能力及智能化程度。

该智能体工具的研发工作正在快速推进，敬请期待~

往期推荐:

Paper Reading| 基于深度强化学习的查询优化框架 FOSS

Paper Reading | AI & 数据库融合经典论文回顾

Paper Reading | 多模数据库经典论文回顾