OceanBase 多篇论文被国际顶会录用！

OceanBase 1天前

112

日前，从学术领域传来好消息，OceanBase 联合国内多所高校共同完成的 3 篇论文接连斩获国际顶会认可：其中 2 篇分别被国际顶级学术会议 ACL 2026、SIGMOD 2026 录用，另有 1 篇被 ICDE 2026 正式接收。

此次入选论文的研究方向覆盖面广、前沿性强，聚焦 Agentic RAG 数据难题、编码智能体、LSM-Tree 合并性能波动等方向，展现了 OceanBase 在数据库基础研究与人工智能融合方面的最新研究成果。

以下为论文内容介绍：

破解 Agentic RAG 数据难题

ACL 是计算语言学与自然语言处理领域最具影响力的国际会议之一。

由北京大学、中关村学院与 OceanBase 联合完成的综述论文《Data-Centric Perspectives on Agentic Retrieval-Augmented Generation: A Survey》聚焦当前 Agentic RAG 走向真实应用时最关键、也最容易被低估的问题：数据。

论文的贡献在于，将 Agentic RAG 的研究焦点从模型结构和推理策略进一步推进到数据层，并系统回答了三个问题：Agentic RAG 需要什么样的数据，如何构建这些数据，以及如何评估这些数据是否真的有效。

不同于传统 RAG 主要依赖静态文档和一次性检索，Agentic RAG 需要智能体主动拆解任务、规划检索路径、调用外部工具、评估证据并反复修正答案，因此对数据集、评测集和训练轨迹提出了全新的要求。

论文首次从 data-centric 视角系统梳理 Agentic RAG 的数据生命周期，覆盖数据采集、预处理与任务定义、任务构造、评测数据和训练数据增强。

Agentic RAG 的数据生命周期

作为一篇 survey，论文还整理问答、Web、软件工程、机器学习、医疗、法律等多个领域的代表性训练数据与评测基准，这为后续研究者选择数据、构建 benchmark 和设计训练流程提供了具体参考。

论文项目页：https://github.com/fatty-belly/Awesome-AgenticRAG-Data/

创新提出首个 DB 内核感知编码智能体

由上海交通大学计算机学院周煊赫教授团队联合 OceanBase 等研究团队共同完成的研究成果《Automating Database-Native Function Code Synthesis with LLMs》被数据库领域国际顶级会议 SIGMOD 2026 正式录用。

近年来，数据库等大型系统的代码量急剧增长，其复杂的开发需求给开发工程师带来了巨大难题；与此同时，即便借助现有的自动化编码智能体（Coding Agent）框架，也难以高效应对这类高耦合代码仓库的增量开发。

针对这一双重挑战，该论文创新性地提出了首个面向数据库内核函数生成的专用编码智能体——DBCooker。

DBCooker 架构示意图

该框架通过函数特征分析、函数生成算子、自适应工具编排等核心模块，在多个真实数据库源码测试中取得了显著优于通用框架（例如，Claude Code）的编译成功率和结果准确率，平均准确率提升达 34.55%，有效解决了数据库内核函数生成的难题。

此外，DBCooker 针对数据库内核函数生成中“多处注册、大量引用、任务差异”三大难点，首次将静态分析引导的模板提取、填空式代码生成与自适应工具编排有机融合，形成了一套可落地的专用智能体方案。

这项工作的核心价值在于：将高耦合代码仓库的增量开发，从“人力密集、易错难验”的工程活动，转化为“模板引导、按需编排”的可自动化任务，为数据库内核及其他大型系统软件的高质量演进提供了新的技术路径。

论文链接：https://dl.acm.org/doi/10.1145/3802018
项目主页：https://code4db.github.io/hi-opencook/
代码仓库：https://github.com/OpenDataBox/OpenCook

破解 LSM-Tree 合并性能波动难题

由华东师范大学与OceanBase团队联合撰写的论文《Automatic Parameter Tuning for Compaction in LSM-Tree based Databases》被数据库领域顶级会议 ICDE 2026 接收。

该论文首次提出“Compaction 引起的性能波动”应该成为 LSM-Tree 数据库调优的目标，并通过自动化参数调优的方法，有效缓解了 LSM-Tree 在合并时引起的性能波动，提升延迟、吞吐量和 CPU 利用率的稳定性。

ICDE 是数据库领域顶级学术会议之一，与中国计算机学会（CCF）推荐的 A 类会议 SIGMOD、VLDB 并称为数据库三大顶会。

在现代数据库系统中，LSM-Tree（Log-Structured Merge Tree）已经成为 OceanBase、RocksDB 等主流存储引擎的核心架构。它最大的优势在于：能够以极高的写入吞吐支撑海量数据场景。但与此同时，一个长期困扰工业界的问题也随之而来——Compaction（压缩合并）。

为此，论文提出了：MerTune —— 面向 LSM-Tree Compaction 的自动化参数调优系统。

MerTune 的整体架构由三部分组成：Compaction Characterization Layer（合并行为分析层）、LLM-Assisted Knowledge Generation（LLM 参数知识提取层）、Knowledge-Guided Bayesian Optimization（知识驱动的贝叶斯优化引擎）。