ICDE 2026 国产数据库入选论文盘点

原创通讯员 2026-05-07

1104

2026年5月4日-5月8日，第42届 ICDE 在蒙特利尔隆重举行。本届会议中，国产数据库厂商与国内高校联合贡献了多篇高质量论文，展现了中国在分布式架构、AI4DB（智能运维）、向量检索及图增强技术等前沿领域的全球竞争力。

入选论文盘点

一、行业与应用论文（（Industry & Application Track）

面向工业界已部署或高强度落地的数据管理系统 / 解决方案，强调工程创新与实际价值

- OceanBase -

入选论文：《OceanBase Mercury: Building a Distributed Real-time Analytical Processing Database System》（OceanBase Mercury：构建分布式实时分析处理数据库系统）

技术亮点：
该论文揭秘 Mercury 引擎如何通过自适应列存架构，在 **PB 级分布式环境下实现“边写边查”**的极速分析体验。

- 阿里巴巴（6篇） -

入选论文：《Taxon: Hierarchical Tax Code Prediction with Semantically Aligned LLM Expert Guidance》（Taxon：基于语义对齐大模型专家指导的层级税务编码预测）

合作机构：香港科技大学（广州）、广东人工智能与数字经济实验室（深圳）
技术亮点：
面向企业税务场景，用大模型做层级税码精准预测，提升财税自动化与合规效率。

入选论文2：《REVISION: Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization》（REVISION：面向电商视觉搜索优化的反射式意图挖掘与在线推理）

合作机构：上海人工智能实验室
技术亮点：
优化电商视觉搜索，通过意图理解与在线推理提升搜索精准度与用户转化。

入选论文3：《REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems》（REG4Rec：面向大规模推荐系统的推理增强生成模型）

合作机构：武汉大学
技术亮点：
推理增强生成式推荐模型，在大规模电商 / 内容推荐中提升效果与效率。

入选论文4：《GALA: Generative Aligned Learning for Adaptive Multimodal Representation in the Eleme Recommender System》（REG4Rec：GALA：饿了么推荐系统中自适应多模态表示的生成式对齐学习）

合作机构：中南大学
技术亮点：
多模态生成式对齐学习，用于本地生活 / 外卖推荐，强化用户意图理解。

入选论文5：《Cascading Relevance-driven Recommendation Network for CTR Prediction in Trigger-Introduced Recommendation》（级联相关性驱动推荐网络：用于触发式推荐的点击率预测）

合作机构：阿里巴巴淘宝 & 天猫集团
技术亮点：级联相关性网络，优化触发式推荐场景的 CTR 预估精度与线上效果。

入选论文6：《Decoupled Multimodal Fusion for User Interest Modeling in Click-Through Rate Prediction》（解耦多模态融合：用于点击率预测的用户兴趣建模）

合作机构：中国人民大学
技术亮点：
解耦式多模态融合，更精准建模跨域 / 跨境用户兴趣，提升 CTR 与转化。

- 华为 -

入选论文：《KScaNN: Scalable Approximate Nearest Neighbor Search on Kunpeng》（KScaNN：鲲鹏架构上的可扩展近似最近邻搜索）

技术亮点：
论文展示了针对国产鲲鹏硬件架构深度优化的向量检索算法，为大模型应用提供了高性能、强扩展性的底层向量搜索底座。

- 达梦（Dameng）-

入选论文：《DM-RAG: Enhancing User Support in Dameng Databases with Retrieval-Augmented Generation》（DM-RAG：利用检索增强生成技术提升达梦数据库的用户支持）

合作机构：武汉大学
技术亮点：达梦通过将 RAG 技术引入数据库生态，利用大模型与私有知识库构建智能服务系统，大幅提升了国产数据库自动诊断与技术支持的智能化水平。

- 浪潮集团 -

入选论文：《Bala-Join: An Adaptive Hash Join for Balancing Communication and Computation in Geo-Distributed SQL Databases》（Bala-Join：一种用于平衡地理分布式SQL数据库中通信和计算的自适应哈希连接）

合作机构：西安电子科技大学、西安交通大学。
技术亮点：
针对跨地域部署场景，该研究提出一种自适应哈希连接算法，有效平衡了网络通信开销与计算负载，大幅提升了地理分布式数据库的查询性能。

- 创邻科技（Galaxybase）-

入选论文：《GalaxyRAG: Graph Retrieval-Augmented Generation for Enterprise Knowledge Systems》（GalaxyRAG：面向企业知识系统的图检索增强生成）

合作机构：香港科技大学（广州）。
技术亮点：
论文实现了图数据库与大模型的高度融合，利用图谱的强关联性消除大模型生成的“幻觉”，赋能构建更精准的企业级知识系统。

- 聚好看（海信）-

入选论文：《DBdoctor: A Fine-grained and Non-intrusive Performance Diagnosis Platform for Databases》（DBdoctor：一个细粒度、非侵入式的数据库性能诊断平台）

合作机构：中国人民大学。
技术亮点：
论文介绍了一款非侵入式的内核级诊断平台，能够在不影响业务性能的前提下，通过细粒度的数据采集实现对数据库瓶颈的精准“微创”诊断。

聚好看虽非纯数据库厂商，但其研发的 DBdoctor 聚焦于数据库内核监控与性能诊断，属于数据库产业链中至关重要的智能运维生态，故一并纳入盘点。

二、研究论文（Research Track）

面向数据管理领域的原创性研究，提出新算法、新模型、新系统架构或新理论。

- 华为（6篇） -

入选论文1：《Toward the Distributed Large-scale k-NN Graph Construction by Graph Merge》（基于图合并的分布式大规模 k 近邻图构建研究）

合作机构：厦门大学
技术亮点：
提出基于图合并的分布式大规模 k-NN 图构建方案，适配向量数据库海量高维向量检索场景，提升分布式向量建图效率与扩展性。

入选论文2：《SwitchDelta: Asynchronous Metadata Updating for Distributed Storage with In-Network Data Visibility》（SwitchDelta：支持网络内数据可见性的分布式存储异步元数据更新机制）

合作机构：清华大学
技术亮点：
设计分布式存储异步元数据更新机制，融合网络内数据可见性能力，解决分布式数据库元数据更新延迟与一致性瓶颈。

入选论文3：DIndex: An Efficient On-Disk Learned Index for Memory-Constrained Environments DIndex》（面向内存受限场景的高效磁盘级学习索引）

合作机构：上海交通大学
技术亮点：
适配边缘、嵌入式等内存受限环境，构建纯磁盘高效学习索引，大幅降低数据库内存占用。

入选论文4：《Astraea: Efficient Pipelined Micro-batch Stream Processing with Non-hash Differentiated Partitioning》（Astraea：基于非哈希差异化分区的高效流水线微批次流处理框架）

合作机构：华中科技大学
技术亮点：
流水线微批次流处理架构，采用非哈希差异化分区策略，提升实时流数据库 / 时序数据吞吐与处理时延。

入选论文5：《PAT: Towards Transaction Routing with Page Affinity in Shared-Cache Databases》（PAT：共享缓存数据库中基于页面亲和性的事务路由策略）

合作机构：东北大学、清华大学
技术亮点：
提出页面亲和性事务路由算法，优化共享缓存架构下分布式事务分发，提升资源利用率与事务处理性能。

入选论文6：《Mirror Asymmetry Perfect Hashing: A Memory-Efficient and Load-Intensive-Optimized Hashing Index on Hybrid DRAM-PMem Architecture （镜像非对称完美哈希：DRAM-PMem 混合内存架构下内存高效、面向高负载优化的哈希索引）

合作机构：中科院信息工程研究所、北京大学
技术亮点：
面向 DRAM-PMem 混合内存设计新型哈希索引，节省内存开销，适配数据库高负载写入与查询场景。

- OceanBase（2篇）-

入选论文1:《Tetris: Lightweight Hyperparameter Auto-Tuning for Mitigating Performance Spikes in LSM-KV》（Tetris：缓解 LSM 树键值存储性能抖动的轻量级超参自动调优方法）

合作机构：厦门大学
技术亮点：
轻量级智能超参调优框架，自动抑制 LSM 树 KV 存储性能波动，实现数据库自运维、自适应调优。

入选论文2:Clue-RAG: Towards Accurate and Cost-Efficient Graph-based RAG via Multi-Partite Graph-based Index（Clue-RAG：基于多分图索引的高精度、低成本图检索增强生成方案）

合作机构：香港中文大学（深圳）
技术亮点：
构建多分图索引赋能图 RAG，提升知识库检索精度，同时降低大模型 + 图数据库融合场景算力成本。

- 阿里巴巴（9篇） -

入选论文1：《MVGPT: Generative Materialized View Forecasting》（MVGPT：生成式物化视图预测）

合作机构：清华大学
技术亮点：
创新性将生成式大模型与数据库物化视图优化结合，智能预测业务负载下最优物化视图的创建、淘汰与更新时机，自适应适配多变的分析型业务负载，有效解决传统物化视图静态调度滞后、资源浪费的问题，大幅降低海量复杂分析查询的响应延迟，提升数据库分析场景整体吞吐性能。

入选论文2：《Accessible LLM for Accurate Table Question Answering》（使用无障碍LLM进行准确的表格问答）

合作机构：新加坡国立大学、穆罕默德·本·扎耶德人工智能大学、哈马德·本·哈利法大学
技术亮点：
面向数据库结构化表格数据，优化大模型的语义理解与表格推理能力，解决传统Text-to-SQL模型对复杂表格结构、专业业务语义理解偏差的问题，无需复杂微调即可实现高精度自然语言表格问答，赋能数据库智能交互、业务自助数据分析场景。

入选论文3：《TemplateQO: Template-Aware and Scalable Query Optimization with Data-Efficient Learning》（TemplateQO：基于数据高效学习的模板感知和可扩展查询优化）

合作机构：华中科技大学、武汉理工大学
技术亮点：
针对传统学习型查询优化数据开销大、泛化性差的痛点，设计模板感知的轻量化学习优化框架，基于少量数据即可完成查询计划优化，具备极强的可扩展性，适配大规模、多类型SQL查询场景，有效提升数据库查询优化器的自适应能力与落地实用性。

入选论文4：《SHMemora: Protective Key-Value Storage on Distributed Shared Memory》（SHMemora：分布式共享内存上的保护性键值存储）

合作机构：清华大学、美国康奈尔大学、深圳江波龙电子有限公司
技术亮点：
面向分布式共享内存架构，设计具备安全防护能力的高性能KV存储引擎，解决分布式内存存储的数据冲突、数据丢失、访问异常等问题，在保障数据可靠性的同时，大幅提升分布式键值数据库的读写性能与并发处理能力，适配高性能在线业务场景。

入选论文5：《Overcoming Synchronization Bottlenecks in Parallel Graph-Vector Retrieval》（克服并行图向量检索中的同步计算困境）

合作机构：南开大学
技术亮点：
针对大规模图向量数据库并行检索场景的同步锁等待、计算阻塞、性能瓶颈等核心问题，提出新型并行检索调度机制，规避无效同步开销，最大化并行计算资源利用率，显著提升大图、高维向量场景下的并发检索速度与系统吞吐量。

入选论文6：《CARROT: Learning Cost-Constrained Retrieval Optimization for RAG》CARROT（一种用于RAG的学习型成本约束检索优化系统）

合作机构：南洋理工大学
技术亮点：
面向数据库+大模型RAG融合场景，设计学习型成本约束检索优化框架，智能平衡检索精度、检索耗时与算力开销，解决传统RAG检索精度低、资源消耗高的痛点，适配向量数据库支撑的企业级知识库智能问答场景。

入选论文7：《Elena: An Explainable Online Query Optimization Framework
Elena》（一个基于可解释性的在线查询优化框架）

合作机构：浙江大学
技术亮点：
打破传统AI查询优化“黑盒”问题，构建可解释的在线数据库查询优化框架，实时感知查询负载与数据分布变化，动态调整查询执行计划，同时可溯源优化决策逻辑，兼顾数据库查询性能与运维可解释性，适配线上生产环境稳定运行需求。

入选论文8：《GoCache: Schema-Driven Caching for Out-of-Core Graph Query Acceleration》（GoCache：利用模式驱动缓存加速核外图查询）

合作机构：中国科学技术大学、南开大学
技术亮点：
针对核外大图查询磁盘IO高、延迟高的痛点，提出模式驱动的智能缓存策略，精准识别高频图查询模式，实现热点图数据智能缓存与预加载，大幅减少磁盘访问次数，高效加速超大图数据库的离线、在线查询性能。

入选论文9：《Cascaded Graph Diffusion Model for City-Scale Origin-Destination Matrix Generation》（基于级联图去噪扩散的城市范围起讫点矩阵生成）

合作机构：新加坡-麻省理工研究与技术联盟、清华大学、北大-武汉人工智能研究院
技术亮点：
面向时空大数据管理场景，基于级联图去噪扩散模型实现城市级OD出行矩阵智能生成，解决传统时空数据稀疏、噪声大、数据补全难度高的问题，为时空数据库、城市大数据分析、智能交通数据治理提供高效的数据预处理与生成方案。

- 浪潮集团 -

入选论文：
《CSD-CoKV: Host-CSD Collaborative Offloading for High-Performance LSM-tree based KV Stores》（CSD-CoKV：面向高性能 LSM 树键值存储的主机 - CSD 协同卸载机制）
合作机构：山东大学
技术亮点：
面向 LSM 树 KV 存储设计主机 - CSD 协同卸载架构，优化 IO 与计算卸载，大幅提升分布式存储引擎读写性能。

- 腾讯云 -

入选论文：《CYANSQL: Unlock the Power of NL2SQL via Clustering-based Test-Time Scaling》（CYANSQL：通过基于集群的测试时扩展释放NL2SQL的强大功能）
合作机构：复旦大学、齐鲁工业大学
技术亮点：
针对传统NL2SQL模型存在泛化能力弱、复杂数据库场景转换准确率低、微调成本高的行业痛点，创新性提出基于集群的测试时扩展优化方案。

- 深圳计算科学研究院（3篇） -

入选论文1：《Conflict Resolution for Improving ML Accuracy》（面向机器学习精度提升的数据冲突消解方法）

合作机构：复旦大学
技术亮点：
针对真实数据库数据集普遍存在数据冲突、脏数据、逻辑矛盾，导致机器学习模型训练精度下降的行业痛点，创新设计高效数据冲突消解框架。

入选论文2：《PORCA: Root Cause Analysis with Partially Observed Data》
PORCA：面向部分观测数据的故障根因分析方法）

合作机构：中国科学院计算技术研究所、Megagon Labs、北京理工大学、电子科技大学、东南大学
技术亮点：
针对数据库、大数据系统运维中普遍存在的数据观测不全、日志缺失、信息残缺导致故障根因定位不准的难题，提出适配部分观测数据的智能根因分析算法PORCA。

入选论文3：《Reconstructing TensorLog for Scalable End-to-end Rule Learning
（面向可扩展端到端规则学习的TensorLog重构方法）

合作机构：深圳计算科学研究院、香港科技大学（广州）、广东外语外贸大学、中山大学
技术亮点：
针对传统知识规则学习框架扩展性差、难以适配大规模数据库知识推理场景的痛点，重构TensorLog推理架构。

- 平凯星辰 -

入选论文：《EC-RAG: Towards Efficient Edge-Cloud Retrieval-Augmented Generation Systems》EC-RAG：面向高效的边缘云检索增强生成系统）

合作机构：华中科技大学
技术亮点：
针对传统云端RAG架构存在算力开销大、响应延迟高、边缘数据适配性差的痛点，提出高效边云协同检索增强生成系统EC-RAG。

关于ICDE

ICDE (IEEE International Conference on Data Engineering) 是数据库领域全球顶级学术会议（CCF A 类），与 SIGMOD、VLDB 并称为“数据库三大顶会”。

如果说 SIGMOD 偏重前瞻理论，VLDB 偏重系统架构，那么 ICDE 则以“工业实用性”和“工程落地”见长。能在 ICDE 工业届（Industry Track）入选论文，意味着该技术不仅在学术上成立，更在千万级乃至亿级并发的真实生产环境中得到了验证。

ICDE 2026 的入选论文反映出一个清晰的趋势：国产数据库不再满足于单纯的“国产替代”，而是在“引领创新”。从 OceanBase 的存算架构优化，到华为、达梦、浪潮对 AI 与硬件协同的探索，国产数据库正全方位覆盖从内核到生态的完整自研体系。

参考消息来源：https://icde2026.github.io/ia-papers.html

icde oceanbase 华为达梦数据

最后修改时间：2026-05-08 09:40:37

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者

ICDE 2026 国产数据库入选论文盘点

入选论文盘点

一、行业与应用论文（（Industry & Application Track）

二、研究论文（Research Track）

关于ICDE

评论