2026年5月4日-5月8日,第42届 ICDE 在蒙特利尔隆重举行。本届会议中,国产数据库厂商与国内高校联合贡献了多篇高质量论文,展现了中国在 分布式架构、AI4DB(智能运维)、向量检索及图增强技术 等前沿领域的全球竞争力。

入选论文盘点
一、行业与应用论文((Industry & Application Track)
面向工业界已部署或高强度落地的数据管理系统 / 解决方案,强调工程创新与实际价值
- OceanBase -
入选论文:《OceanBase Mercury: Building a Distributed Real-time Analytical Processing Database System》(OceanBase Mercury:构建分布式实时分析处理数据库系统)
- 技术亮点:
该论文揭秘 Mercury 引擎如何通过自适应列存架构,在 **PB 级分布式环境下实现“边写边查”**的极速分析体验。
- 阿里巴巴(6篇) -
入选论文:《Taxon: Hierarchical Tax Code Prediction with Semantically Aligned LLM Expert Guidance》(Taxon:基于语义对齐大模型专家指导的层级税务编码预测)
-
合作机构:香港科技大学(广州)、广东人工智能与数字经济实验室(深圳)
-
技术亮点:
面向企业税务场景,用大模型做层级税码精准预测,提升财税自动化与合规效率。
入选论文2:《REVISION: Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization》(REVISION:面向电商视觉搜索优化的反射式意图挖掘与在线推理)
- 合作机构:上海人工智能实验室
- 技术亮点:
优化电商视觉搜索,通过意图理解与在线推理提升搜索精准度与用户转化。
入选论文3:《REG4Rec: Reasoning-Enhanced Generative Model for Large-Scale Recommendation Systems》(REG4Rec:面向大规模推荐系统的推理增强生成模型)
- 合作机构:武汉大学
- 技术亮点:
推理增强生成式推荐模型,在大规模电商 / 内容推荐中提升效果与效率。
入选论文4:《GALA: Generative Aligned Learning for Adaptive Multimodal Representation in the Eleme Recommender System》(REG4Rec:GALA:饿了么推荐系统中自适应多模态表示的生成式对齐学习)
- 合作机构:中南大学
- 技术亮点:
多模态生成式对齐学习,用于本地生活 / 外卖推荐,强化用户意图理解。
入选论文5:《Cascading Relevance-driven Recommendation Network for CTR Prediction in Trigger-Introduced Recommendation》(级联相关性驱动推荐网络:用于触发式推荐的点击率预测)
合作机构:阿里巴巴淘宝 & 天猫集团
技术亮点:级联相关性网络,优化触发式推荐场景的 CTR 预估精度与线上效果。
入选论文6:《Decoupled Multimodal Fusion for User Interest Modeling in Click-Through Rate Prediction》(解耦多模态融合:用于点击率预测的用户兴趣建模)
- 合作机构:中国人民大学
- 技术亮点:
解耦式多模态融合,更精准建模跨域 / 跨境用户兴趣,提升 CTR 与转化。
- 华为 -
入选论文:《KScaNN: Scalable Approximate Nearest Neighbor Search on Kunpeng》(KScaNN:鲲鹏架构上的可扩展近似最近邻搜索)
- 技术亮点:
论文展示了针对国产鲲鹏硬件架构深度优化的向量检索算法,为大模型应用提供了高性能、强扩展性的底层向量搜索底座。
- 达梦(Dameng)-
入选论文:《DM-RAG: Enhancing User Support in Dameng Databases with Retrieval-Augmented Generation》(DM-RAG:利用检索增强生成技术提升达梦数据库的用户支持)
-
合作机构: 武汉大学
-
技术亮点: 达梦通过将 RAG 技术引入数据库生态,利用大模型与私有知识库构建智能服务系统,大幅提升了国产数据库自动诊断与技术支持的智能化水平。
- 浪潮集团 -
入选论文:《Bala-Join: An Adaptive Hash Join for Balancing Communication and Computation in Geo-Distributed SQL Databases》(Bala-Join:一种用于平衡地理分布式SQL数据库中通信和计算的自适应哈希连接)
-
合作机构: 西安电子科技大学、西安交通大学。
-
技术亮点:
针对跨地域部署场景,该研究提出一种自适应哈希连接算法,有效平衡了网络通信开销与计算负载,大幅提升了地理分布式数据库的查询性能。
- 创邻科技(Galaxybase)-
入选论文:《GalaxyRAG: Graph Retrieval-Augmented Generation for Enterprise Knowledge Systems》(GalaxyRAG:面向企业知识系统的图检索增强生成)
-
合作机构: 香港科技大学(广州)。
-
技术亮点:
论文实现了图数据库与大模型的高度融合,利用图谱的强关联性消除大模型生成的“幻觉”,赋能构建更精准的企业级知识系统。
- 聚好看(海信)-
入选论文:《DBdoctor: A Fine-grained and Non-intrusive Performance Diagnosis Platform for Databases》(DBdoctor:一个细粒度、非侵入式的数据库性能诊断平台)
-
合作机构: 中国人民大学。
-
技术亮点:
论文介绍了一款非侵入式的内核级诊断平台,能够在不影响业务性能的前提下,通过细粒度的数据采集实现对数据库瓶颈的精准“微创”诊断。
聚好看虽非纯数据库厂商,但其研发的 DBdoctor 聚焦于数据库内核监控与性能诊断,属于数据库产业链中至关重要的智能运维生态,故一并纳入盘点。
二、研究论文(Research Track)
面向数据管理领域的原创性研究,提出新算法、新模型、新系统架构或新理论。
- 华为(6篇) -
入选论文1:《Toward the Distributed Large-scale k-NN Graph Construction by Graph Merge》(基于图合并的分布式大规模 k 近邻图构建研究)
-
合作机构: 厦门大学
-
技术亮点:
提出基于图合并的分布式大规模 k-NN 图构建方案,适配向量数据库海量高维向量检索场景,提升分布式向量建图效率与扩展性。
入选论文2:《SwitchDelta: Asynchronous Metadata Updating for Distributed Storage with In-Network Data Visibility》(SwitchDelta:支持网络内数据可见性的分布式存储异步元数据更新机制)
- 合作机构:清华大学
- 技术亮点:
设计分布式存储异步元数据更新机制,融合网络内数据可见性能力,解决分布式数据库元数据更新延迟与一致性瓶颈。
入选论文3:DIndex: An Efficient On-Disk Learned Index for Memory-Constrained Environments DIndex》(面向内存受限场景的高效磁盘级学习索引)
- 合作机构:上海交通大学
- 技术亮点:
适配边缘、嵌入式等内存受限环境,构建纯磁盘高效学习索引,大幅降低数据库内存占用。
入选论文4:《Astraea: Efficient Pipelined Micro-batch Stream Processing with Non-hash Differentiated Partitioning》(Astraea:基于非哈希差异化分区的高效流水线微批次流处理框架)
- 合作机构: 华中科技大学
- 技术亮点:
流水线微批次流处理架构,采用非哈希差异化分区策略,提升实时流数据库 / 时序数据吞吐与处理时延。
入选论文5:《PAT: Towards Transaction Routing with Page Affinity in Shared-Cache Databases》(PAT:共享缓存数据库中基于页面亲和性的事务路由策略)
- 合作机构:东北大学、清华大学
- 技术亮点:
提出页面亲和性事务路由算法,优化共享缓存架构下分布式事务分发,提升资源利用率与事务处理性能。
入选论文6:《Mirror Asymmetry Perfect Hashing: A Memory-Efficient and Load-Intensive-Optimized Hashing Index on Hybrid DRAM-PMem Architecture (镜像非对称完美哈希:DRAM-PMem 混合内存架构下内存高效、面向高负载优化的哈希索引)
- 合作机构:中科院信息工程研究所、北京大学
- 技术亮点:
面向 DRAM-PMem 混合内存设计新型哈希索引,节省内存开销,适配数据库高负载写入与查询场景。
- OceanBase(2篇)-
入选论文1:《Tetris: Lightweight Hyperparameter Auto-Tuning for Mitigating Performance Spikes in LSM-KV》(Tetris:缓解 LSM 树键值存储性能抖动的轻量级超参自动调优方法)
- 合作机构:厦门大学
- 技术亮点:
轻量级智能超参调优框架,自动抑制 LSM 树 KV 存储性能波动,实现数据库自运维、自适应调优。
入选论文2:Clue-RAG: Towards Accurate and Cost-Efficient Graph-based RAG via Multi-Partite Graph-based Index(Clue-RAG:基于多分图索引的高精度、低成本图检索增强生成方案)
- 合作机构:香港中文大学(深圳)
- 技术亮点:
构建多分图索引赋能图 RAG,提升知识库检索精度,同时降低大模型 + 图数据库融合场景算力成本。
- 阿里巴巴(9篇) -
入选论文1:《MVGPT: Generative Materialized View Forecasting》(MVGPT:生成式物化视图预测)
- 合作机构:清华大学
- 技术亮点:
创新性将生成式大模型与数据库物化视图优化结合,智能预测业务负载下最优物化视图的创建、淘汰与更新时机,自适应适配多变的分析型业务负载,有效解决传统物化视图静态调度滞后、资源浪费的问题,大幅降低海量复杂分析查询的响应延迟,提升数据库分析场景整体吞吐性能。
入选论文2:《Accessible LLM for Accurate Table Question Answering》(使用无障碍LLM进行准确的表格问答)
- 合作机构:新加坡国立大学、穆罕默德·本·扎耶德人工智能大学、哈马德·本·哈利法大学
- 技术亮点:
面向数据库结构化表格数据,优化大模型的语义理解与表格推理能力,解决传统Text-to-SQL模型对复杂表格结构、专业业务语义理解偏差的问题,无需复杂微调即可实现高精度自然语言表格问答,赋能数据库智能交互、业务自助数据分析场景。
入选论文3:《TemplateQO: Template-Aware and Scalable Query Optimization with Data-Efficient Learning》(TemplateQO:基于数据高效学习的模板感知和可扩展查询优化)
- 合作机构:华中科技大学、武汉理工大学
- 技术亮点:
针对传统学习型查询优化数据开销大、泛化性差的痛点,设计模板感知的轻量化学习优化框架,基于少量数据即可完成查询计划优化,具备极强的可扩展性,适配大规模、多类型SQL查询场景,有效提升数据库查询优化器的自适应能力与落地实用性。
入选论文4:《SHMemora: Protective Key-Value Storage on Distributed Shared Memory》(SHMemora:分布式共享内存上的保护性键值存储)
- 合作机构:清华大学、美国康奈尔大学、深圳江波龙电子有限公司
- 技术亮点:
面向分布式共享内存架构,设计具备安全防护能力的高性能KV存储引擎,解决分布式内存存储的数据冲突、数据丢失、访问异常等问题,在保障数据可靠性的同时,大幅提升分布式键值数据库的读写性能与并发处理能力,适配高性能在线业务场景。
入选论文5:《Overcoming Synchronization Bottlenecks in Parallel Graph-Vector Retrieval》(克服并行图向量检索中的同步计算困境)
- 合作机构:南开大学
- 技术亮点:
针对大规模图向量数据库并行检索场景的同步锁等待、计算阻塞、性能瓶颈等核心问题,提出新型并行检索调度机制,规避无效同步开销,最大化并行计算资源利用率,显著提升大图、高维向量场景下的并发检索速度与系统吞吐量。
入选论文6:《CARROT: Learning Cost-Constrained Retrieval Optimization for RAG》CARROT(一种用于RAG的学习型成本约束检索优化系统)
- 合作机构:南洋理工大学
- 技术亮点:
面向数据库+大模型RAG融合场景,设计学习型成本约束检索优化框架,智能平衡检索精度、检索耗时与算力开销,解决传统RAG检索精度低、资源消耗高的痛点,适配向量数据库支撑的企业级知识库智能问答场景。
入选论文7:《Elena: An Explainable Online Query Optimization Framework
Elena》(一个基于可解释性的在线查询优化框架)
- 合作机构:浙江大学
- 技术亮点:
打破传统AI查询优化“黑盒”问题,构建可解释的在线数据库查询优化框架,实时感知查询负载与数据分布变化,动态调整查询执行计划,同时可溯源优化决策逻辑,兼顾数据库查询性能与运维可解释性,适配线上生产环境稳定运行需求。
入选论文8:《GoCache: Schema-Driven Caching for Out-of-Core Graph Query Acceleration》(GoCache:利用模式驱动缓存加速核外图查询)
- 合作机构:中国科学技术大学、南开大学
- 技术亮点:
针对核外大图查询磁盘IO高、延迟高的痛点,提出模式驱动的智能缓存策略,精准识别高频图查询模式,实现热点图数据智能缓存与预加载,大幅减少磁盘访问次数,高效加速超大图数据库的离线、在线查询性能。
入选论文9:《Cascaded Graph Diffusion Model for City-Scale Origin-Destination Matrix Generation》(基于级联图去噪扩散的城市范围起讫点矩阵生成)
- 合作机构:新加坡-麻省理工研究与技术联盟、清华大学、北大-武汉人工智能研究院
- 技术亮点:
面向时空大数据管理场景,基于级联图去噪扩散模型实现城市级OD出行矩阵智能生成,解决传统时空数据稀疏、噪声大、数据补全难度高的问题,为时空数据库、城市大数据分析、智能交通数据治理提供高效的数据预处理与生成方案。
- 浪潮集团 -
-
入选论文:
《CSD-CoKV: Host-CSD Collaborative Offloading for High-Performance LSM-tree based KV Stores》(CSD-CoKV:面向高性能 LSM 树键值存储的主机 - CSD 协同卸载机制) -
合作机构:山东大学
-
技术亮点:
面向 LSM 树 KV 存储设计主机 - CSD 协同卸载架构,优化 IO 与计算卸载,大幅提升分布式存储引擎读写性能。
- 腾讯云 -
- 入选论文:《CYANSQL: Unlock the Power of NL2SQL via Clustering-based Test-Time Scaling》(CYANSQL:通过基于集群的测试时扩展释放NL2SQL的强大功能)
- 合作机构:复旦大学、齐鲁工业大学
- 技术亮点:
针对传统NL2SQL模型存在泛化能力弱、复杂数据库场景转换准确率低、微调成本高的行业痛点,创新性提出基于集群的测试时扩展优化方案。
- 深圳计算科学研究院(3篇) -
入选论文1:《Conflict Resolution for Improving ML Accuracy》(面向机器学习精度提升的数据冲突消解方法)
- 合作机构:复旦大学
- 技术亮点:
针对真实数据库数据集普遍存在数据冲突、脏数据、逻辑矛盾,导致机器学习模型训练精度下降的行业痛点,创新设计高效数据冲突消解框架。
入选论文2:《PORCA: Root Cause Analysis with Partially Observed Data》
PORCA:面向部分观测数据的故障根因分析方法)
- 合作机构:中国科学院计算技术研究所、Megagon Labs、北京理工大学、电子科技大学、东南大学
- 技术亮点:
针对数据库、大数据系统运维中普遍存在的数据观测不全、日志缺失、信息残缺导致故障根因定位不准的难题,提出适配部分观测数据的智能根因分析算法PORCA。
入选论文3:《Reconstructing TensorLog for Scalable End-to-end Rule Learning
(面向可扩展端到端规则学习的TensorLog重构方法)
- 合作机构:深圳计算科学研究院、香港科技大学(广州)、广东外语外贸大学、中山大学
- 技术亮点:
针对传统知识规则学习框架扩展性差、难以适配大规模数据库知识推理场景的痛点,重构TensorLog推理架构。
- 平凯星辰 -
入选论文:《EC-RAG: Towards Efficient Edge-Cloud Retrieval-Augmented Generation Systems》EC-RAG:面向高效的边缘云检索增强生成系统)
- 合作机构:华中科技大学
- 技术亮点:
针对传统云端RAG架构存在算力开销大、响应延迟高、边缘数据适配性差的痛点,提出高效边云协同检索增强生成系统EC-RAG。
关于ICDE
ICDE (IEEE International Conference on Data Engineering) 是数据库领域全球顶级学术会议(CCF A 类),与 SIGMOD、VLDB 并称为“数据库三大顶会”。
如果说 SIGMOD 偏重前瞻理论,VLDB 偏重系统架构,那么 ICDE 则以“工业实用性”和“工程落地”见长。能在 ICDE 工业届(Industry Track)入选论文,意味着该技术不仅在学术上成立,更在千万级乃至亿级并发的真实生产环境中得到了验证。
ICDE 2026 的入选论文反映出一个清晰的趋势:国产数据库不再满足于单纯的“国产替代”,而是在“引领创新”。 从 OceanBase 的存算架构优化,到华为、达梦、浪潮对 AI 与硬件协同的探索,国产数据库正全方位覆盖从内核到生态的完整自研体系。
参考消息来源:https://icde2026.github.io/ia-papers.html




