ICDE 2025 顶会前沿洞察速递（1）

openGemini 2025-07-28

267

ICDE是数据库三大顶级会议之一，在全球轮流举办，此次会议将于5月19日-23日在香港举办，继2019年在澳门举行之后再次来到中国，积极构建全球学术社区。此次会议接收到1518份投稿，共有300篇论文被接收发表，此外还包括10场Tutorials，11场workshop和28篇工业与应用论文研讨。此次会议讨论的议题涵盖了传统数据的查询优化、面向新硬件的软硬协同、大模型时代的数据管理、安全隐私保护等多个方向，共有来自美国、欧洲、亚太的800多名专家注册。

议题洞察

Keynote1: Beyond Embeddings: Data Management for LLMs in the Era of RAG and Personal AI

研究观点：香港科技大学Xiaofang Zhou教授分享了他们团队在向量检索领域的进展。他认为，向量十大模型时代的语言。向量检索具有超常历史，但是在这个历史当中，L2的计算常常占据主导地位，但是很少关注IP距离。首先介绍了在IP距离向量相似性检索中特有的加速的方法。其次介绍的DB-LSH工作, 通过LSH找到一个好的起点，可以加速图索引的遍历。介绍了DiskANN在处理超长维度数据时，会由于一个向量超过SSD访问的单位粒度而造成性能下降的问题，以及相应的解决办法。

Keynote 2 ：Beyond Text: Graph-Enhanced LLMs for Reasoning and Mixed-Type Data Imputation

研究观点：可以使用图结构数据来增强大模型能力。大模型有极强能力，但也有参数重，推理慢的特点。利用多样化的思维链，可以增强大模型的思考能力，而与知识图谱结合，能够丰富大模型对于结构化信息的掌握。研究者提出了Paths-Over-Graph的结合范式，将LLM作为Agent进行管理，使用多链路RAG范式将关键词链接，从而边走图，边进行知识向大模型的链接，从而实现图知识增强大模型思考的能力

Keynote 3：Time Series Foundation Models

研究观点：作者介绍了多个时序基础模型相关工作，主要用于支持几个不同任务：预测(ROSE/LightGTS)、异常检测(DADA)、分类(AimTS)，其中LightGTS提供了更小的参数规模，以适用于资源受限或者成本受限的场景，同时开源了一个时序基准测试库 OpenTS，与现有基准测试工具相比，主要进行了如下：支持了更多种类的时序分析算法(基于LLM构建的基础模型，基于时序数据预训练的基础模型)，提供了更解耦的测试框架，以便更容易集成新的时序分析算法。

对于多变量的分类，提出了如下标准：

多变量之间完全无关
多变量之间完全相关
多变量聚类，聚类内相关，聚类间无关
多标量中，每个变量都选出若干个与其最相关的变量，不一定是相互最相关的

针对特定领域，如果有足够多的数据，那么可以考虑专用的小模型，更实用一些，针对缺乏数据的场景，可以考虑基于时序基础模型加上少量数据的 few shot learning 或者直接采用基础模型进行分析。同时未来会考虑如何基于一个模型来支持不同的任务，真正提供一个统一的时序基础模型。

Industry Talk1：Connecting Academic Research and Enterprises, Sharing Experience of Cooperation in the Field of Vector Search

研究观点：华为专家肖世海老师分享他在与高校合作期间产生的向量检索工作。向量检索领域的检索方法的常见目标在于更快的搜索，更快的构建，更小的资源消耗，这是常见的索引与系统优化的目标，主要分享了RNN-Descent算法从而加速构建，FusionANNS算法利用GPU-CPU co-work的方法加速向量查询，DF-GAS工作利用FPGA硬件加速相似检索并提供相应框架。

Industry Talk2: Bridging Humans and Databases: Democratizing Database Interfaces with Reasoning Agents

研究观点：Yuyu Luo老师介绍了他们针对text到SQL查询利用大模型Agent自动转化的新研究框架，使用text-to-sql可以将人类语言与数据库更加紧密的链接，但是NL2SQL在工业界落地具有相当大的困难。例如，对于用户身份的不同，自然语言的本质含义也会不同，在他的例子中，不同国别的用户对于国庆节的定义不同，一个NL2SQL的服务必须能够快速识别信息上的不同并快速自适应。提出了CHASE-SQL Agent框架，利用Agent链接用户查询与对应数据表格Schema, LLM设计SQL逻辑，LLM构造SQL内容，最后使用模型检查SQL是否合法，如果不合法则重新构建。

Industry Talk3： The Challenges of Personal Data Management System for Agentic AI on AIphones

研究观点：由华为的技术专家Zhou Minqi老师分享了在端侧AI Agent部署过程中遇到的数据管理挑战。端侧数据存储包含了大量丰富的高价值信息，如何利用这些信息打造个人化定制的Agent面临诸多挑战。

在应用信息互相隔离的基础机制下，如何设计高效安全的应用信息间信息传递的机制，使能数据处理与融合。
如何构建一个统一的范式，将模糊的，低质量的，碎片化的用户信息分析与管理起来，构建针对用户特性的ai助手。
在给定一个统一范式后，如何高效，高精度的将现有的碎片化个人数据整合为高质量的数据。
在空间与时间上识别连续的用户行为。如地域的变化，时间的变化，与不同时间空间下的用户特性的识别。要设计算法，来高效与精准的识别用户的context。
低storage overhead，低电量损耗的新向量索引。现有的向量搜索算法很难兼顾端侧硬件的性能，如何设计适合。

Session 1：Scaling and Hardening XLOG: the SQL Azure Hyperscale Log Service

研究观点：本篇论文主要围绕微软的XLOG，介绍如何解决V1版本的三大问题：

Long-Polling and Thread Starvation
I/O Scalability Problems
Corruptions protection, Data Integrity

主要解法是：日志请求异步化处理，以此消除IO等待；将请求聚合处理，避免不同client访问相同数据时，重复拉取数据；添加校验，底层存储问题不会扩散到上层数据库侧。

Session 2：Bridging the Gap: LLM-Powered Transfer Learning for Log Anomaly Detection in New Software Systems

研究观点：在实际的生产系统中，经常会有新的软件系统上线，与现有成熟系统相比，即便是描述相同的问题，新的系统也可能引入新的日志风格、结构等，从而导致现有系统的日志异常检测模型失效。该工作主要借助LLM检测异常日志，通过LLM将日志做标准化，这样可以基于在已有的检测模型基础上，处理新上线系统的日志。由于只处理错误、异常日志，数据量相对就没那么大，有一定的可操作性，当前该技术已在中国移动的某些应用中落地。

Session 3：A Storage Model with Fine-Grained In-Storage Query Processing for Spatio-Temporal Data

研究观点：该工作涉及时空数据的存储，主要解决存储读放大问题，采用一种存储布局难以应对不同的查询，比如有些查询是时间优先的，有些查询是空间优先的，特定的存储布局可能是面向时间友好的，但在处理空间优先的查询时，可能就会有大量的读放大。

本文给出了一个计算下推/下沉的方法，将数据过滤下沉到存储介质中，以减少读放大。具体来说，包括提供细粒度的layout以及相应的剪枝策略，同时配合代价评估模型，以决定是否下沉计算到某个block中。当然，下推并不是简单将所以过滤操作全部卸载到存储层，而是仅选择率较低的block，下推过滤操作，减少整体的数据流转，同时也保证整体的计算性能。

结语

ICDE’25大会前2日的技术前沿研究洞察给大家分享到此，本次大会我们还将陆续分享最新的洞察信息，敬请关注！

openGemini 官网：http://www.openGemini.org

Star for me😊：https://github.com/openGemini

公众号：

欢迎关注～诚邀你加入 openGemini 社区，共建、共治、共享未来！

墨力计划 opengemini 时序数据库开源

「喜欢这篇文章，您的关注和赞赏是给作者最好的鼓励」

关注作者