暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

ICDE 2025 顶会前沿洞察速递(1)

openGemini 2025-05-23
203
ICDE是数据库三大顶级会议之一,在全球轮流举办,此次会议将于5月19日-23日在香港举办,继2019年在澳门举行之后再次来到中国,积极构建全球学术社区。此次会议接收到1518份投稿,共有300篇论文被接收发表,此外还包括10场Tutorials,11场workshop和28篇工业与应用论文研讨。此次会议讨论的议题涵盖了传统数据的查询优化、面向新硬件的软硬协同、大模型时代的数据管理、安全隐私保护等多个方向,共有来自美国、欧洲、亚太的800多名专家注册。

议题洞察

Keynote1: Beyond Embeddings: Data Management for LLMs in the Era of RAG and Personal AI

研究观点:香港科技大学Xiaofang Zhou教授分享了他们团队在向量检索领域的进展。他认为,向量十大模型时代的语言。向量检索具有超常历史,但是在这个历史当中,L2的计算常常占据主导地位,但是很少关注IP距离。首先介绍了在IP距离向量相似性检索中特有的加速的方法。其次介绍的DB-LSH工作, 通过LSH找到一个好的起点,可以加速图索引的遍历。介绍了DiskANN在处理超长维度数据时,会由于一个向量超过SSD访问的单位粒度而造成性能下降的问题,以及相应的解决办法。


Keynote 2 :Beyond Text: Graph-Enhanced LLMs for Reasoning and Mixed-Type Data Imputation

研究观点:可以使用图结构数据来增强大模型能力。大模型有极强能力,但也有参数重,推理慢的特点。利用多样化的思维链,可以增强大模型的思考能力,而与知识图谱结合,能够丰富大模型对于结构化信息的掌握。研究者提出了Paths-Over-Graph的结合范式,将LLM作为Agent进行管理,使用多链路RAG范式将关键词链接,从而边走图,边进行知识向大模型的链接,从而实现图知识增强大模型思考的能力


Keynote 3:Time Series Foundation Models

研究观点:作者介绍了多个时序基础模型相关工作,主要用于支持几个不同任务:预测(ROSE/LightGTS)、异常检测(DADA)、分类(AimTS),其中LightGTS提供了更小的参数规模,以适用于资源受限或者成本受限的场景,同时开源了一个时序基准测试库 OpenTS,与现有基准测试工具相比,主要进行了如下:支持了更多种类的时序分析算法(基于LLM构建的基础模型,基于时序数据预训练的基础模型),提供了更解耦的测试框架,以便更容易集成新的时序分析算法。

对于多变量的分类,提出了如下标准:

  1. 多变量之间完全无关

  2. 多变量之间完全相关

  3. 多变量聚类,聚类内相关,聚类间无关

  4. 多标量中,每个变量都选出若干个与其最相关的变量,不一定是相互最相关的

针对特定领域,如果有足够多的数据,那么可以考虑专用的小模型,更实用一些,针对缺乏数据的场景,可以考虑基于时序基础模型加上少量数据的 few shot learning 或者直接采用基础模型进行分析。同时未来会考虑如何基于一个模型来支持不同的任务,真正提供一个统一的时序基础模型。



Industry Talk1:Connecting Academic Research and Enterprises, Sharing Experience of Cooperation in the Field of Vector Search

研究观点:华为专家肖世海老师分享他在与高校合作期间产生的向量检索工作。向量检索领域的检索方法的常见目标在于更快的搜索,更快的构建,更小的资源消耗,这是常见的索引与系统优化的目标,主要分享了RNN-Descent算法从而加速构建,FusionANNS算法利用GPU-CPU co-work的方法加速向量查询,DF-GAS工作利用FPGA硬件加速相似检索并提供相应框架。


Industry Talk2: Bridging Humans and Databases: Democratizing Database Interfaces with Reasoning Agents

研究观点:Yuyu Luo老师介绍了他们针对text到SQL查询利用大模型Agent自动转化的新研究框架,使用text-to-sql可以将人类语言与数据库更加紧密的链接,但是NL2SQL在工业界落地具有相当大的困难。例如,对于用户身份的不同,自然语言的本质含义也会不同,在他的例子中,不同国别的用户对于国庆节的定义不同,一个NL2SQL的服务必须能够快速识别信息上的不同并快速自适应。提出了CHASE-SQL Agent框架,利用Agent链接用户查询与对应数据表格Schema, LLM设计SQL逻辑,LLM构造SQL内容,最后使用模型检查SQL是否合法,如果不合法则重新构建。

Industry Talk3: The Challenges of Personal Data Management System for Agentic AI on AIphones

研究观点:由华为的技术专家Zhou Minqi老师分享了在端侧AI Agent部署过程中遇到的数据管理挑战。端侧数据存储包含了大量丰富的高价值信息,如何利用这些信息打造个人化定制的Agent面临诸多挑战。


  1. 在应用信息互相隔离的基础机制下,如何设计高效安全的应用信息间信息传递的机制,使能数据处理与融合。

  2. 如何构建一个统一的范式,将模糊的,低质量的,碎片化的用户信息分析与管理起来,构建针对用户特性的ai助手。

  3. 在给定一个统一范式后,如何高效,高精度的将现有的碎片化个人数据整合为高质量的数据。

  4. 在空间与时间上识别连续的用户行为。如地域的变化,时间的变化,与不同时间空间下的用户特性的识别。要设计算法,来高效与精准的识别用户的context。

  5. 低storage overhead,低电量损耗的新向量索引。现有的向量搜索算法很难兼顾端侧硬件的性能,如何设计适合。



Session 1:Scaling and Hardening XLOG: the SQL Azure Hyperscale Log Service

研究观点:本篇论文主要围绕微软的XLOG,介绍如何解决V1版本的三大问题:

  1. Long-Polling and Thread Starvation

  2. I/O Scalability Problems

  3. Corruptions protection, Data Integrity

主要解法是:日志请求异步化处理,以此消除IO等待;将请求聚合处理,避免不同client访问相同数据时,重复拉取数据;添加校验,底层存储问题不会扩散到上层数据库侧。


Session 2:Bridging the Gap: LLM-Powered Transfer Learning for Log Anomaly Detection in New Software Systems

研究观点:在实际的生产系统中,经常会有新的软件系统上线,与现有成熟系统相比,即便是描述相同的问题,新的系统也可能引入新的日志风格、结构等,从而导致现有系统的日志异常检测模型失效。该工作主要借助LLM检测异常日志,通过LLM将日志做标准化,这样可以基于在已有的检测模型基础上,处理新上线系统的日志。由于只处理错误、异常日志,数据量相对就没那么大,有一定的可操作性,当前该技术已在中国移动的某些应用中落地。


Session 3:A Storage Model with Fine-Grained In-Storage Query Processing for Spatio-Temporal Data

研究观点:该工作涉及时空数据的存储,主要解决存储读放大问题,采用一种存储布局难以应对不同的查询,比如有些查询是时间优先的,有些查询是空间优先的,特定的存储布局可能是面向时间友好的,但在处理空间优先的查询时,可能就会有大量的读放大。

本文给出了一个计算下推/下沉的方法,将数据过滤下沉到存储介质中,以减少读放大。具体来说,包括提供细粒度的layout以及相应的剪枝策略,同时配合代价评估模型,以决定是否下沉计算到某个block中。当然,下推并不是简单将所以过滤操作全部卸载到存储层,而是仅选择率较低的block,下推过滤操作,减少整体的数据流转,同时也保证整体的计算性能。

结语

ICDE’25大会前2日的技术前沿研究洞察给大家分享到此,本次大会我们还将陆续分享最新的洞察信息,敬请关注!

#ICDE #openGemini


欢迎访问WELCOME TO VISIT

openGemini官网
https://www.openGemini.org


Star for me 🌟

https://github.com/openGemini

更多精彩内容,可以关注openGemini微信公众号查看,还有交流群等你加入哦~

文章转载自openGemini,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论