诚邀共享丨2025 ACM SIGMOD/PODS 论文分享会

Gauss松鼠会 2025-06-20

108

SIGMOD 2025

会议简介

2025年ACM SIGMOD/PODS国际学术会议将于6月22日至27日在德国柏林举行。作为数据库领域最具影响力的学术盛会，会议内容涵盖数据建模、查询处理、数据仓库及机器学习在数据库中的应用等方向。届时，全球顶尖的专家学者、行业领袖和技术开发者将齐聚一堂，探讨前沿研究成果、交流技术经验。

为促进学术交流，会议期间（6月23日至27日）将举办“SIGMOD论文分享会”，每日邀请一位录用论文作者进行深度分享。本次分享会创新采用“嵌入式”模式，直接融入大会主议程：在主会场设立专属环节，并通过Gauss松鼠会B站进行直播，推动数据库前沿技术的共享与交流。

论文分享日程

分享主题：MAST: Towards Efficient Analytical Query Processing on Point Cloud Data

⏰北京时间：6月23日16:00-17:00

🎙️主讲嘉宾：李江能(新加坡南洋理工大学学生、SIGMOD入选论文作者)

分享主题：Debunking the Myth of Join Ordering: Toward Robust SQL AnalyticsCloud Data

⏰北京时间：6月24日16:00-17:00

🎙️主讲嘉宾：张焕晨(清华大学交叉信息研究院（姚班）助理教授、 SIGMOD2018最佳论文作者)

分享主题：Architecting Next Generation Data Systems for LLM era

⏰北京时间：6月25日16:00-17:00

🎙️主讲嘉宾：邓杨燊(南方科技大学数据库课题组硕士、SIGMOD入选论文作者)

刘昊天(南方科技大学数据库课题组博士、SIGMOD入选论文作者)

分享主题：The "IaaS" Concept of Data4LLM

⏰北京时间：6月26日16:00-17:00

🎙️主讲嘉宾：周煊赫(上海交通大学计算机学院长聘助理教授、博士生导师，SIGMOD Jim Gray提名奖学者)

分享主题：Low-Latency Transaction Scheduling via Userspace Interrupts: Why Wait or Yield When You Can Preempt?

⏰北京时间：6月27日16:00-17:00

🎙️主讲嘉宾：黄铠松(加拿大卡尔加里大学计算机系助理教授、SIGMOD2025最佳论文作者)

论文主题介绍

李江能

新加坡南洋理工大学计算与数据科学学院博士

分享论文：MAST: Towards Efficient Analytical Query Processing on Point Cloud Data

本次讲座将围绕点云数据的高效查询展开，介绍一种基于多智能体强化学习的采样与索引优化框架MAST，用于支持点云近似查询任务，如检索与聚合分析。该方法在保证误差可控的前提下显著降低深度模型调用开销，实现查询效率与准确性的兼顾。

张焕晨

清华大学交叉信息研究院（姚班）助理教授

分享论文：Debunking the Myth of Join Ordering: Toward Robust SQL Analytics

查询优化器（query optimizer）是关系数据库中至关重要且最难开发的组件。经过了数十年的研究和实践，现代查询优化器仍然难言可靠：它们偶尔还是会生成比最优方案慢几个数量级的查询计划。在众多挑战中，连接顺序选择（join ordering）是查询优化问题“皇冠上的明珠”。我在本次报告中将介绍Robust Predicate Transfer（RPT），即稳健谓词传递算法。该算法对于无环查询的任意连接顺序具有可证明的稳健性。我们在DuckDB（一款SOTA分析型数据库）上的实验结果表明，RPT使端到端查询性能提高约1.5倍的同时，对连接顺序的稳健性有多个数量级的提升。由于RPT具有强大的理论保证和实际效率，连接顺序选择问题将大概率不再成为未来数据库优化器的首要挑战。

邓杨燊

南方科技大学数据库课题组硕士

分享论文：AlayaDB: The Data Foundation for Efficient and Effective Long-context LLM Inference

LLM时代驱动着数据系统架构向前研究。邓杨燊同学将分享AlayaDB，一个全新的为大模型推理设计的向量数据库。其将attention计算与KV cache存储复用的任务从大模型推理系统中解耦出来，封装到向量数据库中，并提供简洁通用的抽象和接口与推理系统进行协作。在长上下文推理场景中，相比于已有推理引擎和算法，AlayaDB可以使用更少量的硬件资源获得更高的生成质量。

刘昊天

南方科技大学数据库课题组博士

分享论文：Tao: Improving Resource Utilization while Guaranteeing SLO in Multi-tenant Relational Database-as-a-Service

刘昊天博士将会分享将在数据库即服务中保障多租户服务级别目标的同时提升资源利用率。云数据库服务提供商正面临一项长期存在的挑战：如何在保障租户服务级别目标（SLOs）的同时，实现高效的资源利用率。为应对这一问题，秉持“拆解简化执行”的理念，设计并提出了创新系统 Tao，其包含三个核心组件：基于微任务的 DAG 生成器，基于微任务的 DAG 执行器，以及面向 SLO 保证的调度器。

周煊赫

上海交通大学计算机学院长聘助理教授、博士生导师

分享论文：1.OpenMLDB: A Real-Time Relational Data Feature Computation System for Online ML

2.Cracking SQL Barriers: An LLM-based Dialect Translation System

3.D-Bot:An LLM-Powered DBA Copilot

如今，大模型在通用和专用领域应用中都取得了显著进展。然而，其成功离不开高质量数据的“喂养”。本报告首先介绍大模型数据的"IaaS"概念，即高质量的大模型数据应具备四个关键特性：（1）包含性（Inclusiveness）：确保数据覆盖广泛的领域和类型；（2）冗余性（Abundance）：通过适度的数据重复增强模型的学习效果；（3）高质量（Articulation）：保证数据的准确性、相关性和有用性; (4)无害化（Sanitization）：确保数据经过伦理审查，不包含有害内容或隐私信息。这一框架贯穿于LLM的各个阶段，包括预训练、持续预训练、微调、强化学习、检索增强生成（RAG）、LLM代理和评估等。围绕“IaaS”框架，报告还将介绍LLM全生命周期中的数据处理技术，包括数据去重、数据过滤、数据混合与选择、数据生成与标注等。

黄铠松

加拿大卡尔加里大学计算机系助理教授

分享论文：Low-Latency Transaction Scheduling via Userspace Interrupts: Why Wait or Yield When You Can Preempt?

数据库系统经常需要处理不同优先级的事务。低优先级的长事务如分析型事务通常会长时间占用CPU，非常容易吃满单机的所有计算资源。此时，高优先级事务需要等待直到CPU空出，忍受很高的端到端延迟。本工作，PreemptDB，首次提出采用用户态中断实现上下文切换。PreemptDB在提供了超轻量的由中断触发的上下文切换框架的基础之上，实现了一套抢占式事务调度机制，使得高优先级的短事务能在CPU满载时立即获得CPU资源，且不显著影响长事务的吞吐。

欢迎观看直播

Gauss松鼠会B站将会对本次2025 ACM SIGMOD/PODS 论文分享会进行同步直播，未到现场参会的朋友欢迎通过直播间观看：

Gauss松鼠会B站直播间

- END -

Gauss松鼠会

汇集数据库从业人员及爱好者

互助解决问题共建数据库技术交流圈

南科大

文章转载自Gauss松鼠会，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

诚邀共享丨2025 ACM SIGMOD/PODS 论文分享会

评论