
一、Keynote大师观点分享
Keynote 1. LLMs Are Not Enough: Why Broken Processes Still Break Promises in the Age of AI -- Prof Wil van der Aalst (RWTH Aachen University, and Celonis CTO)
研究观点: 尽管当前大语言模型在单一任务上表现卓越,但组织在AI部署中未能实现真正的业务价值,根本原因是核心流程的结构性缺陷(如不透明和碎片化)与利益相关者对流程的认知偏差(如理想化路径与现实复杂性的鸿沟),导致AI沦为无效的“数字化装饰”。以对象为中心的流程挖掘(OCPM)是撬动企业级AI真正价值的关键基础技术,通过系统性方法、多维度数据整合和帕累托法则的应用,为LLMs提供精准落地的框架与聚焦点,从而避免AI沦为表面装饰。
Keynote 2. Symmetry-Aware Loss Functions for LLM Advice on Behavioral Logs -- Prof. Ernesto Damiani (Università degli Studi di Milano, Italy)
研究观点: 行为日志管理的核心挑战要求LLMs突破传统范式,而引入对称性感知损失函数通过结构化学识(如时空不变性约束)显著提升模型输出的质量与可解释性,但需在专业知识、计算成本与任务平衡中寻找实践路径。该技术的本质是用数学对称性翻译人类认知常识(如"时间倒流后行为规律应不变"),使模型摆脱数据表层的噪声纠缠。但当下的成功取决于领域知识到数学约束的转化精度——这恰是当前AI最缺乏的桥梁能力。
Keynote 3. How to Build a Brain -- Christos H. Papadimitriou (Columbia University)
研究观点: 计算机科学已完成从"工具学科"向"基础认知范式"的进化,其"计算视角"正重构多学科研究范式,而突破当前AI局限(如高能耗/缺乏情感)需回归脑科学本质(探究"微观神经元→宏观智能"的涌现机制)——这一思想在作者构建的NEMO类脑模型中形成闭环。
Keynote 4. Databases Unleashed - Rethinking Relational Databases in the Age of LLMs -- Prof.Carsten Binnig (TU Darmstadt TUD)
研究观点: 关系型数据库在AI时代面临三大交互成本(Query Tax、Tuning Tax、Data Tax),而LLM无法直接替代传统数据库,因为LLM的模糊性推理与数据库的确定性要求根本冲突,但可作为增强工具在特定场景(自然语言查询/免结构化映射)中显著降低交互成本,实现"以人为本"的数据访问革新。(Query tax即用户何如根据自己的目的把SQL查询写出来;Tuning tax即数据库需要及其复杂各种参数的调优;Data tax即要把数据抽象转化到关系表中)
Keynote 5. The Case for Collaboration (Everything a Database Person really needs to know about Machine Learning) -- Margo Seltzer (University of British Columbia)
研究观点: 在数据库系统中应用机器学习应遵循"务实三原则":坚持轻量模型优先、倡导跨域深度协作、聚焦可量化场景——以简单性换取效率与透明性,用协作激发创新,最终实现ML技术的问题驱动落地。
在数据库优化场景中,轻量级模型(如线性回归、决策树) 往往比复杂深度学习模型更适用。
数据库专家(洞悉系统瓶颈与工程约束)和ML研究者(掌握算法特性与建模技巧),二者协作聚焦查询优化/索引推荐等实际需求,拒绝纯理论空转。
拒绝"为ML而ML"的潮流跟风
二、前沿研究趋势总结
高效事务调度机制:引入现代CPU的用户空间异步中断技术,实现轻量级抢占调度引擎,显著降低高优先级事务的延迟;自主提交机制解决了传统Group Commit在高负载下的局限,提高吞吐量和降低时延。
相关论文:
Low-Latency Transaction Scheduling via Userspace InterruptionMoving on From Group Commit:Autonomous Commit Enables High Throughput and Low Latency on NVMe SSDs
流数据处理与实时计算:提出基于摘要选择机制的流数据处理技术,优化内存与计算开销,实现高效正则子序列聚合;新型近似数据结构Pandora,有效应对基于持久性的任务,提高处理速度和准确性。
相关论文:
Pandora: An Efficient and Rapid Solution for Persistence-Based Tasks in High-Speed Data Streams
SuSe: Summary Selection for Regular Expression Subsequence Aggregation over Streams
GPU加速与硬件优化:利用GPU和SSD的硬件优势,通过GPU Direct Storage技术,实现数据的高效解压和查询处理;基于GPU的细粒度剪枝技术,减少无效数据读取,提升带宽利用率。
相关论文:
GOLAP: A GPU-in-Data-Path Architecture for High-Speed OLAP
GPH: An Efficient and Effective Perfect Hashing Scheme for GPU Architectures
向量数据库与索引优化:AlayaDB和MicroNN等系统通过解耦KV缓存和注意力计算,优化长上下文LLM推理的性能;新型索引结构和算法优化,如增量IVF索引更新,支持低资源环境下的高效向量搜索。
相关论文:
AlayaDB: The Data Foundation for Efficient and EffectiveLong-context LLM Inference
MicroNN: An On-device Disk-resident Updatable Vector Database
查询优化与性能提升:DPconv框架通过分层动态规划和快速子集卷积技术,显著提高查询优化的效率;Galois系统通过逻辑和物理优化,提升SQL查询在LLMs上的准确性和效率。
相关论文:
DPconv: Super-Polynomially Faster Join Ordering
Logical and Physical Optimizations for SQL Query Execution over Large Language Models
递归查询:引入递归表达式增强数据库表达能力,提升查询性能和效率。
相关论文:
Simple Semantics and Scalability for Powerful Recursive Queries with Aggregates
云数据库架构优化:包括提升内存利用率、优化共享存储架构、实现亚秒级冷启动和弹性扩展、利用 CXL 技术解决内存解耦挑战、高效解析云系统日志等。
相关论文:
CockroachDB Serverless: Sub-second Scaling from Zero with Multi-region Cluster Virtualization
Unlocking the Potential of CXL for Disaggregated Memory in Cloud-Native Databases
分布式系统和混合工作负载优化:通过事务表分层设计和恢复流程重构提升 LSM - tree 数据库性能;提出新的LSM文件合并策略;云数据管理服务实现多模态和库内 AI 能力;高校浮点数压缩算法等。
相关论文:
SAP HANA Cloud:Data Management for Modern Enterprise Applications
Camel: Efficient Compression of Floating-Point Time Series
Rethinking The Compaction Policies in LSM-trees
向量搜索和邻域搜索技术发展:图基向量搜索方法不断演进,出现动态边导航图、Subspace Collision 框架、iRangeGraph 等新方法提升向量搜索性能。
相关论文:
Graph-Based Vector Search: An Experimental Evaluation of the State-of-the-Art
DEG: Efficient Hybrid Vector Search Using the Dynamic Edge Navigation Graph
Subspace Collision: An Efficient and Accurate Framework for High-dimensional Approximate Nearest Neighbor Search
生成式 AI 与 LLM 引发范式转变:自然语言接口成为数据查询核心,LLM 重塑数据库堆栈各组件,智能体工作负载将成主流,这将打破结构化与非结构化数据壁垒,实现全数据生态整合查询与统一管理。
相关论文:
AI for Future Database: A New Beginning or a Boulevard of Broken Dreams
Cracking SQL Barriers: An LLM-based Dialect Translation System
数据库与 LLM 结合的应用探索:利用 LLM 辅助数据库性能问题调试、将 LLM 推理转化为 SQL 查询在关系型数据库上运行、通过 LLM 动态生成表格用于 OLAP 查询处理等。
相关论文:
SwellDB: Dynamic Query-Driven Table Generation with Large Language Models
Adda: Towards Efficient in-Database Feature Generation via LLM-based Agents
三、数据库厂商战略布局
各厂商围绕自身业务和战略目标,在数据库系统上有不同侧重,如 Snowflake 注重算存管分离架构与 AISQL、华为云 GaussDB 注重技术创新与商业优势、Databricks 注重 Data + AI 战略定位、微软倾注PostgreSQL的发展与优化、阿里云注重AI Search 技术、谷歌注重Data Cloud 服务、Salesforce 注重data stack重构、AWS 注重分析系统创新等。

四、结束
本文主要分享了对本届SIGMOD大会的洞察,后续我们计划再做一期专门针对数据库索引的洞察,敬请关注!

欢迎访问WELCOME TO VISIT
openGemini官网
https://www.openGemini.org
Star for me 🌟
https://github.com/openGemini
更多精彩内容,可以关注openGemini微信公众号查看,还有交流群等你加入哦~




