
议题洞察
Keynote1: Beyond Embeddings: Data Management for LLMs in the Era of RAG and Personal AI
研究观点:香港科技大学Xiaofang Zhou教授分享了他们团队在向量检索领域的进展。他认为,向量十大模型时代的语言。向量检索具有超常历史,但是在这个历史当中,L2的计算常常占据主导地位,但是很少关注IP距离。首先介绍了在IP距离向量相似性检索中特有的加速的方法。其次介绍的DB-LSH工作, 通过LSH找到一个好的起点,可以加速图索引的遍历。介绍了DiskANN在处理超长维度数据时,会由于一个向量超过SSD访问的单位粒度而造成性能下降的问题,以及相应的解决办法。
Keynote 2 :Beyond Text: Graph-Enhanced LLMs for Reasoning and Mixed-Type Data Imputation
研究观点:可以使用图结构数据来增强大模型能力。大模型有极强能力,但也有参数重,推理慢的特点。利用多样化的思维链,可以增强大模型的思考能力,而与知识图谱结合,能够丰富大模型对于结构化信息的掌握。研究者提出了Paths-Over-Graph的结合范式,将LLM作为Agent进行管理,使用多链路RAG范式将关键词链接,从而边走图,边进行知识向大模型的链接,从而实现图知识增强大模型思考的能力
Keynote 3:Time Series Foundation Models
研究观点:作者介绍了多个时序基础模型相关工作,主要用于支持几个不同任务:预测(ROSE/LightGTS)、异常检测(DADA)、分类(AimTS),其中LightGTS提供了更小的参数规模,以适用于资源受限或者成本受限的场景,同时开源了一个时序基准测试库 OpenTS,与现有基准测试工具相比,主要进行了如下:支持了更多种类的时序分析算法(基于LLM构建的基础模型,基于时序数据预训练的基础模型),提供了更解耦的测试框架,以便更容易集成新的时序分析算法。
对于多变量的分类,提出了如下标准:
多变量之间完全无关
多变量之间完全相关
多变量聚类,聚类内相关,聚类间无关
多标量中,每个变量都选出若干个与其最相关的变量,不一定是相互最相关的
针对特定领域,如果有足够多的数据,那么可以考虑专用的小模型,更实用一些,针对缺乏数据的场景,可以考虑基于时序基础模型加上少量数据的 few shot learning 或者直接采用基础模型进行分析。同时未来会考虑如何基于一个模型来支持不同的任务,真正提供一个统一的时序基础模型。
Industry Talk1:Connecting Academic Research and Enterprises, Sharing Experience of Cooperation in the Field of Vector Search
研究观点:华为专家肖世海老师分享他在与高校合作期间产生的向量检索工作。向量检索领域的检索方法的常见目标在于更快的搜索,更快的构建,更小的资源消耗,这是常见的索引与系统优化的目标,主要分享了RNN-Descent算法从而加速构建,FusionANNS算法利用GPU-CPU co-work的方法加速向量查询,DF-GAS工作利用FPGA硬件加速相似检索并提供相应框架。
Industry Talk2: Bridging Humans and Databases: Democratizing Database Interfaces with Reasoning Agents
研究观点:Yuyu Luo老师介绍了他们针对text到SQL查询利用大模型Agent自动转化的新研究框架,使用text-to-sql可以将人类语言与数据库更加紧密的链接,但是NL2SQL在工业界落地具有相当大的困难。例如,对于用户身份的不同,自然语言的本质含义也会不同,在他的例子中,不同国别的用户对于国庆节的定义不同,一个NL2SQL的服务必须能够快速识别信息上的不同并快速自适应。提出了CHASE-SQL Agent框架,利用Agent链接用户查询与对应数据表格Schema, LLM设计SQL逻辑,LLM构造SQL内容,最后使用模型检查SQL是否合法,如果不合法则重新构建。
Industry Talk3: The Challenges of Personal Data Management System for Agentic AI on AIphones
研究观点:由华为的技术专家Zhou Minqi老师分享了在端侧AI Agent部署过程中遇到的数据管理挑战。端侧数据存储包含了大量丰富的高价值信息,如何利用这些信息打造个人化定制的Agent面临诸多挑战。
在应用信息互相隔离的基础机制下,如何设计高效安全的应用信息间信息传递的机制,使能数据处理与融合。
如何构建一个统一的范式,将模糊的,低质量的,碎片化的用户信息分析与管理起来,构建针对用户特性的ai助手。
在给定一个统一范式后,如何高效,高精度的将现有的碎片化个人数据整合为高质量的数据。
在空间与时间上识别连续的用户行为。如地域的变化,时间的变化,与不同时间空间下的用户特性的识别。要设计算法,来高效与精准的识别用户的context。
低storage overhead,低电量损耗的新向量索引。现有的向量搜索算法很难兼顾端侧硬件的性能,如何设计适合。
Session 1:Scaling and Hardening XLOG: the SQL Azure Hyperscale Log Service
研究观点:本篇论文主要围绕微软的XLOG,介绍如何解决V1版本的三大问题:
Long-Polling and Thread Starvation
I/O Scalability Problems
Corruptions protection, Data Integrity
主要解法是:日志请求异步化处理,以此消除IO等待;将请求聚合处理,避免不同client访问相同数据时,重复拉取数据;添加校验,底层存储问题不会扩散到上层数据库侧。
Session 2:Bridging the Gap: LLM-Powered Transfer Learning for Log Anomaly Detection in New Software Systems
研究观点:在实际的生产系统中,经常会有新的软件系统上线,与现有成熟系统相比,即便是描述相同的问题,新的系统也可能引入新的日志风格、结构等,从而导致现有系统的日志异常检测模型失效。该工作主要借助LLM检测异常日志,通过LLM将日志做标准化,这样可以基于在已有的检测模型基础上,处理新上线系统的日志。由于只处理错误、异常日志,数据量相对就没那么大,有一定的可操作性,当前该技术已在中国移动的某些应用中落地。
Session 3:A Storage Model with Fine-Grained In-Storage Query Processing for Spatio-Temporal Data
研究观点:该工作涉及时空数据的存储,主要解决存储读放大问题,采用一种存储布局难以应对不同的查询,比如有些查询是时间优先的,有些查询是空间优先的,特定的存储布局可能是面向时间友好的,但在处理空间优先的查询时,可能就会有大量的读放大。
本文给出了一个计算下推/下沉的方法,将数据过滤下沉到存储介质中,以减少读放大。具体来说,包括提供细粒度的layout以及相应的剪枝策略,同时配合代价评估模型,以决定是否下沉计算到某个block中。当然,下推并不是简单将所以过滤操作全部卸载到存储层,而是仅选择率较低的block,下推过滤操作,减少整体的数据流转,同时也保证整体的计算性能。
结语
openGemini 官网:http://www.openGemini.org
Star for me😊:https://github.com/openGemini
公众号:

欢迎关注~ 诚邀你加入 openGemini 社区,共建、共治、共享未来!




