暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

论文回顾 | 港科广数据科学与分析学域共7篇论文入选国际学术会议ICDE 2025

港科大广州 I 数据科学与分析 2025-05-26
186


ICDE 2025

ICDE(International Conference on Data Engineering )是数据库领域影响力最高的国际学术会议之一,也是CCF推荐的A类国际学术会议之一。与SIGMOD、VLDB并称数据库领域三大国际顶级学术会议。第41届IEEE国际数据工程大会(ICDE)于2025年5月19日-23日在中国香港举行。

香港科技大学(广州)数据科学与分析学域师生共有7篇论文成功入选。

入选论文(以下排名不分先后)

Ultra-Flexible, Explainable, and Scalable Traffic Prediction with Dynamic Future Routes

利用动态未来路线的超灵活、可解释和可扩展的交通预测

Zizhuo Xu, Lei Li, Mengxuan Zhang, Yehong Xu, Xiaofang Zhou.


GalaxyView: Property Graph Transformation for Materialized View Generation

GalaxyView:基于属性图变换的物化视图生成框架

Bing Tong, Jianheng Tang, Yan Zhou, Chen Zhang, Jia Li, Lei Chen.


High Throughput Shortest Distance Query Processing on Large Dynamic Road Networks

大型动态道路网络上的高吞吐量最短距离查询处理

Xinjie Zhou, Mengxuan Zhang, Lei Li, Xiaofang Zhou.


A Just-In-Time Framework for Routing-Oriented Traffic Prediction

面向路径的即时交通预测框架

Jing Zhao, Lei LI, Mengxuan Zhang, Haolun Ma, Xiaofang Zhou.


OSTOR: Online Scheduling Framework for Trading Continuous Queries

OSTOR:一种用于连续查询交易的在线调度框架

Jin Cheng, Ningning Ding, John C.S. Lui, Jianwei Huang.


Effective and General Distance Computation for Approximate Nearest Neighbor Search

近似最近邻检索的有效且通用的距离计算

Mingyu Yang, Wentao Li, Jiabao Jin, Xiaoyao Zhong, Xiangyu Wang, Zhitao Shen, Wei Jia, Wei Wang.


Simplifying Data Integration: SLM-Driven Systems for Unified Semantic Queries Across Heterogeneous Databases

简化数据集成:支持异构数据库统一语义查询的slm驱动系统

Teng Lin


以  下  为  入  选  论  文  详  情 

01

Title:Ultra-Flexible, Explainable, and Scalable Traffic Prediction with Dynamic Future Routes(利用动态未来路线的超灵活、可解释和可扩展的交通预测)

Author: 

Zizhuo Xu, The Hong Kong University of Science and Technology, Hong Kong SAR, China;

Lei Li, The Hong Kong University of Science and Technology (Guangzhou), China;

Mengxuan Zhang, School of Computing, The Australian National University, Australia; 

Yehong Xu, The Hong Kong University of Science and Technology, Hong Kong SAR, China;

Xiaofang Zhou, The Hong Kong University of Science and Technology, Hong Kong SAR, China.    



交通预测对于智能交通系统至关重要,它旨在通过分析过去的观测结果来预测未来的交通动态,如速度和通行时间。然而,主流深度学习框架严重依赖历史数据,由于无法适应未来的动态变化,忽视了未来交通流作为交通状况的根本原因,以及城市规模道路网络模型结构的复杂性,在现实世界的应用中经常遇到困难。为了解决这些局限性,我们提出了一种路线数据管理系统(RouteSys),该系统将宏观模拟算法与轻量级交通预测模型集成在一起,通过准确有效地提前模拟车辆行驶序列和交通状态来估计各个路段的未来交通状况。


Link: https://www.computer.org/csdl/proceedings-article/icde/2025/360300d288/26FZBCn7LRS


02

Title:GalaxyView: Property Graph Transformation for Materialized View Generation(GalaxyView:基于属性图变换的物化视图生成框架)

Author: 

Bing Tong, The Hong Kong University of Science and Technology (Guangzhou);

Jianheng Tang, The Hong Kong University of Science and Technology (Guangzhou);

Yan Zhou, CreateLink Technology (Zhejiang Chuanglin Technology Co., Ltd.);

Chen Zhang, CreateLink Technology (Zhejiang Chuanglin Technology Co., Ltd.);

Jia Li, The Hong Kong University of Science and Technology (Guangzhou);

Lei Chen, The Hong Kong University of Science and Technology (Guangzhou).



在图数据库的实际应用中,分别存储图有助于增强可维护性,而将图整合为统一视图则有利于高级分析。为了同时满足这两类需求,我们提出了一个兼容 GQL 的框架,用于在多个属性图之间创建图视图。基于商业图数据库环境的实践经验和用户驱动的需求,我们总结出两类关键图变换方式——合并与扩展,这些方法能够显著提升查询效率。通过将这些变换融入视图生成流程中,我们有效减少了冗余查询。同时,我们引入隐式边创建和属性自动合并,简化了视图构建流程。为了在生成前确认视图是否符合用户期望,我们设计了基于采样的预览机制,用于高效呈现图结构。我们在多种实际图数据集上进行了广泛实验,结果表明 GalaxyView 能显著提升查询性能与系统效率。


Link: https://www.computer.org/csdl/proceedings-article/icde/2025/360300e470/26FZCE2FhN6


03

Title:High Throughput Shortest Distance Query Processing on Large Dynamic Road Networks(大型动态道路网络上的高吞吐量最短距离查询处理)

Author: 

Xinjie Zhou, The Hong Kong University of Science and Technology, China&The Hong Kong University of Science and Technology (Guangzhou), China;

Mengxuan Zhang, The Australian National University, Australia;

Lei Li, The Hong Kong University of Science and Technology (Guangzhou), China&The Hong Kong University of Science and Technology, China;

Xiaofang Zhou, The Hong Kong University of Science and Technology, China&The Hong Kong University of Science and Technology (Guangzhou), China.



路网上的最短路径计算是基于位置服务(如导航、拼车、POI推荐)的基石,实现高吞吐量和实时响应的最短路径/距离查询处理对这些服务至关重要。然而,现有的解决方案由于查询效率低或动态自适应性差,难以处理大型动态道路网络上的高吞吐量查询。在本文中,我们利用图分区并提出新的基于分区的最短路径(PSP)索引来解决此问题。具体而言,我们首先提出一种跨边界策略来加速 PSP 索引的查询处理,并从理论上分析其效率上限。然后,我们提出一种非平凡的分区多阶段两跳标记索引 (PMHL),该策略巧妙地聚合了多种基于分区的最短路径策略,以实现快速索引维护和索引更新期间的连续查询效率提升。最后,为了进一步优化吞吐量,我们设计了基于树分解的图分区并提出了具有更快查询处理和索引更新的基于后分区的多阶段两跳标记索引 (PostMHL)。在现实世界道路网络上进行的实验表明,我们的方法在查询吞吐量方面优于最先进的已有算法,最多实现两个数量级的吞吐量提升。


Link: https://www.computer.org/csdl/proceedings-article/icde/2025/360300b166/26FZzRhcfmw


04

Title:A Just-In-Time Framework for Routing-Oriented Traffic Prediction(面向路径的即时交通预测框架)

Author: 

Jing Zhao, The Hong Kong University of Science and Technology;

Lei LI, The Hong Kong University of Science and Technology (Guangzhou);

Mengxuan Zhang,  Australian National University 

Haolun Ma, The Hong Kong University of Science and Technology (Guangzhou);

Xiaofang Zhou, The Hong Kong University of Science and Technology.



交通预测在城市交通系统中起着至关重要的作用,然而现有的方法在处理大规模道路网络时面临着实现实时性能的挑战。本文介绍了一种新的实时交通预测框架,该框架将交通预测与路径查询相结合,在多查询的城市环境中实现高效的局部预测。与在整个道路网络上执行全局预测的传统方法不同,我们的框架将路网划分为不重叠的小区域,并根据查询需求有选择地更新交通状况。具体地,我们提出了三个关键组成部分:(1)搜索空间估计(SSE)模型,它将路径查询的搜索空间确定重新表述为一个二元分类任务,以准确识别相关搜索区域;(2)基于区域的交通速度预测(RTSP)模型,它结合邻近区域的速度曲线的时间有效性和综合时空特征,以进行精确的区域交通预测;(3)全局区域预测调度方法,它有效地协调SSE和RTSP模型,以维护运行查询的最新交通数据,同时最大限度地减少空间和时间维度的计算开销。两个现实世界道路网络的实验结果表明,与最先进的交通预测技术相比,我们的方法在有效性和效率方面都有了显著的改进。


Link: https://www.computer.org/csdl/proceedings-article/icde/2025/360300d206/26FZByqrxKg


05

Title:OSTOR: Online Scheduling Framework for Trading Continuous Queries(OSTOR:一种用于连续查询交易的在线调度框架)

Author: 

Jin Cheng, The Chinese Univerisity of Hong Kong, Shenzhen;

Ningning Ding, The Hong Kong University of Science and Technology (Guangzhou);

John C.S. Lui, The Chinese University of Hong Kong; Jianwei Huang, The Chinese University of Hong Kong, Shenzhen.



数据交易通过促进不同应用之间的数据共享,显著提升了数据的利用效率。尽管连续查询在实时分析和在线机器学习中至关重要,面向流数据输出的连续查询交易仍是一个尚未被充分研究的方向。连续查询交易在调度执行过程中面临独特的技术挑战:首先,数据流的动态特性要求在信息不确定的情况下进行在线调度,而此时数据效用与执行成本可能随时间不稳定变化;其次,该调度优化问题本质上是NP难问题,且需要重复调用,亟需高效算法以应对计算复杂性。

为此,我们提出OSTOR——首个面向连续查询交易的在线调度框架。OSTOR以最大化社会福利为目标,即买方获得的效用与卖方执行成本之间的差值,并兼顾理论保障与实际效率。为应对信息不确定性,我们提出一种主对偶分解方法,将在线调度问题转化为多个一轮整数规划问题,使得每轮决策仅依赖当前系统信息,具有良好的自适应性。针对计算复杂性,我们设计了自适应对偶下降算法,通过迭代优化对偶变量,在多项式时间内实现常数近似比。此外,OSTOR还融合了结构感知的贪心优化策略,进一步提升性能并提供理论保证。大量实验证明,OSTOR在真实与合成数据集上均显著提升了社会福利,并有效降低了查询执行成本,优于现有的数据交易方法。


Link: https://www.computer.org/csdl/proceedings-article/icde/2025/360300b895/26FZAsoXv7G


06

Title:Effective and General Distance Computation for Approximate Nearest Neighbor Search(近似最近邻检索的有效且通用的距离计算)

Author: 

Mingyu Yang, The Hong Kong University of Science and Technology (Guangzhou);

Wentao Li, The Hong Kong University of Science and Technology (Guangzhou);

Jiabao Jin, Ant Group;

Xiaoyao Zhong, Ant Group;

Xiangyu Wang, Ant Group;

Zhitao Shen, Ant Group;

Wei Jia, Ant Group;

Wei Wang, The Hong Kong University of Science and Technology (Guangzhou).    



高维空间中的近似K近邻(AKNN)搜索是一个关键且具有挑战性的问题。在AKNN搜索中,距离计算是占据运行时间的核心操作。现有方法通常使用近似距离来提高计算效率,但这往往以降低搜索精度为代价。为了解决这个问题,最先进的方法ADSampling采用随机投影来估计近似距离,并引入额外的距离校正过程来减少精度损失。然而,ADSampling在有效性和通用性方面都存在局限性,主要是因为它严重依赖随机投影进行距离近似和校正。受此启发,我们利用数据分布,通过正交投影来改进距离近似,从而解决了ADSampling的有效性限制;我们还采用数据驱动的距离校正方法,将校正过程与距离近似过程解耦,从而克服了ADSampling的通用性限制。大量实验证明了我们方法的优越性和有效性。具体来说,与ADSampling相比,我们的方法在真实数据集上实现了1.6到2.1倍的加速比,同时保持了更高的准确率。此外,我们的方法在蚂蚁集团的安全搜索场景中展现了优异的性能,并已集成到其搜索引擎中。


Link: https://www.computer.org/csdl/proceedings-article/icde/2025/360300b098/26FZzNCGlz2


07

Title:Simplifying Data Integration: SLM-Driven Systems for Unified Semantic Queries Across Heterogeneous Databases(简化数据集成:支持异构数据库统一语义查询的slm驱动系统)

Author: 

Teng LIN, The Hong Kong University of Science and Technology (Guangzhou).    



将异构数据库集成为统一的查询框架仍然是一个关键的挑战,特别是在资源受限的环境中。本文提出一种新的小型语言模型(SLM)驱动的系统,协同轻量级检索增强生成(RAG)和语义感知数据结构的进步,以实现高效、准确和可扩展的跨不同数据格式的查询解析。通过将语义感知的异构图索引和拓扑增强的检索与slm支持的结构化数据抽取相结合,该系统解决了传统方法在处理多实体问答和复杂语义查询方面的局限性。引入语义熵作为无监督评价指标,为模型的不确定性提供了鲁棒的见解。这些创新共同建立了一种领域无关的、资源有效的范式,用于跨结构化、半结构化和非结构化数据源执行复杂查询,旨在为下一代智能数据库系统的发展奠定基础。


Link: https://www.computer.org/csdl/proceedings-article/icde/2025/360300e690/26FZD6e3Wwg



DSA官网|dsa.hkust-gz.edu.cn

DSA学域邮箱|dsat@hkust-gz.edu

知乎 | 数据科学与分析学域HKUST(GZ)

小红书 | 港科广 | 数据科学与分析

关注了解更多资讯



文章转载自港科大广州 I 数据科学与分析,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论