暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

DSE精选文章 | PostMan: 一种高效的时空数据管理与分析系统

时空实验室 2025-09-08
100

DSE精选文章
PostMan: A Productive System for Spatio‑temporal Data Management and Analysis


Data Science and Engineering (DSE)是由中国计算机学会(CCF)主办,数据库专业委员会承办,施普林格·自然(Springer Nature)集团出版的开放获取(OA)期刊。本篇文章精选自DSE近期发文


文章介绍


在智慧交通、环境监测、城市规划等领域,海量的时空数据正以前所未有的速度增长。然而,现有的大数据管理系统在功能全面性、可扩展性以及高效计算方面存在瓶颈。为此,本文提出了PostMan:一种基于Apache Spark与Hadoop HDFS的高效时空数据管理与分析系统,其支持向量与栅格类时空数据,提供多层API与交互接口,结合统一分区管理、混合索引机制、两阶段静态分区以及 GPU 加速等方法,显著提升了大规模时空数据的查询与分析性能。在真实世界数据集上的广泛实验评估表明,PostMan相比主流基线系统在多个任务中性能提升13%–36%。此外,PostMan已以软件即服务(SaaS)形式部署在公有云上。



方法框架


1. 整体框架

PostMan 系统的总体架构如图1所示,其主要由存储层、预处理层、计算层和应用层组成。其中存储层基于HDFS存储多源、多类型的时空数据,包括向量数据(如点、线、面)与栅格数据(如遥感影像等),并并支持可弹性扩展的对象存储(OBS);预处理层基于Apache Spark,提供数据ETL接口,将多种格式数据转换为统一的内存结构STDataset,并实现统一分区管理和两阶段静态分区,支持元数据管理、分区持久化及增量更新,提升计算效率和负载均衡;计算层支持高效时空查询(范围、kNN、连接)、矢量/栅格分析与像素级操作,提供混合索引、多种查询策略及GPU加速接口;应用层提供多级 API(Spark RDD、DataFrame、SQL),支持 Java/Scala/类SQL,并通过时空自定义函数支持Spark SQL,同时提供云端在线接口平台。

1. 系统框架图

PostMan的数据工作流如图2所示,包括数据加载、预处理、计算和应用四个阶段,支持分区持久化和混合索引加速查询。

图2. 数据工作流

2. 统一分区管理与混合索引

(1)统一分区管理

PostMan在分区元数据中记录分区基本信息、统计数据等和并支持用户自定义分区元数据模式,使用灵活。其支持时空维度独立分区,提供分区持久化、重载与增量更新,并提出了一种两阶段静态分区方法以确保分区过滤前后的负载均衡。

(2)混合索引机制

PostMan的混合索引机制如图 3所示,其结合全局索引(用于快速定位分区)与本地索引(用于精确过滤分区内数据)减少不必要扫描,实现高效的谓词下推。

图3. 混合索引机制

3. 两阶段静态分区(TPSP)

TPSP通过两个阶段解决分布式环境下的负载均衡问题。在分区生成阶段,改进的R*-Tree算法综合考虑分区大小、记录数和计算复杂度等因素,生成均衡的数据分区;在分区分配阶段,则将问题建模为优化问题,通过贪心算法最小化分区过滤后的负载方差,确保各计算节点负载均衡。

4.GPU加速流程

PostMan提供可直接在Spark中调用的GPU-时空算子UDF,可利用GPU加速处理独立的计算密集型任务,具体流程如图4所示。

图4. GPU加速时空算子流程



实验与评估


本文在多种数据集上对PostMan进行了系统评估,数据集包括OSM、Taxi、Parks以及 GLC2000等,覆盖了向量数据与栅格数据两大时空数据类型,统计信息如表1所示。

表1. 数据集统计信息

为评估PostMan的性能,本文选取了当前几种先进的分布式时空数据处理系统作为基线,包括 Simba、Sedona、Beast、GeoMesa、Simba及Geotrellis-Spark等。评估指标涵盖查询性能、可扩展性、分区负载均衡性以及 GPU 加速效果等。

(1)查询性能

在范围查询、kNN 查询、向量-向量连接、向量-栅格连接等任务中,PostMan借助统一分区管理、混合索引与过滤下推机制显著降低了数据扫描与网络传输开销。具体实验结果如图5-7所示。

图5. 空间向量算子性能对比

6. 时空向量算子性能对比

7. 栅格算子性能对比

2)分区负载均衡性

作者用OSM中不同的数据记录计数来评估两阶段静态分区(TPSP)方法的性能,通过重分区时间来评估重分区的成本,并通过归一化标准差对分区生成的平衡性进行了评价。实验结果如图8所示,结果表明TPSP在可接受的分区成本下有效改进了负载均衡效果。

8. 两阶段静态分区性能评估

3GPU加速性能

为评估GPU加速的有效性,作者在Taxi数据集上针对一些代表性算子就行了性能评估。实验结果如表2所示,结果表明集成GPU加速显著提高了系统性能,实现了约14倍的平均加速。

2. 不同算子在GPUCPU上运行时间的对比



结语


本文提出了PostMan——一个高效的分布式时空数据管理与分析系统,PostMan支持多类型时空数据表示、多种查询与分析方法,并具备良好的可扩展性与易集成性。此外,PostMan借助统一分区管理、混合索引、两阶段静态分区策略及GPU加速算子等策略有效提升了系统性能。在真实世界数据集上的广泛实验表明,PostMan在计算效率与负载均衡方面相较现有基线系统具备显著的性能优势(如13%-36%的提升)。



作者简介




金嘉淇,2025年获浙江大学计算机科学与技术硕士学位,浙江省优秀毕业生,导师高云君教授,主要研究方向包括大规模时空数据管理与分布式计算等。


房子荃,浙江大学软件学院,“百人计划”研究员,博士生导师,入选首届“空间数据智能新星学者”,华为“天才少年”获得者。主要研究方向包括时空大数据治理、分布式时空大数据管理与时空数据智能挖掘等。


陈璐,浙江大学计算机学院,“百人计划”研究员,博士生导师,国家特聘青年专家,主要研究方向包括数据库、大数据处理、多模态大数据管理等。




高云君,浙江大学求是特聘教授,博士生导师,国家杰出青年科学基金获得者(2020)、国家优秀青年科学基金获得者(2015),现为ACM SIGSPATIAL中国分会副主席,全省大数据智能计算重点实验室主任,浙江大学软件学院常务副院长,浙江大学计算机软件研究所副所长。研究方向为数据库、大数据管理与分析、DB与AI融合等。




期刊简介




Data Science and Engineering(DSE)是由中国计算机学会(CCF)主办,数据库专业委员会承办,施普林格·自然(Springer Nature)出版的开放获取(Open Access)期刊。DSE致力于发表与数据科学与工程领域相关的关键科学问题与前沿研究热点,以大数据为研究重点,建设国际学术交流的重要平台,推动学术界和企业界的深度融合。征稿范畴主要包括:数据库系统、大数据管理与分析、大数据治理等相关基础理论、关键技术与系统实践。现任主编(Editors-in-Chief)为数据科学与工程领域的知名专家北京大学崔斌教授和意大利英苏布里亚大学Elena Ferrari教授,现任执行主编(Managing Editor)为数据库专业委员会主任、华东师范大学周傲英教授和浙江大学高云君教授。

目前期刊已被EI、ESCI与SCOPUS收录,2024年影响因子(Impact Factor)为4.6,CiteScore为11.9,在计算机科学应用领域排名前8.87%(84/947)、计算机软件领域排名前9.6%(47/490)、信息系统领域排名前9.7%(46/474),人工智能领域排名前12.7%(57/450)。欢迎大家免费下载阅读期刊全文,并积极投稿。


原文链接:

https://link.springer.com/article/10.1007/s41019-025-00302-0



文稿:徐小龙
排版:李瑞远
审核:高云君




文章转载自时空实验室,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论