数据库与数据挖掘协会周刊第16期

时空实验室 2024-12-11

223

Wiki

轨迹聚合查询

轨迹聚合查询用于对大规模轨迹数据进行统计分析，主要目的是获取指定时空范围内的轨迹信息。这些轨迹通常由移动实体（如车辆、行人、船只等）在不同时间点的位置数据构成，反映了实体的移动路径。

主要目标：

统计特定区域内的轨迹数量。
计算轨迹的分布或模式，如某时间段内某区域的轨迹密度、最常见路径等。
支持多种聚合操作，例如计数（COUNT）、平均值（AVG）、最大值/最小值（MAX/MIN）等。

应用场景：轨迹聚合查询广泛应用于交通分析、城市规划、商业智能和环境监测等领域。

典型的算法有下面两种：RIS和CRIS

随机索引采样（ RIS ）算法

随机索引采样（RIS）算法是一种高效的近似查询处理方法，主要通过利用预先构建的时空索引（如R树或倒排索引）快速定位查询范围内的轨迹，并从中随机抽取一部分数据进行统计分析，从而避免对全量数据的扫描。通过对采样结果的统计推断，RIS能够估算查询结果并提供误差范围保证，适用于大规模轨迹数据的聚合查询。该算法具有较高的效率和可扩展性，能够根据采样比例调控计算成本，并确保误差控制在可接受范围内。然而，RIS也依赖于时空索引的构建与维护，这可能带来一定的开销，并且在数据分布不均或采样不足的情况下，误差可能增大。此外，RIS更适合误差容忍度较高的场景，对于精确查询则不太适用。

并发随机索引采样（ CRIS ）算法

并发随机索引采样（CRIS）算法是对随机索引采样（RIS）算法的扩展，旨在高效处理多个同时到达的轨迹聚合查询。CRIS通过共享采样结果来优化对重叠查询区域的处理，从而提高并发查询的效率，并在保证精度的同时减少计算资源的浪费。与RIS不同，CRIS在多个查询有时空重叠的情况下，只对重叠区域进行一次采样，避免了对这些区域的重复计算。每个查询根据共享的采样结果进行独立的统计估算，从而既提高了效率，又能保证结果的近似精度。

总的来说：RIS适合单次查询，能够高效提供近似查询结果，但在多查询环境中会出现效率瓶颈。而CRIS扩展了RIS的思想，通过共享采样和索引优化，能显著提高并发查询的效率，特别适用于需要同时处理大量查询的高并发场景。

Academic Push

Sampling Big Trajectory Data

来源： CIKM 2015（CCF-B）

作者： Yanhua Li, Chi-Yin Chow, Ke Deng, Mingxuan Yuan, Jia Zeng, Jia-Dong Zhang, Qiang Yang, Zhi-Li ZhangAuthors Info & Claims

链接：https://dl.acm.org/doi/abs/10.1145/2806416.2806422

简介：传感器和移动设备的日益普及导致轨迹形式的时空数据规模爆炸性增长。轨迹聚合查询作为一种衡量轨迹数据的基本功能，旨在检索通过用户指定时空区域的轨迹统计信息。然而，在一个具有大规模磁盘驻留数据的时空数据库中，生成此类查询的精确答案需要耗费大量时间。因此，在具有严格响应时间要求的许多场景中，带有误差保证的近似查询处理成为一种具有吸引力的解决方案。本文研究了轨迹聚合查询的近似查询处理问题。文章证明该问题可以归结为去重值估计问题，而该问题在没有索引的情况下被证明非常困难，已有相关的强负面结果。通过利用成熟的时空索引，并为轨迹数据引入倒排索引，文章设计了随机索引采样（ RIS ）算法，以在保证误差范围内估计查询答案。为了进一步提高系统的可扩展性并发随机索引采样（ CRIS ）算法以处理具有重叠时空查询区域的多个同时到达的轨迹聚合查询。为了验证采样和估计方法的有效性与效率，作者将其应用于中国某通信服务提供商收集的大规模用户轨迹数据库。广泛的评估结果表明， RIS和CRIS在单个和并发轨迹聚合查询的查询处理时间方面，相较于穷举搜索，性能提升了两个数量级，同时仅以穷举搜索1%的查询代价实现了低于10%的相对误差比。

Question

上期链接：数据库与数据挖掘协会周刊第15期

上期答案：B) 每个进程有独立的内存空间，线程之间共享进程的内存空间和资源，但有独立的栈空间。

进程：每个进程拥有自己的独立内存空间，包括代码段、数据段和堆，进程之间的内存是隔离的，一个进程无法直接访问另一个进程的内存（除非通过特定的机制如共享内存或管道）。

线程：线程是进程中的执行单元，同一进程中的多个线程共享该进程的内存空间（例如堆和全局变量），但每个线程拥有自己的栈空间（用于存储局部变量和执行状态等）。这使得线程之间可以共享资源，但不会直接影响其他线程的执行。

内存管理：操作系统负责管理每个进程的内存空间，同时在同一进程中的多个线程共享一些资源，但线程间的栈空间是独立的，避免了不同线程之间直接干扰。

其他选项分析：

A) 进程之间互相共享内存，而线程则拥有独立的内存空间。
这是错误的，进程之间通常是独立的内存空间，除非使用共享内存等机制。而线程之间在同一进程内共享内存空间，但有独立的栈空间。
C) 线程和进程共享所有内存资源，包括堆栈空间。
这是错误的，线程和进程确实共享堆内存和其他资源，但每个线程有独立的栈空间。
D) 线程无法与进程共享内存空间，每个线程都有完全独立的内存管理机制。
这是错误的，线程与同一进程内的其他线程共享进程的内存空间（堆和全局数据），只有栈空间是独立的。

数据库与数据挖掘协会（DataBase & DataMining Association，简称DBDMA）一个致力于促进重庆大学数据库和数据挖掘领域发展的学生社团，我们的目标是让世界了解重大数据库，让重大数据库走向世界！

文字：DBDMA-梅译丹

编辑：DBDMA-王伟俨

校对：DBDMA-王伟俨

大数据数据挖掘算法聚合数据空间数据

文章转载自时空实验室，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

数据库与数据挖掘协会周刊第16期

Wiki

Academic Push

Question

其他选项分析：

评论