随着定位技术的不断发展,嵌入在手机和PDA设备内的GPS、北斗等位置传感器可以周期性地记录移动对象的位置,产生了海量的轨迹数据,如行人轨迹、出租车轨迹、共享单车轨迹等。来自于这些轨迹数据中的驻留点(即移动对象在一段时间内停留在某个区域范围内产生的轨迹点)蕴含了丰富的移动对象停留信息,如出租车候车、行人游玩、货车装卸货等,这些可以帮助我们获取某一地点的动态访问信息,继而挖掘地点的动态特征,全面理解地点的时空信息。然而现有工作都是针对特定的轨迹数据和应用场景,没有通用的工具去完成驻留点的交互式探索分析。因此本文将总结这些工作的共同点,设计一种基于驻留点的通用地点分析方法,并依托于JUST时空数据引擎[1],开发一个通用的、交互式的平台,完成了不同应用场景的示例展示。一、背景介绍近年来,随着GPS设备的高速普及,产生了海量的轨迹数据,这些轨迹数据蕴含了移动对象不同的行为,如移动行为,停留行为等。其中停留行为提供了一个了解移动对象和地点之间互动的机会。停留行为可通过提取轨迹数据中在时间上连续、在空间上邻近的子轨迹段(即驻留点)获取。数据挖掘工作者在交通、物流等众多领域展开了基于驻留点的地点信息研究,比如在[2]中,作者通过挖掘行人的驻留点及驻留序列,挖掘出城市中有趣的地点信息和行人访问的地点序列信息;在[3]中,作者利用出租车的驻留点数据和出租车本身的状态信息,挖掘出一系列可以高效停车接客的地点,这些地点可以被推荐给空车司机,让其前往接客,也可以推荐给用户,使其更容易乘车;在[4]中,研究人员基于危化品运输车辆轨迹中的驻留地点以及周围路网、POI特征,寻找异常地点,协助工作人员到现场核查发现多起非法生产、存储等现象。由此可见,利用驻留点可以帮助我们感知地点的热度、合法性等动态特性,可以对不同业务场景进行赋能。图1 地点分析任务及应用场景然而,为了支持不同的应用场景,工作人员必须要设计出特定问题的解决方案,且完成定制化开发。这是非常耗时和繁琐的。事实上,这些工作的许多处理步骤是相同的。因此,为了实现平台的通用性,本文总结出地点分析任务所需的两类数据(具体点)和六个步骤,包括轨迹数据预处理、空间索引建立、驻留点检索、驻留点和地点的关联、地点画像生成和可视化,并展示了3个应用案例,由图1所示。二、平台设计本节将详细介绍本平台的具体设计方案。平台的工作分为两个流程,分别为离线处理和在线计算,由图2所示。图2 平台工作流程1、离线处理根据现有地点分析工作,本文使用两类数据作为平台输入,分别为原始GPS点和地理实体数据。其中地理实体数据包含POI和路网数据,它们用于辅助驻留点的检索,地点的空间特征分析。由于精度限制或者信号中断问题,GPS设备可能会产生一些误差,导致原始的GPS点数据存在一些噪音数据。因此,我们将通过轨迹去噪,驻留点检测和语义增强三个步骤把原始的GPS点数据转换为带有语义信息的驻留点。在处理GPS点的过程中,将合理设置每一类轨迹数据的驻留参数,充分考虑每个驻留点的时间、空间和属性特征,设计出使用与不同轨迹数据和业务场景的驻留点属性字段,包括停留时长、停留时间及其语义时间(日、周、年),停留位置及其语义信息(行政区划),停留对象及其常驻地标签,从“4w”(what、when、where、who)四个角度为驻留点的灵活检索打下基础。对于地理实体数据和处理后的驻留点,为了实现交互式的查询分析,将对这两类具有空间属性的数据建立空间索引,缩短检索和连接的时间,提升系统的性能。2、在线计算为实现平台的通用分析能力,该平台设计了3个核心功能,分别是驻留点检索,驻留点-地点关联,地点画像生成。首先,平台支持灵活的驻留点检索功能,会从停留时间、移动对象、属性特征和空间位置这四个方向去检索出符合不同业务场景的驻留点,用于后续的关联、分析。其次,由于不同的应用会关注不同类型的地点,比如一些应用会关注于经常访问的地点,如兴趣/热门地点,一些应用会关注于特定类型的地点,如加油站、景点等,本平台设计了两类驻留点和地点关联的方式,其一为基于聚类的方式,追踪驻留点聚集的任意地点;其二是基于分类的方式,指定特定类型的地点,关注在这些地点内部的驻留点访问情况。最后,根据前两步的检索和关联,为待分析的地点补充画像。地点的画像分为两部分特征,分别为静态特征和动态特征。静态特征围绕地理实体数据,关注地点的地理位置,主要为表现为经纬度,周围的POI和路网分布;动态特征围绕驻留点,关注地点的热度、周期访问情况、时序发展情况,主要表现为驻留点数目、访问时长、访问时间。通过两个角度,可以较为全面地理解这些地点的信息。三、案例演示平台的主页面[5]如图3所示,包括数据交互、数据可视化、数据统计和数据分布面板。图3 平台主页面为了确保通用性,平台接入了三类经过离线处理后的驻留点数据,分别为危化品、出租车和行人的驻留点数据,通过不同功能的组合和参数的调整,完成了如下三个场景的展示。1、非法小化工地点发现此案例使用危化品车辆的驻留点发现非法的小化工地点。首先,由图4(a) 所示,筛选出符号条件的驻留点,条件为停留时长大于30分钟,且周围不存在任何POI;其次,由图4(b) 所示,使用DBSCAN算法,追踪移动对象频繁停留的地点;然后,由图4(c),筛选出访问次数大于10次,访问对象数小于3次的地点。以上获得的地点可描述为个别车辆频繁访问的较为偏僻的地点。通过可视化卫星地图的探查,由图4(d) 所示, 为非法小化工地点(地点列表中访问次数最多的地点)。图4 非法小化工地点发现流程2、出租车热门候车地点排序此案例使用开源轨迹数据集t-drive[6]的驻留点,首先使用平台的驻留点检索功能,检索出访问访问时长小于30分钟,周围50m范围内存在餐厅,访问时间为17:00-21:00的驻留点集合,其次使用DBSCAN聚类算法,找到出租车频繁驻留点的地点,可作为候选的热门地点结合,这些地点以列表的形式展现在数据统计面板。如图5所示,这些地点以访问次数降序排列,并可视化出访问热度前两名的地点。这些地点可作为热门接客地点给出租车司机参考,可避免司机漫无目的地寻找乘客。图5 热门候车地点列表及top1、2地点3、地点时序分析此案例使用开源数据集geolife[7],该数据集时间跨度较长,可用于探查与这些移动对象相关的地点时序分析。本例使用geolife全量的驻留点,选择基于分类的驻留点-地点关联方式,重点关注“theme_park”这类地点。如图6所示,为“theme_park”中的北京欢乐谷的部分画像,分别为地点访问的月分布、星期分布。通过这两幅统计图,我们可以发现(1)欢乐谷6月份为高峰月;(2)绝大多数的移动对象选择在星期五或星期六访问该地。图6 地点访问(月、星期)分布四、总结本文总结了现有基于驻留点的地点分析工作的流程,设计并开发出适用于不同应用场景的地点分析平台,粗粒度地展示了三类数据的应用场景。该平台具有操作简单、便捷、灵活的特点,可高效帮助使用者快速洞察数据,理解地点信息。此外,JUST时空数据引擎为本平台的开发提供了强有力的保证,使用到的功能如下:1、轨迹预处理能力:JUST提供了轨迹去噪、驻留点检测的DAL,并可编写简单的类SQL语句完成轨迹的预处理;2、高效的空间数据管理能力:JUST内置时空索引加快查询效率,支持分布式空间连接机制提高批量查询性能,并提供用于驻留点和地理实体数据的关联分析;3、开发工具:JUST提供DB driver开发工具,便于后端获取数据。参考信息: [1] https://just.urban-computing.cn/[2] Zheng, Yu, et al. "Mining interestinglocations and travel sequences from GPS trajectories." Proceedingsof the 18th international conference on World wide web. 2009.[3] Yuan, Jing, et al."Where to find my next passenger." Proceedings of the 13thinternational conference on Ubiquitous computing. 2011.[4] “京东城市”微信公众号. “一屏联动64个部门,京东城市助力南通建成全国首个市域治理现代化指挥中心”, 2020.[5] https://portal-just.urban-computing.cn/salons/[6]https://www.microsoft.com/en-us/download/details.aspx?id=52367[7]https://www.microsoft.com/en-us/research/publication/t-drive-trajectory-data-sample/