
吴瑕 等:近似到达时间约束下的语义轨迹频繁模式挖掘
3185
higher description ability, and thus it can be used in many applications such as trip recommendation, next location prediction, life pattern
understanding, and friend recommendation. Mining frequent pattern in semantic trajectories is the fundamental problem in above tasks. In
many circumstances, users may have the requirements on the arrival-time, e.g., users may want to visit a popular view spot at a certain
timestamp and then arrive the railway station on time. Most of existing approaches on semantic trajectory pattern mining do not consider
the arrival-time, and only a few existing approaches take the accurate arrival-time as the constraint, but they can barely find frequent
patterns under such a strict time constraint. This paper, for the first time, studies the approximate arrival-time constrained frequent pattern
(AAFP) mining problem. First, a baseline algorithm of mining AAFP is given by dividing the time axis into intervals. Then, an improved
flexible algorithm is proposed to significantly improve the efficiency based on the AAP-tree index. Finally, a strategy to maintain the
AAP-tree and the set of time axis partitions is introduced based on incremental information entropy. The experimental results on real
trajectory datasets validate the effectiveness and efficiency of the proposed algorithms.
Key words: trajectory data; semantic trajectory; approximate arrival-time; trajectory frequent pattern; frequent pattern mining
随着 GPS 定位技术的不断发展与智能移动设备的普及,轨迹数据的获取变得越来越容易,同时轨迹数据相
关应用的需求也逐渐增多.轨迹数据(trajectory data)具有数据量大、更新频率快、价值密度低等特点,会导致基
于轨迹的挖掘、查询等效率低,效果不理想.若在轨迹数据上加入语义信息,则可得到体积较小、质量较高、能
够更好地反映用户行为的语义轨迹(semantic trajectory).因此,近年来不少学者开始关注基于语义轨迹的研究,
并在其上实现旅游线路推荐、路线预测、用户生活模式挖掘、朋友推荐等应用,以更好地满足用户需求.
语义轨迹的频繁模式挖掘(frequent pattern mining)是实现这些应用的技术基础
[1]
,例如,一位游客希望系统
为他推荐热门旅游路线,系统将频繁模式{景点→美食街→火车站,0.12}推荐给游客,表示模式“景点→美食街
→火车站”在历史轨迹集中出现的概率为 12%,是一条热门路线.然而,在很多情况下,用户对语义轨迹模式常存
在到达时间方面的需求,比如,用户需要在上午 10:00 游览景点、中午 12:00 到达饭店且下午 16:00 到达火车站,
同时希望推荐的线路是热门线路,则需要挖掘出包含到达时间的语义轨迹模式以适应此类应用的需求.比如,模
式{景点,10:00→美食街,12:00→火车站,16:00,0.12},我们称这样的模式为在到达时间约束下的语义轨迹频
繁模式(arrival-time constrained frequent pattern,简称 AFP).
目前,现有的大多语义轨迹频繁模式挖掘方法无法挖掘出 AFP,因为一部分方法
[2,3]
完全没有考虑时间,而另
一部分方法考虑
[47]
的是行程时间(travel-time),即从一个地点转移到另一个地点所花费的时间,并没有考虑具
体到达某个地点的时刻.文献[8]虽然提供了一种可以用于挖掘 AFP 的方法,但是这种方法精确地将到达时刻考
虑到语义轨迹模式中,基本无法挖掘到频繁的模式.如图 1 所示,给定 5 条历史语义轨迹,设频繁度为 0.05(在历史
轨迹集中出现的概率大于 5%就认为是频繁的),用传统频繁模式挖掘方法可以挖掘到若干频繁模式,但是这些
频繁模式都没有到达时间信息;若精确地考虑到达时间,使用文献[8]的方法挖掘 AFP,则挖掘不到频繁度高于
0.05 的 AFP,因为在文献[8]给出的方法中,只要到达时刻不一致,即为不同的模式,如“景点,10:10→美食街,
11:55”与“景点,9:50→美食街,12:20”是两个不同的模式.
在现实生活中,用户希望“12:00 去吃饭”,其实并不是要求非常准确的“12:00 整”到达饭店,“12:00 左右”更符
合用户的实际需求,因此,本文将考
虑语义轨迹在近似到达时间约束下的频繁模式(approximate arrival-time
constrained frequent pattern,简称 AAFP)挖掘.如图 1 所示,AAFP 方法能够挖掘出 AFP 方法不能挖掘出的频繁模
式,同时,近似地满足用户对到达时间的要求.比如,本例中 AAFP 方法认为“景点,10:10→美食街,11:55”“景
点 ,9:50→ 美食街,12:20” 与 “ 景点,10:05→ 美食街,12:30” 是同一个 AAFP:{ 景点,10:05→ 美食
街,12:30,0.07}.
然而,考虑近似到达时间后会带来一些挑战.首先,如何合理地划分时间轴在实现“近似到达时间”的同时使
其不破坏数据分布特征;其次,语义轨迹频繁模式挖掘效率通常是非常低的
[9,10]
,考虑到达时间后会使基础频繁
项增多,使其挖掘效率更低,如何保证挖掘效率是一个难点;最后,在新数据到来后,会改变数据的分布特征,同时
改变时间轴划分,从而改变语义轨迹 AAFP 的挖掘结果,如何维护时间轴划分以及挖掘结果也是需要解决的问
题.为了解决这些问题,本文首先使用信息熵聚类方法将语义轨迹集中各个地点的时间轴合理地划分开,并提出
了挖掘语义轨迹 AAFP 的基线算法.之后,为了改进基线算法,使其更高效、更灵活,本文建立了一个多层混合索
评论