暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

DSE精选文章|基于社会关系时空表示学习的个性化POI推荐

CCF数据库专委 2022-05-09
1034

DSE精选文章

基于社会关系时空表示学习的个性化POI推荐
Spatio-Temporal Representation Learning with Social Tie for Personalized POI Recommendation


Data Science and Engineering (DSE)是由中国计算机学会(CCF)主办,数据库专业委员会承办,施普林格·自然(Springer Nature)集团出版的开放获取(OA)期刊。本篇文章精选自DSE第7卷第1期发文,由中新赛克赞助文章处理费。




文章介绍



对于基于位置的社交网络(LBSN),推荐用户下一步将访问的一些兴趣点(POI)对用户和POI拥有者来说都变得越来越重要。最近的研究表明,嵌入技术有效地结合了兴趣点上下文信息以缓解数据稀疏性问题,循环神经网络(RNN)也已广泛地应用于序列预测。然而,仅使用单独的嵌入学习或单独的序列建模都会导致兴趣点推荐方法在捕捉用户个性化偏好方面受到限制。本文定义了连续POI推荐问题:给定用户的签到记录和他们的社交关系,根据查询用户u和他或她当前所处的地理位置和时间信息⟨u, v, t⟩, 本文的目标是推荐用户u在下一个时间段内可能感兴趣的前k个POI。为此,本文提出了一种联合嵌入和序列建模的时空神经网络模型PPR,该模型利用用户的签到记录和社交关系,来为查询用户推荐个性化的POI。此外,本文通过联合学习节点表示和建模用户个性化顺序偏好,将模型PPR扩展到一个端到端结合图神经网络的推荐模型GCN-LSTM。




模型方法



本文设计了一个基于时空异质网络的个性化POI推荐模型PPR,图1展示了本文提出模型的框架,该框架利用用户的签到关系、地理位置关系和社交关系,通过联合表征和序列建模来向每个用户推荐个性化的POI。具体来说,PPR首先通过在异质图中联合建模用户-POI关系、序列模式、地理位置影响和社交关系来学习用户和POI的表示,然后利用所设计的基于LSTM模型的时空神经网络对用户个性化序列模式进行建模,实现个性化的POI推荐。

图1. 兴趣点推荐模型的框架图




实验效果



本文采用了3个真实世界大规模签到数据集进行评估,即Foursquare, Gowalla和Brightkite。表1显示了数据集的详细统计信息。


表1. 数据集特征


本文对比评估了所提出的模型PPR、GCN-LSTM与其他五个基准模型Rank-GeoFM、ST-RNN、GE、PEU-RNN、SAE-NAD在三个真实世界数据集上的整体性能。本文对每个数据集上的所有方法重复运行10次,并展示了四个评估指标Acc@k,Pre@k,Rec@k和NDCG@k的平均值,用粗体显示其中表现最好的两个模型。

表2展示了七个模型在Foursquare数据集上的性能比较,从表2中,我们观察到,就Foursquare数据集上的四个评估指标而言,PPR显著高于所有的基准模型。具体而言,PPR在Acc@5指标上达到了0.3008,在Acc@10指标上达到了0.3935,分别比第二好的基准模型Rank-GeoFM和SAD-NAE提高了22.5%和22.2%。


表2. 在Foursquare数据集上的性能比较


表3展示了七个模型在Gowalla数据集上的性能比较。如表3所示,PPR在以下四个指标也显著超过了所有其他模型:Acc@k,Pre@k,Rec@k和NDCG@k。特别是,PPR的性能表现比第二好的模型在Acc@k指标上要好14.6%和在NDCG@k指标上则要好9.2%。PPR与PEU-RNN相比,在Rec@10指标上表现稍差。这种现象可以解释为PEU-RNN使用了距离约束,这可能会使随着k的增加显著减少潜在的POI。


表3. 在Gowalla数据集上的性能比较


表4展示了各模型在Brightkite数据集上的性能比较,如表4所示,就Brightkite数据集的所有评估指标而言,PPR始终显著优于所有对比模型。PPR实现了最优的性能,例如在Acc@5上达到了0.8717、在Rec@5上达到了0.8485。更具体地说,与最先进的基于RNN的方法PEU-RNN相比,本文的PPR分别在以下指标实现了约21.3%、24.4%、22.2%和22.4%的提升:Acc@5, Pre@5, Rec@5和NDCG@5。此外,所有方法在Brightkite数据集上的性能都优于其他数据集。这是因为Brightkite的用户平均比Foursquare和Gowalla的用户有更多的签到记录,这可能使所有方法都能更准确地模拟用户的行为和偏好。


表4. 在Brightkite数据集的性能比较


图2展示了模型不同变体的性能比较。本文将模型PPR与四种精心设计的变体进行了比较,即PPR-RL、PPR-Seq、PPR-Den和PPR-GRU,以探究不同模块对于该模型性能的影响。基于图2,可以得到如下结果:1. PPR在大多数情况下在三个数据集上表现最好,这表明PPR模型能够较好的建模各种上下文因素。2. 不同上下文因素对推荐性能提升的贡献不同。3. 移除社会关系会降低PPR模型的性能,但并不显著,这意味着该模型没有严重依赖社会关系。4. 与其他变量相比,PPR和PPR-GRU表现出良好的性能,这表明序列模式和用户的动态化个性化偏好在基于位置的推荐系统中起着重要的作用。


图2. 模型不同变体的性能比较


图3、图4展示了本文模型(即PPR和GCN-LSTM)相对于三个对比模型(即Rank-GeoFM、PEU-RNN和SAE-NAD)对重要参数的敏感性度的影响,包括嵌入维度d、推荐的POI数目k和下一个时间段τ. 如图所示,PPR和GCN-LSTM与三个对比模型相比,随着嵌入维度d数量的增加,性能逐渐提升,当d达到128或更高时,GCN-LSTM模型基本保持稳定。同时,当d=128时,PPR达到最佳结果,然后随着d的进一步增加,PPR性能开始下降。而随着k的增加,PPR和GCN-LSTM有着更高的性能提升。随着τ的增加,本文的模型也始终优于其他三个模型。


图3. 在Foursquare上的参数灵敏度


图4. 在Gowalla上的参数灵敏度


本文通过将参数ρ从0变为600来评估参数ρ对PPR的影响。结果见表5,PPR在Foursquare、Gowalla和Brightkite数据集上,当ρ=300, ρ= 400和 ρ=100时分别实现了其最佳性能。与Foursquare和Gowalla相比,在Brightkite数据集上PPR实现最佳性能时的ρ较小。主要原因可能在于,Brightkite的用户平均比Foursquare和Gowalla的用户有更密集的签到记录。


表5. 参数ρ对PPR的影响


图5展示了超参数α对本文模型GCN-LSTM在推荐性能上的影响,如图,GCN-LSTM的Acc@5首先增加到最大值,然后随着α的增加逐渐减少。这是因为,表征学习目标函数和顺序建模目标函数在POI推荐中都发挥着重要作用。


图5. 超参数α对GCN-LSTM的影响



结语



本文提出了一种新的时空表征学习模型用于个性化POI推荐。通过结合用户-POI间的签到关系、POI-POI间的签到序列模式、POI-POI间的地理位置关系和用户-用户间的社交关系,本文构建了一个异质网络。然后,利用嵌入技术来学习用户和POI的潜在表示。鉴于RNN最近在序列预测问题上取得的成功,本文将用户和POI嵌入序列串联起来输入到时空神经网络中,以获得用户动态的、个性化的偏好。本文在三个真实数据集上的结果表明,本文的模型优于最先进的模型。此外,本文还探讨了每个模块在提高推荐性能方面的重要性。




作者简介




代少杰,中国海洋大学在读硕士研究生。主要研究方向:时空数据挖掘、智能交通系统、图神经网络。



于彦伟,中国海洋大学副教授。主要研究方向:数据挖掘、机器学习、数据库系统。国内外重要学术组织任职:山东省人工智能学会常务理事,中国人工智能学会智能服务专委会委员,在ACM TODS、IEEE TBD、KDD、WWW、ICDE、CIKM、ICDM、DASFAA等国际高水平期刊和会议上发表论文40余篇,包括中国计算机学会A类顶级期刊/会议8篇、B类期刊/会议10篇、C类期刊/会议6篇、A类顶级中文期刊4篇。



范浩,中国海洋大学讲师。主要研究方向为三维视觉\SLAM\水下视觉。2012年6月毕业于中国海洋大学计算机科学与技术专业,获工学学士学位;2014年6月毕业于中国海洋大学计算机技术专业,获工程硕士学位;2019年6月毕业于中国海洋大学计算机应用技术专业,获工学博士学位。



董军宇,中国海洋大学教授。长期从事海洋大数据与人工智能的交叉学科研究,主要研究方向为海洋大数据挖掘和水下视觉信息处理。在海洋大数据挖掘领域,是国际上最早提出采用深度学习方法预测海表温度的学者之一,提出了基于机器学习的水动力环境建模及海洋锋面检测方法,推动了深度学习用于海表温度预测的研究,开发出了已业务化运行的渤海海洋大数据三维可视化系统。


期刊简介




Data Science and Engineering(DSE)是由中国计算机学会(CCF)主办、数据库专业委员会承办、施普林格 自然(Springer Nature)出版的Open Access期刊。为了迎合相关领域的快速发展需求,DSE致力于出版所有和数据科学与工程领域相关的关键科学问题与前沿研究热点,以大数据作为研究重点,征稿范畴主要包括4方面:(1)数据本身,(2)数据信息提取方法,(3)数据计算理论,和(4)用来分析与管理数据的技术和系统。

目前期刊已被EI、ESCI与SCOPUS收录,CiteScore2020为4.9,在Computer Science Applications领域排名#181/693(73rd Percentile)。稿件处理费由赞助商中新赛克(Sinovatio)承担,欢迎大家免费下载阅读期刊全文,并积极投稿。



原文链接:

https://link.springer.com/article/10.1007/s41019-022-00180-w



扫描二维码获取

更多精彩


CCF数据库专委

文章转载自CCF数据库专委,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论