暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

京东时空AI论文入选TKDE:智能城市流量预测、调度

京东云 2021-11-05
1262

摘要

作为智能城市建设中的一个重要部分,城市流量预测问题近年来被广泛地研究,如区域客流量预测、地铁流量预测等,对城市功能规划、交通管理、公共安全等都有着重要的指导意义。人们在长期的生活与观察中,通常在不需要预测的情况下也能够对其熟悉区域的流量情况有一个基本认知(流量模式知识),从而合理规划自己的出行安排。可以看出,通过人工智能技术从城市时空大数据中提取相关知识,能够有效地支撑智能城市流量预测、调度等研究,同时将其补充到城市知识图谱中,可以为更多应用场景提供知识支撑。

基于此,本文以城市交通流量模式分析任务为例,提出一种面向城市区域流量模式的时空知识挖掘网络框架RFP-KMN并在成都真实数据集上验证了该框架的有效性相对于传统的文本数据的知识挖掘,该框架实现了从城市时空大数据中挖掘知识三元组,对于知识图谱领域来说,是从文本数据到数值型数据挖掘知识的一种尝试和示范。

本文研究工作来自由西南交通大学和京东智能城市研究院合作的一篇论文《Urban flow pattern mining based on multi-sourceheterogeneous data fusion and knowledge graph embedding》,已被数据挖掘领域的顶级期刊TKDE(CCF A类)录用(2021)。

                           

一、研究背景

城市流量分析作为城市计算中一个常见的研究内容,最近被学者进行了大量研究。然而,现有的流量分析方法的输出都是瞬时的(流量点分析),因此只能分析流量的离散状态,如图1(a)所示。流量模式表示了城市的连续状态,如早高峰和晚高峰,城市流量模式分析是研究城市中特定区域间的流量变化趋势,如图1(b)所示。

图1城市交通流状态

此外,由多个事实三元组组成的知识图谱具有知识存储和高速反馈能力,其对实现城市流量模式的挖掘、存储和应用具有非常重要的意义。因此,这篇论文的主要目标是提取城市时空大数据中的特征作为实体和关系,并通过知识图谱嵌入方法将实体和关系构建成知识三元组,从而实现城市流量模式的知识挖掘。

城市流量模式的知识挖掘面临两个挑战:第一,如何有效分析城市多源异构数据?城市多源异构数据分析是城市计算中一个常见的挑战。首先,很难完全考虑不同来源、不同含义的数据;其次,深度学习的输出还不具备很好的可解释性,使得多源异构数据融合难。第二,如何从数值型数据中提取知识三元组?现有的知识挖掘方法通常都是利用自然语言技术从文本数据中挖掘出实体和关系,其一般以词的形式存在,因此这些方法不能应用于从城市时空大数据中挖掘知识。

 

二、模型详情

模型的主要任务是从多源异构数据中挖掘出流量模式的知识三元组。输入为城市地图、历史流量、POI数据等,通过设计的深度学习模型提取和融合时空数据特征(区域特征视为实体向量,区域间的流量特征视为关系向量),最后利用知识图谱嵌入技术训练特征映射矩阵Q将实体和关系构成知识三元组。该知识三元组中的每个元素都以向量的形式存在,是模型的输出。基于挖掘的知识三元组,我们不仅可以通过分析三元组中的实体(区域特征)来研究城市的相似区域,还可以应用三元组中的关系(区域间的流量特征)通过简单的线性模型实现交通流量的预测。

如图2所示,我们提出的RFP-KMN框架主要包含两个模块:(a)关系和实体提取(Loss1),包括城市时空大数据预处理、关系提取(R建模)和实体提取(V建模);(b)城市区域流量模式的知识三元组挖掘(Loss2),包括数据融合与知识三元组挖掘。

图2 RFP-KMN框架

1.1 关系和实体提取(Loss1)
在城市时空大数据预处理部分,我们按经纬度对地图进行划分,然后将流量数据、POI数据等映射到相对的位置并处理成矩阵或张量形式。我们将划分的每个区域作为实体,区域之间的流量模式作为关系。

关系提取(R建模,区域流量模式建模)在该部分,我们提取任意两个区域之间流量模式特征作为关系。具体地,由于区域流量模式具有时间特征,因此设计基于LSTM的自编码器来提取交通流量的变化特征。将时间序列流量矩阵输入到LSTM自编码器提取区域之间的两类模式的特征作为这两个区域之间的关系。

实体提取(V建模,区域嵌入建模):在该部分,我们通过分析区域之间的可逆关系和不可逆关系来对区域进行嵌入,从而实现实体的提取。由于这两种关系体现出空间特征,我们设计基于2D-CNN自编码器模型来分别提取这两种关系的特征,并将这两种特征的融合结果作为区域的特征,即实体。

1.2 城市区域流量模式的知识三元组挖掘(Loss2)
数据融合首先,考虑到POI不具有时空动态性,我们设计1D-CNN自编码器来提取POI特征。然后,我们先对区域/实体的两类特征进行融合,再与POI特征进行连接融合。最后,由于POI特征向量表示每个区域的语义特征,在与区域流量模式/关系进行融合时,我们设计了一个POITrans层将POI特征转化为POI特征变化,再提出基于注意力机制的融合方法将POI特征变化和区域流量模式/关系进行了融合。

知识三元组挖掘首先,基于知识三元组随机地替换头实体或尾实体得到伪知识三元组。然后,定义映射矩阵Q将实体映射到关系所在的空间中。最后,基于事实三元组集合与伪知识三元组集合训练映射矩阵Q。
 

三、实验结果

我们用成都真实数据集进行实验来验证RFP-KMN框架的有效性。我们通过实体/关系的相似度、链接预测和流量预测(一个城市流量模式的应用实例)来验证提出的方法。

对于实体/关系的相似度,我们使用向量的余弦相似度来验证嵌入的性能,相似度越高表明提出方法的性能越好。从表1和表2中可以看出,提出的RFP-KMN具有较好的性能。此外,我们还能得出,区域的嵌入性能会受到POI的影响,且只有部分的流量变化会受到节假日的影响。

表1 不同天之间关系的相似度

表2 不同天之间实体的相似度

对于链接预测,高的命中率与低的平均排名都表明提出的方法具有好的性能。链接预测的实验结果如表3所示,实验结果表明提出的RFP-KMN在四个指标上都优于其它基准模型。

表3 链接预测实验结果

在流量预测任务中,我们与多种基准方法进行了对比,并以RMSE和MAE作为评估指标。流量预测的结果如图3所示。我们可以得出以下结论:LGBM(RFP-KMN)和XGBoost(RFP-KMN)的预测结果比LGBM(以原始数据为输入)的预测结果更好;与LSTM、Linear、LGBM和XGBoost(这四种方法以原始数据作为输入进行预测)相比,对应的LSTM(RFP-KMN)、Linear(RFP-KMN)、LGBM(RFP-KMN)与XGBoost(RFP-KMN)方法都具有更好的预测结果。

图3 流量预测的结果
 

结论

针对城市时空大数据的知识挖掘与复用性问题,本项工作提出了一种城市时空知识挖掘模型,以城市交通流量数据为例设计了交通流量模式的知识挖掘模型RFP-KMN。该模型可以实现从城市时空大数据中挖掘知识三元组,作为交通流模式的一种相对通用的表示,可以纳入到各种下游任务及预测模型中。应用上,通过对挖掘的知识三元组中的关系(区域间的流量特征)进行聚类实现对城市整个异常交通流量的概览,通过对三元组中的实体(区域)进行分类实现对城市功能区域的划分,具体的应用过程及可视化可以阅读本论文。此外,对于知识图谱领域来说,该模型是知识图谱从文本数据到数值型数据挖掘知识的一种尝试和示范。


本研究工作由西南交通大学与京东智能城市研究院联合出品。


点击底部“阅读原文”可阅读全文。


- End -


更多了解


文章转载自京东云,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论