KDD 2022 | 跨城市知识转移的时空图少样本学习

时空实验室 2023-01-16

871

时空图学习是城市计算任务的关键方法，由于数据收集成本高，一些城市几乎没有可用的数据，且不同城市之间的时空图显现出规则的结构与不同的特征，这限制了现有少样本学习的可行性。本次为大家带来国际数据挖掘顶级会议KDD 2022上的论文：《Spatio-Temporal Graph Few-Shot Learning with Cross-City》。

一、背景

时空图学习是交通流量、出租车需求、空气质量预测等城市计算任务的关键方法。由于数据收集成本高，一些发展中城市的可用数据很少，这使得训练一个性能良好的模型是不可行的。为了应对这一挑战，跨城市知识迁移已显示出其前景，从数据充足的城市中学习到的模型被用于数据稀缺的城市的学习过程。然而，不同城市间的时空图结构不规则、特征多样，限制了现有少样本学习(FSL)方法的可行性。

为此，文章提出一种模型无关的时空图少样本学习框架ST-GFSL。具体而言，ST-GFSL提出基于节点级元知识生成非共享参数，通过迁移跨城市知识来增强特征提取；目标城市中的节点通过参数匹配，从相似的时空特征中检索知识进行转移。此外，本文建议在元学习过程中重建图结构。定义图重建损失来指导结构感知学习，避免不同数据集之间的结构偏差。论文在4个交通速度预测基准数据集上进行了综合实验，结果表明了ST-GFSL的有效性与优越性。

二、相关定义

2.1 时空图

论文将时空图表示为G_𝑆𝑇 = (V, E, A, X)。其中V = {𝑣₁, 𝑣₂, · · · , 𝑣_𝑁 }为节点集，𝑁 =|V|，为节点的数量。E = {𝑒_𝑖𝑗 = (𝑣 , 𝑣_𝑗)} ⊆ (V × V)，表示节点之间的边。A = {𝑎_𝑖 } ∈ R ^𝑁^×^𝑁 ,表示邻接矩阵，𝑎_𝑖𝑗 = 1表示𝑣_𝑖与𝑣_𝑗之间有边相连，反之𝑎_𝑖𝑗 = 0。X是节点特征矩阵，指图表上传递的信息，如交通速度、空气污染程度和出租车在一定时间内的客流量。

2.2 时空图预测

假设有T个历史时空图信号，且希望预测在此之后未来的M个图信号。该预测任务将被表述为一个学习函数𝑓 (·)并传递给时空图G_𝑆𝑇。如下所示:

2.3 时空图少样本学习

假设有一组含有P个来自数据丰富城市的源时空图Gsource 1:P = {Gsource 1, … , GsourceP},同时还有一个来自数据稀缺城市的目标时空图G^target。在训练之后，模型能够利用来自多个源图的元知识，并在不相交的目标场景下进行预测，其中只有少量的结构化G^target数据可用。

三、框架介绍

3.1 总体框架

如图1所示。图的左侧显示了ST-GFSL的输入。论文从多个城市迁移知识，而目标城市只有少量的训练样本。图的右侧主要由两部分组成：时空神经网络(STNN)和跨城市知识迁移。具体来说，STNN作为ST-GFSL中的基本特征提取器，其中可以使用任何时空学习架构，比如图神经网络(GNNs)、循环神经网络(rnn)和其他最先进的时空图学习模型。其次，跨城市知识转移模块将知识转移到多个源城市，如图1中的灰色虚线框所示。具体而言，首先设计ST-Meta Learner 以获取空间和时间域的节点级元知识;生成非共享特征提取器参数𝜃_𝑆𝑇，实现源城市数据和目标城市数据之间的自定义特征提取。通过重构不同城市的结构关系，进一步设计ST-Meta图重建算法，用于结构感知的元训练。

图1 总体框架

3.2 时空神经网络

时空神经网络（STNN）可以分为特征提取器和多步预测器，如图1底部虚线框所示。多步预测器通常使用一层或多层完全连接的网络。特征提取器则是根据不同的任务和数据特征所设计的，如基于RNN、基于CNN和基于GNN的模型。

在实验中，论文选用了经典的时间序列分析网络GRU与TCN，以及优越的时间网络模型STGCN与GWN。

3.3 ST-Meta学习者

时空元学习者在时间和空间域上提取节点级元知识。为了对时空图进行动态编码，论文采用了被广泛用于时间序列建模的门控循环单元（GRU）。以一个节点v_i为例，节点级时间元知识ztp i被表示为h_i,t的最终状态：

X_i,t是在t时间输入进节点v_i的向量，h_i,t-1是在t-1时的隐藏状态。U^z、U^r、U^c与W^z、W^r、W^c都是权重矩阵。◦是逐元素相乘，σ是非线性激活函数sigmoid，Ф是tanh。

最后论文导出一个城市的时间元知识表示为：Z^tp = (ztp 1, ztp 2,…, ztpN) ∈ R^N^×^d’。

为了编码时空图的空间相关性，论文使用基于空间的图注意力网络（GAT）进行特征提取。具体来说，首先对每组互联节点应用共享线性变换，并计算关注系数e_ij：

W是权重矩阵，N_i是节点v_i的一组邻接节点。在此之后，注意力得分将根据所有j的选择采用softmax函数进行初始化：

为了获得更丰富的表示，论文独立执行K次注意力机制，并采用平均来得到节点v_i的空间元知识。

因此，论文导出一个城市Z的空间元知识：Z^sp = (zsp 1, zsp 2,…, zsp N) ∈ R^N×d’。

通过整合时间元知识，论文得到元知识Z^MK = (zMK 1, zMK 2,…, zMK N) ∈ R^N×dMK，将时间与空间的元知识通过学习比率γ∈R^d’权重相加。它以数据驱动的方式从空间或时间域学习影响。具体而言，计算元知识Z^MK如下：

W^γ∈R^d^×^dMK是元知识输出层的权重矩阵，d_MK是元知识的维数。

3.4 ST-Meta图重建

为了表达图的结构信息，减少因源数据分布不同而引起的结构偏差，ST-Meta图进行了元知识重构支持结构的学习。论文通过将学习到的元知识𝑧𝑀𝐾𝑖和𝑧𝑀𝐾𝑗相乘，预测节点𝑣_𝑖和𝑣_𝑗之间存在边缘的可能性:

因此，ST-Meta图A_meta可以被重建为：

其中(·)是元知识矩阵的转置。

为了指导元知识的支持结构学习，论文在ST-Meta图A_meta与初始的邻接矩阵A之间的训练过程中引入了图重建损失L_g：

3.5 参数生成

在获得节点级元知识之后，由于城市之间和城市内部的巨大差异，论文提出了参数生成来获得不同场景的特征提取器的非共享参数。当目标域中的节点类似于多个源域中的一个节点，将会获得近似的模型参数。参数生成是一个以节点级元知识作为输入，非共享特征提取参数作为输出的函数。线性层与卷积层是两个基本的神经网络单元，以下介绍如何这两个单元的参数。

(1) 线性层

线性层表示为Y = WX + b。W为权重矩阵，b为偏差。W的生成过程如下：

图2 线性权重矩阵W的参数生成

b则通过一次线性转换形成：F_b:R^dMK→ R^dout。

(2) 卷积层

类似于线性层，卷积层的生成如下图：

图3 卷积层参数生成

其中C_in是输入数据的通道数，C_out是输出数据的通道数，（K_H, K_W）是卷积核的大小。

3.6 ST-GFSL学习过程

为了处理少样本场景的适应性，ST-GFSL的学习过程遵循基于MAML的场景学习过程。ST-GFSL通过两个阶段来训练时空图学习模型。

具体而言，ST-GFSL先对来自源数据集的任务批次进行采样，得到一组样本T_ST，样本中的每一个任务来自一个城市，并且他们被分成支撑集S_Ti与查询集Q_Ti，这两个集合不相交。在学习一个任务T_i时，ST-GFSL考虑一个将预计错误损失L_e和图重建损失L_g结合起来的联合损失函数：

图重建损失L_g表示元知识的结构感知能力，因此，联合损失函数L为：

λ是两个损失函数的和比例因子。具体来说，元目标是最小化查询集上的任务损失之和，表示如下：

为了得到最优的模型参数θ^*，算法1概述了ST-GFSL的基于模型的元训练过程。

四、实验

4.1 实验设置

在实验中，论文使用了四个交通流数据集，分别为METR-LA、PEMS-BAY、滴滴成都、滴滴深圳。同时，在多步预测和地面真实值之间应用了两个度量：平均绝对误差（MAE）与均方根误差（RMSE）。

4.2 性能比较

表1显示了多种方式下的性能比较。论文提出的框架ST-GFSL在多个数据集上获得了短期与长期预测的最佳结果。在AdRNN方面，它在一些指标上表现的更好，尤其是METR-LA数据集的中长期预测。对于两种微调方法，与普通方法相比，基于参数生成的微调（ST-Meta）有显著改进。MAML在实验中也展现了良好的性能。

表1 四个交通速度数据集的性能比较

ST-GFSL适用于不同的特征提取器，它是一个无关模型的框架。图4显示了滴滴深圳与METR-LA数据集上不同特征提取器的性能，STGCN和GWN在该框架下依然保持强大的特征提取能力。

图4 不同特征提取器的性能比较

对于不同城市之间的数据转移，可以发现相似的城市在短期预测中能够获得更相似的时空特征，而长期预测中，多个城市数据的转移能够获得更优的效果。

4.3 其他研究

在消融研究的实验过程中，论文发现时空联合特征对于参数生成更为准确。此外，在论文使用可训练的随机参数来替代学习的时空特征，性能大大下降。移除参数生成器或图重建损失函数后，性能都严重的下降了。同时，在个案研究中，论文发现ST元图重建达到了预期效果，并且通过避免消融研究中所表现出的结构偏差，大大提高了预测性能。

4.4 超参数分析

如图5所示，在d_MK = 16时，在短期和长期预测中都获得了更好的性能。此外两个损失函数之间的权衡也很重要，论文发现当λ > 1时，通常能够获得更好的结果。在实验中，将目标域数据天数从一天调整到七天时，模型性能总体上改善显著。

图5 滴滴深圳数据集的超参数研究

五、总结

在本文中，论文首先提出了一种用于跨城市知识转移的时空图少样本学习框架ST-GFSL。基于节点级元知识的非特征提取器参数提高了多个数据集上时空表示的有效性，并通过参数匹配从相似的时空元知识传递跨城市知识。从实验结果中表明，ST-GFSL优于其他基线方法。除了交通速度预测，ST-GFSL还可以用于其他配备了时空图的少样本场景。

-End-

本文作者

周敏欣

重庆大学计算机科学与技术专业（卓越）本科二年级在读学生，重庆大学START团队成员。主要研究方向：时空数据挖掘。

时空艺术团队（START，Spatio-Temporal Art）来自重庆大学时空实验室，旨在发挥企业和高校的优势，深入探索时空数据收集、存储、管理、挖掘、可视化相关技术，并积极推进学术成果在产业界的落地！年度有2~3名研究生名额，欢迎计算机、GIS等相关专业的学生报考！

特征提取预测模型

文章转载自时空实验室，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

KDD 2022 | 跨城市知识转移的时空图少样本学习

评论