排行
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
中国数据库
向量数据库
时序数据库
实时数据库
搜索引擎
空间数据库
图数据库
数据仓库
大调查
2021年报告
2022年报告
年度数据库
2020年openGauss
2021年TiDB
2022年PolarDB
2023年OceanBase
首页
资讯
活动
大会
学习
课程中心
推荐优质内容、热门课程
学习路径
预设学习计划、达成学习目标
知识图谱
综合了解技术体系知识点
课程库
快速筛选、搜索相关课程
视频学习
专业视频分享技术知识
电子文档
快速搜索阅览技术文档
文档
问答
服务
智能助手小墨
关于数据库相关的问题,您都可以问我
数据库巡检平台
脚本采集百余项,在线智能分析总结
SQLRUN
在线数据库即时SQL运行平台
数据库实训平台
实操环境、开箱即用、一键连接
数据库管理服务
汇聚顶级数据库专家,具备多数据库运维能力
数据库百科
核心案例
行业报告
月度解读
大事记
产业图谱
我的订单
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
资讯
活动
大会
课程
文档
排行
问答
我的订单
首页
专家团队
智能助手
在线工具
SQLRUN
在线数据库即时SQL运行平台
数据库在线实训平台
实操环境、开箱即用、一键连接
AWR分析
上传AWR报告,查看分析结果
SQL格式化
快速格式化绝大多数SQL语句
SQL审核
审核编写规范,提升执行效率
PLSQL解密
解密超4000字符的PL/SQL语句
OraC函数
查询Oracle C 函数的详细描述
智能助手小墨
关于数据库相关的问题,您都可以问我
精选案例
新闻资讯
云市场
登录后可立即获得以下权益
免费培训课程
收藏优质文章
疑难问题解答
下载专业文档
签到免费抽奖
提升成长等级
立即登录
登录
注册
登录
注册
首页
专家团队
智能助手
精选案例
新闻资讯
云市场
微信扫码
复制链接
新浪微博
分享数说
采集到收藏夹
分享到数说
首页
/
KDD 2022 | 跨城市知识转移的时空图少样本学习
KDD 2022 | 跨城市知识转移的时空图少样本学习
时空实验室
2023-01-16
864
时空图学习是城市计算任务的关键方法,由于数据收集成本高,一些城市几乎没有可用的数据,且不同城市之间的时空图显现出规则的结构与不同的特征,这限制了现有少样本学习的可行性。本次为大家带来国际数据挖掘顶级会议
KDD
2022上的论文:《
Spatio-Temporal Graph Few-Shot Learning with Cross-City
》。
一、背景
时空图学习是交通流量、出租车需求、空气质量预测等城市计算任务的关键方法。由于数据收集成本高,一些发展中城市的可用数据很少,这使得训练一个性能良好的模型是不可行的。为了应对这一挑战,跨城市知识迁移已显示出其前景,从数据充足的城市中学习到的模型被用于数据稀缺的城市的学习过程。然而,不同城市间的时空图结构不规则、特征多样,限制了现有少样本学习(
FSL
)方法的可行性。
为此,文章提出一种模型无关的时空图少样本学习框架
ST-GFSL
。具体而言,
ST-GFSL
提出基于节点级元知识生成非共享参数,通过迁移跨城市知识来增强特征提取;目标城市中的节点通过参数匹配,从相似的时空特征中检索知识进行转移。此外,本文建议在元学习过程中重建图结构。定义图重建损失来指导结构感知学习,避免不同数据集之间的结构偏差。论文在4个交通速度预测基准数据集上进行了综合实验,结果表明了
ST-GFSL
的有效性与优越性。
二、相关定义
2.1 时空图
论文将时空图表示为
G
𝑆𝑇
= (V, E, A, X)
。其中
V = {
𝑣
1
,
𝑣
2
, · · · ,
𝑣
𝑁
}
为节点集,𝑁
=|V|
,为节点的数量。
E = {
𝑒
𝑖𝑗
= (
𝑣
,
𝑣
𝑗
)}
⊆
(V × V)
,表示节点之间的边。
A = {
𝑎
𝑖
}
∈
R
𝑁
×
𝑁
,表示邻接矩阵,𝑎
𝑖𝑗
= 1
表示𝑣
𝑖
与𝑣
𝑗
之间有边相连,反之𝑎
𝑖𝑗
= 0
。
X
是节点特征矩阵,指图表上传递的信息,如交通速度、空气污染程度和出租车在一定时间内的客流量。
2.2 时空图预测
假设有
T
个历史时空图信号,且希望预测在此之后未来的
M
个图信号。该预测任务将被表述为一个学习函数𝑓
(·)
并传递给时空图
G
𝑆𝑇
。如下所示:
2.3 时空图少样本学习
假设有一组含有
P
个来自数据丰富城市的源时空图
Gsource
1:
P
= {
Gsource
1, … ,
Gsource
P
}
,同时还有一个来自数据稀缺城市的目标时空图
G
target
。在训练之后,模型能够利用来自多个源图的元知识,并在不相交的目标场景下进行预测,其中只有少量的结构化
G
target
数据可用。
三、框架介绍
3.1 总体框架
如图1所示。图的左侧显示了
ST-GFSL
的输入。论文从多个城市迁移知识,而目标城市只有少量的训练样本。图的右侧主要由两部分组成:时空神经网络
(STNN)
和跨城市知识迁移。具体来说,
STNN
作为
ST-GFSL
中的基本特征提取器,其中可以使用任何时空学习架构,比如图神经网络(
GNNs
)、循环神经网络(
rnn
)和其他最先进的时空图学习模型。其次,跨城市知识转移模块将知识转移到多个源城市,如图1中的灰色虚线框所示。具体而言,首先设计
ST-Meta Learner
以获取空间和时间域的节点级元知识;生成非共享特征提取器参数𝜃
𝑆𝑇
,实现源城市数据和目标城市数据之间的自定义特征提取。通过重构不同城市的结构关系,进一步设计
ST-Meta
图重建算法,用于结构感知的元训练。
图1 总体框架
3.2 时空神经网络
时空神经网络(
STNN
)可以分为特征提取器和多步预测器,如图1底部虚线框所示。多步预测器通常使用一层或多层完全连接的网络。特征提取器则是根据不同的任务和数据特征所设计的,如基于
RNN
、基于
CNN
和基于
GNN
的模型。
在实验中,论文选用了经典的时间序列分析网络
GRU
与
TCN
,以及优越的时间网络模型
STGCN
与
GWN
。
3.3
ST-Meta
学习者
时空元学习者在时间和空间域上提取节点级元知识。为了对时空图进行动态编码,论文采用了被广泛用于时间序列建模的门控循环单元(
GRU
)。以一个节点
v
i
为例,节点级时间元知识
ztp i
被表示为
h
i,t
的最终状态:
X
i,t
是在
t
时间输入进节点
v
i
的向量,
h
i,t-1
是在
t
-1时
的隐藏状态。
U
z
、
U
r
、
U
c
与
W
z
、
W
r
、
W
c
都是权重矩阵。◦是逐元素相乘,
σ
是非线性激活函数
sigmoid
,
Ф
是
tanh
。
最后论文导出一个城市的时间元知识表示为:
Z
tp
= (
ztp
1,
ztp
2,…,
ztp
N
)
∈
R
N
×
d’
。
为了编码时空图的空间相关性,论文使用基于空间的图注意力网络(
GAT
)进行特征提取。具体来说,首先对每组互联节点应用共享线性变换,并计算关注系数
e
ij
:
W
是权重矩阵,
N
i
是节点
v
i
的一组邻接节点。在此之后,注意力得分将根据所有
j
的选择采用
softmax
函数进行初始化:
为了获得更丰富的表示,论文独立执行
K
次注意力机制,并采用平均来得到节点
v
i
的空间元知识。
因此,论文导出一个城市
Z
的空间元知识:
Z
sp
= (
zsp
1,
zsp
2,…,
zsp N
)
∈
R
N×d’
。
通过整合时间元知识,论文得到元知识
Z
MK
= (
zMK
1,
zMK
2,…,
zMK N
)
∈
R
N×dMK
,将时间与空间的元知识通过学习比率
γ
∈
R
d’
权重相加。它以数据驱动的方式从空间或时间域学习影响。具体而言,计算元知识
Z
MK
如下:
W
γ
∈
R
d
×
dMK
是元知识输出层的权重矩阵,
d
MK
是元知识的维数。
3.4
ST-Meta
图重建
为了表达图的结构信息,减少因源数据分布不同而引起的结构偏差,
ST-Meta
图进行了元知识重构支持结构的学习。论文通过将学习到的元知识𝑧𝑀𝐾
𝑖和𝑧𝑀𝐾
𝑗相乘,预测节点𝑣
𝑖
和𝑣
𝑗
之间存在边缘的可能性:
因此,
ST-Meta
图
A
meta
可以被重建为:
其中
(·)
是元知识矩阵的转置。
为了指导元知识的支持结构学习,论文在
ST-Meta
图
A
meta
与初始的邻接矩阵
A
之间的训练过程中引入了图重建损失
L
g
:
3.5 参数生成
在获得节点级元知识之后,由于城市之间和城市内部的巨大差异,论文提出了参数生成来获得不同场景的特征提取器的非共享参数。当目标域中的节点类似于多个源域中的一个节点,将会获得近似的模型参数。参数生成是一个以节点级元知识作为输入,非共享特征提取参数作为输出的函数。线性层与卷积层是两个基本的神经网络单元,以下介绍如何这两个单元的参数。
(1) 线性层
线性层表示为
Y
=
WX
+
b
。
W
为权重矩阵,
b
为偏差。
W
的生成过程如下:
图2 线性权重矩阵W的参数生成
b
则通过一次线性转换形成:
F
b
:
R
dMK
→
R
dout
。
(2) 卷积层
类似于线性层,卷积层的生成如下图:
图3 卷积层参数生成
其中
C
in
是输入数据的通道数,
C
out
是输出数据的通道数,(
K
H
,
K
W
)是卷积核的大小。
3.6
ST-GFSL
学习过程
为了处理少样本场景的适应性,
ST-GFSL
的学习过程遵循基于
MAML
的场景学习过程。
ST-GFSL
通过两个阶段来训练时空图学习模型。
具体而言,
ST-GFSL
先对来自源数据集的任务批次进行采样,得到一组样本
T
ST
,样本中的每一个任务来自一个城市,并且他们被分成支撑集
S
Ti
与查询集
Q
Ti
,这两个集合不相交。在学习一个任务
T
i
时,
ST-GFSL
考虑一个将预计错误损失
L
e
和图重建损失
L
g
结合起来的联合损失函数:
图重建损失
L
g
表示元知识的结构感知能力,因此,联合损失函数
L
为:
λ
是两个损失函数的和比例因子。具体来说,元目标是最小化查询集上的任务损失之和,表示如下:
为了得到最优的模型参数
θ
*
,算法1概述了
ST-GFSL
的基于模型的元训练过程。
四、实验
4.1 实验设置
在实验中,论文使用了四个交通流数据集,分别为
METR-LA、PEMS-BAY
、滴滴成都、滴滴深圳。同时,在多步预测和地面真实值之间应用了两个度量:平均绝对误差(
MAE
)与均方根误差(
RMSE
)。
4.2 性能比较
表1显示了多种方式下的性能比较。论文提出的框架
ST-GFSL
在多个数据集上获得了短期与长期预测的最佳结果。在
AdRNN
方面,它在一些指标上表现的更好,尤其是
METR-LA
数据集的中长期预测。对于两种微调方法,与普通方法相比,基于参数生成的微调(
ST-Meta
)有显著改进。
MAML
在实验中也展现了良好的性能。
表1 四个交通速度数据集的性能比较
ST-GFSL
适用于不同的特征提取器,它是一个无关模型的框架。图4显示了滴滴深圳与
METR-LA
数据集上不同特征提取器的性能,
STGCN
和
GWN
在该框架下依然保持强大的特征提取能力。
图4 不同特征提取器的性能比较
对于不同城市之间的数据转移,可以发现相似的城市在短期预测中能够获得更相似的时空特征,而长期预测中,多个城市数据的转移能够获得更优的效果。
4.3 其他研究
在消融研究的实验过程中,论文发现时空联合特征对于参数生成更为准确。此外,在论文使用可训练的随机参数来替代学习的时空特征,性能大大下降。移除参数生成器或图重建损失函数后,性能都严重的下降了。同时,在个案研究中,论文发现
ST
元图重建达到了预期效果,并且通过避免消融研究中所表现出的结构偏差,大大提高了预测性能。
4.4 超参数分析
如图5所示,在
d
MK
= 16时,在短期和长期预测中都获得了更好的性能。此外两个损失函数之间的权衡也很重要,论文发现当
λ
> 1时,通常能够获得更好的结果。在实验中,将目标域数据天数从一天调整到七天时,模型性能总体上改善显著。
图5 滴滴深圳数据集的超参数研究
五、总结
在本文中,论文首先提出了一种用于跨城市知识转移的时空图少样本学习框架
ST-GFSL
。基于节点级元知识的非特征提取器参数提高了多个数据集上时空表示的有效性,并通过参数匹配从相似的时空元知识传递跨城市知识。从实验结果中表明,
ST-GFSL
优于其他基线方法。除了交通速度预测,
ST-GFSL
还可以用于其他配备了时空图的少样本场景。
-End-
本文作者
周敏欣
重庆大学计算机科学与技术专业(卓越)本科二年级在读学生,重庆大学START团队成员。主要研究方向:时空数据挖掘
。
时空艺术团队
(
START,Spatio-Temporal Art
)来自重庆大学时空实验室,旨在发挥企业和高校的优势,深入探索时空数据收集、存储、管理、挖掘、可视化相关技术,并积极推进学术成果在产业界的落地!年度有2~3名研究生名额,欢迎
计算机、GIS
等相关专业的学生报考!
特征提取
预测模型
文章转载自
时空实验室
,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。
评论
领墨值
有奖问卷
意见反馈
客服小墨