暂无图片
暂无图片
暂无图片
暂无图片
暂无图片

VLDB 2024 | 稳健时间序列预测的弱引导适应

时空实验室 2025-02-17
308
稳健的多元时间序列预测在许多信息物理和物联网应用中至关重要。现有的稳健预测模型将时间序列分解为涵盖趋势和周期性的独立函数。但是,这些独立函数无法捕获多个时间序列之间的相关性,从而降低了预测准确性。此外,现有的稳健预测模型将某些突然但正常的变化(例如,由假期引起)视为异常值,因为它们不经常发生并且具有类似于异常值的数据分布。这加剧了模型偏差并降低了预测准确性。
为此,今天为大家带来VLDB 2024的论文《Weakly Guided Adaptation for Robust Time Series Forecasting》,它提出了域对抗性稳健预测器,能够达到当前领域中最高的预测准确性

一、背景

物联网、网络物理和云监控系统的持续快速部署产生大量时间序列数据。一个多元的时间序列是一个相关的、时间对齐的时间序列的集合。例如,在电力传输中,金属导体温度的升高伴随着其电阻的升高。因此,多变量时间序列中的变量通常具有内在相关性。使模型能够捕获多个时间序列中的相关性可以显著提高每个变量的预测准确性,这反过来又使许多应用程序受益。    

预测精度受到诸如模型捕获相关性和复杂时间动态的能力以及其对异常值等因素的鲁棒性的影响

如下图所示,图1(a)中的多变量时间序列具有独立和相关的异常值。独立异常值是由于集群中一台机器故障等原因而出现在单个时间序列中的某个时间点的异常值,而相关异常值是在一个时间点出现在多个时间序列中的异常值。

由假期、人类行为或其他可预测但不常见的事件引起的时间模式,可能类似于异常值;见图1(b)。这种相似性会导致预测模型将常规事件引起的时间动态误认为异常值,从而导致模型忽略不常见但重要的时间特征。

图1 具有异常值、事件和突变的时间序列的说明

本文研究了多变量时间序列的稳健预测问题,即如何为了避免降低预测准确性,根据历史数据预测未来的时间序列,同时,对历史数据中的异常值保持鲁棒性、确保事件特征不被视为异常值至关重要。

现有的研究具有以下两个挑战:

挑战1:现有处理具有异常值的多变量时间序列的预测方法具有挑战性。基于季节性趋势分解的方法无法捕获多变量时间序列之间的时间动态,因为这些方法会独立分解每个时间序列或变量。

挑战2:区分事件特征和异常值可能具有挑战性。现有方法大多是数据驱动的,当属于事件的样本数量有限时,这些模型难以捕获事件特征。此外,由于事件和异常值的模式相似,因此这些模型通常很难在忽略异常值的同时准确拟合事件特征。    

应对挑战1:为了确保本文的模型域对抗稳健预测器Domain Adversarial Robust Forecaster(DARF)能够捕获多个时间序列的相关性,同时保持对异常值的鲁棒性,文章为DARF配备了一个相关性稳健预测器Correlated Robust Forecaster(CORF),这是一个非对称编码器-解码器框架。CORF的编码器是一个图卷积网络,旨在提取多个时间序列之间的相关性并生成相关特征。CORF的解码器是一种基于季节性趋势分解的组件,它将相关特征分解为季节性和趋势主干,以实现对异常值的鲁棒性。

应对挑战2:区分事件特征和异常值至关重要,因为它可以确保模型的稳健性,同时提高预测准确性。但是,标记单个异常值既耗时又昂贵。为了克服这个问题,文章将弱监督整合到DARF中,采用现成的事件标签,例如公共假期。将没有弱标签的时间序列分配给源域,将具有弱标签的时间序列分配给目标域。然后,对抗性训练确保模型有效地捕获事件特征。通过最小化源域和目标域之间的分布散度,该模型使事件发生的时间序列的分布与没有事件的时间序列的分布对齐。这种方法使模型能够同时捕获事件特征并保持对异常值的稳健性。

二、准备工作

(1)多元时间序列预测:xtRN表示一个多元时间序列中的观测值,其中t是一个时间戳,N表示观测值中变量的数量。下列模型使用历史数据来预测未来序列,HF分别是历史序列未来序列的长度。

(2)弱标签:弱标签通常可以通过简单且经济高效的方式获得,用于提供额外的相关信息,以提高预测性能。对于时间序列数据,弱标签通常与与时间戳关联的语义相关。例如,弱标签可能指示时间戳是否与假日、高峰时段或体育赛事等事件相关联。原始数据集包含I个多变量时间序列。对于第i个时间序列,表示历史序列,表示未来序列。弱标签用于将划分为源域以及目标域 。源域中相应的弱标签表示未发生事件,目标域相应的弱标签表示事件的发生。例如,当使用表示节假日的弱标签时,源域是包含非节假日的时间序列,而目标域是包含节假日的时间序列。,经常有,即源域名有比目标域多的样本。所提出的模型是由划分的源域和目标域训练的。

(3)自适应图学习:图由一组节点、一组边以及邻接矩阵组成,其中权重捕捉了节点之间的相关性。如果,那么Aij的非零值表示边的权重;否则,该值为零。在时间序列预测中,节点表示变量,而A捕捉了这些变量之间的相关性。不使用由领域专家预先定义结构的传统静态图,而是采用自适应图学习组件。这是因为多元时间序列中变量之间的相关性通常是隐藏的。自适应邻接矩阵在训练过程中学习得到。学习过程定义如下:

其中E1和E2表示随机初始化的变量嵌入,是可学习的参数, tanh(·)是双曲正切函数,ReLU(·)是修正线性单元激活函数。

三、设计概述

3.1 DARF框架

图2 DARF框架

首先,弱标签用于将划分为源域  以及目标域 。在本研究中,将任何包含假日标签的时间序列分配给目标域,并将剩余的时间序列分配给源域。DARF使用源域来预训练其编码器解码器框架CORF。在对抗性训练之前,使用源域对模型进行预训练,以建立模型参数在潜在空间内的分布。这有助于在对抗性训练期间将模型参数收敛到目标域的分布。此时,CORF的目标是最小化预测损失

其中  表示CORF编码器, 表示CORF解码器, 表示CORF解码器的损失函数。在这里,CORF编码器(GNN)用于捕获相关性,而CORF解码器(基于STN的预测模型)可确保模型的稳健性。正在优化的参数是ΘΦ,它们分别属于CORF编码器和CORF解码器。    

一旦CORF完成预训练,就会启动源域和目标域的弱引导适应。如图2所示,符号表示从源域和目标域采样的合并,同时从源域和目标域提取样本,以同等比例进行训练。例如,如果DARF从源域中提取10个样本,它将从目标域中提取10个样本。基本原理是目标域中的数量比源域中的少。通过平衡采样尺度,该模型在训练期间平衡目标域和源域之间的损失,从而提高模型捕获事件特征的能力。随后,利用学习到的参数ΘΦ来初始化CORF的参数。鉴于采用了对抗性学习策略,CORF编码器充当对抗性网络中的生成器,而域批评者Domain Critic)充当判别器。域批评者是一种神经网络,旨在减少源域和目标域之间的分布散度。因此,域批评者试图最大化域损失以减小源域和目标域之间的距离。当域丢失较大时,域批评者更难区分特征是属于源域还是目标域,这表明它们的分布越来越近。域名损失定义如下。

其中表示域批评者,表示确定分布散度的指标。一组正在优化的参数是Ω,它属于域批评者。

对抗性方式需要在CORF编码器和域批评者之间交替训练。因此,弱导向适应的综合优化目标如下:

通过最小化预测损失和最大化域损失,在时间序列预测中实现对抗域适应。DARF反复进行弱导向适应,直到ΘΦΩ收敛。它保留了CORF的模型结构及其编码器和解码器参数ΘΦ。此时,CORF作为最终预测者。

3.2 CORF预训练

图3 CORF框架

3.2.1 CORF编码器

相关性在多变量时间序列预测中起着关键作用,因为它揭示了各种时间序列之间的关系和依赖关系。然而,传统的稳健预测框架主要集中在通过单独分解时间序列来提高模型对异常值的稳健性,这阻碍了它们有效利用相关性的能力。

如图3所示,CORF编码器处理输入历史时间序列,并生成相关特征。为了捕捉短期时间动态,使用了两个门控一维卷积神经网络CNN-1CNN-2它们反过来又帮助图卷积网络通过学习的邻接矩阵在相邻的时间序列之间传播信息。这种方法有助于提取相关性并将原始时间序列转换为潜在空间内的表示。

CORF编码器采用扩散卷积层来建立这些相关性,从而产生相关特征Gi。扩散过程描述了信息在整个图形结构中传播的方式,捕获多个时间序列之间的长距离依赖关系和高阶关系。    


MLP表示用于重塑表示的3层感知器,确保CORF解码器的输入特征对齐。

扩散卷积层的输入信号由门控一维CNN生成,用于构建包含短期时间信息的表示。

3.2.2 CORF解码器

CORF解码器的任务是稳健地预测未来的时间序列。在设计解码器时考虑了两个主要因素:有效捕获复杂的时间动态和分解季节性趋势主干。为了有效地实现这些目标,设计了一个两级结构,包括区块内和区块间组件。

CORF解码器是一个残差神经网络,它聚合了每个模块的输出。因此,趋势块和季节性块的输出是具有固定解析形式的独立分解函数,表现出对异常值的稳健性。

从块内的角度来看,设计了两个不同的趋势和季节性块来捕捉趋势和季节性时间动态。趋势块接收相关特征,表示为。如图3所示,趋势块是第一个块。趋势块生成两个多项式:预测多项式,任务是预测未来的趋势模式,以及反向投射多项式,专注于重建历史趋势模式。具体来说,块内组件利用门控时间卷积网络(TCN-1TCN-2)捕获远程依赖关系和提供鲁棒性。趋势块中门控时间卷积网络的输出定义如下。

预测趋势多项式定义如下:    

预测傅里叶级数定义如下。

从块间的角度来看,解码器在趋势块和季节性块之间采用了残差连接。合并残差连接以达到多种目的:除了缓解梯度消失问题和加速收敛外,它们的主要功能是建立独立的季节性和趋势时间序列主干。反过来,这增强了模型处理异常值时的稳健性,并提高了其整体性能。

季节性块Gsea的输入可以定义如下。

这些模块的重建输出被合并以生成预测的未来时间序列。由表示的预测序列定义如下。

其中预测序列是趋势和季节性序列的组合,因此将预测和优化过程呈现为独立的过程。

3.2.3 源域的预训练    

使用源域来训练编码器-解码器框架CORF。目标是确定源域在潜在空间中的位置,从而使目标域能够转移到这个定义的空间中,以减少源域和目标之间的分布散度。因此,优化目标是最小化预测损失,表示如下:

3.3 弱引导适应

图4 Domain Critic框架

一旦确定了源域在潜在空间中的分布,就使用对抗训练将目标域投射到同一个潜在空间中,旨在最小化与源域的分布散度。此策略使CORF解码器能够更好地拟合目标域内的事件特征,从而提高预测准确性。    

3.3.1 域批评者

源域和目标域之间边际概率分布的分布散度,加上目标域中样本的稀疏性,构成了阻碍模型准确拟合数据能力的关键因素。域批评者在对抗性域适应框架中充当判别器,其主要目标是最大限度地减少分布差异。

如图4所示,域批评者利用Wasserstein度量,也称为Wasserstein距离,旨在最小化相关特征分布Gi和Gj之间的距离,以帮助模型捕获事件特征。

源域和目标域之间的距离越短,表示Gi和Gj在潜在空间内的分布更相似。因此,即使目标域中的样本有限,CORF解码器也能够捕获目标域中的特征,因为CORF解码器是使用源域进行完全训练的,并且目标域的分布类似于源域的分布。

3.3.2 源和目标领域的弱引导适应

通过采用交替训练方法,CORF编码器有机会适应和增强其输出以响应域批评者的当前性能,而域批评者同时学习适应CORF编码器生成的不断发展的输出。

四、实验

4.1 实验设置

4.1.1 数据集和评估指标

实验拥有如下三个数据集:ElectricityETTh2Traffic

采用成熟的时间序列预测指标,平均绝对误差(MAE)和平均绝对百分比误差(MAPE),来评估DARF和其他基线的预测准确性。这些指标的值越低,预测准确性越高。

4.1.2 基线

选择了两类基线:一组由基于图神经网络的方法组成,而另一组依赖于季节趋势分解方法。在基于图神经网络的方法中,选择MTGNN和STEP。在基于季节趋势分解的方法中,选择RobustSTL、CoST、FEDFrorer和Dlinear。

4.1.3 实验环境

所有实验均在运行Linux18.04的服务器上进行,该服务器配备IntelXeonW-2155CPU@3.30GHz和一个具有30GB内存的TeslaV100GPU。

4.2 预测精准度

DARF在长期和短期预测范围内都表现出稳定的预测准确性。CORF解码器采用分解策略,使其能够捕获时间序列的长期特征,因此,它在长时间序列中表现良好。此外,CORF解码器利用残差网络结构而不是多层神经网络。这加快了模型参数的收敛速度,降低了短时间序列上过拟合的风险,从而确保了短预测范围内的良好预测准确性。此外,CORF的编码器增强了其捕获多个时间序列之间相关性的能力,这也有助于提高模型的预测准确性。    

4.3 消融实验

与原始DARF相比,无CORF-encoder-1和无CORF-encoder-2两种设置的预测准确性都有所下降,这表明相关性对预测准确性有重大贡献。因此,CORF编码器提高了DARF在捕获时间序列数据中的相关性方面的熟练程度。

DARF w/o CORF-decoder-1、DARF w/o CORF-decoder-2和DARF w/o CORF-decoder-3与DARF相比,这些变体中的每一种都显示出预测准确性的下降,因为它们无法稳健地处理异常值。这突出表明CORF解码器使DARF具有承受异常值扰动的能力。

与DARF相比,没有域批评者的DARF的预测准确性有所下降,因为它在捕获有限的事件特征方面面临困难。实验结果表明,对抗域适应框架增强了DARF捕获事件特征的能力。    

图5 域批评者对假期的影响

4.4 异常值和事件的增量研究

在对异常值的研究中,考虑了每个时间序列或变量独立分布的异常值以及每个时间序列或变量中同时出现的相关异常值对模型预测准确性的影响。

表4中的结果表明,随着异常值比例的增加,DARF和基线的预测准确性都会降低。这意味着训练集中异常值的比例越大,对预测模型的干扰就越大,从而导致其预测准确性降低。

表5中的结果表明,随着相关异常值比例的增加,DARF和基线的预测准确性都会下降,下降幅度比独立异常值更大。因此,相关的异常值对预测性能产生了更深远的破坏性影响。特别是,CORF的解码器结构将季节性趋势分解独立地应用于每个变量,从而使其不受相关异常值的影响。

如表6所示,DARF的预测准确性在所有三个数据集中都呈上升趋势,比率p有所增加。这可以归因于这样一个事实,即较大的p允许DARF访问与突然但正常的变化有关的更多信息。该模型受益于更全面的训练,使其能够捕获独特的特征。    

4.5 可视化

图6 相关特征的分布情况

可视化展示了DARF如何成功捕获事件特征,同时对异常值保持稳健性。

    图7 对预测的时间序列的解释

图7 (b)-(e)显示了CORF解码器中每个块的残差连接处的输出曲线,它由两个周期函数和两个趋势函数组成。这些函数的总和构成了图7(a)中的绿色曲线。

4.6 模型可扩展性

图8 DARF可扩展性

图8(a)和8(b) 表明,随着历史水平H的增加,DARF的训练时间和GPU内存使用都会增加。在涵盖的模型中,Dlinear在训练时间和GPU内存使用方面表现最佳。值得注意的是,如图8(c)和8(d)所示,当H达到并超过48时,预测精度趋于稳定。

DARF的两个组成部分,即CORF和DomainCritic,的理论时间和空间复杂度分别为O(HN2)和O(HN),其中N是变量的数量。因此,DARF的整体时空复杂度为O(HN2)。

4.7 参数灵敏度

图9 DARF参数灵敏度

如图9(a)所示,DARF用2个块实现了最好的预测精度。块数对应于预测函数的数量。设置为2时,预测函数由两个趋势函数和两个季节性函数组成。此外,DARF的预测精度在= 4达到峰值。由于P是趋势函数中多项式的最高次数和季节性函数中的最高频率,因此P值越高表示函数越复杂,这会增加过拟合的风险。图9(b)表明当ω等于0.5时,DARF表现最佳。ω表示惩罚项在域损失中的权重,ω越高,Domain Critic的泛化能力越强,但会降低其最小化源域和目标域之间分布散度的能力。最后,当λ等于1时,DARF具有最佳性能。由于λ表示域损失在整体损失中的权重,因此较高的λ可以提高DARF捕获事件特征的能力,但会降低其捕获时间动态的能力。

五、结论

DARF是一种弱引导自适应模型,旨在实现多元时间序列的稳健预测。为了实现多元时间序列的稳健预测,DARF配备了一个相关性稳健预测器,其编码器能够捕获多元相关性,从而提高预测精度。此外,预测器的解码器将时间序列分解为趋势和季节函数的组合,以实现鲁棒性。DARF采用对抗性域自适应来减少源域和目标域之间的分布差异,从而捕获事件特征,进一步提高对包含事件的时间序列的预测精度。

-End-

本文作者
鲁茹芸
重庆大学2024级计算机科学与技术专业研究生,重庆大学Start Lab团队成员。
主要研究方向:时空数据预测

重庆大学时空实验室(Spatio-Temporal Art Lab,简称Start Lab),旨在发挥企业和高校的优势,深入探索时空数据收集、存储、管理、挖掘、可视化相关技术,并积极推进学术成果在产业界的落地!年度有3~5名研究生名额,欢迎计算机、GIS等相关专业的学生报考!
         


               图文|鲁茹芸

               校稿|朱明辉

               编辑|李佳俊

               审核|李瑞远

               审核|杨广超     

文章转载自时空实验室,如果涉嫌侵权,请发送邮件至:contact@modb.pro进行举报,并提供相关证据,一经查实,墨天轮将立刻删除相关内容。

评论