VLDB 2023 | TSGBench: 时间序列生成基准

时空实验室 2024-06-20

647

合成时间序列生成 (TSG) 在数据增强、异常检测和隐私保护等一系列应用中至关重要。然而，现有工作中缺乏针对TSG 方法设计的统一全面的评估方法。为此，本次为大家带来数据库顶会VLDB 2023的论文《TSGBench: Time Series Generation Benchmark》。

一、背景

在以时间序列为中心的无数任务中，由于数据增强、异常检测等需求的不断增长，时间序列生成 (Time Series Generation，TSG) 技术逐渐脱颖而出，成为一个新兴的研究焦点。TSG的目标是生成与原始时间序列类似的时间序列，旨在保留时间依赖性和维度相关性，同时确保生成的时间序列对分类和预测等下游任务仍然有效。为此，业界目前提出了许多TSG方法，其主要思想是开发一种生成模型以准确捕获输入时间序列的固有特征和依赖性，从而生成能够保持效用和统计特征的新时间序列。

然而，目前相关领域仍存在三大局限性：（1）缺乏对各种方法的全面分类和比较分析；（2）不一致的数据集选择和预处理方法引入了对比偏差，也阻碍了方法的泛化迁移；（3）模糊的评价指标阻碍了统一公正的算法比较。

为解决上述问题，本文提出了第一个时间序列生成基准——TSGBench，提供了对原理与方法的鲁棒评估和深入分析，旨在标准化TSG方法的对比评估。其主要贡献总结如下：（1）基于三个基本生成模型提供了 TSG 方法的新分类方法；（2）引入了用于数据集选择和预处理的标准流水线；（3）设计了一套多样化且鲁棒的措施来对TSG方法进行全面评估；（4）对现有的 TSG 方法进行了系统的评估。

二、相关定义

2.1 问题定义

假设时间序列 𝑻 由 𝑁 (𝑁 ≥ 1) 个长度为 𝐿 的单独序列组成，其矩阵表示形式为𝑻 = (𝒔₁, …, 𝒔_𝑁 )^T，其中每个单独序列𝒔_𝑖可以表示为一个𝐿维向量，即𝒔_𝑖 = (𝑥_𝑖_,1, …, 𝑥_𝑖_,_𝐿)，每个𝑥_𝑖_,_𝑗对应于𝒔_𝑖的单个时间点𝑡_𝑗。𝑝 (𝒔₁, …, 𝒔_𝑁) 表示给定时间序列 𝑻 的真实分布。

时间序列生成 (TSG) 的目标是创建一个合成时间序列𝑻^𝑔𝑒𝑛= (𝒔₁^gen, …, 𝒔_N^gen)，使其分布 q(𝒔₁^gen, …, 𝒔_N^gen) 类似于 𝑝(𝒔₁, …, 𝒔_𝑁)，从而使得 𝑻^𝑔𝑒𝑛和 𝑻表现出一致的统计特性和模式。表 1 总结了本工作中常用的符号。

表1 常用符号列表

2.2 范围约束

为了确保本文的初始基准既集中又全面，作者对 TSGBench 采用了特定的约束。

方法范围：本文将注意力集中在为通用时间序列设计的生成方法上，尽管某些方法在特定领域展示了功效，但它们缺乏更广泛应用所需的灵活性和适应性。

数据集范围：为了对不同的生成方法进行全面评估，本文选择了跨应用领域的多样化和有代表性的公共时间序列数据集，但是一些类似数据缺失的边缘情况不包含在内。

评估指标范围：本文主要遵循广泛接受的“Train on Synthetic, Test on Real”（TSTR）方案，评估合成时间序列与实际应用的相关性。

三、TSG方法介绍

3.1 TSG方法的生成模型

生成模型旨在学习时间序列数据集中复杂的模式和时间依赖性，从而生成能够反映原始数据统计属性的新时间序列。目前较为主流的三种基本生成模型为生成对抗网络（GANs）、变分自动编码器（VAE）和基于流的模型，图1显示了它们在架构上的细微差别。

图1 TSG方法中的三个基本生成模型（实线:训练，虚线:生成）

3.2 TSG方法的分类

表2 代表性TSG方法总结

文章涵盖了基于三个基础生成模型的十种代表性TSG方法。表 2 总结了这些方法及其基础模型。作者将这些方法分为三大类：纯基于GAN的方法（RGAN、TimeGAN、RTSGan、COSCI-GAN、AEC-GAN）、纯基于VAE的方法（TimeVAE、TimeVQVAE）以及混合型方法（Fourier Flows、GT-GAN、LS4）。

四、TSGBench

图2 TSGBench整体架构

为了解决数据集和评估选择方面的挑战和潜在偏差，本文提出了一个为系统评估TSG方法而定制的基准——TSGBench，其架构如图2所示。其中包含三个关键模块：(1) 一组精心设计的具有标准化的预处理流水线的10个公开的真实时间序列数据集（4.1节）；(2) 为 TSG 定制的一套全面的十二项评估标准（4.2节）；(3) 使用域适应 (DA) 进行的泛化生成测试（4.3 节）。

4.1 数据集选择与预处理

数据集选择。为确保评估的可重复性并避免偏见或过度简化，文章仅使用公开可用的真实数据集。作者以整理跨越多个领域并具有不同数据统计和分布特征的多样化集合为目标，采纳了如表3所示的10个数据集。

表3 数据集统计

预处理流水线。为了在短时间内生成时间序列同时保留有意义的结构，文章首先将长时间序列 𝑻 分割成较短的子矩阵 {𝑻₁, 𝑻₂, 𝑻₃, ...}。在指定的序列长度 𝑙 和步幅为 1 的情况下，将 𝑻 转换为 𝑅 重叠子矩阵 {𝑻_𝑟 }_1≤_𝑟_≤_𝑅 ，其中𝑅 = 𝐿 − 𝑙 + 1 且每个 𝑻_𝑟 均具有相同的 𝑙。为确定 𝑙 的取值，作者采用自相关函数确保每个 𝑻_𝑟 至少覆盖一个时间序列周期，然后将时间序列打乱以近似独立同分布。为了评估 TSG 方法的泛化能力，作者将数据按 9:1 的比例分为训练集和测试集。此外，作者将数据集标准化至 [0, 1]范围内以提高效率和数值稳定性。最终，经过预处理后的数据集规格为 (𝑅, 𝑙, 𝑁)。

4.2 评估标准

文章从数十种遵循多样性、保真度和有用性等原则的评估标准中选取了12种以衡量 TSG 方法的质量。主要包括基于模型的评估标准（Discriminative Score (DS，判别得分)、Predictive Score (PS，预测得分)、Contextual-FID (C-FID，上下分FID)）、基于特征的评估标准（Marginal Distribution Difference (MDD，边际分布差)、AutoCorrelation Difference (ACD，自相关差)、Skewness Difference (SD，偏度差)）、训练效率（Time，训练时间）、可视化（t-SNE、Distribution Plot（分布图））以及基于距离的评估标准（Euclidean Distance (ED，欧式距离)、Dynamic Time Warping (DTW，动态时间规整)），有关这些评估标准的详细介绍请参考原文。

4.3 泛化测试

领域转移问题是时间序列分析领域的一个重要问题。对于TSG任务，大多数方法通常需要大量数据集，而许多基于GAN的方法需要耗费大量时间来进行训练和微调。尽管如此，许多应用程序仍难以快速积累足够的数据，而在数据有限的情况下，它们的有效性可能会受到影响。因此，评估这些方法在小数据上的泛化能力变得至关重要。

Domain Adaptation (DA，领域自适应)。作者引入了一种使用 DA的新型泛化测试来评估TSG方法在小数据集上的泛化能力。虽然DA已广泛应用于分类和预测等其他时间序列任务，然而典型的 DA 任务依赖于标签且旨在最小化源域和目标域之间的分布偏移，这使得它在 TSG 中的应用尚未得到充分探索。

在本文中，作者重点关注以下三种DA场景（T_s^tr表示用于训练的源域历史数据，T_t^te表示用于测试的源域新数据；T_t^his表示从目标域获得的简短历史数据，T_t^gen表示在目标域上生成的数据，T_t^gt表示目标域上的实际数据）：

（1）单 DA：使用来自源域的时间序列T_s^tr训练TSG模型𝐺，然后在目标域中生成新的时间序列T_t^gen，并评估其相较于T_t^gt的各项指标。

（2）跨 DA：使用来自源域的时间序列T_s^tr以及来自目标域的一小部分时间序列T_t^his训练TSG模型𝐺，然后在目标域中生成新的时间序列T_t^gen，并评估其相较于T_t^gt的各项指标。

（3）参考 DA：仅使用来自目标域的一小部分时间序列T_t^his训练TSG 模型 𝐺，然后在目标域中生成新的时间序列T_t^gen，并评估其相较于T_t^gt的各项指标。

泛化测试在含有符合时间序列数据处理任务惯用域信息的数据集HAPT（以用户为域属性）、Air（以城市为域属性）以及Boiler（以锅炉机位域属性）上开展，并采用4.2中介绍的评价指标进行评估。

五、实验

5.1 实验设置

算法与数据集：实验所用算法如3.2节所述，所用数据集如4.1节所述，不再赘述。

评估标准：本文采用了4.2节中描述的12项评估标准对TSG算法进行了全面系统的评估，这些指标的值越低表示性能越好。此外，对于DS和PS指标，作者采用了两层LSTM；对于C-FID，作者采用ts2vec作为主干。以上所有指标均为5次测量的平均值。

实验环境：所有实验都是在配备Intel^®Xeon^®Gold 6342 CPU@2.80GHz、64 GB内存和NVIDIA GeForce RTX 3090的机器上进行的。

参数设置：总的来说，作者根据各TSG方法的推荐设置进行了一系列参数设置，由于篇幅原因，详细配置请参考原文。

5.2 结果分析

各数据集在不同TSG方法下的评估标准情况如下图所示：

图3 TSG基准测试

基于模型的评估。从图3的前三行可以明显看出，TimeVQVAE、TimeVAE、RTSGAN 和 COSCI-GAN 在三种基于模型的评估中始终表现出色。相比之下，RGAN 和 TimeGAN 则表现不佳。基于 VAE 的方法在此方面的突出表现可归因于它们善于捕获时间依赖性，这对于预测和表示学习任务至关重要。一些方法（例如 LS4）尽管具有较高的 DS 和 PS，但可确保相对较低的 C-FID，这表明他们在表征学习任务中的表现令人满意。Energy 和 Energy Long数据集中出现了一些异常值，几乎所有方法的 DS 都在 0.5 左右，这表明虽然生成的时间序列可能足以满足预测任务，但它们在分类任务中很容易区分。

结合表3中的数据集特征，作者指出随着 𝑙 的增加，PS 将略有下降，这意味着较短的序列在生成时间序列时面临更大的挑战。此外，𝑁和这些指标之间出现较强的相关性，更大的N可能导致更高的 DS 和 PS，这对高维时间序列的生成提出了更严峻的挑战。

基于特征的评估。图3中第4至7行展示了基于特征的评估指标。可以发现，Fourier Flow在 ACD 中拥有最佳表现，而 COSCI-GAN则在 MDD 和 SD 中占主导地位。这可能是得益于它们在捕获时间序列的统计特性方面的有效性。有趣的是在每个数据集中所有四个指标的性能排名似乎都是一致的，这意味着这些基于特征的评估之间实际上存在强相关性，表明捕获关键特征的方法的整体性能也可能是一致的。

此外，基于特征的评估主要评估原始数据和生成数据之间的统计相似性，而这些评估指标在𝑁 > 10时往往会有所改善。这一观察结果表明，在处理高维数据时，生成的时间序列往往能更好地匹配原始时间序列的统计特性数据集。

基于距离的评估。图3的第8行和第9行展示了基于距离的评估指标。基于距离的评估量化了生成的时间序列和原始时间序列之间的差异。在 ED 和 DTW方面，基于 VAE 的方法脱颖而出，有效地捕获了原始时间序列的整体趋势，同时保留了值接近度（ED）和趋势相似度（DTW）。

作者发下，生成的时间序列和真实的时间序列之间的距离会随着 𝑙 的增加而增大，这可能是因为较长的序列引入了更复杂的时间依赖性，使它们更难以准确建模，从而导致值和对齐的差异更大。而随着 𝑁 的增大，这些距离会减小，这可能是得益于其具备更广泛的时间模式和系列间相关性。

训练效率。图3的最后一行展示了各方法的训练效率。实验结果凸显了 TimeVAE 和 LS4 的卓越效率，这可能是得益于它们基于VAE的结构和有效的训练策略，最大限度地减少了收敛所需的计算需求和迭代次数。而基于 GAN 的方法通常训练时间较长。例如，GT-GAN 在除 Stock、DLG 和 Exchange 之外的所有数据集上的训练时间都超过 1 天。这可能是由于GAN 固有的复杂性，需要同时训练生成器和鉴别器网络才能达到平衡，从而导致收敛周期较长。

图4 通过 t-SNE 和分布图实现的TSG 基准测试的可视化

可视化。图4通过 t-SNE 和分布图实现了TSG 基准测试的可视化。基于 VAE 的方法、COSCI-GAN 和 RTSGAN 擅长生成密切反映原始时间序列特征和模式的时间序列，但它们对于不同分布的生成能力拥有较大差异。

文章指出一些方法，例如 RGAN 和 GT-GAN，可能在单个数据分布上表现良好，但无法处理整体分布的巨大变化（例如，从 Stock 到 HAPT），表明它们适应明显不同的数据分布的能力受限；此外，一些方法（例如 RGAN）虽然成功地模拟了生成输出（例如 Energy）中原始时间序列的分布，但在 t-SNE 的精确匹配方面却差强人意，这凸显了了复制原始时间序列的精确值而不是整体的分布特征在TSG中存在的问题；此外，一些方法，如 TimeGAN，虽然可以部分拟合原始时间序列，但通常包含无关信息，可能很难处理现实世界时间序列中存在的固有噪声。

5.3 泛化测试

结合基准测试结果，文章使用 TimeGAN 作为基线，针对四种具有领先性能的有效方法（TimeVAE、COSCIGAN、RTSGAN 和 LS4）在HAPT、Air 和 Boiler数据集上开展了泛化测试，其定量结果如图5所示。其中每个评估标准被灰色虚线划分为三部分，分别表示单DA、跨DA和参考DA：

图5 各数据集上的泛化测试结果

5.4 TSG方法排名分析

图6 TSG方法排名

选择合适的 TSG 方法对于处理新的时间序列数据集至关重要，为此本文给出了两种特定场景下十种方法的排名。首先，作者评估了它们在所有数据集上每个单独度量上的表现，如图6左侧所示；接着，作者检查它们在所有度量上的平均排名，结果如图6右侧所示。

左图结果显示没有一种方法能够始终占据主导地位，但 TimeVQVAE、TimeVAE、COSCI-GAN、RTSGAN 和 LS4 通常优于其他方法。具体来说，TimeVAE 和 LS4 在基于距离的评估方面表现出色，并具有较为出色的训练效率，而 COSCI-GAN 和 RTSGAN 在基于模型的评估方面处于领先地位。相比之下，RGAN 的性能普遍排名较低。在右图以数据集为中心的分析中，TimeVQVAE、TimeVAE、COSCI-GAN、RTSGAN 和 LS4 同样在各种数据集上取得了较高的排名，与左图结论相符。这种不同评估角度的一致性进一步验证了TSGBench的鲁棒性和可靠性。

六、相关建议

最后，文章就TSG方法的选择与评估标准的选择方面，发表了一些建议。

TSG 方法的选择。（1）对于基础用途，本文提倡用户从基于VAE的方法（例如 TimeVAE 和 LS4）入手，这些方法具备较为稳定的领先性能和较高的计算效率。（2）在强调自相关或预测的相关应用中， ACD评估标准至关重要。Fourier Flow能够有效维护时间依赖性，因此非常适合这些场景。另一方面，若需要捕获数据集中复杂的多变量关系，则COSCI-GAN是推荐的选择。（3）关于数据集大小和领域特异性。对于小型数据集，在单 DA 方面表现出色的 RTSGAN 和 LS4 是不错的选择。对于异构数据集，或者当目标是为新目标域生成时间序列时，TimeVAE 和 COSCI-GAN 因其在跨 DA 方面的有效性而脱颖而出。（4）用户可以根据具体的应用需求进一步微调方法选择与评估标准，并可以图6作为参考指南。

评估指标的选择。（1）对于用于分类或预测的生成序列应用场景，建议选择基于模型的评估指标。（2）对于强调数据集的统计属性的应用场景，作者建议使用基于特征的评估指标以实现对统计信息中细节的精确捕捉。（3）对于用于时间序列聚类的应用场景，作者则建议重点关注基于距离的各项指标。

七、总结

本文介绍了一种时间序列生成（TSG）基准——TSGBench，该基准测试具有来自不同领域的数据集、标准化的数据预处理流水线、全面的整体评估指标以及基于DA的泛化测试。实验结果验证了其为TSG 方法提供统一公平的测试平台的有效性和鲁棒性。此外，TSGBench还重点关注了各TSG方法的泛化能力，有望促进时间序列生成领域的相关协作。

-End-

本文作者

徐小龙

重庆大学计算机科学与技术专业2020级本科生，重庆大学Start Lab团队成员。主要研究方向：时空数据压缩

重庆大学时空实验室（Spatio-Temporal Art Lab，简称Start Lab），旨在发挥企业和高校的优势，深入探索时空数据收集、存储、管理、挖掘、可视化相关技术，并积极推进学术成果在产业界的落地！年度有3~5名研究生名额，欢迎计算机、GIS等相关专业的学生报考！

图文｜徐小龙

编辑｜朱明辉

审核｜李瑞远

审核｜杨广超

时间序列评估标准测试模型特征选择统计学

文章转载自时空实验室，如果涉嫌侵权，请发送邮件至：contact@modb.pro进行举报，并提供相关证据，一经查实，墨天轮将立刻删除相关内容。

VLDB 2023 | TSGBench: 时间序列生成基准

评论