【阅读笔记】PSA-GAN PROGRESSIVE SELF ATTENTION GANS FOR SYNTHETIC TIME SERIES

CCF none ， ICLR2022

Paul J , Michael B S , Pedro M , et al. PSA-GAN: Progressive Self Attention GANs for Synthetic Time Series[J]. 2021.

PSA-GAN：合成时间序列的渐进式自注意机制GAN

文章目录

代码
概述
1 Introduction
2 RELATED WORK
3 MODEL
- 问题定式化
- Spectral Normalised Residual Self-Attention with Convolution
- 下采样和上采样
- PSA-GAN
- 生成器
- 判别器
- PSA-GAN-C
- LOSS FUNCTIONS
4 EXPERIMENTS
- 4.1 DATASETS AND BASELINES
- 4.2 使用Context-FID的直接评价
- 4.3 对预测任务的评价、
- 4.4 消融研究
- 4.5 LOW CONTEXT-FID得分模型对应于表现最好的预测模型
5 CONCLUSION

代码

mbohlkeschneider/psa-gan (github.com)

概述

足够长的现实合成时间序列数据能够在时间序列建模任务中得到实际应用，如预测，但仍然是一个挑战。在本文中，我们提出了PSA-GAN，一个生成式对抗网络（GAN），它使用GAN的渐进式增长和自我注意来生成高质量的长时间序列样本。我们表明，PSA-GAN可以用来减少几个下游预测任务的误差，而不是只使用真实数据的基线。我们还为时间序列引入了一个类似于Frechet Inception distance的分数，即Context-FID，以评估合成时间序列样本的质量。我们发现，Context-FID对下游性能具有指示性。因此，Context-FID可以成为开发时间序列GAN模型的一个有用工具。

1 Introduction

在过去几年中，诸如（Salinas等人，2020；Franceschi等人，2019；Kurle等人，2020；de B´ezenac等人，2020；Oreshkin等人，2020a；Rasul等人，2021；Cui等人，2016；Wang等人，2017）等方法不断展示了深度学习在时间序列分析任务中的有效性。虽然这些基于深度学习的方法在有足够和干净的数据时是有效的，但这个假设在实践中并不总是被满足。例如，传感器的中断会导致物联网数据的空白，这可能会使数据无法用于机器学习应用（Zhang等人，2019b）。另一个问题是，时间序列面板往往没有足够的规模来完成预测任务，这导致了预测的元学习研究（Oreshkin等人，2020b）。冷启动是时间序列预测中另一个常见的问题，一些时间序列几乎没有数据（如需求预测用例中的新产品）。因此，设计灵活的、与任务无关的模型，为任意的任务生成合成的、但现实的时间序列是一个重要的挑战。生成对抗网络（GAN）是一个灵活的模型系列，在其他领域已经取得了成功。然而，为了让它们的成功延续到时间序列，合成的时间序列数据必须具有现实的长度，而目前最先进的合成时间序列模型很难生成这种数据，因为它们通常依靠递归网络来捕捉时间动态（Esteban等人，2017；Yoon等人，2019）。

在这项工作中，我们有三个贡献：

1 我们提出PSA-GAN是一个逐步增长的卷积时间序列GAN模型，用自注意力增强（Karras等人，2017；Vaswani等人，2017）。PSA-GAN可以扩展到长时间序列，因为渐进式增长架构开始对粗粒度的时间序列特征进行建模，并在训练过程中向细粒度的细节建模发展。自我关注机制捕获了数据中的长距离依赖（Zhang等人，2019a）。

2 我们通过经验表明，PSA-GAN样本具有足够的质量和长度，可以促进几个下游预测任务：推理过程中的远期预测和数据归属，训练过程中的缺失值延伸的数据归属，冷启动条件下的预测，以及数据增强。此外，我们表明PSA-GAN可以用作预测模型，并且在使用与既定基线相同的上下文信息时具有竞争力的性能。

3 最后，我们提出了一个类似于Frechet Inception distance（FID）的得分（Salimans等人，2016），ContextFID，利用无监督的时间序列嵌入（Franceschi等人，2019）。我们表明，得分最低的模型对应于我们下游任务中表现最好的模型，而且Context-FID得分与GAN模型的下游预测性能相关（通过归一化的均方根误差测量）。因此，Context-FID可以成为一个有用的通用工具，为下游应用选择GAN模型。

我们的工作结构如下。我们在第2节中讨论了相关工作，并在第3节中介绍了该模型。在第4节中，我们使用提议的Context-FID得分并通过几个下游的预测任务来评估我们提议的GAN模型。我们还直接评估了我们的模型作为一种预测算法，并进行了一项消融研究。第5节是本稿的结论。

ablation study 消融研究是什么？

消融研究通常是指删除模型或算法的某些“功能”，并查看其如何影响性能。在论文中一般来说会提出多个创新方法，或者新型结构模块，或注意力模块等。这些东西在一起为模型的性能作出了贡献。

2 RELATED WORK

GANs（Goodfellow等人，2014）是一个活跃的研究领域（Karras等人，2019；Yoon等人，2019；Engel等人，2019；Lin等人，2017；Esteban等人，2017；Brock等人。2018），最近被应用于时间序列领域（Esteban等人，2017；Yoon等人，2019），以合成数据（Takahashi等人，2019；Esteban等人，2017），并用于预测任务（Wu等人，2020）。许多时间序列GAN架构使用递归网络来模拟时间动态（Mogren，2016；Esteban等人，2017；Yoon等人，2019）。对长距离的依赖性进行建模并将递归网络扩展到长序列本身就很困难，并将时间序列GAN的应用限制在短序列长度（小于100个时间步长）（Yoon等人，2019；Esteban等人，2017）。

实现更长的现实合成时间序列的方法之一是采用卷积（van den Oord等人，2016；Bai等人，2018；Franceschi等人，2019）和自我注意架构（Vaswani等人，2017）。卷积架构能够从原始时间序列数据中学习相关特征（van den Oord等人，2016；Bai等人，2018；Franceschi等人，2019），但最终局限于局部感受野，只能通过许多卷积层的堆叠来捕捉长程依赖。自我关注可以弥补这一差距，并允许从卷积特征图中建立长距离依赖的模型，这在图像（Zhang等人，2019a）和时间序列预测领域（Li等人，2019；Wu等人，2020）已经是一种成功的方法。另一种实现长样本量的技术是渐进式增长，在训练过程中通过增加生成器和判别器的层数来连续提高分辨率（Karras等人，2017）。我们的建议，PSA-GAN，综合了渐进式增长与卷积和自我关注，成为一个特别针对时间序列的新架构。

时间序列领域的另一个工作重点是开发合适的损失函数，用于用GANs对金融时间序列进行建模，其中具体的挑战包括重尾分布、波动率聚类、没有自相关等（Cont, 2001; Eckerli & Osterrieder, 2021）。为此，已经提出了几个模型，如QuantGAN（Wiese等人，2020）、（条件）SigWGAN（Ni等人，2020；2021）和DAT-GAN（Sun等人，2020）（该领域的评论见（Eckerli & Osterrieder，2021））。这一工作路线针对其自身的挑战，为金融时间序列开发新的损失函数，这与我们的工作是正交的，即我们专注于时间序列GANs的神经网络架构，并展示其在时间序列预测方面的有用性。

另一个挑战是对合成数据的评估。虽然计算机视觉领域使用标准分数，如Inception Score和Frechet Inception distance（FID）（Salimans等人，2016；Heusel等人，2017），但这种普遍接受的分数在时间序列领域并不存在。因此，研究人员依靠合成训练-真实测试的设置，在下游分类和/或预测任务中评估合成时间序列的质量（Esteban等人，2017；Yoon等人，2019）。在这项工作中，我们在这个想法的基础上，通过下游预测任务评估GAN模型。此外，我们提出了一个类似于Frechet Inception距离的分数，它是基于无监督的时间序列嵌入（Franceschi等人，2019）。关键是，我们希望能够对我们的固定长度合成样本与它们的真实时间序列（通常要长得多）的匹配度进行评分，这一点在Franceschi等人（2019）的对比训练程序中被考虑到了。正如我们稍后所显示的，最低得分的模型对应于下游任务中表现最好的模型。

3 MODEL

问题定式化

我们用zi,t∈Rz_{i,t}∈Rzi,t∈R表示时间序列数据集的值，其中i∈1,2,...,Ni∈{1,2,. . . , N}i∈1,2,...,N是单个时间序列的索引，t∈1,2,...,Tt∈{1, 2, . . . , T}t∈1,2,...,T是时间索引。此外，我们考虑RD×TR^{D×T}RD×T中的时间特征向量X1:T=(x1,...,xT)X_{1:T} = (x_1, . . . , x_T )X1:T=(x1,...,xT) 的相关矩阵。我们的目标是使用条件生成器函数GGG和固定的时间点ttt，从这个数据集中对一个固定长度为τττ的时间序列进行建模，即Zi,t,τ=(zi,t,...,zi,t+τ−1)Z_{i,t,τ}=(z_{i,t}, ..., z_{i,t+τ-1})Zi,t,τ=(zi,t,...,zi,t+τ−1)。因此，我们的目标是为Zi,t,τ=G(n,φ(i),Xt:t+τ−1)Z_{i,t,τ}=G(n, φ(i), X_{t:t+τ-1})Zi,t,τ=G(n,φ(i),Xt:t+τ−1)建模，其中n∈Rτn∈R^τn∈Rτ是一个从均值为零、方差为一的高斯分布中抽取的噪声向量；φφφ是一个嵌入函数，将一个时间序列的索引映射到一个向量表示，该向量被串联到Xt:t+τ−1X_{t:t+τ-1}Xt:t+τ−1的每个时间步骤。图1显示了模型结构的概况，附录A介绍了关于时间特征的细节。

图1：左边：我们提出的模型PSA-GAN的结构。生成器包含n个块，每个块通过线性插值使输出的大小增加一倍。它包含（虚线图）一个多层感知器块，将过去的知识纳入生成器中。这个模块用于PSA-GAN-C模型。鉴别器包含n个块，使用平均集合法将输入的大小减半。右边。用于生成器和判别器的主要块。

Spectral Normalised Residual Self-Attention with Convolution

这词儿真不知道咋翻译

频谱归一化残差自注意力机制with卷积

生成器和鉴别器使用一个主函数mmm，它是卷积、自我注意和光谱归一化的组合。

其中f(x)=LR(SN(c(x)))f(x)=LR(SN(c(x)))f(x)=LR(SN(c(x)))，m(y)=γSA(y)+ym(y)=γ SA(y)+ym(y)=γSA(y)+y，c是一维卷积算子，LR是LeakyReLU算子（Xu等人，2015），SNSNSN是频谱归一化算子（Miyato等人，2018），SASASA是自我注意模块。变量nfn_fnf是ccc的输入和输出通道的数量，lll是序列的长度。按照（Zhang等人，2019a）的工作，参数γγγ是可学习的。它被初始化为零，以允许网络直接从构件fff中学习局部特征，随后随着γγγ绝对值的增加，用远处的特征来充实，从而更多地考虑自我注意项SASASA。模块mmm在图1（右）中被称为残差自注意力机制。

下采样和上采样

下面将提到上采样（UP）和下采样（DOWN）运算符，它们分别将时间序列的长度增加一倍和减少一半。在这项工作中，上采样操作是线性插值，下采样操作是平均池化。

PSA-GAN

PSA-GAN是一个逐步成长的GAN（Karras等人，2017）；因此，可训练的模块在训练期间被添加。因此，我们将生成器和判别器建模为一个函数的组合。G=gL+1◦...◦g1G = g_{L+1} ◦...◦g_1G=gL+1◦...◦g1和D=d1◦...◦dL+1D = d_1 ◦...◦d_{L+1}D=d1◦...◦dL+1，其中i∈[1，L+1]i∈[1，L+1]i∈[1，L+1]的每个函数gig_igi和did_idi对应于发生器和判别器的一个模块。

生成器

作为预处理步骤，我们首先将串联的输入[n,φ(i),Xt:t+τ−1][n, φ(i), X_{t:t+τ-1}][n,φ(i),Xt:t+τ−1]从长度为τττ的序列映射为长度为8的序列，用Z0Z_0Z0表示。然后，生成器g1g_1g1的第一层应用主函数m。

对于i∈[2，L]i∈[2，L]i∈[2，L]，gig_igi通过升级输入序列和函数m◦fm◦fm◦f，将输入序列Zi−1Z_{i-1}Zi−1映射到输出序列ZiZ_iZi：

gig_igi的输出被串联回时间特征Xt:t+τ−1X_{t:t+τ-1}Xt:t+τ−1并转发到下一个区块。最后，生成器gL+1g_{L+1}gL+1的最后一层使用一维卷积和谱归一化将多变量序列ZLZ_LZL重塑为长度为τ=2L+3τ=2^{L+3}τ=2L+3的单变量时间序列Zi,t,τZ_{i,t,τ}Zi,t,τ。

判别器

鉴别器的结构反映了生成器的结构。它将发生器的输出Zi,t,τZ_{i,t,τ}Zi,t,τ和时间特征Xt:t+τ−1X_{t:t+τ-1}Xt:t+τ−1映射到一个分数ddd。鉴别器的第一个模块dL+1d_{L+1}dL+1使用一维卷积c1c_1c1和LeakyReLULeakyReLULeakyReLU激活函数。

对于i∈[L+1,2]i∈[L+1,2]i∈[L+1,2]，模块did_idi应用一个下采样操作和主要函数m：

最后一个模块d1d_1d1将其输入的序列变成一个分数。

其中FC是个全连接层。

PSA-GAN-C

我们引入PSA-GAN的另一个实例，在这个实例中，我们将关于过去的知识转发给每个生成器块gig_igi。这里的知识是一个子序列Zi,t−LC,LCZ_{i,t-L_C,L_C}Zi,t−LC,LC，范围为[t−LC,t−1][t-L_C , t-1][t−LC,t−1]，LCL_CLC是上下文长度。上下文Zi,t−LC,LCZ_{i,t-L_C,L_C}Zi,t−LC,LC沿特征维度串联，即在每个时间步长上串联到gig_igi的输出序列。然后通过两层感知器来重塑特征维度，然后再加回到gig_igi的输出中。

LOSS FUNCTIONS

PSA-GAN通过LSGAN损失进行训练（Mao等人，2017），因为它已被证明可以解决模式崩溃问题（Mao等人，2017）。此外，嵌入空间的最小二乘法类型损失已被证明在时间序列领域是有效的（Mogren，2016；Yoon等人，2019）。此外，我们使用了一个辅助矩损失来匹配一批合成样本和一批真实样本之间的一阶和二阶矩。

其中μ是平均数算子，σ是标准差算子。真实批次和合成批次的时间指数和时间序列指数是一致的。我们根据经验发现这种组合对PSA-GAN来说效果不错。请注意，损失函数的选择不是本研究的重点，我们认为我们的选择可以在未来的研究中得到改进。

训练程序 GANs是出了名的难训练，有难以解释的学习曲线，而且容易出现模式崩溃。解决这些问题的训练程序以及其他训练和调整细节见附录B-E。

4 EXPERIMENTS

对来自GAN模型的合成时间序列数据的评估具有挑战性，在时间序列界还没有广泛接受的评估方案。我们通过两个指导原则来评估GAN模型：

i）衡量时间序列在多大程度上恢复了训练数据集的统计数据；

ii）衡量GAN模型在具有挑战性的下游预测情景中的表现。

对于i），我们引入了Context-FID（Context-Frechet Inception distance）得分来衡量GAN模型是否能够恢复训练集的统计数据。FID得分广泛用于评估计算机视觉中的合成数据（Heusel等人，2017），并使用初始网络的特征（Szegedy等人，2016）来计算该特征空间中真实和合成样本统计数据之间的差异。在我们的案例中，我们感兴趣的是合成时间序列窗口与时间序列的局部背景的 "契合 "程度。因此，我们使用Franceschi等人（2019）的时间序列嵌入来学习适合当地背景的时间序列嵌入。我们为每个数据集单独训练嵌入网络。这使我们能够直接量化合成时间序列样本的质量（详见附录D）。

对于ii)，我们着手模拟几个具有挑战性的时间序列预测任务，这些任务对于时间序列预测从业者来说是很常见的。这些任务的共同点是，从业者在训练或推理过程中面临着缺失或损坏的数据。在这里，我们打算在这些预测任务中使用合成样本来补充一个既定的基线模型，即DeepAR。这些任务是：远期预测和推理过程中的缺失值，训练过程中的缺失值，冷启动，以及数据增强。我们通过归一化均方根距离（NRMSE）来评估这些任务。此外，我们对PSA-GAN模型作为预测模型时进行评估。请注意，在适用的情况下，我们在修改后的数据集上重新训练我们的GAN模型，以确保它们在下游任务中拥有与基线模型相同的数据可用。

我们还考虑了NBEATS（Oreshkin等人，2020a）和Temporal Fusion Transformer（TFT）（Lim等人，2021）作为替代预测模型。然而，我们发现DeepAR在我们的实验中表现最好，因此我们在正文中报告了这些结果（实验细节见附录F）。关于NBEATS和TFT的评估，请参考附录G（表S2-S6和图S3-S6）。

此外，我们对我们的模型进行了消减研究，并讨论了Context-FID得分是否对下游预测任务具有指示作用。

4.1 DATASETS AND BASELINES

我们使用以下时间序列领域的公共、标准基准数据集。M4，每小时的时间序列竞争数据（414个时间序列）（Makridakis等人，2020）；太阳能，阿拉巴马州每小时的太阳能收集数据（137个站点）（Lai等人，2018）；电力，每小时的电力消耗数据（370个客户）（Dheeru & Karra Taniskidou，2017）；交通：旧金山每小时的车道占用率（963条车道）（Dheeru & Karra Taniskidou，2017）。除非另有说明，我们将所有数据分成一个有固定日期的训练/测试集，并使用该日期之前的所有数据进行训练。对于测试，我们使用滚动窗口评估，窗口大小为32和七个窗口。在本文的所有实验中，我们将每个数据集的规模缩小到[0，1]以内（在评估预测实验之前，我们将数据缩回）。为了代替寻找代表下游预测任务的公共数据集，我们对上述每个数据集进行了修改，以模拟各自实验的每个任务（更多细节见后面章节）。

我们将PSA-GAN与文献中不同的GAN模型（TIMEGAN（Yoon等人，2019）和EBGAN（Zhao等人，2017））进行比较。在下文中，PSA-GAN-C和PSA-GAN分别表示我们提出的有背景和无背景的模型。在预测实验中，我们使用DeepAR的GluonTS（Alexandrov等人，2020）实现，这是一个表现良好的预测模型和既定的基线（Salinas等人，2020）。

4.2 使用Context-FID的直接评价

表1：PSA-GAN和基线的上下文FID-分数（越低越好）。我们对5120个随机选择的窗口进行评分，并报告平均值和标准差。

表1显示了PSA-GAN、PSA-GAN-C和基线的Context-FID分数。对于所有的序列长度，我们发现PSA-GAN或PSA-GAN-C始终产生最低的Context-FID分数。对于256个时间步长的序列，TIMEGAN是所有数据集中表现第二好的模型。请注意，即使在PSA-GAN模型中使用上下文会产生最好的整体性能，我们也有兴趣在没有上下文的下游任务中使用GAN。因此，下一节将使用没有上下文的PSA-GAN，除非另有说明。

4.3 对预测任务的评价、

在本节中，我们介绍了预测任务的结果。我们发现，在所有情况下，合成样本并没有比基线有所改善。然而，我们认为这些结果是在这些预测任务中使用GAN模型的第一次尝试，并相信未来的研究可以比我们的结果有所改进。

远期预测。在这个实验中，我们通过假设训练结束时间和滚动评估窗口之间的数据点没有被观察到，来预测遥远的未来。例如，最后一个评估窗口在训练结束时间和预测开始日期之间会有32∗6个未观察到的值。这种设置反映了两种可能的使用情况。预测遥远的未来（在没有背景数据的情况下），以及在推理过程中由于预测前的数据中断而估算缺失数据。基于神经网络的预测模型，如DeepAR，在这些条件下很困难，因为它们依赖于最近的上下文，需要在推理过程中归纳这些值。此外，DeepAR只对近期背景下的数值进行估算，而不是对滞后的数值进行估算。在这里，我们在推理过程中使用GAN模型，用合成数据填补缺失的观察值。作为一个基线，我们使用DeepAR，并在推理过程中用移动平均数（窗口大小为10）来补足滞后值的缺失观测值。在这里，我们发现使用GAN模型的合成数据比DeepAR的基线有很大的改善，而且使用PSA-GAN的样本在四个数据集中有三个的NRMSE最低（见图2的左表）。图2还显示了NRMSE与预测窗口的关系。图3显示了一个归纳的时间序列的例子，以及使用PSA-GAN时从电力数据集得出的预测。

缺失值的延伸。缺失值存在于许多现实世界的时间序列应用中，通常由传感器或服务的中断引起（Zhang等人，2019b）。因此，现实世界场景中的缺失值往往不是均匀地分布在时间序列中，而是形成缺失值的 “延伸”。在这个实验中，我们模拟了缺失值的拉伸，并从数据集中删除了长度为50和110的时间序列值。这导致拉伸长度为50的缺失值为5.4-7.7%，拉伸长度为110的缺失值为9.9-16.9%（取决于数据集）。这里，我们将训练数据集沿着时间轴分成两部分，只在第二部分引入缺失值。我们用训练数据集的第一部分（未改变）来训练GAN模型，用训练集的两部分来训练DeepAR。然后，在DeepAR的训练和推理过程中，我们使用GAN模型来补足缺失值。图4显示，在对有缺失值的数据进行DeepAR训练时，使用GAN模型来置入缺失值，可以减少其预测误差。虽然所有的GAN模型在这个设置中都减少了NRMSE，但PSA-GAN在这个实验中对减少误差最为有效。按数据集划分的详细情况见图S1。

冷启动。在这个实验中，我们探索GAN模型是否可以支持DeepAR在冷启动预测环境中的应用。冷启动是指新的时间序列（如需求预测中的新产品），其数据很少或没有。在这里，我们从数据集中随机截断10%、20%和30%的时间序列，这样就只有推断前的最后24个（代表24小时的数据）数值存在。在这个实验中，我们只考虑一个预测窗口。然后，我们再次使用GAN模型来推算滞后期和上下文的值，即DeepAR预测冷启动时间序列的条件。图5显示了不同模型仅对冷启动时间序列的预测误差。在这个实验中，PSA-GAN和TIMEGAN比DeepAR改善了NRMSE，并且总体上不相上下（PSA-GAN和TIMEGAN的平均NMRSE分别为0.70和0.71）。按数据集划分的详细情况见图S2。

数据增强。在这个实验中，我们对真实数据和GAN样本进行平均化，以在训练期间增强数据。1 在推理过程中，DeepAR只以真实数据为条件来产生预测。在表2中，我们可以看到，没有一个用于数据增强的GAN模型始终比DeepAR有所提高。总的来说，TIMEGAN是表现最好的GAN模型，但普通的DeepAR仍然表现得更好。这一发现与最近在图像领域的工作是一致的，即用GAN样本进行数据增强并不能改善下游任务（Ravuri & Vinyals，2019）。我们假设，GAN模型在数据增强设置中无法改善，因为它们被训练来生成现实的样本，而不一定是产生相关的不变性。此外，数据集的大小可能足以让DeepAR训练出一个表现良好的模型，因此增强可能无法进一步降低误差。需要更多的研究来了解合成数据是否可以通过数据增强来改善预测模型。

预测实验。在这个实验中，我们直接使用GAN模型进行预测（表3，附录H中的示例样本）。我们可以看到，DeepAR一直表现最好。这是意料之中的，因为DeepAR考虑到了背景信息和滞后值。这种信息对GAN模型来说是不可用的。为了测试这一点，我们进一步考虑PSA-GAN-C，即用64个以前的时间序列值作为背景的PSA-GAN，并进一步评估DeepAR，只从最后64个值中抽取滞后值（DeepAR-C）。我们可以看到，在这种情况下，PSA-GAN-C在4个数据集中的3个超过了DeepAR-C，PSA-GAN的表现与DeepAR-C相当。此外，PSA-GAN和PSA-GAN-C都是表现最好的GAN模型。在GAN模型中加入滞后值作为背景，可以进一步提高它们的性能，而且对抗性/注意力架构以前也被用于预测（Wu等人，2020）。

4.4 消融研究

图6显示了我们的消融研究的结果，在这里我们禁用了我们模型的重要组成部分：时刻损失、自我注意和新层的淡入(moment loss, self-attention, and fading in of new layers)。我们通过Context-FID得分来衡量消融模型的性能。总的来说，我们的PSA-GAN模型比消融模型表现得更好，这证实了这些组件对模型的性能有所贡献。

图6：我们通过禁用PSA-GAN的时刻损失、自我注意和新层的消退来进行消减研究。我们显示了在四个数据集上三次运行的平均性能和68%的置信区间。PSA-GAN的Context-FID得分最低，这说明所提出的模型需要这些组件才能获得良好的性能。SA：自我注意，ML：瞬间损失，淡入。新层的渐进式淡入

4.5 LOW CONTEXT-FID得分模型对应于表现最好的预测模型

另一个观察结果是，最低的Context-FID得分模型对应于数据增强和远期预测实验中的最佳模型。PSA-GAN和TIMEGAN产生了最低的Context-FID样本，这两个模型在大多数下游任务中也比基线有所改善。总的来说，PSA-GAN的Context-FID最低，在下游预测任务中也优于其他模型，除了冷启动任务。此外，我们还计算了图6中提到的消融模型（但目标长度为32）的Context-FID得分以及这些模型在预测实验中的NRMSE（如表3）。我们发现Context-FID和预测NRMSE之间的Pearson相关系数为0.71，Spearman等级相关系数为0.67，所有数据集的平均数。所有的数据集（除了交通）在任一衡量标准中的相关系数至少为0.73（见附录中的表S1）。

5 CONCLUSION

我们提出了PSA-GAN，一个渐进式增长的时间序列GAN，并增强了自我注意力，它可以产生长的现实时间序列，并改善下游预测任务，这对基于深度学习的时间序列模型是具有挑战性的。此外，我们引入了Context-FID评分，以评估GAN模型产生的合成时间序列样本的质量。我们发现，Context-FID得分最低的模型对应于下游任务中表现最好的模型。我们相信，能够扩展到长序列的时间序列GANs与评估其性能的可靠指标相结合，可能会导致它们在时间序列建模中的常规使用。