TCCT:紧耦合卷积Transformer时间序列预测

关注人工智能学术前沿回复：ts32

5秒免费获取论文pdf文档，及项目源码

摘要

时间序列预测在现实世界中有着广泛的应用。最近的研究表明，Transformer在处理这类问题，特别是长序列时间序列输入(LSTI)和长序列时间序列预测(LSTF)问题方面具有优越性。为了提高效率，改善Transformer的局部性，这些研究都不同程度地将Transformer与CNN相结合。但是它们的组合是松耦合的，并没有充分利用CNN。为了解决这个问题，我们提出了紧耦合卷积变压器(TCCT)的概念和三种TCCT架构，它们将转换后的CNN架构应用到Transformer中:（1）CSPAttention: 通过CSPNet与自注意机制的融合，自注意机制的计算成本降低了30%，内存占用降低了50%，同时达到了等效或超过预测精度。(2)扩展因果卷积:该方法是对Informer提出的提取操作进行修改，将正则卷积层替换为扩展的因果卷积层，以获得指数接受域增长。(3)传递机制:将传递机制应用于自注意块的堆叠，使类transformer模型获得更细粒度的信息，额外的计算成本可以忽略不计。我们在真实数据集上的实验表明，我们的TCCT体系结构可以大大提高现有最先进的Transformer模型在时间序列预测方面的性能，且计算和存储成本低得多，包括canonical Transformer、LogTrans和Informer。

1.介绍

毫无疑问，松散耦合方法在一定程度上提高了Transformer模型的性能。但是，只有采用紧密耦合的方法，即在Transformer模型中应用特定的转换后的CNN架构，才能将Transformer和CNN紧密结合，充分发挥它们的优势。因此，在本文中，我们寻求的问题是:是否可以在Transformer模型中应用特定的CNN架构来增强其学习能力，改善其局域性，同时提高其效率?为此，我们的工作是将Transformer和CNN紧密结合。在我们的工作中，三种经过改造的经典CNN架构已经成功应用于时间序列预测的Transformer模型中。本文的贡献可以概括为：

我们提出了紧耦合卷积变压器(TCCT)的思想和三种TCCT体系结构。经过改造，这些体系结构不仅改善了Transformer的局域性(松耦合方法也可以做到)，还增强了Transformer的学习能力，降低了计算成本和内存占用。它们也足以应付其他类似transformer的时间序列预测模型。
我们提出CSPAttention，一种镜像CSPNet属于CNN的自我注意机制。它降低了近30%的记忆占用和50%的时间复杂度的自我注意机制，达到同等或更高的预测精度。
我们提出了一种改进的自注意提取操作，用扩展的因果卷积代替正则卷积来连接自注意块。它帮助Transformer模型获得指数级的接受域增长，计算成本略低。因此，Transformer的学习能力得到了加强。
我们提出通过传递机制来连接不同尺度的自注意块特征图，从而获得更细粒度的信息。与CNN和图像处理中常用的特征金字塔相似，它扩展了特征图，使得Transformer模型具有更好的预测性能。

2.模型概述

我们首先依次介绍了三种紧耦合卷积变压器(TCCT)架构:CSPAttention、扩展因果卷积和传递机制。然后给出了TCCT体系结构与类transformer时间序列预测模型相结合的方法。

1.CSPAttention

我们所提议的CSPAttention的一个模块的架构如图1所示。

图1:一个CSPAttention块。输入(蓝色)被分成两部分。第一个(绿色)传播通过层A，一个11卷积层，而另一个(红色)传播通过块B，一个自我注意块。最后将两个部分的输出连接在一起，作为整个CSPAttention块的最终输出

我们的CSPAttention还降低了自我注意机制的内存流量和时间复杂度。假设规范自我注意块的输入和输出维度都是d，并且只有一个输入标记。如图2(a)所示，一个self-attention块包含四个线性投影层，它们的输入和输出维度都是d (Query, Key, Value, projection)。因此，内存占用是4d^2。

而假设CSPAttention将输入维度分成两半，则CSPAttention的第一部分只有一个线性投影层，而第二部分有四个线性投影层。相应的体系结构如图2(b)所示。

CSPAttention还可以处理其他类似Transformer的架构，并将它们升级为紧耦合的卷积Transformer架构。我们以LogTrans[10]为例，组合架构——LogSparse CSPAttention块如图3所示。

2.扩张因果卷积（Dilated Causal Convolution）

对多个自注意块进行叠加有利于提取更深层次的特征图，但也会带来更多的时间和空间复杂性。为了进一步减少内存的使用，Informer开始使用自注意蒸馏操作。Informer在每个自注意块之间使用卷积层和最大池层来修剪输入长度。核大小为3，步长为1的卷积层跟随前一个自注意块，使特征对局部上下文信息更加敏感。然后使用步长为2的核为3的Max-pooling层对局部主导特征进行特权，并给后一个自注意块一个较少但更集中的特征映射。图4显示了一个由三个自注意块组成的网络。为了简单起见，我们只显示最后一个输入元素的接受域。

图5:一个自我注意网络的可视化，它将三个自我注意块堆叠在一起，这些块与扩大的因果卷积层和最大池层相连接。整个体系结构类似于图4。然而，扩展的因果卷积层的应用拓宽了接受域，避免了未来的信息遗漏。

对比图4和图5，可以清楚地看到，扩张的因果卷积只在时间前沿使用填充，防止了未来信息的泄露。即使只有两个卷积层，图5中网络的输出接受域也明显大于图4。因此，随着更多的自我注意块堆叠起来，差距会更大，因此，两个网络的表现差距会更大。除此之外，扩展因果卷积的应用只带来了少量的计算成本和内存占用(填充成本)，可以忽略不计。

3.转移机制（Passthrough Mechanism）

我们提出了一个由三个自注意块组成的网络，并采用了上面提到的所有TCCT架构，如图6所示：

图6:一个网络堆叠三个CSPAttention(蓝色)块。采用了扩张的因果卷积(上图绿色)和传递机制。最终输出的维度与输入的维度相同。

4.带有TCCT架构的Transformer

Transformer、LogTrans、Informer等。图7显示了与Informer合作的一个简单示例，图8显示了一个详细的编码器示例。注意，图7中的Informer只有一个编码器，这意味着它没有使用完整的蒸馏操作，而是用传递机制代替它。

图7:Informer与提议的TCCT架构相结合的概述。左:在蓝色梯形内部是编码器堆叠三个ProbSparse CSPAttention块(蓝色)，取代之前的ProbSparse self-attention块。扩展的因果卷积层(绿色)，而不是标准的卷积层，以及绿色梯形内的最大池化层用于连接每个两个自我注意块。三个自注意块输出的所有三个特征映射被融合，然后过渡到合适尺寸的最终输出。右图:蓝色梯形中Informer的解码器基本保持不变。只有masked的ProbSparse self-attention块被masked的ProbSparse CSPAttention块替换。

图8:堆叠三个自注意块的单个Informer编码器与所有三个TCCT体系结构协作。(1)每个CSPAttention块(浅黄色)与Informer的典型架构ProbSparse self-attention(红色)相结合。(2)每两个CSPAttention块之间使用一个扩张的因果卷积层和一个max-pooling层(绿色)进行连接。前一个自我注意块的输出特征图在通过这两层传播后缩减了一半长度，反映了最初Informer的情况，但扩大了接受域。(3)将三个自注意块输出的三个特征映射通过传递机制(Gray)进行融合，获得更细粒度的信息。最后添加一个过渡层(绿色)，将合适维度的特征图导出到解码器中。

关注人工智能学术前沿回复：ts32

5秒免费获取论文pdf文档，及项目源码

3.实验概述

基线模型

我们选择Informer作为基本基线，并分别测试我们建议的TCCT体系结构应对它的效果。与ARIMA[41]、Prophet[42]、LSTMa[43]等众多优秀的时间序列预测作品相比，Informer通过实验展示了其先进的性能。因此，深入研究我们的TCCT体系结构能在多大程度上改善Informer是很有意义的。

因此，我们选择了五种方法:

Informer，只有一个编码器的基本Informer;

Informer+，Informer具有充分的蒸馏操作;

TCCT_1, Informer与CSPAttention结合;

TCCT_2, Informer联合CSPAttention与扩张因果卷积;

TCCT_3，Informer与所有TCCT架构相结合。
在没有特殊说明的情况下，Informer, TCCT_1, TCCT_2, TCCT_3包含一个编码器堆叠3个自注意块，而Informer+包含一个具有充分蒸馏操作的3个编码器堆栈。此外，每种方法都包含一个2层解码器。此外，为了进一步研究我们提出的TCCT体系结构在增强其他Transformer或类Transformer模型在时间序列预测方面的适用性，我们选择了另外两种方法，canonical Transformer和LogTrans，并研究我们的TCCT体系结构在应对它们时是否能提高它们的性能。

数据集

我们在一个公共的真实世界的ETT 1 (electric Transformer Temperature)数据集上进行了实验，该数据集由近2年的ETT数据组成。

ETT数据集由四个子集组成:

{ETTh1、ETTh2}为中国两个独立县的1小时数据集;

{ETTm1, ETTm2}为来自{ETTh1, ETTh2}相同来源的15 min-level数据集。

每个数据点由目标值、油温等6个电力负荷特征组成。我们选择ETTh1和ETTm1来评估模型。

实验结果

在此背景下，对五种方法在单变量和多变量条件下的时间序列预测能力进行了评估，从而说明三种TCCT体系结构分别能在多大程度上提高Informer的预测精度。ETTh1和ETTm1数据集都用于检查。

从表1和表2可以看出:

(1) TCCT_3、三种TCCT架构的Informer，在单变量设置的大多数情况下，以及在多变量设置的所有情况下，都优于Informer+、Informer全蒸馏操作，表明我们提出的三种架构确实提高了Informer在LSTF问题中的预测能力。

(2)与Informer相比，TCCT_1, Informer with CSPAttention，在单变量和多变量设置下，在少数情况下表现相当，但在大多数情况下表现优越，说明CSPAttention可以帮助Informer获得更轻量级的架构，而不损失预测精度。

(3) TCCT_2，同时具有CSPAttention和扩展因果卷积的Informer，在几乎所有情况下都优于Informer和TCCT_1，说明扩展因果卷积层的应用进一步提高了TCCT_1的预测能力。当涉及到多变量条件时，TCCT_2甚至在近一半的情况下优于Informer+，特别是当预测长度为192和384时。

(4) TCCT_3优于其他四种方法，证明了将传递机制应用于Informer的好处。结果表明，通过机制比完全蒸馏操作更有效、更可靠。

(5)在单变量设置下，Informer+优于TCCT_1和TCCT_2，证明了添加编码器的方法是有效的。在目前的实验环境下，它甚至有25%的机会超过TCCT_3。然而，在多变量条件下，Informer+完全被TCCT_3打败，随着预测长度的增加，开始输给TCCT_2。

这一现象表明，随着预测序列的复杂性增加，我们提出的TCCT体系结构在提高Informer的预测能力方面比完全蒸馏操作更强。因此，与完全蒸馏操作相比，我们的TCCT体系结构可以帮助Informer处理更复杂的LSTF问题.

结论

在本文中，我们提出了紧密耦合卷积变压器(TCCT)的概念和三种TCCT架构，以提高先进的变压器模型对时间序列预测的预测能力。

特别地，我们设计了CSPAttention来降低自注意机制的计算成本和内存占用，同时又不影响预测的准确性。

此外，扩展因果卷积的应用使Transformer模型能够获得指数接受域增长。

最后但同样重要的是，我们使用了传递机制来帮助Transformer模型获得更细粒度的信息。在真实数据集上的独立和广泛的实验表明，这三种TCCT体系结构都可以以不同的方式提高Transformer模型的时间序列预测性能。