TCCT:紧耦合卷积Transformer时间序列预测

关注人工智能学术前沿 回复 :ts32

5秒免费获取论文pdf文档,及项目源码

摘要

时间序列预测在现实世界中有着广泛的应用。最近的研究表明,Transformer在处理这类问题,特别是长序列时间序列输入(LSTI)和长序列时间序列预测(LSTF)问题方面具有优越性。为了提高效率,改善Transformer的局部性,这些研究都不同程度地将Transformer与CNN相结合。但是它们的组合是松耦合的,并没有充分利用CNN。为了解决这个问题,我们提出了紧耦合卷积变压器(TCCT)的概念和三种TCCT架构,它们将转换后的CNN架构应用到Transformer中:(1)CSPAttention: 通过CSPNet与自注意机制的融合,自注意机制的计算成本降低了30%,内存占用降低了50%,同时达到了等效或超过预测精度。(2)扩展因果卷积:该方法是对Informer提出的提取操作进行修改,将正则卷积层替换为扩展的因果卷积层,以获得指数接受域增长。(3)传递机制:将传递机制应用于自注意块的堆叠,使类transformer模型获得更细粒度的信息,额外的计算成本可以忽略不计。我们在真实数据集上的实验表明,我们的TCCT体系结构可以大大提高现有最先进的Transformer模型在时间序列预测方面的性能,且计算和存储成本低得多,包括canonical Transformer、LogTrans和Informer。

1.介绍

毫无疑问,松散耦合方法在一定程度上提高了Transformer模型的性能。但是,只有采用紧密耦合的方法,即在Transformer模型中应用特定的转换后的CNN架构,才能将Transformer和CNN紧密结合,充分发挥它们的优势。因此,在本文中,我们寻求的问题是:是否可以在Transformer模型中应用特定的CNN架构来增强其学习能力,改善其局域性,同时提高其效率?为此,我们的工作是将Transformer和CNN紧密结合。在我们的工作中,三种经过改造的经典CNN架构已经成功应用于时间序列预测的Transformer模型中。本文的贡献可以概括为:

  1. 我们提出了紧耦合卷积变压器(TCCT)的思想和三种TCCT体系结构。经过改造,这些体系结构不仅改善了Transformer的局域性(松耦合方法也可以做到),还增强了Transformer的学习能力,降低了计算成本和内存占用。它们也足以应付其他类似transformer的时间序列预测模型。
  2. 我们提出CSPAttention,一种镜像CSPNet属于CNN的自我注意机制。它降低了近30%的记忆占用和50%的时间复杂度的自我注意机制,达到同等或更高的预测精度。
  3. 我们提出了一种改进的自注意提取操作,用扩展的因果卷积代替正则卷积来连接自注意块。它帮助Transformer模型获得指数级的接受域增长,计算成本略低。因此,Transformer的学习能力得到了加强。
  4. 我们提出通过传递机制来连接不同尺度的自注意块特征图,从而获得更细粒度的信息。与CNN和图像处理中常用的特征金字塔相似,它扩展了特征图,使得Transformer模型具有更好的预测性能。

2.模型概述

我们首先依次介绍了三种紧耦合卷积变压器(TCCT)架构:CSPAttention、扩展因果卷积和传递机制。然后给出了TCCT体系结构与类transformer时间序列预测模型相结合的方法。

1.CSPAttention

我们所提议的CSPAttention的一个模块的架构如图1所示。

图1:一个CSPAttention块。输入(蓝色)被分成两部分。第一个(绿色)传播通过层A,一个11卷积层,而另一个(红色)传播通过块B,一个自我注意块。最后将两个部分的输出连接在一起,作为整个CSPAttention块的最终输出

我们的CSPAttention还降低了自我注意机制的内存流量和时间复杂度。假设规范自我注意块的输入和输出维度都是d,并且只有一个输入标记。如图2(a)所示,一个self-attention块包含四个线性投影层,它们的输入和输出维度都是d (Query, Key, Value, projection)。因此,内存占用是4d^2。

假设CSPAttention将输入维度分成两半,则CSPAttention的第一部分只有一个线性投影层,而第二部分有四个线性投影层。相应的体系结构如图2(b)所示。

CSPAttention还可以处理其他类似Transformer的架构,并将它们升级为紧耦合的卷积Transformer架构。我们以LogTrans[10]为例,组合架构——LogSparse CSPAttention块如图3所示

2.扩张因果卷积(Dilated Causal Convolution)

对多个自注意块进行叠加有利于提取更深层次的特征图,但也会带来更多的时间和空间复杂性。为了进一步减少内存的使用,Informer开始使用自注意蒸馏操作。Informer在每个自注意块之间使用卷积层和最大池层来修剪输入长度。核大小为3,步长为1的卷积层跟随前一个自注意块,使特征对局部上下文信息更加敏感。然后使用步长为2的核为3的Max-pooling层对局部主导特征进行特权,并给后一个自注意块一个较少但更集中的特征映射。图4显示了一个由三个自注意块组成的网络。为了简单起见,我们只显示最后一个输入元素的接受域。

图5:一个自我注意网络的可视化,它将三个自我注意块堆叠在一起,这些块与扩大的因果卷积层和最大池层相连接。整个体系结构类似于图4。然而,扩展的因果卷积层的应用拓宽了接受域,避免了未来的信息遗漏。

对比图4和图5,可以清楚地看到,扩张的因果卷积只在时间前沿使用填充,防止了未来信息的泄露。即使只有两个卷积层,图5中网络的输出接受域也明显大于图4。因此,随着更多的自我注意块堆叠起来,差距会更大,因此,两个网络的表现差距会更大。除此之外,扩展因果卷积的应用只带来了少量的计算成本和内存占用(填充成本),可以忽略不计。

3.转移机制(Passthrough Mechanism)

我们提出了一个由三个自注意块组成的网络,并采用了上面提到的所有TCCT架构,如图6所示:

图6:一个网络堆叠三个CSPAttention(蓝色)块。采用了扩张的因果卷积(上图绿色)和传递机制。最终输出的维度与输入的维度相同。

4.带有TCCT架构的Transformer

Transformer、LogTrans、Informer等。图7显示了与Informer合作的一个简单示例,图8显示了一个详细的编码器示例。注意,图7中的Informer只有一个编码器,这意味着它没有使用完整的蒸馏操作,而是用传递机制代替它。

图7:Informer与提议的TCCT架构相结合的概述。左:在蓝色梯形内部是编码器堆叠三个ProbSparse CSPAttention块(蓝色),取代之前的ProbSparse self-attention块。扩展的因果卷积层(绿色),而不是标准的卷积层,以及绿色梯形内的最大池化层用于连接每个两个自我注意块。三个自注意块输出的所有三个特征映射被融合,然后过渡到合适尺寸的最终输出。右图:蓝色梯形中Informer的解码器基本保持不变。只有masked的ProbSparse self-attention块被masked的ProbSparse CSPAttention块替换。

图8:堆叠三个自注意块的单个Informer编码器与所有三个TCCT体系结构协作。(1)每个CSPAttention块(浅黄色)与Informer的典型架构ProbSparse self-attention(红色)相结合。(2)每两个CSPAttention块之间使用一个扩张的因果卷积层和一个max-pooling层(绿色)进行连接。前一个自我注意块的输出特征图在通过这两层传播后缩减了一半长度,反映了最初Informer的情况,但扩大了接受域。(3)将三个自注意块输出的三个特征映射通过传递机制(Gray)进行融合,获得更细粒度的信息。最后添加一个过渡层(绿色),将合适维度的特征图导出到解码器中。

关注人工智能学术前沿 回复 :ts32

5秒免费获取论文pdf文档,及项目源码

3.实验概述

基线模型

我们选择Informer作为基本基线,并分别测试我们建议的TCCT体系结构应对它的效果。与ARIMA[41]、Prophet[42]、LSTMa[43]等众多优秀的时间序列预测作品相比,Informer通过实验展示了其先进的性能。因此,深入研究我们的TCCT体系结构能在多大程度上改善Informer是很有意义的。

因此,我们选择了五种方法:

Informer,只有一个编码器的基本Informer;

Informer+,Informer具有充分的蒸馏操作;

TCCT_1, Informer与CSPAttention结合;

TCCT_2, Informer联合CSPAttention与扩张因果卷积;

TCCT_3,Informer与所有TCCT架构相结合。
在没有特殊说明的情况下,Informer, TCCT_1, TCCT_2, TCCT_3包含一个编码器堆叠3个自注意块,而Informer+包含一个具有充分蒸馏操作的3个编码器堆栈。此外,每种方法都包含一个2层解码器。此外,为了进一步研究我们提出的TCCT体系结构在增强其他Transformer或类Transformer模型在时间序列预测方面的适用性,我们选择了另外两种方法,canonical Transformer和LogTrans,并研究我们的TCCT体系结构在应对它们时是否能提高它们的性能。

数据集

我们在一个公共的真实世界的ETT 1 (electric Transformer Temperature)数据集上进行了实验,该数据集由近2年的ETT数据组成。

ETT数据集由四个子集组成:

{ETTh1、ETTh2}为中国两个独立县的1小时数据集;

{ETTm1, ETTm2}为来自{ETTh1, ETTh2}相同来源的15 min-level数据集。

每个数据点由目标值、油温等6个电力负荷特征组成。我们选择ETTh1和ETTm1来评估模型。

实验结果

在此背景下,对五种方法在单变量和多变量条件下的时间序列预测能力进行了评估,从而说明三种TCCT体系结构分别能在多大程度上提高Informer的预测精度。ETTh1和ETTm1数据集都用于检查。

从表1和表2可以看出:

(1) TCCT_3、三种TCCT架构的Informer,在单变量设置的大多数情况下,以及在多变量设置的所有情况下,都优于Informer+、Informer全蒸馏操作,表明我们提出的三种架构确实提高了Informer在LSTF问题中的预测能力。

(2)与Informer相比,TCCT_1, Informer with CSPAttention,在单变量和多变量设置下,在少数情况下表现相当,但在大多数情况下表现优越,说明CSPAttention可以帮助Informer获得更轻量级的架构,而不损失预测精度。

(3) TCCT_2,同时具有CSPAttention和扩展因果卷积的Informer,在几乎所有情况下都优于Informer和TCCT_1,说明扩展因果卷积层的应用进一步提高了TCCT_1的预测能力。当涉及到多变量条件时,TCCT_2甚至在近一半的情况下优于Informer+,特别是当预测长度为192和384时。

(4) TCCT_3优于其他四种方法,证明了将传递机制应用于Informer的好处。结果表明,通过机制比完全蒸馏操作更有效、更可靠。

(5)在单变量设置下,Informer+优于TCCT_1和TCCT_2,证明了添加编码器的方法是有效的。在目前的实验环境下,它甚至有25%的机会超过TCCT_3。然而,在多变量条件下,Informer+完全被TCCT_3打败,随着预测长度的增加,开始输给TCCT_2。

这一现象表明,随着预测序列的复杂性增加,我们提出的TCCT体系结构在提高Informer的预测能力方面比完全蒸馏操作更强。因此,与完全蒸馏操作相比,我们的TCCT体系结构可以帮助Informer处理更复杂的LSTF问题.

结论

在本文中,我们提出了紧密耦合卷积变压器(TCCT)的概念和三种TCCT架构,以提高先进的变压器模型对时间序列预测的预测能力

特别地,我们设计了CSPAttention来降低自注意机制的计算成本和内存占用同时又不影响预测的准确性

此外,扩展因果卷积的应用使Transformer模型能够获得指数接受域增长

最后但同样重要的是,我们使用了传递机制来帮助Transformer模型获得更细粒度的信息。在真实数据集上的独立和广泛的实验表明,这三种TCCT体系结构都可以以不同的方式提高Transformer模型的时间序列预测性能。

TCCT:紧耦合卷积Transformer时间序列预测相关推荐

  1. 【时序】TCCT:用于时间序列预测的紧耦合卷积 Transformer

    论文名称:TCCT: Tightly-coupled convolutional transformer on time series forecasting 论文下载:https://doi.org ...

  2. Transformer时间序列预测

    介绍: 提示:Transformer-decoder 总体介绍 本文将介绍一个 Transformer-decoder 架构,用于预测Woodsense提供的湿度时间序列数据集.该项目是先前项目的后续 ...

  3. 【论文分享】TCCT: Tightly-coupled convolutional transformer on time series forecasting

    TCCT:时间序列预测的紧耦合卷积 Transformer 提高 Transformer 的效率和增强局部性,将 Transformer 与 CNN 进行了不同程度的结 合.但是,它们的组合是松耦合的 ...

  4. 解读:Informer——比Transformer更有效的长时间序列预测方法

    写在前面 下面这篇文章的内容主要是来自发表于AAAI21的一篇最佳论文<Informer: Beyond Efficient Transformer for Long Sequence Time ...

  5. 时间序列预测 | Python实现Transformer时间序列数据预测

    时间序列预测 | Python实现Transformer时间序列数据预测 目录 时间序列预测 | Python实现Transformer时间序列数据预测 基本介绍 Transformer设计 Tran ...

  6. Informer:用于长序列时间序列预测的新型Transformer

    论文标题:Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 论文链接:https://a ...

  7. 深度学习时间序列预测:卷积神经网络(CNN)算法构建单变量时间序列预测模型预测空气质量(PM2.5)+代码实战

    深度学习时间序列预测:卷积神经网络(CNN)算法构建单变量时间序列预测模型预测空气质量(PM2.5)+代码实战 神经网络(neual networks)是人工智能研究领域的一部分,当前最流行的神经网络 ...

  8. 深度学习多变量时间序列预测:卷积神经网络(CNN)算法构建时间序列多变量模型预测交通流量+代码实战

    深度学习多变量时间序列预测:卷积神经网络(CNN)算法构建时间序列多变量模型预测交通流量+代码实战 卷积神经网络,听起来像是计算机科学.生物学和数学的诡异组合,但它们已经成为计算机视觉领域中最具影响力 ...

  9. tensorflow lstm 预测_图卷积神经网络GCN与递归结构RNN相结合的时间序列预测

    时间序列预测任务可以按照不同的方法执行.最经典的是基于统计和自回归的方法.更准确的是基于增强和集成的算法,我们必须使用滚动周期生成大量有用的手工特性.另一方面,我们可以使用在开发过程中提供更多自由的神 ...

最新文章

  1. zigzag扫描matlab,ZIGZAG扫描的MATLAB实现 | 学步园
  2. AI进军摇滚圈,老炮:这是啥?
  3. python 删除文件-python实现删除文件与目录的方法
  4. 通过ADB命令获取Android手机的分辨率(升级版)
  5. Pycharm导入anaconda环境
  6. ipv6远程连接mysql_如何利用IPv6进行远程桌面连接
  7. 测试机器学习算法的好坏
  8. JS--我发现,原来你是这样的JS:面向对象编程OOP[1]--(理解对象和对象属性类型)...
  9. Java学习之路 之 容易混淆篇
  10. 【渝粤教育】国家开放大学2018年春季 0007-21T文书档案管理 参考试题
  11. xshell使用xftp传输文件 、使用pure-ftpd搭建ftp服务
  12. LNMP自动部署脚本
  13. oracle财务数据权限思考
  14. ui曲线谁是横坐标_一篇文章讲明白,曲线在摄影修图中的运用
  15. oracle自学OCA,上海学习oracle OCA
  16. 计算机关闭dhcp,dhcp应该开启还是关闭_dhcp关闭会怎么样
  17. 香港十大黄金投资公司排名榜单(2022最新版)
  18. 你知道视频怎么去水印吗?试试这三个方法学会怎么去视频水印
  19. 安卓蓝牙开发的几个版本区别
  20. 大学四年---一个快要毕业学生的反思

热门文章

  1. squee_spoon and his Cube VI(贪心,找不含一组字符串的最大长度+kmp)
  2. mysql 登录报错 (using password: NO)
  3. attention与FFN复杂度
  4. Chrome 小技巧 -- 小米整理
  5. 微信小程序学习笔记(二)-- 开发之框架
  6. 利用 java 实现读取 excel 表格中的数据,兼容xls与xlsx以及csv格式
  7. 快速入门html、css和javascript
  8. 快手通过标签添加的我_利用话题标签,快手账号7天涨粉9万的超级秘籍
  9. IT技能之武侠特性之我见
  10. 最优惠租云服务器_租一年阿里云服务器多少钱,怎么租更便宜