1. 论文简介

标题:Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting

作者:Haixu Wu, Jiehui Xu, Jianmin Wang, Mingsheng Long(Tsinghua University)

发表刊物:NeurIPS 2021

论文下载地址:https://arxiv.org/abs/2106.13008

作者代码地址:GitHub - thuml/Autoformer: About Code release for "Autoformer: Decomposition Transformers with Auto-Correlation for Long-Term Series Forecasting" (NeurIPS 2021), https://arxiv.org/abs/2106.13008

2. 背景及意义

长距离的时序预测问题,传统的transformer及其改版在计算注意力机制时通常使用以下公式:

导致每次计算时都要将Q与每一个K做相似度计算,而过长的输入迫使模型只能采用稀疏点积取代逐个点积,从而丢失部分信息。

针对此问题,本文提出Auto-Correlation,以子序列之间的相关性计算取代点与点之间的相关性计算,从而直接捕捉子序列直接的关系,提高对历史数据的利用率。

此外,本文将传统transformer直接对输入原始数据处理,修改成季节性-趋势性分解后进行处理,并将注意力机制着重点放在捕捉季节性信息。

3. 研究方法

3.1. 整体框架

本文提出基于子序列相关性的Auto-Correlation块和基于时序分解的Series Decomp块,分别代替传统transformer中的Self-Attention块和Layer Norm块

3.2. Encoder

  •  结构流程

原始原始数据经过Auto-Correlation得到带权和,与自身相加后通过Series Decomp去除趋势性信息,经过前馈网络与自身相加后再次去除趋势性信息,作为全局的季节性信息表示传递给Decoder

  • 公式表达

3.3. Decoder

  • 结构流程

季节性信息部分:原始数据(预测部分的季节信息以0填充)的季节信息经过Auto-Correlation与自身相加后,经分解得到季节性信息作为Q,与Encoder传递的K/V经Auto-Correlation得到全局历史信息加权和,与自身相加、分解后把季节信息经过前馈网络再与自身相加,最后分解提取季节信息,得到最终季节预测。

趋势性信息部分:原始数据(预测部分的趋势信息以历史均值填充)的趋势信息,通过季节信息通道三次时序分解得到的趋势信息加权聚合,得到最终趋势预测

  • 公式表达

3.4. Auto-Correlation

  • 时延序列

选择时延时长,将原始序列的前个数据点转移到末尾(如上右图)

  • 子序列相关性(基于随机过程理论)

与Self-Attenetion中的相关性计算类似,通过QK之间的计算,结果越大,表明序列之间的相关性越大,经过SoftMax之后可得到非负且和为1的权重

  • 时延聚合

Self-Attenetion中的加权和类似,将SoftMax输出的权重与时延子序列相乘相加得到时延子序列的加权和,即聚合感兴趣的历史信息

3.5. SeriesDecomp

  •  趋势性信息提取

以序列的滑动平均值作为趋势信息

  • 季节性信息提取

以源序列减去其滑动平均值作为季节性信息

4. 实验验证

4.1. 不同Attention之间对比

作者将自己的Auto-Corelation将全Attention和两种稀疏Attention作比较,可以看出传统点积的Attention感兴趣的点与源点之间关联度并不高,对时序之间的模式提取能力弱,凸显本文新Attention在捕捉子序列相关性上的优势

4.2. 数据集测试效果对比

作者以MSE,MAE作为评估项目,在ETT等六种不同领域的时序数据集上,与Informer等三种Transformer改版、两种基于LSTM的模型和TCN进行对比,在不同未来预测长度中均胜过其余Baseline算法。

论文精读--Autoformer相关推荐

  1. 论文精读——CenterNet :Objects as Points

    论文精读--CenterNet :Objects as Points 论文地址:https://arxiv.org/pdf/1904.07850.pdf 机构:UT Austin,UC Berkele ...

  2. 论文精读 | slam中姿态估计的图优化方法比较

    一. 摘要 对于位置环境中的自主导航问题,同步定位与建图(Simultaneous localization and mapping, SLAM)是一个非常重要的工具框架.根据SLAM字面含义可以得知 ...

  3. 李沐论文精读系列四:CLIP和改进工作串讲(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso)

    文章目录 一.CLIP 1.1 简介 1.1.1 前言 1.1.2 模型结构 1.1.3 模型效果 1.1.3.1 对自然分布偏移的鲁棒性 1.1.3.2 StyleCLIP 1.1.3.3 CLIP ...

  4. 【论文精读】UV-SLAM: Unconstrained Line-based SLAM Using Vanishing Points for Structural Mapping

    [论文精读]UV-SLAM: Unconstrained Line-based SLAM Using Vanishing Points for Structural Mapping 论文出处 ICRA ...

  5. 【推荐系统论文精读系列】(八)--Deep Crossing:Web-Scale Modeling without Manually Crafted Combinatorial Features

    文章目录 一.摘要 二.介绍 三.相关工作 四.搜索广告 五.特征表示 5.1 独立特征 5.2 组合特征 六.模型架构 6.1 Embedding层 6.2 Stacking层 6.3 Residu ...

  6. 李沐论文精读系列五:DALL·E2(生成模型串讲,从GANs、VE/VAE/VQ-VAE/DALL·E到扩散模型DDPM/ADM)

    文章目录 一. 前言 1.1 DALL·E简介 1.2 DALL·E2简介 1.3 文生图模型进展 二. 引言 2.1 摘要 2.2 引言&模型结构 三. 算法铺垫 3.1 GANs 3.2 ...

  7. 【研一小白论文精读】《Big Self-Supervised Models are Strong Semi-Supervised Learners》

    [研一小白论文精读] 研一已经开学了,距离上一次自己写博客也有一段时间了,上一次写的博客我自己看简直又臭又长,这次是第二次,也不知道能不能做出一些改变.首先声明,我自己仍然是一个学术小白,理论基础极差 ...

  8. Classifier-Free Diffusion Guidance【论文精读加代码实战】

    Classifier-Free Diffusion Guidance[论文精读加代码实战] 0.前言 1.Classifier-Free Diffusion Guidance介绍 1.1原理介绍 1. ...

  9. 【论文精读】Parallax-Tolerant Image Stitching Based on Robust Elastic Warping

    图像拼接系列相关论文精读 Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation A ...

最新文章

  1. error: device not found - waiting for device -
  2. visibility和display隐藏元素的区别
  3. Dockerizing a Node.js web app
  4. 在HTML中将垂直转换为平行,大物实验答案
  5. MongoDB和MySQL的区别
  6. CRC循环校验码原理及计算举例
  7. GUID generation RSS_SYSTEM_GET_UNIQUE_ID
  8. WebForm连接数据库实例
  9. 局域网打印机反应慢_为什么你的Excel这么慢,这些原因必须要知道!
  10. 国产木乃伊走进CTO编辑部
  11. [Java] 蓝桥杯ALGO-150 算法训练 6-1 递归求二项式系数值
  12. Git基本用法(一)
  13. python人脸识别代码_一行Python代码搞定人脸识别
  14. 开发常用词汇表(带音标)
  15. 微信聊天记录怎么备份?
  16. 海格里斯智能自动化立体库仓储管理系统 物流生鲜电商冷链立库应用
  17. 详解旨在提升EVM底层性能的兼容公链Monad
  18. 浅谈网页设计的形式美法则
  19. Linux gsoap生成onvif框架(C语言客户端代码)一
  20. 指针java_Java中的指针

热门文章

  1. mysql 中default什么意思_数据库中default的用法正确使用方法
  2. NETapp Snapshot介绍
  3. Elasticsearch:使用不同的 CA 更新安全证书 (一)
  4. 关于如何求分数的最小公倍数和最大公约数
  5. repo命令添加bin_Linux shell中getopts命令学习--实现一个添加yum源的脚本
  6. 晨曦记账本如何添加、登录账本以及取回密码
  7. ubc 文学院 计算机,英属哥伦比亚大学UBC专业
  8. FPGA 动态数码管显示实验
  9. NSInvocation的使用
  10. 运行sudo apt-get install ros-foxy-rmf-demos-gz时出现软件包不能安装的问题