Informer:最强最快的序列预测神器

AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!

作者:一元,公众号:炼丹笔记

01 简介

在很多实际应用问题中,我们需要对长序列时间序列进行预测,例如用电使用规划。长序列时间序列预测(LSTF)要求模型具有很高的预测能力,即能够有效地捕捉输出和输入之间精确的长程相关性耦合。最近的研究表明,Transformer具有提高预测能力的潜力。

然而,Transformer存在一些严重的问题,如:

  • 二次时间复杂度、高内存使用率以及encoder-decoder体系结构的固有限制。

为了解决这些问题,我们设计了一个有效的基于变换器的LSTF模型Informer,它具有三个显著的特点:

  • ProbSparse Self-Attention,在时间复杂度和内存使用率上达到了O(LlogL),在序列的依赖对齐上具有相当的性能。
  • self-attention 提取通过将级联层输入减半来突出控制注意,并有效地处理超长的输入序列。
  • 产生式decoder虽然概念上简单,但在一个正向操作中预测长时间序列,而不是一步一步地进行,这大大提高了长序列预测的推理速度。

在四个大规模数据集上的大量实验表明,Informer的性能明显优于现有的方法,为LSTF问题提供了一种新的解决方案。

02 背景

Intuition:Transformer是否可以提高计算、内存和架构效率,以及保持更高的预测能力?

  • self-attention的二次计算复杂度,self-attention机制的操作,会导致我们模型的时间复杂度为O(L*L);
  • 长输入的stacking层的内存瓶颈:J个encoder/decoder的stack会导致内存的使用为O(J* L *L) ;
  • 预测长输出的速度骤降:动态的decoding会导致step-by-step的inference非常慢。

本文提出的方案同时解决了上面的三个问题,我们研究了在self-attention机制中的稀疏性问题,本文的贡献有如下几点:

  • 我们提出Informer来成功地提高LSTF问题的预测能力,这验证了类Transformer模型的潜在价值,以捕捉长序列时间序列输出和输入之间的单个的长期依赖性;
  • 我们提出了ProbSparse self-attention机制来高效的替换常规的self-attention并且获得了O(LlogL)的时间复杂度以及O(LlogL)的内存使用率;
  • 我们提出了self-attention distilling操作全县,它大幅降低了所需的总空间复杂度;
  • 我们提出了生成式的Decoder来获取长序列的输出,这只需要一步,避免了在inference阶段的累计误差传播;

03 方法

现有时序方案预测可以被大致分为两类:

我们首先对典型自我注意的学习注意模式进行定性评估。“稀疏性” self-attention得分形成长尾分布,即少数点积对主要注意有贡献,其他点积对可以忽略。那么,下一个问题是如何区分它们?

我们定义第i个query sparsity第评估为:

ProbSparse Self-attention

04 方法Encoder + Decoder

1. Encoder: Allowing for processing longer sequential inputs under the memory usage limitation

Self-attention Distilling

作为ProbSparse Self-attention的自然结果,encoder的特征映射会带来V值的冗余组合,利用distilling对具有支配特征的优势特征进行特权化,并在下一层生成focus self-attention特征映射。

它对输入的时间维度进行了锐利的修剪,如上图所示,n个头部权重矩阵(重叠的红色方块)。受扩展卷积的启发,我们的“distilling”过程从第j层往推j+1进:

为了增强distilling操作的鲁棒性,我们构建了halving replicas,并通过一次删除一层(如上图)来逐步减少自关注提取层的数量,从而使它们的输出维度对齐。因此,我们将所有堆栈的输出串联起来,并得到encoder的最终隐藏表示。

2. Decoder: Generating long sequential outputs through one forward procedure

此处使用标准的decoder结构,由2个一样的multihead attention层,但是,生成的inference被用来缓解速度瓶颈,我们使用下面的向量喂入decoder:

Generative Inference

Loss Function

此处选用MSE 损失函数作为最终的Loss。

05 实验

1. 实验效果

从上表中,我们发现:

  • 所提出的模型Informer极大地提高了所有数据集的推理效果(最后一列的获胜计数),并且在不断增长的预测范围内,它们的预测误差平稳而缓慢地上升。
  • query sparsity假设在很多数据集上是成立的;
  • Informer在很多数据集上远好于LSTM和ERNN

2. 参数敏感性

从上图中,我们发现:

  • Input Length:当预测短序列(如48)时,最初增加编码器/解码器的输入长度会降低性能,但进一步增加会导致MSE下降,因为它会带来重复的短期模式。然而,在预测中,输入时间越长,平均误差越低:信息者的参数敏感性。长序列(如168)。因为较长的编码器输入可能包含更多的依赖项;
  • Sampling Factor:我们验证了冗余点积的查询稀疏性假设;实践中,我们把sample factor设置为5即可,即;
  • Number of Layer Stacking:Longer stack对输入更敏感,部分原因是接收到的长期信息较多

3. 解耦实验

从上表中我们发现,

  • ProbSparse self-attention机制的效果:ProbSparse self-attention的效果更好,而且可以节省很多内存消耗;
  • self-attention distilling:是值得使用的,尤其是对长序列进行预测的时候;
  • generative stype decoderL:它证明了decoder能够捕获任意输出之间的长依赖关系,避免了误差的积累;

4. 计算高效性

  • 在训练阶段,在基于Transformer的方法中,Informer获得了最佳的训练效率。
  • 在测试阶段,我们的方法比其他生成式decoder方法要快得多。

06 小结

本文研究了长序列时间序列预测问题,提出了长序列预测的Informer方法。具体地:

  • 设计了ProbSparse self-attention和提取操作来处理vanilla Transformer中二次时间复杂度和二次内存使用的挑战。
  • generative decoder缓解了传统编解码结构的局限性。
  • 通过对真实数据的实验,验证了Informer对提高预测能力的有效性

参考文献

  1. Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting:https://arxiv.org/pdf/2012.07436.pdf
更多干货,请关注微信公众号:炼丹笔记

AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!相关推荐

  1. AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器???

    Informer:最强最快的序列预测神器??? AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器! 01 简介 在很多实际应用问题中,我们需要对长序列时间序列进行预 ...

  2. 【论文解读】AAAI21最佳论文Informer:效果远超Transformer的长序列预测神器!

    炼丹笔记干货 作者:一元,四品炼丹师 Informer:最强最快的序列预测神器 01 简介 在很多实际应用问题中,我们需要对长序列时间序列进行预测,例如用电使用规划.长序列时间序列预测(LSTF)要求 ...

  3. 详解NLP和时序预测的相似性【附赠AAAI21最佳论文INFORMER的详细解析】

    摘要:本文主要分析自然语言处理和时序预测的相似性,并介绍Informer的创新点. 前言 时序预测模型无外乎RNN(LSTM, GRU)以及现在非常火的Transformer.这些时序神经网络模型的主 ...

  4. AAAI最佳论文Informer 解读

    AAAI最佳论文Informer:效果远超Transformer的神器 1 简介 1.1 Informer的整体架构 2 预处理 Preliminary 与样本生成 2.1 Encoder输入 2.2 ...

  5. AAAI21最佳论文Runners Up!Transformer的归因探索!

    Self-Attention Attribution: Interpreting Information Interactions Inside Transformer(AAAI21) 一元@炼丹笔记 ...

  6. AAAI 2021最佳论文 Informer

    AAAI 2021最佳论文 Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 背景 Tr ...

  7. 【时序】Informer:用于长序列预测的高效 Transformer 论文笔记

    论文名称:Informer: Beyond Efficient Transformer for Long Sequence Time-Series Forecasting 论文下载:https://a ...

  8. 【NLP】AAAI21最佳论文Runners Up!Transformer的归因探索!

    作者:一元,四品炼丹师 Self-Attention Attribution: Interpreting Information Interactions Inside Transformer(AAA ...

  9. hbuilderx代码自动补全_DL时代的代码补全利器,北大出品,效果远超语言模型

    从程序员到数据工程师,编写程序代码是一项基本功,但是编写冗长代码的过程也极大地消耗了开发者的耐心.近来,有不少关于代码补全工具的消息爆出,例如,来自美国的 Kite,来自加拿大的 TabNine 等, ...

最新文章

  1. gdcm::DummyValueGenerator的测试程序
  2. 解决JDBC连接MySQL时发出的警告WARN: Establishing SSL connection without server‘s identity verification ...
  3. MapReduce-流量统计求和-排序-FlowBean编写
  4. psql: FATAL: role “appleyuchi” does not exist与修改默认密码
  5. linux cat 文本颜色,linux文本文件查看、展示命令 :cat head tail grep more less nl
  6. 一颗站在技术边缘的土豆
  7. Windows 系统下使用 MinGW + MSYS + GCC 编译 FFMPEG
  8. 常用数据验证正则表达式释义(附:正则表达式常用符号)
  9. apache字体文件跨域_在CabloyJS中将Webpack生成的文件自动上传到阿里云OSS
  10. 智能算法之免疫算法求解TSP问题
  11. 国际项目投标那些事(四)怎么读海外项目招标文件
  12. matlab求线与面的夹角,基于MATLAB的通用晶面间夹角公式的推导与求解
  13. PLC开发没有前景想转行嵌入式,找个培训机构还是自学?
  14. iTunes修改备份文件路径
  15. 51 Nod 一维战舰
  16. 思科模拟器完成实验报告
  17. 查询员工的薪水涨幅情况
  18. 日语在线翻译excite网页版
  19. 一道有意思的数学题(11223344)
  20. 机器人皮肤:气球和废纸都能有生命!万物皆有成为生命的可能!

热门文章

  1. Codis集群的搭建与使用
  2. codeforces 767C - Garland
  3. 可变字典 添加 删除 遍历
  4. 手脱ASProtect v1.23 RC1(无Stolen Code)
  5. Java学习笔记-7.Java IO流
  6. HDU 3613 Best Reward 正反两次扩展KMP
  7. 谷歌浏览器使用IE内核
  8. 自定义Word样式模板,设置为默认模板
  9. Deepin 15.7安装教程
  10. Android studio | From Zero To One —— Hello Android