来源:深度学习技术前沿本文约2500字,建议阅读9分钟 全新Autoformer骨干网络,长时序预测达到SOTA!
[ 导读 ]近日,清华大学软件学院机器学习实验室另辟蹊径,基于随机过程经典理论,提出全新Autoformer架构,包括深度分解架构及全新自相关机制,长序预测性能平均提升38%。

尽可能延长预测时效是时序预测的核心难题,对于能源、交通、经济的长期规划,气象灾害、疾病的早期预警等具有重要意义。

清华大学软件学院机器学习实验室的研究人员近日发表了一篇论文,探究了在信息有限的情况下预测更长期未来的这个难题。

针对上述问题,作者大刀阔斧革新Transformer,提出全新的Autoformer模型,在长时序预测方面达到SOTA,在效率性能均超过Transformer及其变体

论文链接:https://arxiv.org/abs/2106.13008

研究背景

虽然近期基于Transformer的模型在时序预测上取得了一系列进展,但是Transformer的固有设计,使得在应对长期序列时仍存在不足:

  • 随着预测时效的延长,直接使用自注意力(self-attention)机制难以从复杂时间模式中找到可靠的时序依赖。

  • 由于自注意力的二次复杂度问题,模型不得不使用其稀疏版本,但会限制信息利用效率,影响预测效果。

作者受到时序分析经典方法和随机过程经典理论的启发,重新设计模型,打破Transformer原有架构,得到Autoformer模型:

  • 深度分解架构:突破将时序分解作为预处理的传统方法,设计序列分解单元以嵌入深度模型,实现渐进式地(progressively)预测,逐步得到可预测性更强的组分。

  • 自相关(Auto-Correlation)机制:基于随机过程理论,丢弃点向(point-wise)连接的自注意力机制,实现序列级(series-wise)连接的自相关机制,且具有的复杂度,打破信息利用瓶颈。

  • 应对长期预测问题,Autoformer在能源、交通、经济、气象、疾病五大领域取得了38%的大幅效果提升

方法介绍

作者提出了Autoformer模型,其中包括内部的序列分解单元、自相关机制以及对应的编码器、解码器。

(1)深度分解架构

Autoformer架构

时间序列分解是时序分析的经典方法,可以将时间序列分解为几类潜在的时间模式,如周期项,趋势项等。

在预测任务中,由于未来的不可知性,通常先对输入进行分解,再每个组分分别预测。

但这样使得预测结果受限于分解效果,并且忽视了长期未来中各个组分之间的相互作用。

针对上述问题,作者提出深度分解架构,在预测过程中,逐步从隐变量中分离趋势项与周期项,实现渐进式(progressive)分解

并且模型交替进行预测结果优化序列分解,可以实现两者的相互促进。

A. 序列分解单元

基于滑动平均思想,平滑时间序列,分离周期项与趋势项:

其中,为待分解的隐变量,分别为趋势项和周期项,将上述公式记为

B. 编解码器

编码器:通过上述分解单元,模型可以分离出周期项,。而基于这种周期性,进一步使用自相关机制(),聚合不同周期的相似子过程:

解码器:对趋势项与周期项分别预测。

  • 对于周期项,使用自相关机制,基于序列的周期性质来进行依赖挖掘,并聚合具有相似过程的子序列;

  • 对于趋势项,使用累积的方式,逐步从预测的隐变量中提取出趋势信息。

(2)自相关机制

观察到,不同周期的相似相位之间通常表现出相似的子过程,利用这种序列固有的周期性来设计自相关机制,实现高效的序列级连接。

自相关机制包含基于周期的依赖发现(Period-based dependencies)和时延信息聚合(Time delay aggregation)。

自相关机制,右侧为时延信息聚合

A. 基于周期的依赖发现

基于上述观察,为找到相似子过程,需要估计序列的周期。基于随机过程理论,对于实离散时间过程,可以如下计算其自相关系数:

其中,自相关系数表示序列与它的延迟之间的相似性。

在自相关机制中,将这种时延相似性看作未归一化的周期估计的置信度,即周期长度为的置信度为。

实际上,基于Wiener-Khinchin理论,自相关系数可以使用快速傅立叶变换(FFT)得到,其计算过程如下:

其中,和分别表示FFT和其逆变换。因此,复杂度为。

B. 时延信息聚合

为了实现序列级连接,还需要将相似的子序列信息进行聚合。自相关机制依据估计出的周期长度,首先使用操作进行信息对齐,再进行信息聚合:

这里,依然使用query、key、value的多头形式,从而可以无缝替换自注意力机制。

同时,挑选最有可能的个周期长度,用于避免融合无关、甚至相反的相位。整个自相关机制的复杂度仍为。

C. 对比分析

自相关机制与自注意力机制对比

相比于之前的点向连接的注意力机制或者其稀疏变体,自注意力(Auto-Correlation)机制实现了序列级的高效连接,从而可以更好的进行信息聚合,打破了信息利用瓶颈。

实验

作者在6个数据集上进行了测试,涵盖能源、交通、经济、气象、疾病五大主流领域。

(1) 主要结果

整体实验结果

Autoformer在多个领域的数据集、各种输入-输出长度的设置下,取得了一致的最优(SOTA)结果。

在input-96-predict-336设置下,相比于之前的SOTA结果,Autoformer实现了ETT能源数据集74%的MSE提升,Electricity能源数据集MSE提升24%,Exchange经济数据集提升64%,Traffic交通数据集提升14%,Weather气象数据集提升26%,在input-24-predict-60设置下,ILI疾病数据集提升30%。

在上述6个数据集,Autoformer在MSE指标上平均提升38%

(2) 对比实验

深度分解架构的通用性:将提出的深度分解架构应用于其他基于Transformer的模型,均可以得到明显提升,验证了架构的通用性。

同时随着预测时效的延长,提升效果更加明显,这也印证了复杂时间模式是长期预测的核心问题。

ETT数据集上的MSE指标对比,Origin表示直接预测,Sep表示先分解后预测,Ours表示深度分解架构。

自相关机制 vs. 自注意力机制:同样基于深度分解架构,在众多输入-输出设置下,自相关机制一致优于自注意力机制及其变体,比如经典Transformer中的Full Attention,Informer中的PropSparse Attention等。

ETT数据集上对比实验,将Autoformer中的自相关机制替换为其他自注意力机制,得到上述结果。

(3) 模型分析

时序依赖可视化:

对于序列的最后一个时间点,各模型学到的时序依赖可视化,图(a)中红色线表示学习到的过程的位置。

通过上图可以验证,Autoformer中自相关机制可以正确发掘出每个周期中的下降过程,并且没有误识别和漏识别,而其他注意力机制存在缺漏甚至错误的情况。

效率分析:

效率对比,红色线为自相关机制

在显存占用和运行时间两个指标上,自相关机制均表现出了优秀的空间、时间效率,两个层面均超过自注意力机制及其稀疏变体,表现出高效的复杂度。

总结

针对长时序列预测中的问题,作者基于时序分析的经典方法和随机过程的经典理论,提出了基于深度分解架构和自相关机制的Autoformer模型。

Autoformer通过渐进式分解和序列级连接,应对复杂时间模式以及信息利用瓶颈,大幅提高了长时预测效果。

同时,Autoformer在五大主流领域均表现出了优秀的长时预测结果,模型具有良好的效果鲁棒性,具有很强的应用落地价值。

参考资料:

https://arxiv.org/abs/2106.13008

编辑:黄继彦

革新Transformer!清华大学提出全新Autoformer骨干网络相关推荐

  1. 中科院华为诺亚提出ViG:一种全新的骨干网络,性能不输CNN、ViT!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 梦晨 发自 凹非寺 转载自:量子位(QbitAI) 用图神经网络( ...

  2. #今日论文推荐#中科院华为诺亚提出ViG:一种全新的骨干网络,性能不输CNN、ViT

    #今日论文推荐#中科院&华为诺亚提出ViG:一种全新的骨干网络,性能不输CNN.ViT 用图神经网络(GNN)做CV的研究有不少,但通常是围绕点云数据做文章,少有直接处理图像数据的. 其实与C ...

  3. CBNetV2:北大提出的复合主干网络,COCO成绩60.1%

    CBNetV2: A Composite Backbone Network Architecture for Object Detection 代码: GitHub - manaclan/CBNetV ...

  4. 计算机视觉中的经典骨干网络总结

    特征提取是计算机视觉任务的基础,良好的特征提取网络可以明显的提升算法的性能表现.在计算机视觉任务中,对图像进行特征提取的网络被称作为骨干网络(Backbone),可以说是下游任务的主心骨了.下面总结近 ...

  5. 屠榜各大CV任务!最强骨干网络:Swin Transformer V2来了

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自丨极市平台   作者丨happy 导读 针对SwinV1在更大模型方面存在的几点问题,Swin tra ...

  6. 重磅开源!屠榜各大CV任务!最强骨干网络:Swin Transformer来了

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:Smarter Swin Transformer 代码于2021年4月13日凌晨刚刚开源! ht ...

  7. 屠榜各大CV任务!最强骨干网络:Swin Transformer来了

    原文地址:https://mp.weixin.qq.com/s/z91JuI2w1QZg-3ZxN-OmwQ paper: https://arxiv.org/abs/2103.14030 code: ...

  8. Swin Transformer作为骨干网络的JDE(VisDrone2019-MOT数据集)

    这一阵子的一个小工作:把JDE的骨干网络换成了Swin-T,在VisDrone2019-MOT数据集上训练,的确得到了比DarkNet53作为骨干网络更好的效果: IDF1 Recall Precis ...

  9. 清华大学提出APDrawingGAN,人脸照片秒变艺术肖像画

    作者 | 刘永进教授 来源 | 转载自数据派THU(ID:DatapiTHU) 清华大学提出APDrawingGAN,该项工作被CVPR 2019录取为oral paper.CVPR是计算机视觉和人工 ...

最新文章

  1. Linux环境下增加swap交换分区
  2. SAP Spartacus Template-Driven Outlets
  3. 【ES】ES Attempted to send a bulk request to elasticsearch but Elasticsearch appears to be unreachabl
  4. 制图折断线_无锡春华教育AutoCAD家具制图/机械/工程制图
  5. ssis 创建ssisdb_SSIS目录数据库(SSISDB)简介
  6. anaconda的虚拟环境中查看已经安装好的包
  7. linux下 mysql 学习(一)
  8. [POJ2104] 区间第k大数 [区间第k大数,可持久化线段树模板题]
  9. 粒子群算法求解0-1背包问题
  10. MQTT 消息通信工具使用
  11. 2021-10-26 模电共射放大电路部分
  12. OSChina 周三乱弹 —— 领悟人生,一百块钱都不给?
  13. 淘宝/天猫/京东/拼多多618抢购软件,抢购助手支持淘金币任务,附上源码
  14. 哦豁,女朋友都能被别人撩走,还不赶快去Coding回来
  15. 台式计算机启用时间查看,告诉你WIN7怎么查看电脑本次开机时间
  16. 保研经历-清华计算机、北大、中科院计算所
  17. oracle rac 成本及架构,Oracle Extended RAC 架构实战
  18. simon游戏c语言,120-Simon游戏步骤三-输出数字一秒后消失
  19. new date的含义
  20. SLG手游的战斗抽象

热门文章

  1. 【c语言】蓝桥杯算法提高 企业奖金发放
  2. linux后台任务部署平台Tac
  3. LeetCode Scramble String
  4. 数据结构--KMP算法总结
  5. paper 68 :MATLAB中取整函数(fix, floor, ceil, round)的使用
  6. Sublime 快捷键及使用技巧
  7. 安卓的自定义的DemoApplication 出现的问题。
  8. javascript js异步加载
  9. 安装rpm的mysql_linux下安装rpm格式的mysql
  10. 在计算机术语中常用byte表示,2016年计算机一级MS Office上机考试题