来源:马里兰大学

Transformer模型在语言nlp和视觉cv领域都取得了巨大的成功。

然而,由于自注意机制具有与输入序列长度N相关的二次方时间和记忆复杂度O(N^2),因此将它们扩展到长序列(如长文档或高分辨率图像)是非常费时费内存的。

以前的方法通常将它们分成等距的片段,并基于每个片段独立地预测文本向量,而不考虑其他片段的信息。

在模型改进上,人们也提出了许多方法来处理注意力机制过于复杂问题。一般来说,它们可以分为以下几类:

1)具有预定义模式的(例如滑动窗口)的模型,包括Sparse Transformer, Image Transformer, Axial Transformer等模型用来建模图像,Longformer, ETC, Big Bird等用来建模语言。

2)low-rank投射注意,包括Linformer, Nystromformer, Synthesizer。例如,Linformer使用线性层来投影从长度为n的原始高维度键(K)和值(V)到大小为r(r 远远小于 n)的低维度并允许所有查询标记(Q)参与这些压缩表示。

3)基于内存压缩机制的,像Compressive Transformer和SetTransfomer,它们使用额外的内存来缓存全局远程信息,用于计算距离较远的词之间的注意力。

4)基于核的注意力矩阵近似,包括Performer, Linear Transformer, Random Feature Attention。

5) 基于相似度和聚类的方法,包括Reformer, Routing Transformer和Sinkhorn Transformer。

针对这个问题,马里兰大学和英伟达共同提出一个新模型,基于low-rank映射和局部窗口注意力的长短Transformer(Long-Short Transformer, Transformer-LS)。

Transformer-LS采用一个高效的自注意机制,用于建模具有线性复杂度的长序列的语言和视觉任务。它通过动态投影聚合长距离注意力来模拟远距离相关性,并通过短期注意力来捕捉细粒度的局部相关性。

同时提出了一种双重归一化策略来解释这两种注意机制之间的规模不匹配。Transformer-LS可以应用于自回归和双向模型,并且没有引入额外的复杂度。这个方法在语言和视觉领域的多个任务上优于sota模型,包括Long Range Arena 基准测试、自回归语言建模和 ImageNet 分类。

例如,Transformer-LS 在 enwik8上实现了0.97测试 BPC,使用的参数数量是以前方法的一半,而且速度更快,想比完全注意力机制,在相同的硬件上新方法能够能够处理长3倍的序列。在ImageNet上,它也取得了sota 结果(只训练224*224 ImageNet-1K数据集,top1准确率达到了84.1%),同时这个方法在高分辨率图像上也具有通用性。

目前模型和源代码还没有公布,但文中称很快将会公开。

这篇论文的第一作者是Chen Zhu,马里兰大学巴尔的摩分校计算机科学的博士生,导师是 Tom Goldstein 教授。主要研究方向是机器学习,以及它在计算机视觉中的应用。于2018年获得了上海科技大学的硕士学位,并于2015年获得了北京航空航天大学的电子与信息工程学士学位。

文章的第二作者是 NVIDIA 的高级研究科学家,致力于机器学习、语音和自然语言处理。在此之前,我是百度研究的 TTS 团队领导。2016年在加州大学欧文分校获得了机器学习博士学位。热衷于为各个领域建立最先进的生成模型,包括音频、文本和视频。

Tom Goldstein教授的研究主要集中在机器学习和优化的交叉领域,目标应用于计算机视觉和信号处理。在理论和实践之间的边界工作,利用数学基础、复杂模型和高效硬件来构建实用的、高性能的系统。设计了多种平台的优化方法,从强大的集群/云计算环境到资源有限的集成电路和 fpga。在加入马里兰大学之前,他在加州大学洛杉矶分校完成了数学博士学位,并在莱斯大学和斯坦福大学担任研究科学家。曾经获得包括 SIAM 的 DiPrima 奖,DARPA 青年教师奖和 Sloan 基金奖励。

为了评估Transformer-LS作为长文本的双向编码器的效果,从最近提出的长期研究中选择了三个NLP任务Long Range Arena (LRA)基准:

1、ListOps,ListOps被设计用来通过层次结构数据来度量模型的解析能力。遵循中的设置,其中每个实例包含500-2000个词。

2、Text。这是一个二元情感分类任务,用于预测来自IMDb电影评论是否是正面的评论。做出正确的预测需要一个模型来推理组合的未分段字符级长序列,最大长度为4k。

3、召回。此任务基于ACL Anthology Network数据集。模型需要分类两篇论文之间是否存在共同引用,以评估模型的有效性为基于相似性的匹配编码长序列的能力。最大序列长度每个字节级的文档是4k,模型每次并行处理两个文档。

Transformer XL(完全注意力)和Transformer-LS在Char LM上的运行时间和内存消耗如下图。增加序列长度,直到用完V100GPU上的32GB内存。Transformer-LS与较小模型消耗相同,使用虚线表示完全注意力,实线代表我们的Transformer-LS。用不同的颜色来表示不同的批量大小。

结果显示了text8和enwik8的比较。文中提出的方法达到了sota水平。在text8上,用较小的模型实现了1.09的测试BPC。在enwik8上,我们的小该模型的测试BPC为0.99,性能优于具有可比性的最新模型参数。大模型获得的测试BPC为0.97,与压缩率相当于2倍参数Transformer。

在5个阶段和48 GPU内存更长的序列,结果总是比经过训练的Longformer更好。

参考资料:

https://arxiv.org/abs/2107.02192

推荐阅读

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 分层级联Transformer!苏黎世联邦提出TransCNN: 显著降低了计算/空间复杂度!

  • 清华姚班教师劝退文:读博,你真的想好了吗?

  • 2021李宏毅老师最新40节机器学习课程!附课件+视频资料

  • 最强通道注意力来啦!金字塔分割注意力模块,即插即用,效果显著,已开源!

  • 登上更高峰!颜水成、程明明团队开源ViP,引入三维信息编码机制,无需卷积与注意力

  • 常用 Normalization 方法的总结与思考:BN、LN、IN、GN

  • 注意力可以使MLP完全替代CNN吗? 未来有哪些研究方向?

  • 清华鲁继文团队提出DynamicViT:一种高效的动态稀疏化Token的ViT

  • 并非所有图像都值16x16个词--- 清华&华为提出一种自适应序列长度的动态ViT

重磅!DLer-计算机视觉&Transformer群已成立!

大家好,这是计算机视觉&Transformer论文分享群里,群里会第一时间发布最新的Transformer前沿论文解读及交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、视频超分、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如Transformer+上交+小明)

???? 长按识别,邀请您进群!

Transformer-LS霸榜ImageNet,输入长度提升三倍!极度压缩参数相关推荐

  1. 一文总结微软研究院Transformer霸榜模型三部曲!

    [导读]本文将主要介绍微软研究院提出的三大Transformer霸榜模型,分别是:开创Transforer新时代的Swin Transformer, 进阶版的Swin Transformer -- C ...

  2. 霸榜各大CV任务榜单,Swin Transformer横空出世!

    1. ImageNet-1K的图像分类 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 一元@炼丹笔记 ...

  3. Transformer霸榜全景分割任务,南大、港大提出一种通用框架!

    来源:机器之心 本文中,来自南大.港大.英伟达等机构的研究者提出了一个使用 transformer 进行端到端全景分割的通用框架,不仅为语义分割与实例分割提供了统一的 mask 预测工作流程,而且使得 ...

  4. Panoptic SegFormer:全景分割第一名!南大港大英伟达提出新算法,霸榜全景分割

    今日分享论文『Panoptic SegFormer』全景分割第一名!由南大&港大&NVIDIA 联合提出 Panoptic SegFormer,霸榜全景分割. 话不多说,先放Leadb ...

  5. Panoptic SegFormer:全景分割第一名!南大港大英伟达提出新算法,霸榜全景分割...

    点击下方卡片,关注3D视觉工坊公众号 3D视觉干货第一时间送达 今日分享论文『Panoptic SegFormer』全景分割第一名!由南大&港大&NVIDIA 联合提出 Panopti ...

  6. CBNet和DetectoRS:COCO数据集霸榜模型

    点击蓝字  关注我们 作者丨张佳程@知乎 来源丨https://zhuanlan.zhihu.com/p/146447810 整理 | 极市平台 公众号 CBNet和DetectoRS -- COCO ...

  7. 霸榜COCO和Cityscapes!南理工CMU提出极化自注意力,更精细的双重注意力建模结构

    作者丨小马 编辑丨极市平台 [写在前面] 注意力机制是一个被广泛应用在各种CV任务中的方法.注意力机制根据施加的维度大致可以分为两类:通道注意力和空间注意力.对于通道注意力机制,代表性的工作有SENe ...

  8. 2019最后一个月Python继续霸榜,想上车?看这份书单

    导读:即将过去的2019年里,Python依然火爆,近日发布的PYPL 12月榜单上,Python再次霸榜:这一年里,人工智能正逐渐从传说走进现实. 2019年快过完了,行业里热热闹闹,你还在吃瓜围观 ...

  9. 全球霸榜的Dell EMC VxRail,靠什么赢得超融合客户认可?

    说到超融合市场,就不能不提Dell EMC VxRail,自2014年问世至今6年来,VxRail始终保持着高速成长. 根据IDC发布的<全球融合系统市场季度追踪报告>显示,2020年第一 ...

最新文章

  1. 数据结构之:链表详解
  2. ReportViewer教程(14)-钻取报表和传入参数
  3. 检测与跟踪:快速视频姿态估计
  4. (80)Verilog HDL测试激励:保存波形文件
  5. uniapp 开发踩坑记录
  6. eclipse中编译java_eclipse编译java文件
  7. 破解密码很难?利用Python自动编写暴力破解字典,黑客必学技能!
  8. 模2除法怎么计算,模2除法最简单的理解
  9. 怎样把计算机里的W0rd放到电脑桌面,当电脑桌面没有WORD文档时怎么打开WORD文档...
  10. 第三十一篇 -- 学习第六十八天打卡20190911
  11. Android kotlin 时间戳转换工具
  12. PPT加密了如何打开文件
  13. 你若安好便是晴天nbsp;---------…
  14. 洛谷P5804 [SEERC2019]Absolute Game
  15. python计算器基础知识_Python基础知识+计算器练习
  16. 基于stm32和ESP8266实现wifi模块smartlink功能以及TCP连接
  17. 计算机设计网页基础知识,网页设计的基础知识
  18. SlowFast复现
  19. loading的使用
  20. 写给零基础小白看的入门级 Java 基本语法,强烈推荐

热门文章

  1. 我人生的第一个博客,真正的博客。
  2. C#的访问修饰符Protected
  3. 关于C#开发山寨操作系统,程序语言,浏览器,IDE,Office,Photoshop等大型程序的可行性歪论及意义...
  4. 66319d电源使用说明书_刚买就报修?新到手的冷柜使用时该注意什么?
  5. 转 python运算符及用法汇总
  6. keras 与tensorflow绑定在一起用的,何以见得
  7. 正则化如何消除过拟合
  8. jasonrpcbridge
  9. 用SimpleDateFormat类设置时间格式
  10. Jdom makes xml easy