编译 | 凯隐

出品 | AI科技大本营(ID:rgznai100)

Transformer是由谷歌于2017年提出的具有里程碑意义的模型,同时也是语言AI革命的关键技术。在此之前的SOTA模型都是以循环神经网络为基础(RNN, LSTM等)。从本质上来讲,RNN是以串行的方式来处理数据,对应到NLP任务上,即按照句中词语的先后顺序,每一个时间步处理一个词语。

相较于这种串行模式,Transformer的巨大创新便在于并行化的语言处理:文本中的所有词语都可以在同一时间进行分析,而不是按照序列先后顺序。为了支持这种并行化的处理方式,Transformer依赖于注意力机制。注意力机制可以让模型考虑任意两个词语之间的相互关系,且不受它们在文本序列中位置的影响。通过分析词语之间的两两相互关系,来决定应该对哪些词或短语赋予更多的注意力。

相较于RNN必须按时间顺序进行计算,Transformer并行处理机制的显著好处便在于更高的计算效率,可以通过并行计算来大大加快训练速度,从而能在更大的数据集上进行训练。例如GPT-3(Transformer的第三代)的训练数据集大约包含5000亿个词语,并且模型参数量达到1750亿,远远超越了现有的任何基于RNN的模型。

现有的各种基于Transformer的模型基本只是与NLP任务有关,这得益于GPT-3等衍生模型的成功。然而,最近ICLR 2021的一篇投稿文章开创性地将Transformer模型跨领域地引用到了计算机视觉任务中,并取得了不错地成果。这也被许多AI学者认为是开创了CV领域的新时代,甚至可能完全取代传统的卷积操作。

论文链接:

https://openreview.net/pdf?id=YicbFdNTTy

其中,Google的Deepmind 研究科学家Oriol Vinyals的看法很直接:告别卷积。

以下为该论文的详细工作:

基本内容

Transformer的核心原理是注意力机制,注意力机制在具体实现时主要以矩阵乘法计算为基础,这意味着可以通过并行化来加快计算速度,相较于只能按时间顺序进行串行计算的RNN模型而言,大大提高了训练速度,从而能够在更大的数据集上进行训练。

此外,Transformer模型还具有良好的可扩展性和伸缩性,在面对具体的任务时,常用的做法是先在大型数据集上进行训练,然后在指定任务数据集上进行微调。并且随着模型大小和数据集的增长,模型本身的性能也会跟着提升,目前为止还没有一个明显的性能天花板。

Transformer的这两个特性不仅让其在NLP领域大获成功,也提供了将其迁移到其他任务上的潜力。此前已经有文章尝试将注意力机制应用到图像识别任务上,但他们要么是没有脱离CNN的框架,要么是对注意力机制进行了修改,导致计算效率低,不能很好地实现并行计算加速。因此在大规模图片分类任务中,以ResNet为基本结构的模型依然是主流。

这篇文章首先尝试在几乎不做改动的情况下将Transformer模型应用到图像分类任务中,在 ImageNet 得到的结果相较于 ResNet 较差,这是因为Transformer模型缺乏归纳偏置能力,例如并不具备CNN那样的平移不变性和局部性,因此在数据不足时不能很好的泛化到该任务上。

然而,当训练数据量得到提升时,归纳偏置的问题便能得到缓解,即如果在足够大的数据集上进行与训练,便能很好地迁移到小规模数据集上。

在此基础上,作者提出了Vision Transformer模型。下面将介绍模型原理。

模型原理

该研究提出了一种称为Vision Transformer(ViT)的模型,在设计上是尽可能遵循原版Transformer结构,这也是为了尽可能保持原版的性能。

虽然可以并行处理,但Transformer依然是以一维序列作为输入,然而图片数据都是二维的,因此首先要解决的问题是如何将图片以合适的方式输入到模型中。本文采用的是切块 + embedding的方法,如下图:

首先将原始图片划分为多个子图(patch),每个子图相当于一个word,这个过程也可以表示为:

其中x是输入图片,xp则是处理后的子图序列,P2则是子图的分辨率,N则是切分后的子图数量(即序列长度),显然有。由于Transformer只接受1D序列作为输入,因此还需要对每个patch进行embedding,通过一个线性变换层将二维的patch嵌入表示为长度为D的一维向量,得到的输出被称为patch嵌入。

类似于BERT模型的[class] token机制,对每一个patch嵌入,都会额外预测一个可学习的嵌入表示,然后将这个嵌入表示在encoder中的最终输出()作为对应patch的表示。在预训练和微调阶段,分类头都依赖于

此外还加入了位置嵌入信息(图中的0,1,2,3…),因为序列化的patch丢失了他们在图片中的位置信息。作者尝试了各种不同的2D嵌入方法,但是相较于一般的1D嵌入并没有任何显著的性能提升,因此最终使用联合嵌入作为输入。

模型结构与标准的Transformer相同(如上图右侧),即由多个交互层多头注意力(MSA)和多层感知器(MLP)构成。在每个模块前使用LayerNorm,在模块后使用残差连接。使用GELU作为MLP的激活函数。整个模型的更新公式如下:

其中(1)代表了嵌入层的更新,公式(2)和(3)则代表了MSA和MLP的前向传播。

此外本文还提出了一种直接采用ResNet中间层输出作为图片嵌入表示的方法,可以作为上述基于patch分割方法的替代。

模型训练和分辨率调整

和之前常用的做法一样,在针对具体任务时,先在大规模数据集上训练,然后根据具体的任务需求进行微调。这里主要是更换最后的分类头,按照分类数来设置分类头的参数形状。此外作者还发现在更高的分辨率进行微调往往能取得更好的效果,因为在保持patch分辨率不变的情况下,原始图像分辨率越高,得到的patch数越大,因此得到的有效序列也就越长。

对比实验

4.1 实验设置

首先作者设计了多个不同大小的ViT变体,分别对应不同的复杂度。

数据集主要使用ILSVRC-2012,ImageNet-21K,以及JFT数据集。

4.2 与SOTA模型的性能对比

首先是和ResNet以及efficientNet的对比,这两个模型都是比较有代表的基于CNN的模型。

其中ViT模型都是在JFT-300M数据集上进行了预训练。从上表可以看出,复杂度较低,规模较小的ViT-L在各个数据集上都超过了ResNet,并且其所需的算力也要少十多倍。ViT-H规模更大,但性能也有进一步提升,在ImageNet, CIFAR,Oxford-IIIT, VTAB等数据集上超过了SOTA,且有大幅提升。

作者进一步将VTAB的任务分为多组,并对比了ViT和其他几个SOTA模型的性能:

可以看到除了在Natrual任务中ViT略低于BiT外,在其他三个任务中都达到了SOTA,这再次证明了ViT的性能强大。

4.3 不同预训练数据集对性能的影响

预训练对于该模型而言是一个非常重要的环节,预训练所用数据集的规模将影响模型的归纳偏置能力,因此作者进一步探究了不同规模的预训练数据集对性能的影响:

上图展示了不同规模的预训练数据集(横轴)对不同大小的模型的性能影响,注意微调时的数据集固定为ImageNet。可以看到对大部分模型而言,预训练数据集规模越大,最终的性能越好。并且随着数据集的增大,较大的ViT模型(ViT-H/14)要由于较小的ViT模型(ViT-L)。

此外,作者还在不同大小的JFT数据集的子集上进行了模型训练:

可以发现ViT-L对应的两个模型在数据集规模增大时有非常明显的提升,而ResNet则几乎没有变化。这里可以得出两个结论,一是ViT模型本身的性能上限要优于ResNet,这可以理解为注意力机制的上限高于CNN。二是在数据集非常大的情况下,ViT模型性能大幅超越ResNet, 这说明在数据足够的情况下,注意力机制完全可以代替CNN,而在数据集较小的情况下(10M),卷积则更为有效。

除了以上实验,作者还探究了ViT模型的迁移性能,实验结果表明不论是性能还是算力需求,ViT模型在进行迁移时都优于ResNet。

可视化分析

可视化分析可以帮助我们了解ViT的特征学习过程。显然,ViT模型的注意力一定是放在了与分类有关的区域:

总结

本文提出的基于patch分割的图像解释策略,在结合Transformer的情况下取得了非常好的效果,这为CV领域的其他研究提供了一个很好的思路。此外,接下来应该会出现许多基于这篇工作的研究,进一步将这一划时代的模型应用到更多的任务上,例如目标检测、实例分割、行为识别等等。此外,也会出现针对patch分割策略的改进,来进一步提高模型性能。

相关链接:

https://www.forbes.com/sites/robtoews/2020/10/12/the-next-generation-of-artificial-intelligence/#de89ca259eb1

感谢你的分享,点赞,在看三连↓

告别 CNN?一张图等于 16x16 个字,计算机视觉也用上 Transformer 了相关推荐

  1. 告别CNN?一张图等于16x16个字,计算机视觉也用上Transformer了

    编译 | 凯隐 出品 | AI科技大本营(ID:rgznai100) Transformer是由谷歌于2017年提出的具有里程碑意义的模型,同时也是语言AI革命的关键技术.在此之前的SOTA模型都是以 ...

  2. 告别CNN?计算机视觉也用上Transformer了

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:编译 | 凯隐 来自 | AI科技大本营(ID:rgznai100) AI博士笔记系列推荐 周志华<机器 ...

  3. surface 安卓双系统_一张图看懂微软Surface发布会:史上最大惊喜

    10月2日晚,微软在纽约举行新品发布会,一口气带来了Surface Neo双屏电脑.Surface Duo折叠屏手机.Surface Pro X.Surface Laptop 3. Surface P ...

  4. 一口气搞懂「Flink Metrics」监控指标和性能优化,全靠这33张图和7千字(建议收藏)

    前言 大家好,我是土哥. 最近在公司做 Flink 推理任务的性能测试,要对 job 的全链路吞吐.全链路时延.吞吐时延指标进行监控和调优,其中要使用 Flink Metrics 对指标进行监控. 接 ...

  5. html超链接显示另一张图,怎么把一个超链接弄到图片上,他人点击图片就会出现另一个网页....

    html xmlns=http://www.w3.org/1999/xhtml head title第一个html页面/title script type=text/javascript langua ...

  6. 六张图,看懂前瞻性数据分析,该如何做

    有同学问:领导总让做"有前瞻性"的分析,不要说那些"大家都知道的事".可到底什么是前瞻性?有时候明明写了预计未来情况,可还是被批判为:没啥前瞻性.真不知道咋办了 ...

  7. 我以前一直没有真正理解支持向量机,直到我画了一张图!

    选自towardsdatascience 作者:Rohit Pandey 编译:机器之心(almosthuman2014) 点击文末阅读原文 我以前一直没有真正理解支持向量机,直到我画了一张图. 1. ...

  8. 为了拿捏 Redis 数据结构,我画了 40 张图

    Redis 为什么那么快? 除了它是内存数据库,使得所有的操作都在内存上进行之外,还有一个重要因素,它实现的数据结构,使得我们对数据进行增删查改操作时,Redis 能高效的处理. 因此,这次我们就来好 ...

  9. 我画了35张图就是为了让你深入 AQS

    来自:程序员cxuan 前言 谈到并发,我们不得不说AQS(AbstractQueuedSynchronizer),所谓的AQS即是抽象的队列式的同步器,内部定义了很多锁相关的方法,我们熟知的Reen ...

最新文章

  1. Luogu P4336 [SHOI2016]黑暗前的幻想乡(容斥,矩阵树定理,子集反演)
  2. 【OfficeDIY】有了站点了 ^_^
  3. Apache主配置文件httpd.conf 详解
  4. c# 再次尝试 连接失败_修复破裂婚姻,如何重新建立情感连接
  5. 那些鼓吹国内首个.NET 5框架的,该醒醒了!
  6. postgresql 按日期范围查询
  7. 关闭虚拟机linux的防火墙,Linux虚拟机SSH服务、防火墙开启关闭
  8. 虚拟机实时迁移解决方案
  9. Visual Studio基于CMake配置opencv1.0.0、opencv2.2
  10. Spring Cloud(4):Feign的使用
  11. 实数系的完备性的含义
  12. matlab中phantom函数,matlab官网上下的phantom3d不对
  13. VMware ESXi安装mac os
  14. 开发网站为“禁止复制”“禁用右键功能”(易被破解)
  15. Unity-Photon Pun2个人总结
  16. 采集利器 - Web Scraper教学及示例
  17. Candide3人脸动画模型
  18. 美信GMSL技术让汽车数据传输更为高效
  19. 7-4 list 存储动物对象 (10 分)
  20. Kong 插件ACL的使用方法(访问控制列表黑名单)

热门文章

  1. 姜子上:利用BiLSTM-CRF进行命名实体识别
  2. 【第22周复盘】可以查成绩了!
  3. 【组队学习】【26期】Linux教程
  4. 技术图文:如何通过 LINQ 查找集合中的重复数据?
  5. Software development Problem
  6. 【ACM】Uva 1152 (4 Values whose Sum is 0) 二分查找lower_bound() 和upper_bound()的使用
  7. 2个月做出一款AI项目?这些学生在DeeCamp上决出两个总冠军
  8. 这5个 AI 用例,转变了传统商务沟通
  9. 30年间,软件开发行业为何Bug纷飞?
  10. 算力“竞速”,企业AI落地的当务之急