论文题目:
Do Vision Transformers See Like Convolutional Neural Networks?

论文链接:
http://arxiv.org/abs/2108.08810

Transformer 处理图像时获取的特征是否和之前主流的 CNN 有所区别?

基于这样的动机,Google用Centered Kernel Alignment (CKA)对ResNet和ViT的一些关键层进行了检验。首先了解一下CKA这种方法。CKA是Google在2019年提出的,用于衡量神经网络中层与层之间相似度的指标 [3]。这个指标的优势在于,它能够确定基于不同随机初始化和不同宽度训练的神经网络的隐藏层之间的对应关系。因此,适合用于寻找ResNet和ViT中是否存在有对应的网络层。

利用CKA,研究者发现ResNet和ViT在最接近输入的网络底层(lower layer)时,表征的内容持有较大的相似度;然而,由于两个网络处理表征的方式有很大区别,在层层传递之后,在接近输出的网络上层(higher layer)两者的表征最终区别很大。


两个在底层表征上有相似之处的网络,居然长着长着发展到了两个方向。

原因1 在整合全局信息的能力上存在差异

因为ResNet在处理输入时,需要经过更多层才能获得类似于ViT底层的表征,由此引发了一个合理的猜想:两个网络在整合全局信息的能力上存在差异。

为了验证这个想法,研究者先是对ViT的不同层中,注意力集中区域的距离进行的计算,他们发现,ViT无论是低层还是高层,都是局部和全局信息混杂的,相比之下,ResNet更为严格地遵守从局部特征提炼全局特征的处理过程。这是导致两个网络中表征的差异逐层增加的一大关键因素。


ResNet的有效感受域有一个明确地从局部“生长”到全局的过程,而ViT只是在感知局部和全局信息的权重上发生调整

原因2 ViT从底层到高层的相似度比ResNet高

另一方面,这种差异的原因还可能来自ViT从底层到高层的相似度比ResNet高的这一现象。研究者认为,是ViT中的跳跃连接结构 (skip connection)保护了底层到高层的表征传递,如下图所示,如果撤掉特定块区上的这种连接结构,对应的表征信息就会立刻“失传”。

由于上述在处理信息过程上的差异,最终,ViT的高层表征能够更精细地保留局部空间信息。尤其是到了最后分类的关键时刻,ResNet还进行了一次全局的平均池化,进一步显著地减少了高层中局部信息的精细度。

通过全方位的比较,包括将隐藏层揪出来细细观察。最终,研究者下定结论:虽然它们在性能上不相上下,但以ResNet为代表的CNN与ViT在处理信息的工艺原理上大相径庭。

Google这次的工作其实是把大家直觉性经验性的结论用可复现的实验规范地落在了纸上,并且努力夸夸ViT,好吸引更多研究者采用。在整个验证过程中,ViT模型是Google的,JFT-300M数据集是Google的,CKA度量指标也是Google的

ref
https://www.zhuanzhi.ai/document/2e54a4e67814e53b2f72a1dc958cbe69

[CNN]|CNN与Transformer区别相关推荐

  1. 【深度学习】网络架构设计:CNN based和Transformer based

    从DETR到ViT等工作都验证了Transformer在计算机视觉领域的潜力,那么很自然的就需要考虑一个新的问题,图像的特征提取,究竟是CNN好还是Transformer好? 其中CNN的优势在于参数 ...

  2. 一组图诠释CNN及RNN的区别

    CNN和RNN是深度学习中运用最多的两种深度学习网络结构,可能有些同学还不太清楚这两种网络的区别,今天刚好看到了一张图可以比较清楚的解释CNN及RNN的区别. 首先,CNN对于输入数据的维度约束是比较 ...

  3. 【转】浅谈人类视觉系统与卷积神经网络(CNN)的联系和区别

    浅谈人类视觉系统与卷积神经网络(CNN)的联系和区别 文章转载:叶强 深度学习 / 强化学习 / 机器学习 / 算法 / 眼科学 声明:本文为作者原创.欢迎免费规范转载.本文使用的一些图片素材来自于网 ...

  4. 蒙特利尔大学科研工作者:详细对比人类视觉系统与卷积神经网络(CNN)的联系和区别...

    点击上方"AI算法与图像处理",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者:叶强 链接:https://zhuanlan.zhi ...

  5. CNN和FCN的区别

    CNN 的输入是图像,输出是一个结果,或者说是一个值,一个概率值. FCN输入是一张图片,输出也是一张图片,学习像素到像素的映射. CNN 网络中的后三层,都是一维的向量,计算方式不再采用卷积,所以丢 ...

  6. [深度学习之CNN]CNN卷积神经网络LeNet-5

    转载于http://blog.sina.com.cn/s/blog_4a1853330102v0mt.html 点击打开链接     在转载基础上添加些内容 卷积神经网络是人工神经网络的一种,已成为当 ...

  7. NeurIPS 2021 | 视觉Transformer和CNN看到的特征是相同的吗?谷歌大脑新作

    本文转载自:DeepHub IMBA 作者:Akihiro FUJII 近年来,Vision Transformer (ViT) 势头强劲.本文将解释论文<Do Vision Transform ...

  8. NeurIPS2021 港大腾讯AI Lab牛津提出:CARE,让CNN和Transformer能在对比学习中“互帮互助”!...

    关注公众号,发现CV技术之美 本文分享NeurIPS 2021 论文『Revitalizing CNN Attentions via Transformers in Self-Supervised V ...

  9. CNN和Transformer相结合的模型

    ©作者 |小欣 CNN广泛应用于计算机视觉的各种任务中,比如分类,检测,分割,CNN通过共享卷积核提取特征,减少网络参数数量,提高模型效率,另一方面CNN具有平移不变性,即无论特征被移动到图像的哪个位 ...

最新文章

  1. Java 的序列化和反序列化,你该知道得更多
  2. mysql slave 配置_【mysql5.6】 数据库主从(Master/Slave)配置记录
  3. 算法(5) 归并排序
  4. c++ 从混合中英文数字等的string 中按顺序分别输出
  5. 2022年美国大学生数学建模竞赛——Problem A:自行车手的功率剖面
  6. 自定义你的VSCode:主题、文件图标、快捷键、设置、schema、插件
  7. excel中如何添加下拉选择框
  8. (附源码)APP+springboot订餐APP 毕业设计 190711
  9. 听大神砍市场与软件开发的那些事儿
  10. 2019-01-19-build-xmr-stak-on-ubuntu
  11. 总结十八:程序员激励办法——激励理论
  12. MATLAB 中gcf、gca 以及gco三者的解析
  13. 神州优车粗暴裁员:人与人之间最起码的尊重呢?
  14. Android在MTP模式下,只显示指定文件夹
  15. 实时操作系统μcos-III移植
  16. hive数据备份与恢复
  17. 资本网红张拉拉,一面狂奔突进,一面隐忧渐显
  18. java 反射 参数 注解_Java编程之反射中的注解详解
  19. 海峰五笔试用体验,感觉上当受骗……
  20. 安装CP2102驱动2021

热门文章

  1. limit 与offset的用法
  2. 如何不安装ORACLE就可以连接服务器端Oracle
  3. 教你将文件名称中文转英文
  4. 【微信公众号】3. 后台管理功能简介
  5. 产品设计:58同城与赶集网APP改版建议
  6. 前端知识每日小拷问 007 MVVM框架相关
  7. 解决mysql报错ERROR 1044 (42000): Access denied for user ''@'localhost' to database 'mysql'
  8. 欧姆龙CP1H+CIF11与台达MS300变频器通讯程序
  9. pop3.inc.php,用PHP实现POP3邮件的解码
  10. Oracle Edition-Based Redefinition(EBR)理论与实践