在近年来计算机视觉领域中,transformer似乎全面超越CNN,在各种任务上SotA,特别是swin[1]出来以后。然而有一个问题值得我们去思考,transformer的优势在哪里?为什么能够work?transformer刚在CV领域火起来以后,大书特书其中的多头注意力机制(MSA),我们似乎也同意了,似乎以cnn为代表的局部注意力机制在全局注意力机制的衬托下愈发显得羸弱与不堪。MLP(在cv领域)的死灰复燃[2]似乎也强调了这一点。

然而这是真相吗?

在后续的研究中发现,将MSA换成MLP、傅里叶变换效果也不错,甚至颜水成[3]团队发现即使将Transformer中的MSA换成pooling,精度也比cnn高;王井东团队[4]验证local Transformer attention与 inhomogeneous dynamic depthwise conv等价。那么究竟是什么造就了Transformer的成功呢?

近日(2022年1月12日),Facebook AI Research 一步步将resnet50向transformer演变[5],发现transformer中的每个小模块都对精度有小幅度提升,最终联合促成了transformer的高精度。并且该团队还通过实验表明,在使用了这些小trick以后,CNN精度完爆transformer。在相近参数量的前提下,在分类、检测、分割任务上全面超越swin。

cnn并未过时,transformer不是万能药,但是transformer中的各种设计技巧值得我们学习。

参考文献:

  1. Swin Transformer: Hierarchical Vision Transformer using Shifted Windows
  2. MLP is all you need
  3. MetaFormer is Actually What You Need for Vision
  4.  Demystifying local vision transformer: Sparse connectivity, weight sharing, and dynamic weight
  5. A ConvNet for the 2020s

Why Transformer works相关推荐

  1. 【TPAMI 2022】A Survey on Vision Transformer

    文章目录 WHAT Contents 2. Formulation of Transformer 2.1 Self-Attention 2.2 Other Key Concepts in Transf ...

  2. ansys电力变压器模型_变压器模型……一切是如何开始的?

    ansys电力变压器模型 Transformer models have revolutionised the field of Natural Language Processing but, ho ...

  3. 一种带开关量的开口式电流互感器的应用

    安科瑞 耿敏花   摘 要:介绍了开口式电流互感器在改造项目中的应用,以及带开关量的开口式电流互感器的作用,和常规开口互感器对比的优势,并结合工程实例分析.   Abstract:Introduces ...

  4. BERT大火却不懂Transformer?读这一篇就够了 原版 可视化机器学习 可视化神经网络 可视化深度学习...20201107

    20211016 调节因子 20211004 [NLP]Transformer模型原理详解 - 知乎 论文所用 20210703 GPT模型与Transformer进行对比_znevegiveup1的 ...

  5. 关于Vision Transformer的一些思考

    作者丨mileistone@知乎 来源丨https://zhuanlan.zhihu.com/p/276145805 编辑丨极市平台 自相矛盾 Vision Transformer(https://a ...

  6. 《Deep Learning With Python second edition》英文版读书笔记:第十一章DL for text: NLP、Transformer、Seq2Seq

    文章目录 第十一章:Deep learning for text 11.1 Natural language processing: The bird's eye view 11.2 Preparin ...

  7. The Illustrated Transformer:中英文(看原文,很多翻译是错误的)

    在上一篇文章中(previous post),我们研究了注意力机制 - 一种在现代深度学习模型中无处不在的(ubiquitous)方法. 注意力是一个有助于提高神经机器翻译(neural machin ...

  8. The Illustrated Transformer 翻译

    In the previous post, we looked at Attention – a ubiquitous method in modern deep learning models. A ...

  9. Transformer architecture的解释

      Go Forth And Transform I hope you've found this a useful place to start to break the ice with the ...

  10. 今日arXiv精选 | 18篇近期值得关注的Transformer工作

     关于 #今日arXiv精选  这是「AI 学术前沿」旗下的一档栏目,编辑将每日从arXiv中精选高质量论文,推送给读者. Differentiable Prompt Makes Pre-traine ...

最新文章

  1. Centos7单端口单配置文件多IP
  2. 如何id变动自动保存html软件,Wordpress折腾小记:彻底解决ID不连续的问题-自动保存、自动修订 | 地瓜哥博客网...
  3. redhat7基本命令操作
  4. android底部导航栏网络请求有冲突,Android 自定义底部导航栏 CustomizeTabLayout(支持访问网络图片、本地图片)...
  5. php性能测试xhprof,PHP性能分析之Xhprof的使用
  6. HTML--day02
  7. cobol和java区别,COBOL语法和文法(1)
  8. Java-类型转换,String转Object和Object转String
  9. 【MFC开发(5)】单选按钮控件RADIOBUTTON
  10. 简单粗暴的流水灯仿真和代码
  11. 上新:视频加密功能增加防录屏(随机水印)功能
  12. 14行代码教你制作自己的有道词典单词本(python)
  13. Matlab:厄米-高斯光束合成拉盖尔-高斯光束
  14. OV7670 FIFO 30W摄像头介绍(三) --- STM32F103驱动OV7670代码介绍
  15. 数据结构与算法之树的孩子双亲存储结构的讲解
  16. 实验吧-杯酒人生(凯撒解密,维基利亚密码)
  17. day_8——LeetCode1:两数之和
  18. 十四、Nginx--rewrite规则
  19. CentOS7使用yum安装MySQL——指定版本
  20. 微信小程序----使用微信内置地图查看位置wx.openLocation(Object object)

热门文章

  1. 一个大二计算机学生的学期总结(2022末年)
  2. Belief System
  3. mac photoshop cs5.1 序列号
  4. MYSQL 知识点总结
  5. ios设置阴历或农历生日(以iPhone X为例)
  6. 哈夫曼树详解及其应用(哈夫曼编码)
  7. 计算机桌面颜色怎么换,电脑桌面字体颜色怎么改
  8. IJCAI2022论文合集(持续更新中)
  9. 如何用Python记录微信撤回的消息
  10. 项目微商城的抽奖活动小结