转自:新智元

在计算机视觉技术发展中,最重要的模型当属卷积神经网络(CNN),它是其他复杂模型的基础。

CNN具备三个重要的特性:一定程度的旋转、缩放不变性;共享权值和局部感受野;层次化的结构,捕捉到的特征从细节到整体。

这些特性使得CNN非常适合计算机视觉任务,也使CNN成为深度学习时代计算机视觉领域的基石,但CNN的细节捕捉能力使它的全局建模能力较弱。

所以如何使CV模型捕获全局特征逐渐成为研究热点。

NLP的模型能解决CV问题?

2017年,Transformer横空出世,Attention is all you need!随后BERT类模型在各大NLP排行榜屠杀,不断逼近、超过人类的表现。

2020年Google Brain研究员提出的Vision Transformer(ViT)以最小的改动将Transformer应用于用CV领域。

Transformer的动态注意力机制、全局建模能力使得ViT在通过超大规模预训练后,表现出了很强的特征学习能力。

然而,ViT在设计上是没有充分利用视觉信号的空间信息,ViT仍然需要借助Transformer中的Position Embedding来弥补空间信息的损失。

视觉信号具有很强的2D结构信息,并且与局部特征具有很强的相关性,这些先验知识在ViT的设计中都没有被利用上。

CNN的设计又可以很好地弥补ViT设计中的这些不足,或者也可以说,ViT的设计弥补了CNN全局建模能力较弱的问题。

这篇论文提出一种全新的基础网络Convolutional vision Transformers (CvT),既具备Transforms的动态注意力机制、全局建模能力,又具备CNN的局部捕捉能力,同时结合局部和全局的建模能力。

CvT是一种层级设计结构,在每一层级,2D的图像或Tokens通过Convolutional Embedding生成或更新特征向量。

每一层包括N个典型的Convolutional Transformer Block,把线性变换替换成卷积变换输入到多头attention机制,再进行Layer Norm。

Convolutional Projecton使得CvT网络可以维持图像信号的空间结构信息,也使得Tokens更好的利用了图像信息的局部信息相关性,同时也利用了注意力机制对全局信息进行建模。

而卷积操作的灵活性,使得我们可以通过设置卷积操作的步长来对key,value进行降采样,从而进一步提升Transformer结构的计算效率。

Convolutional Embedding和Convolutional Projection充分利用了视觉信号的空间特性,所以在CvT的结构中,空间信息不需要引入position embedding,使得CvT更灵活的应用于计算机视觉中各类下游任务,如物体检测,语义分割等。

性能表现

CvT与同时期的其他Transformer-based工作相比,在同等模型大小下在ImageNet1k上取得了明显优于其他模型的准确率。

此外,CvT在大规模数据集ImageNet22k的预训练上也取得了不错的性能,CvT-W24以更少的参数量,在ImageNet-1k 基准测试集上获得了87.7%的Top-1准确率,超越在同样规模数据集训练的ViT-H/L模型。

CvT 和SOTA模型模型在Image net, ImageNet Real和ImageNet V2这些数据集上性能的比较。同等规模和计算量情况下, CvT的效率优于ResNet和ViT,甚至同时期的其它Transformer-based的工作。

通过网络结构搜索技术,对CvT的模型结构像每层Convolutional Projection中的步长和每层MLP的expansion ratio进行有效的搜索后,最优的模型CvT-13-NAS。以18M的模型参数量, 4.1G的FLOPs在ImageNet1k上取得了82.2的结果。

CvT 和Google的BiT,ViT在下游任务中的迁移能力,CvT-W24以更少的模型参数量在ImageNet1k上取得了87.7的结果,明显优于Google的BiT-152x4和ViT-H/16,进一步验证了CvT模型优异的性能。

CvT是一种结合了CNN结构和Transformers结构各自优势的全新基础网络,实验结果也验证了CvT在ImageNet以及各种分类任务中的有效性。可以展望,这种融合的网络势必会对视觉其他的任务性能提高进一步影响。

参考资料:

https://arxiv.org/pdf/2103.15808.pdf

原文链接:

https://mp.weixin.qq.com/s/qXjwFCm0N_7yJAU087Xvqg

欢迎添加群助手微信,邀请您加入大佬云集-CV&Transformer交流群!

???? 长按识别添加,邀请您进群!

CNN+Transformer=SOTA!CNN丢掉的全局信息,Transformer来补相关推荐

  1. 速度、准确率与泛化性能媲美SOTA CNN,Facebook开源高效图像Transformer

    机器之心报道 参与:魔王.小舟.杜伟 将自然语言处理领域主流模型 Transformer 应用在视觉领域似乎正在成为趋势.最近,Facebook 研究人员提出一项新技术--数据高效图像 Transfo ...

  2. Facebook开源高效图像Transformer,速度、准确率与泛化性能媲美SOTA CNN

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 转自 | 机器之心 将自然语言处理领域主流模型 Transform ...

  3. Facebook开源数据高效图像Transformer,媲美SOTA CNN

    作者|魔王.小舟.杜伟 来源|机器之心 将自然语言处理领域主流模型 Transformer 应用在视觉领域似乎正在成为趋势.最近,Facebook 研究人员提出一项新技术--数据高效图像 Transf ...

  4. 站在CNN肩膀上的巨大腾飞,Swin Transformer:实现对各类SOTA的降维打击

    作者丨陀飞轮@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/360513527 导读 本文介绍了一种称为Swin Transformer的新型transformer, ...

  5. 新模型!Conformer!Transformer与CNN的超强融合!

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:Sophia知乎 https://zhuanlan.zhihu.com/p/398535379 AI博士笔记系 ...

  6. NLP/CV模型跨界,视觉Transformer赶超CNN?

    在计算机视觉领域中,卷积神经网络(CNN)一直占据主流地位.不过,不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究,有的还实现了相当不错的结果.近日,一篇匿名的 ICLR 20 ...

  7. 脑洞大开!拿Transformer和CNN比较!犯错都像人类

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:量子位 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 这是 ...

  8. CVPR 2023 | 结合Transformer和CNN的多任务多模态图像融合方法

    ©作者 | 奥本海默 本文为大家带来 CVPR 2023 在图像融合领域的最新工作 CDDFuse: Correlation-Driven Dual-Branch Feature Decomposit ...

  9. CVPR'23 | 结合Transformer和CNN的多任务多模态图像融合方法

    作者 | 奥本海默 编辑 | 汽车人 原文链接:https://zhuanlan.zhihu.com/p/617936182 点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷 ...

最新文章

  1. 【原创】MySQL 实现Oracle或者PostgreSQL的row_number over 这样的排名语法
  2. c# uri 取文件名_asp.net获取当前网址url的各种属性(文件名、参数、域名 等)的代码...
  3. 《JavaScript 每周导读》【第一期】
  4. java数组键_Java基础之数组
  5. linux 7 network fail,CentOs7 网卡出现问题Job for network.service failed
  6. 规划和实施Exchange 2013备份
  7. ENVI高光谱物质识别
  8. Tomcat—HTTPS之生成密钥库文件与配置Tomcat服务器
  9. TCP的粘包问题以及数据的无边界性
  10. Excel技能培训之十五 函数使用rank,Frequency,subtotal超级表,切片器,iferor,常用错误代码
  11. python caffe框架_Caffe(卷积神经网络框架)配置-Windows篇
  12. 2013年度CSDN十大博客之星
  13. 信号调制解调matlab仿真,基于matlab的psk信号调制解调仿真设计开题报告.doc
  14. 软件功能测试概论(课堂练习1)
  15. 【转载】腾讯服务器centos服务器下mysql的安装
  16. Elasticsearch7.x证书过期简单解决方法
  17. 转:Java多线程学习(总结很详细!!!)
  18. 树的基本概念和2叉树中重要的几个性质
  19. 免费DEM数据(ASTER GDEMV3、ASTER GDEMV2、ASTER GDEMV1,SRTM90米、SRTM30米、GLS 2005 DEM、TanDEM)下载方式总结
  20. [CSR]在CSR8675的Source工程实现串口收发实例

热门文章

  1. 2015-2016-2 《Java程序设计》 学生博客及Git@OSC 链接
  2. 熟练Linux ,先从这 26 个命令开始吧
  3. Android学习系列(10)--App列表之拖拽ListView(上)
  4. FORM 中的颜色 Visual Attribute
  5. [原译]理解并实现生成器模式
  6. 第一章 MongoDb概述
  7. cadence原理图封装pin名称重复_硬件工程师必备技巧--如何快速制作PCB封装
  8. 苹果服务器修改主目录就打不开,苹果应用商店又挂了 App Store打不开怎么修复...
  9. firefox html5 canvas,html5 Canvas
  10. 巴菲特的逻辑数据分析