CNN+Transformer=SOTA！CNN丢掉的全局信息，Transformer来补

转自：新智元

在计算机视觉技术发展中，最重要的模型当属卷积神经网络（CNN），它是其他复杂模型的基础。

CNN具备三个重要的特性：一定程度的旋转、缩放不变性；共享权值和局部感受野；层次化的结构，捕捉到的特征从细节到整体。

这些特性使得CNN非常适合计算机视觉任务，也使CNN成为深度学习时代计算机视觉领域的基石，但CNN的细节捕捉能力使它的全局建模能力较弱。

所以如何使CV模型捕获全局特征逐渐成为研究热点。

NLP的模型能解决CV问题？

2017年，Transformer横空出世，Attention is all you need！随后BERT类模型在各大NLP排行榜屠杀，不断逼近、超过人类的表现。

2020年Google Brain研究员提出的Vision Transformer（ViT）以最小的改动将Transformer应用于用CV领域。

Transformer的动态注意力机制、全局建模能力使得ViT在通过超大规模预训练后，表现出了很强的特征学习能力。

然而，ViT在设计上是没有充分利用视觉信号的空间信息，ViT仍然需要借助Transformer中的Position Embedding来弥补空间信息的损失。

视觉信号具有很强的2D结构信息，并且与局部特征具有很强的相关性，这些先验知识在ViT的设计中都没有被利用上。

CNN的设计又可以很好地弥补ViT设计中的这些不足，或者也可以说，ViT的设计弥补了CNN全局建模能力较弱的问题。

这篇论文提出一种全新的基础网络Convolutional vision Transformers (CvT)，既具备Transforms的动态注意力机制、全局建模能力，又具备CNN的局部捕捉能力，同时结合局部和全局的建模能力。

CvT是一种层级设计结构，在每一层级，2D的图像或Tokens通过Convolutional Embedding生成或更新特征向量。

每一层包括N个典型的Convolutional Transformer Block，把线性变换替换成卷积变换输入到多头attention机制，再进行Layer Norm。

Convolutional Projecton使得CvT网络可以维持图像信号的空间结构信息，也使得Tokens更好的利用了图像信息的局部信息相关性，同时也利用了注意力机制对全局信息进行建模。

而卷积操作的灵活性，使得我们可以通过设置卷积操作的步长来对key，value进行降采样，从而进一步提升Transformer结构的计算效率。

Convolutional Embedding和Convolutional Projection充分利用了视觉信号的空间特性，所以在CvT的结构中，空间信息不需要引入position embedding，使得CvT更灵活的应用于计算机视觉中各类下游任务，如物体检测，语义分割等。

性能表现

CvT与同时期的其他Transformer-based工作相比，在同等模型大小下在ImageNet1k上取得了明显优于其他模型的准确率。

此外，CvT在大规模数据集ImageNet22k的预训练上也取得了不错的性能，CvT-W24以更少的参数量，在ImageNet-1k 基准测试集上获得了87.7%的Top-1准确率，超越在同样规模数据集训练的ViT-H/L模型。

CvT 和SOTA模型模型在Image net， ImageNet Real和ImageNet V2这些数据集上性能的比较。同等规模和计算量情况下， CvT的效率优于ResNet和ViT，甚至同时期的其它Transformer-based的工作。

通过网络结构搜索技术，对CvT的模型结构像每层Convolutional Projection中的步长和每层MLP的expansion ratio进行有效的搜索后，最优的模型CvT-13-NAS。以18M的模型参数量， 4.1G的FLOPs在ImageNet1k上取得了82.2的结果。

CvT 和Google的BiT，ViT在下游任务中的迁移能力，CvT-W24以更少的模型参数量在ImageNet1k上取得了87.7的结果，明显优于Google的BiT-152x4和ViT-H/16，进一步验证了CvT模型优异的性能。

CvT是一种结合了CNN结构和Transformers结构各自优势的全新基础网络，实验结果也验证了CvT在ImageNet以及各种分类任务中的有效性。可以展望，这种融合的网络势必会对视觉其他的任务性能提高进一步影响。

参考资料：

https://arxiv.org/pdf/2103.15808.pdf

原文链接：

https://mp.weixin.qq.com/s/qXjwFCm0N_7yJAU087Xvqg

欢迎添加群助手微信，邀请您加入大佬云集-CV&Transformer交流群！

???? 长按识别添加，邀请您进群！

CNN+Transformer=SOTA！CNN丢掉的全局信息，Transformer来补相关推荐

速度、准确率与泛化性能媲美SOTA CNN，Facebook开源高效图像Transformer
机器之心报道参与:魔王.小舟.杜伟将自然语言处理领域主流模型 Transformer 应用在视觉领域似乎正在成为趋势.最近,Facebook 研究人员提出一项新技术--数据高效图像 Transfo ...
Facebook开源高效图像Transformer，速度、准确率与泛化性能媲美SOTA CNN
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达转自 | 机器之心将自然语言处理领域主流模型 Transform ...
Facebook开源数据高效图像Transformer，媲美SOTA CNN
作者|魔王.小舟.杜伟来源|机器之心将自然语言处理领域主流模型 Transformer 应用在视觉领域似乎正在成为趋势.最近,Facebook 研究人员提出一项新技术--数据高效图像 Transf ...
站在CNN肩膀上的巨大腾飞，Swin Transformer：实现对各类SOTA的降维打击
作者丨陀飞轮@知乎(已授权) 来源丨https://zhuanlan.zhihu.com/p/360513527 导读本文介绍了一种称为Swin Transformer的新型transformer, ...
新模型！Conformer！Transformer与CNN的超强融合！
点上方计算机视觉联盟获取更多干货仅作学术分享,不代表本公众号立场,侵权联系删除转载于:Sophia知乎 https://zhuanlan.zhihu.com/p/398535379 AI博士笔记系 ...
NLP/CV模型跨界，视觉Transformer赶超CNN?
在计算机视觉领域中,卷积神经网络(CNN)一直占据主流地位.不过,不断有研究者尝试将 NLP 领域的 Transformer 进行跨界研究,有的还实现了相当不错的结果.近日,一篇匿名的 ICLR 20 ...
脑洞大开！拿Transformer和CNN比较！犯错都像人类
点上方计算机视觉联盟获取更多干货仅作学术分享,不代表本公众号立场,侵权联系删除转载于:量子位 AI博士笔记系列推荐周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接这是 ...
CVPR 2023 | 结合Transformer和CNN的多任务多模态图像融合方法
©作者 | 奥本海默本文为大家带来 CVPR 2023 在图像融合领域的最新工作 CDDFuse: Correlation-Driven Dual-Branch Feature Decomposit ...
CVPR'23 | 结合Transformer和CNN的多任务多模态图像融合方法
作者 | 奥本海默编辑 | 汽车人原文链接:https://zhuanlan.zhihu.com/p/617936182 点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷 ...

CNN+Transformer=SOTA！CNN丢掉的全局信息，Transformer来补

CNN+Transformer=SOTA！CNN丢掉的全局信息，Transformer来补相关推荐

最新文章

热门文章