CV领域，Transformer在未来有可能替代CNN吗？

Transformer在CV领域得到广泛关注，从Vision Transformer到层出不穷的变种，不断地刷新了各项任务地榜单。在CV领域的应用，Transformer在未来有可能替代CNN吗？

在这个大火的阶段，确实值得我们反思一下，self-attention和CNN结构相比，到底有什么联系与区别，两者在相同配置下有什么样的差距？

尤其近期一些工作在Transformer结构中引入locality特性来进一步提升性能。

我们来自南开，北大，MSRA的团队试图回答这个问题，探究Transformer (尤其是local vision transformer)与CNN (depth-wise 卷积)之间的区别与联系：

相关论文：Demystifying Local Vision Transformer: Sparse Connectivity, Weight Sharing, and Dynamic Weight

论文地址：https://arxiv.org/abs/2106.04263

为了回答这个问题，我们从稀疏链接，权重共享，以及动态权重三个方面对Local ViT进行了分析，同时与热门的MLP方法，depth-wise卷积方法，以及广泛应用的CNN进行了对比与分析。

实验结果表明在网络结构设计中，稀疏性能够很好的帮助网络优化，同时减少计算量与参数量，而直接以Swin Transformer为baseline，把局部attention模块换成局部depth-wise卷积模块，能够保持性能不变，同时计算量和参数量更少，在ImageNet, COCO, ADE20K上表现相当。

而实际上这些发现，正指引着我们用不同的正则化方式 (稀疏连接，权重共享)设计网络，值得对下一步的网络结构设计进行深思。

近些年来所提出的各种基于CNN的模型，和基于MLP, Transformer的模型，其设计准则及关联，可以总结为下图所示：

从全连接形式的MLP出发，最新的一些MLP工作将channel和spatial维度分离，做了空间或通道上的稀疏连接，如MLP Mixer, ResMLP等，再此基础上，Vision Transformer (ViT)将连接的权重动态化。

进一步，为了引入局部性的人工先验，Local ViT将全局的attention变成局部操作，如Swin, HolaNet等，与此同时，PVT利用金字塔结构同样引入了多尺度级联结构。

随着这些稀疏性质与多尺度等低秩正则化的不断引入，网络变得更容易优化，且能够得到较好的性能。

同样，depth-wise卷积在稀疏链接上也具有相同的性质，在关系图种表现为普通卷积在通道上的稀疏，或分离MLP在空间上的稀疏。

这种结构与Local ViT体现相同，为了公平对比，我们在Swin Transformer中，保持完全相同的训练策略和结构，将local attention替换为depth-wise卷积进行对比，发现两者表现相当。这说明Local ViT的有效性来自于这种稀疏连接的正则化网络设计。

进一步对比两者，其在权重共享上是有差异的，depth-wise卷积在空间位置上共享权重，而Local ViT在不同channel之间共享权重，在论文中，我们分析了两种权重共享的不同方式，发现这两种共享方式均能够有效的减少参数量，同时表现相当。

而在权重形式上，depth-wise卷积利用静态的网络参数进行信息提取，而local ViT利用特征相似度动态生成权重。为了进一步对比两者差异，我们构建了动态的depth-wise卷积，发现其在小模型上能够表现优于local ViT。

以上对比说明，Local ViT的有效性，实际上是使用了稀疏的连接关系，权重共享，以及动态地生成自适应权重，这种方式同样有益于卷积神经网络，而不是一种替代关系。

ViT实际上是和CNN开辟了两条不同的道路，使用着不同的稀疏性和共享关系，而现有的很多工作也在尝试将两者结合到一起，能够探究ViT的工作原理，揭开其神秘面纱，将这种优质的特性带入卷积网络中，同样也能设计出表现很好的网络结构，值得我们进一步深思。

更多细节还请关注原文，点击左下角阅读原文直达。

本文系作者投稿。

END

注明：TFM

Transformer 交流群

扫码备注拉你入群。

CV领域，Transformer在未来有可能替代CNN吗？相关推荐

如何看待Transformer在CV上的应用前景，未来有可能替代CNN吗？
链接:https://www.zhihu.com/question/437495132 编辑:深度学习与计算机视觉声明:仅做学术分享,侵删目前已经有基于Transformer在三大图像问题上的应用 ...
独家 | 为什么在CV（视觉识别）领域，Transformers正在缓慢逐步替代CNN？
作者:Pranoy Radhakrishnan 翻译:wwl 校对:王可汗本文约3000字,建议阅读10分钟本文讨论了Transformer模型应用在计算机视觉领域中和CNN的比较. 在认识Trans ...
CV领域Transformer之Self-Attention浅薄理解
CNN和Self-Attention的比较理解: 对于CNN而言,越深的网络关注的区域越大,因为其每一层网络都相当于不断的整合之前的信息.以3×3卷积为例,如下图所示:蓝色方框表示能看到原始图像多大的 ...
CV领域Transformer这一篇就够了（原理详解+pytorch代码复现）
文章目录前言一.注意力机制 1.1注意力机制通俗理解 1.2注意力机制计算公式 1.3注意力机制计算过程 1.4注意力机制代码二.自注意力机制 2.1 注意力机制和自注意力机制的区别 2.2 编 ...
Transformer在CV领域有可能替代CNN吗？还有哪些应用前景？
来源丨知乎问答编辑丨极市平台本文转自知乎问答,所有回答均已获得作者授权. 问题背景:目前已经有基于Transformer在三大图像问题上的应用:分类(ViT),检测(DETR)和分割(SETR), ...
Transformer在CV领域的优缺点
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档文章目录 Visual Transformer 具有如下较好的特性: 局限性参考:添加链接描述 Visual Transformer ...
DL之Transformer：Transformer的简介(优缺点/架构详解，基于Transformer的系列架构对比分析)、使用方法(NLP领域/CV领域)、案例应用之详细攻略
DL之Transformer:Transformer的简介(优缺点/架构详解,基于Transformer的系列架构对比分析).使用方法(NLP领域/CV领域).案例应用之详细攻略目录 Transfo ...
ViT：Transformer在CV领域的开山之作
ViT引发的变革 Transformer最开始是作为自然语言处理(英语: Natural Language Processing ,缩写作 NLP)领域的模型框架,在该领域其可谓大放异彩,然而自始至终 ...
一点就分享系列（理解篇3）—Cv任务“新世代”之Transformer（下篇）提前“cv领域展开”——快速学习“视觉transformer的理解”+“一些吐槽”
一点就分享系列(理解篇3)Cv任务"新世代"之Transformer(下篇)--"cv领域展开" 提示:本篇内容为下篇,如感兴趣可翻阅上和中篇! 理解篇3 上 ...

CV领域，Transformer在未来有可能替代CNN吗？

CV领域，Transformer在未来有可能替代CNN吗？相关推荐

最新文章

热门文章