Swin Transformer: Hierarchical Vision Transformer using Shifted Windows --论文解读

论文信息、概要

Swin transformer是微软今年三月25日公布的一篇利用transformer架构处理计算机视觉任务的论文。源码仅仅公布两天就在github上收获了2.2k个stars。它是我个人认为迄今为止用tranformer架构处理计算机视觉任务最有实用价值的一篇文章,在图像分割,目标检测各个领域已经霸榜,让很多人看到了transformer完全替代卷积的可能。而且它的设计思想吸取了resnet的精华,从局部到全局,将transformer设计成逐步扩大感受野的工具,它的成功背后绝不是偶然,而是厚厚的积累与沉淀。
论文链接https://arxiv.org/abs/2103.14030

总体结构

输入的图像先经过一层卷积进行patch映射,我有看过源代码,具体是将图像先分割成4×44\times44×4的小块,然后将每一个小块通过映射成一个像素点,进行了通道上的扩充。以swin-s为例,输入的224×224224\times224224×224图像经过这一步操作就变成了56×5656\times5656×56的特征图。特征图一开始开始输入到stage1,stage1由两层transformer组成,这两层transformer的核心一个是普通的window attention, 另一个是shift window attention。可以将window attention 和shift window attention视为两个模块,在每一个stage内部就是直接堆积这两个模块。然后在stage与stage之间要有一个pooling操作来降低要处理的数据的尺寸,也就是为了从一开始的局部信息搜索到全局信息的提取。当然这个pooling操作与传统卷积里面的pooling也不太一样,它是将特征图先经过一个space to depth变为14\frac{1}{4}41​,通道数变为原来的4倍,再又一个MLP缩减一半。也就是说没经过一个stage,总的数据量变为原来的12\frac{1}{2}21​。
此时可以很容易的看出,swin transformer和resnet一样设计的是一个层次结果很明显的网络,底部的结构处理的数据更多也更局部,顶部的网络处理的数据更少但是语义信息是更加丰富的。不同的是swin主要提取信息的方式是采用transformer,而resnet是卷积核。

window attention 和 shift window attention

如图,window attention就是按照一定的尺寸将图像划分为不同的window,每次transformer的attention只在window内部进行计算。那么如果只有window attention就会带来每一个像素点的感受野得不到提升的问题,所以它又设计了一个shift window attention的方法,就是换一下window划分的方式,让每一个像素点做attention计算的window块处于变化之中。那么就起到了提升感受野的作用。

存在的问题

在同尺寸通计算量的前提下,swin确实效果远好于resnet。但是有几个问题:
1. 受缚于shift操作,对不同尺寸的输入要设计不同的网络,而且也要重新开始训练,这是很难接受的。
2. 和Detr一样训练的时候收敛的太慢。我自己有训练了一下最小的swin-tiny版本,大概训练了一百多轮的时候也才到72~73左右。有这方面改进的想法的朋友可以和我交流,整一篇B类应该没问题。
3. shift操作其实主要是为了提升感受野,可以换一种更好的方式。在这个方面我也有一点思路,可以交流。

swin transformer解读相关推荐

  1. Swin Transformer论文解读

    文章目录 创新点 算法 Patch Merging W-MSA SW-MSA 位置偏置 结构变体 实验 ImageNet分类 COCO目标检测 ADE20K语义分割 消融实验 结论 论文: <S ...

  2. Swin Transformer全方位解读【ICCV2021马尔奖】

    前言 前言就是唠唠嗑,想看干货的可以直接看下一节. 今年ICCV的最佳论文还是给到了刷榜各大CV竞赛榜的模型Swin Transformer,研究团队来自MSRA(你大爷还是你大爷啊). 自从ViT. ...

  3. Swin Transformer V2论文解读

    文章目录 创新点 算法 Swin Transformer 放大模型能力 放大window分辨率 GPU内存消耗优化 引入自监督方法 模型 实验 图像分类 目标检测 语义分割 视频行为分类 消融实验 结 ...

  4. ICCV 2021 Best Paper | Swin Transformer何以屠榜各大CV任务!

    作者:陀飞轮@知乎(已授权) 来源:https://zhuanlan.zhihu.com/p/360513527 编辑:智源社区 近日,Swin Transformer拿到2021 ICCV Best ...

  5. 当Swin Transformer遇上DCN,效果惊人!

    来源:机器之心 Transformer 近来在各种视觉任务上表现出卓越的性能,感受野赋予 Transformer 比 CNN 更强的表征能力.然而,简单地扩大感受野会引起一些问题.一方面,使用密集注意 ...

  6. 【知乎热议】如何看待swin transformer成为ICCV2021的 best paper?

    编辑:深度学习技术前沿 转载请注明来源,谢谢! [导读]今年ICCV2021, 在所有被接收的论文中,来自中国的论文数量占比最高,达到了 43.2%,约为第二位美国(23.6%)的两倍.中国学者凭借S ...

  7. 超越Swin Transformer!谷歌提出了收敛更快、鲁棒性更强、性能更强的NesT

    [导读]谷歌&罗格斯大学的研究员对ViT领域的分层结构设计进行了反思与探索,提出了一种简单的结构NesT,方法凭借68M参数取得了超越Swin Transformer的性能. 文章链接:htt ...

  8. Swin Transformer对CNN的降维打击

    一.前言 一张图告诉你Transformer现在是多么的强!几乎包揽了ADE20K语义分割的前几名! 该文章详细解读Swin-transformer的相关内容以及高明之处.看完学不会,你在评论区打我! ...

  9. 专访 Swin Transformer 作者胡瀚:面向计算机视觉中的「开放问题」 原创

    文 | 刘冰一.Echo 编辑 | 极市平台 本文原创首发于极市平台,转载请获得授权并标明出处. 胡瀚,湖北潜江人,本博均毕业于清华大学自动化系,曾就职于百度研究院深度学习实验室,目前任职于微软亚洲研 ...

  10. 当Swin Transformer遇上DCN,清华可变形注意力Transformer模型优于多数ViT

    ©作者 | 小舟 来源 | 机器之心 本文中,来自清华大学.AWS AI 和北京智源人工智能研究院的研究者提出了一种新型可变形自注意力模块,其中以数据相关的方式选择自注意力中键值对的位置,使得自注意力 ...

最新文章

  1. 计算机组成原理小论文参考文献,急!···跪求.《计算机组成原理》--论文--一篇...
  2. 《LeetCode力扣练习》剑指 Offer 06. 从尾到头打印链表 Java
  3. jdk1.8.0_45源码解读——Map接口和AbstractMap抽象类的实现
  4. 重构-改善既有代码的设计:简化函数调用 (八)
  5. 【Socket网络编程】6.两个既能收也能发的udp客户端进行通信的原理
  6. 面试官 | SpringBoot 中如何实现异步请求和异步调用?
  7. 最大正方形(洛谷-P1387)
  8. 推荐一些好书(PHP方向)
  9. 通过Flex布局实现三等分
  10. office起动缓慢_如何解决Microsoft Outlook启动缓慢的问题
  11. TeamTalk IM_PDUBASE详解
  12. java mongodb avg_Java-mongodb-AggregationOutput(分组、统计)
  13. 价值连城的精确短线交易技术--Gartley“222”
  14. GDK动态代理原理分析
  15. 数贝携手付晓岩老师带你玩转“企业架构”
  16. SpringBoot JPA 懒加载的问题 ---No session
  17. [HAOI2008] 排名系统
  18. 深拷贝和浅拷贝的几种方法
  19. PLC模拟量输出 模拟量输出FB(FX3U连接FX2N-2DA)
  20. ArcGIS如何创建渔网?渔网不见了。

热门文章

  1. outland服务器注册,Warmane TBC服(Outland)5月20日正式开服 规则介绍与问答
  2. 计算机毕业设计android的酒店客房预订客户端app(源码+系统+mysql数据库+Lw文档)
  3. 从Ping-Pong消息学习Gossip协议
  4. 明日之后 服务器维护,明日之后服务器爆满炸服 排队等待进不去什么梗
  5. 用 JAVA 开发游戏连连看
  6. 「津津乐道播客」#309 厂长来了:我们买买买了这么多年,然后呢?(feat. 只二)...
  7. 评弱水三千,该取几瓢饮?———贪恋还是专情
  8. java 某年某月的天数_1160-C语言实验——某年某月的天数-JAVA
  9. 动态图片怎么制作 html,怎么制作动态图片
  10. 一班洽谈框架细化_细化结构图让文章结构更清晰 邱晓风