根据上述代码的前向,我们可以了解到Swin Transformer Block的整体流程如下:

  • 先对特征图做norm;
  • 通过shift_size参数决定是否需要对特征图进行shift操作;
  • 然后将特征图进行窗口划分;

  • 计算attention,通过attn_mask来区分是Window Attention还是Shift Window Attention,用于限制attention中每个位置能看到的内容;
  • 合并各个窗口;
  • 如果之前做了shift操作,进行reverse shift,将之前的shift操作进行恢复;
  • droppath和残差链接;
  • 再通过一层norm+全连接层,以及droppath和残差连接。

【Swin Transformer Block】的整体流程如下:相关推荐

  1. 【深度学习】论文阅读:(ICCV-2021))Swin Transformer

    这里写目录标题 论文详情 VIT缺点 改进点 概述 核心思想 整体结构 名称解释 Window.Patch.Token 与vit区别 结构过程 Patch Embedding BasicLayer P ...

  2. VIT与swin transformer

    VIT VIT也就是vision transformer的缩写.是第一种将transformer运用到计算机视觉的网络架构.其将注意力机制也第一次运用到了图片识别上面.其结构图如下(采用的是paddl ...

  3. 13、Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    简介 主页:https://github. com/microsoft/Swin-Transformer. Swin Transformer 是 2021 ICCV最佳论文,屠榜了各大CV任务,性能优 ...

  4. 霸榜各大CV任务榜单,Swin Transformer横空出世!

    1. ImageNet-1K的图像分类 Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 一元@炼丹笔记 ...

  5. 论文阅读 - Video Swin Transformer

    文章目录 1 概述 2 模型介绍 2.1 整体架构 2.1.1 backbone 2.1.2 head 2.2 模块详述 2.2.1 Patch Partition 2.2.2 3D Patch Me ...

  6. 【读点论文】Swin Transformer: Hierarchical Vision Transformer using Shifted Windows通过窗口化进行局部MSA,sw-MSA融合信息

    Swin Transformer: Hierarchical Vision Transformer using Shifted Windows abstract 本文提出了一种新的视觉transfor ...

  7. 论文精读:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    Abstract 本文提出了一种新的vision Transformer,称为Swin Transformer,它能够作为计算机视觉的通用骨干网络.从语言到视觉的挑战来自于这两个领域之间的差异,比如视 ...

  8. Swin Transformer详解: Hierarchical Vision Transformer using Shifted Windows

    这篇文章结合了CNN的归纳偏置,基于局部窗口做注意力,并且逐步融合到深层transformer层中构建表征,来达到扩大感受野,并且极大降低了计算量.是一个特征提取的主干网络,backbone.构建了一 ...

  9. 论文阅读笔记:Swin Transformer: Hierarchical Vision Transformer using Shifted Windows

    论文阅读笔记:Swin Transformer 摘要 1 简介 2 相关工作 3 方法论 3.1 总览 Swin Transformer block 3.2 shifted window-based ...

最新文章

  1. Spring Security 和 Apache Shiro
  2. 局部刷新时间 jsp_局部区块多个报表 TAB 页切换及局部区块的参数查询
  3. 徘徊于win和ubuntu
  4. python网课一般多少钱-Python培训网课一般学费多少?毕业生能承担吗?
  5. svn 413 Request Entity Too Large 错误的解决方法
  6. 解决2次查询User的问题(ThreadLocal)
  7. [资源]基于 Pytorch 的 TorchGAN开源了!
  8. 如何利用navicat可视化软件添加与新建mysql数据库
  9. AO如何获取SDE数据库中的数据
  10. Unity自动修复Sentinel key not found (h0007)错误
  11. 回头看看中国互联网二十年,未来很清晰
  12. java struts2教程_Struts2学习教程之入门小白的开始基础
  13. GCC、GNU到底啥意思?
  14. 支付宝 java 签名_支付宝APP支付(Java后台生成签名具体步骤)
  15. hello.c的一生
  16. 服务器上Kafka启动报错:error=‘Cannot allocate memory‘ (errno=12)
  17. WuThreat身份安全云-TVD每日漏洞情报-2022-12-22
  18. 基于黄金正弦与自适应融合的蜉蝣优化算法
  19. TCP-实现英译汉服务器客户端(多进程/多线程)
  20. python定时任务巡检写入excel_Python巡检关于Excel表格操作

热门文章

  1. 深入掌握JMS(七):DeliveryMode例子
  2. Wasserstein GAN
  3. Vim/Vi实用技巧(第二版)
  4. 前端小白进阶笔记之多级菜单分享
  5. php中函数前加符号的作用分解
  6. 《OOD启思录》—第2章2.6节角色与类
  7. route 更改网络设置
  8. 《0bug-C/C++商用工程之道》节选01--内存栈-1
  9. 毕业准备:外企面试--基本涵盖了所有问题【附带有答案版本】
  10. ZZULIOJ 1075: 聚餐人数统计