Swin transformer 简单理解

2024-05-11 02:56:33

但其原生Self-Attention 的计算复杂度问题一直没有得到解决，Self-Attention 需要对输入的所有N个 token 计算 [公式] 大小的相互关系矩阵，考虑到视觉信息本来就就是二维（图像）甚至三维（视频），分辨率稍微高一点这计算量就很难低得下来。

Swin Transformer 想要解决的计算复杂度的问题。

1. 网络结构

简单来说就是，原生 Transformer 对 N 个 token 做 Self-Attention ，复杂度为 O ( N 2 ) O(N^2) O(N2) ，

Swin Transformer 将 N 个 token 拆为 N/n 组，（n设为常数 ;

每组 n个token 进行计算，复杂度降为 O ( N ∗ n 2 ) O(N*n^2) O(N∗n2) ，考虑到 n 是常数，那么复杂度其实为 O ( N ) O(N) O(N) 。

2. 两个问题

分组计算的方式虽然大大降低了 Self-Attention 的复杂度，但与此同时，有两个问题需要解决，

其一是分组后 Transformer 的视野局限于 n 个token，看不到全局信息；
其二是组与组之间的信息缺乏交互。

2.1 分层

对于问题一，Swin Transformer 的解决方案即 Hierarchical，每个 stage 后对 2x2 组的特征向量进行融合和压缩（空间尺寸 H ∗ W − > H 2 ∗ W 2 H * W -> \frac{H}{2} * \frac{W}{2} H∗W−>2H∗2W，特征维度 $ C-> 4C -> 2C$），这样视野就和 CNN-based 的结构一样，随着 stage 逐渐变大。

2.2 shifted windows;

对于问题二，Swin Transformer 的解决方法是 Shifted Windows，如下图所示：

通过 Shifted Windows 的方式，使相邻的组（patch）进行信息交互，思想上其实和shufflenet 类似，不过这里是空间邻接上的shuffle，而shufflenet是通道维度的shuffle。

此外还有一个细节就是在计算 Self-Attention 时，使用了 Relative position bias,

B 为可学习的参数，作用与 Local Relation Networks for Image Recognition中的Geometry Prior 类似。

Swin transformer 简单理解相关推荐

《预训练周刊》第29期：Swin Transformer V2：扩大容量和分辨率、SimMIM：用于遮蔽图像建模的简单框架...
No.29 智源社区预训练组预训练研究观点资源活动关于周刊本期周刊,我们选择了10篇预训练相关的论文,涉及图像处理.图像屏蔽编码.推荐系统.语言模型解释.多模态表征.多语言建模.推 ...
AI绘画能力的起源：通俗理解VAE、扩散模型DDPM、DETR、ViT/Swin transformer
前言 2018年我写过一篇博客,叫:<一文读懂目标检测:R-CNN.Fast R-CNN.Faster R-CNN.YOLO.SSD>,该文相当于梳理了2019年之前CV领域的典型视觉模型 ...
有关swin transformer相对位置编码的理解：
有关swin transformer相对位置编码的理解: 假设window_size是7*7 那么窗口中共有49个patch,共有49*49个相对位置,每个相对位置有两个索引对应x和y两个方向,每个索 ...
《预训练周刊》第29期：Swin Transformer V2：扩大容量和分辨率、SimMIM：用于遮蔽图像建模的简单框架
关于周刊本期周刊,我们选择了10篇预训练相关的论文,涉及图像处理.图像屏蔽编码.推荐系统.语言模型解释.多模态表征.多语言建模.推理优化.细胞抗原预测.蛋白结构理解和化学反应的探索.此外,在资源分享 ...
Swin Transformer原文及其代码的理解
Swin Transformer原文及其代码的理解第一版更好的排版笔记:Notion 名词解释基础知识: 搞懂Vision Transformer 原理和代码,看这篇技术综述就够了(三) tok ...
【深度学习入门基础】二、简单理解 Transformer
[深度学习入门基础]二.简单理解 Transformer 文章目录 [深度学习入门基础]二.简单理解 Transformer 自注意力层多头注意力 Transformer 输入(输出)嵌入位置编码 ...
Swin Transformer: Hierarchical Vision Transformer using Shifted Windows 阅读理解
原文地址:https://arxiv.org/pdf/2103.14030.pdf 收录:CVPR 2021 Best paper 代码: https://github.com/microsoft/S ...
超越Swin Transformer！谷歌提出了收敛更快、鲁棒性更强、性能更强的NesT
[导读]谷歌&罗格斯大学的研究员对ViT领域的分层结构设计进行了反思与探索,提出了一种简单的结构NesT,方法凭借68M参数取得了超越Swin Transformer的性能. 文章链接:htt ...
论文阅读 - Video Swin Transformer
文章目录 1 概述 2 模型介绍 2.1 整体架构 2.1.1 backbone 2.1.2 head 2.2 模块详述 2.2.1 Patch Partition 2.2.2 3D Patch Me ...

最新文章

热门文章