论文:https://readpaper.com/paper/633541619879256064

代码:https://github.com/Chenglin-Yang/LVT

1、研究动机

尽管ViT模型在各种视觉任务中效果显著,但是目前轻量级的ViT模型在局部区域效果不理想,作者认为:自注意力机制在浅层网络有局限性(Self-attention mechanism is limited in shallower and thinner networks)。为此,作者提出一种 light yet effective vision transformer 可以应用于移动设备(Lite Vision Transformer, LVT),具有标准的 four-stage 结构,但是和 MobileNetV2 和 PVTv2-B0 含有相同的参数量。 作者主要提出了两种新的 attention 模块:Convolutional Self-Attention (CSA) 和 Recursive Atrous Self-Attention (RASA) 。下面分别介绍 CSA 模块和 RASA 模块。

2、Convolutional Self-Attention (CSA)

流程如上图所示,基本流程是:

  • 计算similarity(即代码中的attn): 将 (hw/4, c) 的矩阵通过1x1卷积变为 (hw/4, k^2, k^2)。
  • 计算V: 生成一个(hw/4, c, k^2)的矩阵,然后reshape通过1x1的卷积改变通道数(图中为BMM),得到(hw/4, k^2, c_out)的矩阵。
  • 矩阵乘法,similarity 和 v 相乘,得到 (hw/4, k^2, c_out)
  • 使用 fold 变换得到输出

从代码上来看,CSA 的代码比 VOLO 更复杂,但本质上貌似没有不同(也许是我的理解还不到位)。而且,我感觉 CSA 的代码没有 VOLO 简洁。感兴趣的可以参考《VOLO: Vision Outlooker for Visual Recognition》这篇论文及网上代码。

3、Recursive Atrous Self-Attention (RASA)

首先介绍 ASA,与普通的attention计算不同的地方在于:作者在计算Q时,采用了多尺度空洞卷积。卷积权重共享,降低了参数。

同时,作者使用了 recursive 操作。每个block里,ASA 迭代两次。

4、实验分析

网络采用了4阶段的架构。第一阶段使用CSA,其他阶段使用RASA。

在 ImageNet 的实验结果表明,当参数量与 MobileNetV2 和 PVTv2-B0 相当时,本方法准确率显著较高。同时,增大到与ResNet50参数量接近时,本方法性能显著超越了当前方法。

其它部分可以参考作者论文,这里不再多说。

【CVPR2022】Lite Vision Transformer with Enhanced Self-Attention相关推荐

  1. CV-Model【6】:Vision Transformer

    系列文章目录 Transformer 系列网络(一): CV-Model[5]:Transformer Transformer 系列网络(二): CV-Model[6]:Vision Transfor ...

  2. 【Timm】搭建Vision Transformer系列实践,终于见面了,Timm库!

    前言:工具用不好,万事都烦恼,原本真的就是很简单的一个思路实现,偏偏绕了一圈又一圈,今天就来认识认识Timm库吧! 目录 1.百度飞桨提供的-从零开始学视觉Transformer 2.资源:视觉Tra ...

  3. 【神经网络】2021-ICCV-Pyramid Vision Transformer:用于无卷积密集预测的多功能骨干

    2021-ICCV-Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions ...

  4. 【Transformer】CrossFormer:A versatile vision transformer based on cross-scale attention

    文章目录 一.背景 二.动机 三.方法 3.1 Cross-scale Embedding Layer(CEL) 3.2 Cross-former Block 3.2.1 Long Short Dis ...

  5. 【CVPR2022】用于域适应语义分割的域无关先验

    摘要:本文给大家分享一篇我们在CVPR 2022 上发表的paper:Domain-Agnostic Prior for Transfer Semantic Segmentation.文章提出了一种图 ...

  6. 【AAAI2021】Dual-Level Collaborative Transformer for Image Captioning

    [AAAI2021]Dual-Level Collaborative Transformer for Image Captioning 附: 论文下载地址 附: 代码下载地址 论文主要贡献 提出了一种 ...

  7. 【CVPR2022】Detecting Camouflaged Object in Frequency Domain

    [CVPR2022]Detecting Camouflaged Object in Frequency Domain 论文有一个非官方的实现:https://github.com/VisibleShad ...

  8. 【NeurIPS2022】Cross Aggregation Transformer for Image Restoration

    [NeurIPS2022]Cross Aggregation Transformer for Image Restoration **研究动机:**当前方法 Transformer 方法把图像分成8x ...

  9. 论文阅读 【CVPR-2022】 A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation

    论文阅读 [CVPR-2022] A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation st ...

最新文章

  1. sed 命令自己总结
  2. python工程师月薪多少-Python全栈工程师为何这么火薪资这么高看了才知道
  3. 《深入理解Java虚拟机》读书笔记
  4. 通过#define连接字符串的特殊方法[转]
  5. linux 卸载skype,如何将Skype与Ubuntu Unity集成 | MOS86
  6. 小数乘分数怎么算过程_广东新高考分数怎么算
  7. 在线文本转2-36任意进制工具
  8. 从编译器角度分析C语言中数组名和指针的区别
  9. ArcGIS 10.2.2 for Desktop非管理员权限用户连接Oracle12c,崩溃
  10. sublime快速打开终端terminal
  11. 自动生成html_服务搭建篇二·Jenkins+Jmeter+Gitlab持续集成实现接口流程自动化
  12. std::string.assign()的用法-爱情滕-搜狐博客
  13. winRAR 破解注册码
  14. 利用百度地图获取行政区边界的经纬度信息
  15. 紧急重要四象限软件用哪款便签软件?
  16. 频繁默认网关不可用_老是默认网关不可用,默认网关不可用总掉线解决方法
  17. Caused by: java.lang.Error: Unresolved compilation problems:解决办法
  18. 修改tomcat的默认端口号是在tomcat的哪个配置文件里面?
  19. python写出雷霆战机_利用Python自制雷霆战机小游戏,娱乐编程,快乐学习!
  20. 自建局域网 OTA 服务器

热门文章

  1. 年薪50万-200万招人!
  2. 2021年市政方向-通用基础(施工员)考试题库及市政方向-通用基础(施工员)考试技巧
  3. linux shell中 '' ``的区别
  4. Linux:vim编辑时遇到E325: ATTENTION Found 错误代码的解决办法
  5. autohotkey实现自动totalcmd 8.52点击未激活提示窗口
  6. 博客接龙:闲话网名之卡拉不是狗
  7. C语言:英文单词小助手
  8. 教你用flash打造梦幻仙境效果
  9. 甘肃临洮玉琢冰雕造“梦幻仙境”
  10. 我在叽里呱啦折腾 DolphinScheduler 的日子