【CVPR2022】Lite Vision Transformer with Enhanced Self-Attention
论文:https://readpaper.com/paper/633541619879256064
代码:https://github.com/Chenglin-Yang/LVT
1、研究动机
尽管ViT模型在各种视觉任务中效果显著,但是目前轻量级的ViT模型在局部区域效果不理想,作者认为:自注意力机制在浅层网络有局限性(Self-attention mechanism is limited in shallower and thinner networks)。为此,作者提出一种 light yet effective vision transformer 可以应用于移动设备(Lite Vision Transformer, LVT),具有标准的 four-stage 结构,但是和 MobileNetV2 和 PVTv2-B0 含有相同的参数量。 作者主要提出了两种新的 attention 模块:Convolutional Self-Attention (CSA) 和 Recursive Atrous Self-Attention (RASA) 。下面分别介绍 CSA 模块和 RASA 模块。
2、Convolutional Self-Attention (CSA)
流程如上图所示,基本流程是:
- 计算similarity(即代码中的attn): 将 (hw/4, c) 的矩阵通过1x1卷积变为 (hw/4, k^2, k^2)。
- 计算V: 生成一个(hw/4, c, k^2)的矩阵,然后reshape通过1x1的卷积改变通道数(图中为BMM),得到(hw/4, k^2, c_out)的矩阵。
- 矩阵乘法,similarity 和 v 相乘,得到 (hw/4, k^2, c_out)
- 使用 fold 变换得到输出
从代码上来看,CSA 的代码比 VOLO 更复杂,但本质上貌似没有不同(也许是我的理解还不到位)。而且,我感觉 CSA 的代码没有 VOLO 简洁。感兴趣的可以参考《VOLO: Vision Outlooker for Visual Recognition》这篇论文及网上代码。
3、Recursive Atrous Self-Attention (RASA)
首先介绍 ASA,与普通的attention计算不同的地方在于:作者在计算Q时,采用了多尺度空洞卷积。卷积权重共享,降低了参数。
同时,作者使用了 recursive 操作。每个block里,ASA 迭代两次。
4、实验分析
网络采用了4阶段的架构。第一阶段使用CSA,其他阶段使用RASA。
在 ImageNet 的实验结果表明,当参数量与 MobileNetV2 和 PVTv2-B0 相当时,本方法准确率显著较高。同时,增大到与ResNet50参数量接近时,本方法性能显著超越了当前方法。
其它部分可以参考作者论文,这里不再多说。
【CVPR2022】Lite Vision Transformer with Enhanced Self-Attention相关推荐
- CV-Model【6】:Vision Transformer
系列文章目录 Transformer 系列网络(一): CV-Model[5]:Transformer Transformer 系列网络(二): CV-Model[6]:Vision Transfor ...
- 【Timm】搭建Vision Transformer系列实践,终于见面了,Timm库!
前言:工具用不好,万事都烦恼,原本真的就是很简单的一个思路实现,偏偏绕了一圈又一圈,今天就来认识认识Timm库吧! 目录 1.百度飞桨提供的-从零开始学视觉Transformer 2.资源:视觉Tra ...
- 【神经网络】2021-ICCV-Pyramid Vision Transformer:用于无卷积密集预测的多功能骨干
2021-ICCV-Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions ...
- 【Transformer】CrossFormer:A versatile vision transformer based on cross-scale attention
文章目录 一.背景 二.动机 三.方法 3.1 Cross-scale Embedding Layer(CEL) 3.2 Cross-former Block 3.2.1 Long Short Dis ...
- 【CVPR2022】用于域适应语义分割的域无关先验
摘要:本文给大家分享一篇我们在CVPR 2022 上发表的paper:Domain-Agnostic Prior for Transfer Semantic Segmentation.文章提出了一种图 ...
- 【AAAI2021】Dual-Level Collaborative Transformer for Image Captioning
[AAAI2021]Dual-Level Collaborative Transformer for Image Captioning 附: 论文下载地址 附: 代码下载地址 论文主要贡献 提出了一种 ...
- 【CVPR2022】Detecting Camouflaged Object in Frequency Domain
[CVPR2022]Detecting Camouflaged Object in Frequency Domain 论文有一个非官方的实现:https://github.com/VisibleShad ...
- 【NeurIPS2022】Cross Aggregation Transformer for Image Restoration
[NeurIPS2022]Cross Aggregation Transformer for Image Restoration **研究动机:**当前方法 Transformer 方法把图像分成8x ...
- 论文阅读 【CVPR-2022】 A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation
论文阅读 [CVPR-2022] A Simple Multi-Modality Transfer Learning Baseline for Sign Language Translation st ...
最新文章
- sed 命令自己总结
- python工程师月薪多少-Python全栈工程师为何这么火薪资这么高看了才知道
- 《深入理解Java虚拟机》读书笔记
- 通过#define连接字符串的特殊方法[转]
- linux 卸载skype,如何将Skype与Ubuntu Unity集成 | MOS86
- 小数乘分数怎么算过程_广东新高考分数怎么算
- 在线文本转2-36任意进制工具
- 从编译器角度分析C语言中数组名和指针的区别
- ArcGIS 10.2.2 for Desktop非管理员权限用户连接Oracle12c,崩溃
- sublime快速打开终端terminal
- 自动生成html_服务搭建篇二·Jenkins+Jmeter+Gitlab持续集成实现接口流程自动化
- std::string.assign()的用法-爱情滕-搜狐博客
- winRAR 破解注册码
- 利用百度地图获取行政区边界的经纬度信息
- 紧急重要四象限软件用哪款便签软件?
- 频繁默认网关不可用_老是默认网关不可用,默认网关不可用总掉线解决方法
- Caused by: java.lang.Error: Unresolved compilation problems:解决办法
- 修改tomcat的默认端口号是在tomcat的哪个配置文件里面?
- python写出雷霆战机_利用Python自制雷霆战机小游戏,娱乐编程,快乐学习!
- 自建局域网 OTA 服务器
热门文章
- 年薪50万-200万招人!
- 2021年市政方向-通用基础(施工员)考试题库及市政方向-通用基础(施工员)考试技巧
- linux shell中 '' ``的区别
- Linux:vim编辑时遇到E325: ATTENTION Found 错误代码的解决办法
- autohotkey实现自动totalcmd 8.52点击未激活提示窗口
- 博客接龙:闲话网名之卡拉不是狗
- C语言:英文单词小助手
- 教你用flash打造梦幻仙境效果
- 甘肃临洮玉琢冰雕造“梦幻仙境”
- 我在叽里呱啦折腾 DolphinScheduler 的日子