新的 self-attention 网络结构,Visual Attention Network
随着现在大家把transformer 的各种结构玩成花以后,后面也没有出什么比较经典的结构了。然后研究者们就开始挖掘以前的网络结构特点,加上各种技巧提高网络准确度。比如前段时间的ConvNeXt,各种叠技巧最后冲的很好准确度。现在又出来一个新的网络结构:Visual Attention Network。作者提出了一种新的Large Kernel Attention (LKA)模块,以使self-attention的自适应和长距离相关,同时避免了上述问题。
与MobileNet相似,它将一个标准的卷积解耦为2个部分:depthwise convolution和pointwise convolution(也就是1x1Conv)。本文的方法将卷积分解为3部分:depthwise convolution、depthwise and dilated convolution、pointwise convolution。得益于这种分解,本文的方法更适合于高效地分解大型核卷积。作者还在方法中引入了注意力机制来获得自适应特征。
这里,是输入特征。表示注意力图。注意力图中的值表示每个特征的重要性。⊗指的是元素级的点乘。作者提出的LKA结合了卷积和自注意力的优点。它考虑了局部上下文信息、大的感受域和动态过程。
其中代码如下:
class AttentionModule(nn.Module):def __init__(self, dim):super().__init__()# depth-wise convolutionself.conv0 = nn.Conv2d(dim, dim, 5, padding=2, groups=dim)# depth-wise dilation convolutionself.conv_spatial = nn.Conv2d(dim, dim, 7, stride=1, padding=9, groups=dim, dilation=3)# channel convolution (1×1 convolution)self.conv1 = nn.Conv2d(dim, dim, 1)def forward(self, x):u = x.clone() attn = self.conv0(x)attn = self.conv_spatial(attn)attn = self.conv1(attn)return u * attn
其中我个人看来,该网络结构利用拆分进行了特征提取,在一般的网络结构都有这些结构了,作者提出了一个Large Kernel Attention的概念。
新的 self-attention 网络结构,Visual Attention Network相关推荐
- 【Attention】Visual Attention Network
文章目录 一.背景 二.动机 三.方法 3.1 Large Kernel Attention 3.2 VAN 四.效果 4.1 分类 4.2 目标检测 4.3 语义分割 论文链接:https://ar ...
- 【ARXIV2202】Visual Attention Network
[ARXIV2202]Visual Attention Network 论文地址:https://arxiv.org/abs/2202.09741 代码地址:https://github.com/Vi ...
- VAN:Visual Attention Network
Visual Attention Network [Submitted on 20 Feb 2022 (v1), last revised 11 Jul 2022 (this version, v5) ...
- 深度网络设计技巧(五)之VAN:Visual Attention Network#超越Swin的纯CNN#
单位:清华,南开(程明明团队) ArXiv:https://arxiv.org/abs/2202.09741 Github: https://github.com/Visual-Attention-N ...
- 计算机视觉中的注意力机制(Visual Attention)
,欢迎关注公众号:论文收割机(paper_reader) 原文链接:计算机视觉中的注意力机制(Visual Attention) 本文将会介绍计算机视觉中的注意力(visual attention)机 ...
- R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering
博主水平有限,大部分为机翻 摘要: 最近,视觉问答(VQA)已经成为多模式学习中最重要的任务之一,因为它需要理解视觉和文本模式.现有方法主要依靠提取图像和问题特征来通过多模态融合或注意机制来学习它们的 ...
- 2021CVPR-Coordinate Attention for Efficient Mobile Network Design 坐标注意力机制
前言 了解了SE和CBAM之后,Coordinate Attention(坐标注意)指出了前两者的一些缺点,并做出了一些改进,该篇论文发表于2021年CVPR Abstract 最近关于mobile ...
- 《A Model of Saliency-based Visual Attention for Rapid Scene Analysis》翻译和笔记
原文链接:A Model of Saliency-based Visual Attention for Rapid Scene Analysis 以机翻为主,人工校对. 摘要 A visual att ...
- 论文笔记:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answeri
Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering Hu ...
最新文章
- python创建对象后调用对象的方法,报错TypeError: getName() takes 0 positional arguments but 1 was given
- 我的世界javaui材质包怎么下载_【我的世界指南】七、使用皮肤
- 云服务双十一大促,最后选手阿里云上场!没有让等到最后的用户失望!
- java技术栈有哪些_Java程序员必备的21个核心技术,你都掌握了哪些?
- electron开发
- mysql记录当前表数据的数据条数据类型_mysql的表的操作 数据类型
- css sprite原理优缺点及使用
- 比反射更快:委托 第3部分
- 使用Django开发简单接口:文章增删改查
- AFNetworking框架下的SSL服务器证书的自定义验证
- Codeforces Round #716 (Div. 2), B. AND 0, Sum Big, 快速幂结论题
- jquery基础复习-index(),
- printline在C语言中的作用,iswprint - [ C语言中文开发手册 ] - 在线原生手册 - php中文网...
- 【优化算法】粒子群算法和混沌搜索协同优化算法【含Matlab源码 1299期】
- 常见电子元器件检测经验
- 常见的重要电脑英语及缩写
- SPSS之双独立样本的T检验
- android rom签名服务器,【精选】android_ROM分解定制签名教程.pdf
- C语言如何实现寻找峰值函数,findpeaks 寻找峰值函数
- 34岁IBM工程师电脑被抢身亡:以命相争背后,是无处安放的生活