新的 self-attention 网络结构，Visual Attention Network

随着现在大家把transformer 的各种结构玩成花以后，后面也没有出什么比较经典的结构了。然后研究者们就开始挖掘以前的网络结构特点，加上各种技巧提高网络准确度。比如前段时间的ConvNeXt，各种叠技巧最后冲的很好准确度。现在又出来一个新的网络结构：Visual Attention Network。作者提出了一种新的Large Kernel Attention (LKA)模块，以使self-attention的自适应和长距离相关，同时避免了上述问题。

与MobileNet相似，它将一个标准的卷积解耦为2个部分：depthwise convolution和pointwise convolution(也就是1x1Conv)。本文的方法将卷积分解为3部分:depthwise convolution、depthwise and dilated convolution、pointwise convolution。得益于这种分解，本文的方法更适合于高效地分解大型核卷积。作者还在方法中引入了注意力机制来获得自适应特征。

这里，是输入特征。表示注意力图。注意力图中的值表示每个特征的重要性。⊗指的是元素级的点乘。作者提出的LKA结合了卷积和自注意力的优点。它考虑了局部上下文信息、大的感受域和动态过程。

其中代码如下：

class AttentionModule(nn.Module):def __init__(self, dim):super().__init__()# depth-wise convolutionself.conv0 = nn.Conv2d(dim, dim, 5, padding=2, groups=dim)# depth-wise dilation convolutionself.conv_spatial = nn.Conv2d(dim, dim, 7, stride=1, padding=9, groups=dim, dilation=3)# channel convolution (1×1 convolution)self.conv1 = nn.Conv2d(dim, dim, 1)def forward(self, x):u = x.clone()        attn = self.conv0(x)attn = self.conv_spatial(attn)attn = self.conv1(attn)return u * attn

其中我个人看来，该网络结构利用拆分进行了特征提取，在一般的网络结构都有这些结构了，作者提出了一个Large Kernel Attention的概念。

新的 self-attention 网络结构，Visual Attention Network相关推荐

【Attention】Visual Attention Network
文章目录一.背景二.动机三.方法 3.1 Large Kernel Attention 3.2 VAN 四.效果 4.1 分类 4.2 目标检测 4.3 语义分割论文链接:https://ar ...
【ARXIV2202】Visual Attention Network
[ARXIV2202]Visual Attention Network 论文地址:https://arxiv.org/abs/2202.09741 代码地址:https://github.com/Vi ...
VAN：Visual Attention Network
Visual Attention Network [Submitted on 20 Feb 2022 (v1), last revised 11 Jul 2022 (this version, v5) ...
深度网络设计技巧(五)之VAN：Visual Attention Network#超越Swin的纯CNN#
单位:清华,南开(程明明团队) ArXiv:https://arxiv.org/abs/2202.09741 Github: https://github.com/Visual-Attention-N ...
计算机视觉中的注意力机制（Visual Attention）
,欢迎关注公众号:论文收割机(paper_reader) 原文链接:计算机视觉中的注意力机制(Visual Attention) 本文将会介绍计算机视觉中的注意力(visual attention)机 ...
R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering
博主水平有限,大部分为机翻摘要: 最近,视觉问答(VQA)已经成为多模式学习中最重要的任务之一,因为它需要理解视觉和文本模式.现有方法主要依靠提取图像和问题特征来通过多模态融合或注意机制来学习它们的 ...
2021CVPR-Coordinate Attention for Efficient Mobile Network Design 坐标注意力机制
前言了解了SE和CBAM之后,Coordinate Attention(坐标注意)指出了前两者的一些缺点,并做出了一些改进,该篇论文发表于2021年CVPR Abstract 最近关于mobile ...
《A Model of Saliency-based Visual Attention for Rapid Scene Analysis》翻译和笔记
原文链接:A Model of Saliency-based Visual Attention for Rapid Scene Analysis 以机翻为主,人工校对. 摘要 A visual att ...
论文笔记:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answeri
Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering Hu ...

新的 self-attention 网络结构，Visual Attention Network

新的 self-attention 网络结构，Visual Attention Network相关推荐

最新文章

热门文章