随着现在大家把transformer 的各种结构玩成花以后,后面也没有出什么比较经典的结构了。然后研究者们就开始挖掘以前的网络结构特点,加上各种技巧提高网络准确度。比如前段时间的ConvNeXt,各种叠技巧最后冲的很好准确度。现在又出来一个新的网络结构:Visual Attention Network。作者提出了一种新的Large Kernel Attention (LKA)模块,以使self-attention的自适应和长距离相关,同时避免了上述问题。

与MobileNet相似,它将一个标准的卷积解耦为2个部分:depthwise convolution和pointwise convolution(也就是1x1Conv)。本文的方法将卷积分解为3部分:depthwise convolution、depthwise and dilated convolution、pointwise convolution。得益于这种分解,本文的方法更适合于高效地分解大型核卷积。作者还在方法中引入了注意力机制来获得自适应特征。

这里,是输入特征。表示注意力图。注意力图中的值表示每个特征的重要性。⊗指的是元素级的点乘。作者提出的LKA结合了卷积和自注意力的优点。它考虑了局部上下文信息、大的感受域和动态过程。

其中代码如下:

class AttentionModule(nn.Module):def __init__(self, dim):super().__init__()# depth-wise convolutionself.conv0 = nn.Conv2d(dim, dim, 5, padding=2, groups=dim)# depth-wise dilation convolutionself.conv_spatial = nn.Conv2d(dim, dim, 7, stride=1, padding=9, groups=dim, dilation=3)# channel convolution (1×1 convolution)self.conv1 = nn.Conv2d(dim, dim, 1)def forward(self, x):u = x.clone()        attn = self.conv0(x)attn = self.conv_spatial(attn)attn = self.conv1(attn)return u * attn

其中我个人看来,该网络结构利用拆分进行了特征提取,在一般的网络结构都有这些结构了,作者提出了一个Large Kernel Attention的概念。

新的 self-attention 网络结构,Visual Attention Network相关推荐

  1. 【Attention】Visual Attention Network

    文章目录 一.背景 二.动机 三.方法 3.1 Large Kernel Attention 3.2 VAN 四.效果 4.1 分类 4.2 目标检测 4.3 语义分割 论文链接:https://ar ...

  2. 【ARXIV2202】Visual Attention Network

    [ARXIV2202]Visual Attention Network 论文地址:https://arxiv.org/abs/2202.09741 代码地址:https://github.com/Vi ...

  3. VAN:Visual Attention Network

    Visual Attention Network [Submitted on 20 Feb 2022 (v1), last revised 11 Jul 2022 (this version, v5) ...

  4. 深度网络设计技巧(五)之VAN:Visual Attention Network#超越Swin的纯CNN#

    单位:清华,南开(程明明团队) ArXiv:https://arxiv.org/abs/2202.09741 Github: https://github.com/Visual-Attention-N ...

  5. 计算机视觉中的注意力机制(Visual Attention)

    ,欢迎关注公众号:论文收割机(paper_reader) 原文链接:计算机视觉中的注意力机制(Visual Attention) 本文将会介绍计算机视觉中的注意力(visual attention)机 ...

  6. R-VQA: Learning Visual Relation Facts with Semantic Attention for Visual Question Answering

    博主水平有限,大部分为机翻 摘要: 最近,视觉问答(VQA)已经成为多模式学习中最重要的任务之一,因为它需要理解视觉和文本模式.现有方法主要依靠提取图像和问题特征来通过多模态融合或注意机制来学习它们的 ...

  7. 2021CVPR-Coordinate Attention for Efficient Mobile Network Design 坐标注意力机制

    前言 了解了SE和CBAM之后,Coordinate Attention(坐标注意)指出了前两者的一些缺点,并做出了一些改进,该篇论文发表于2021年CVPR Abstract 最近关于mobile ...

  8. 《A Model of Saliency-based Visual Attention for Rapid Scene Analysis》翻译和笔记

    原文链接:A Model of Saliency-based Visual Attention for Rapid Scene Analysis 以机翻为主,人工校对. 摘要 A visual att ...

  9. 论文笔记:Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answeri

    Ask, Attend and Answer: Exploring Question-Guided Spatial Attention for Visual Question Answering Hu ...

最新文章

  1. python创建对象后调用对象的方法,报错TypeError: getName() takes 0 positional arguments but 1 was given
  2. 我的世界javaui材质包怎么下载_【我的世界指南】七、使用皮肤
  3. 云服务双十一大促,最后选手阿里云上场!没有让等到最后的用户失望!
  4. java技术栈有哪些_Java程序员必备的21个核心技术,你都掌握了哪些?
  5. electron开发
  6. mysql记录当前表数据的数据条数据类型_mysql的表的操作 数据类型
  7. css sprite原理优缺点及使用
  8. 比反射更快:委托 第3部分
  9. 使用Django开发简单接口:文章增删改查
  10. AFNetworking框架下的SSL服务器证书的自定义验证
  11. Codeforces Round #716 (Div. 2), B. AND 0, Sum Big, 快速幂结论题
  12. jquery基础复习-index(),
  13. printline在C语言中的作用,iswprint - [ C语言中文开发手册 ] - 在线原生手册 - php中文网...
  14. 【优化算法】粒子群算法和混沌搜索协同优化算法【含Matlab源码 1299期】
  15. 常见电子元器件检测经验
  16. 常见的重要电脑英语及缩写
  17. SPSS之双独立样本的T检验
  18. android rom签名服务器,【精选】android_ROM分解定制签名教程.pdf
  19. C语言如何实现寻找峰值函数,findpeaks 寻找峰值函数
  20. 34岁IBM工程师电脑被抢身亡:以命相争背后,是无处安放的生活

热门文章

  1. 碎片化学前端,推荐这几位大前端巨佬~
  2. 名人励志故事:比起点更重要的是梦想
  3. css阴影遮盖其他组件
  4. Arduino项目实战——基于Arduino【智能垃圾桶】设计
  5. PyQt5 教程 《绘画》
  6. 【Redis】什么是渐进式rehash
  7. 赋值运算符和逻辑运算符
  8. 今年双庆的日子快到啦!你买月饼了吗?使用Python来分析一下今年月饼销售数据如何!
  9. PYTHON代码换行的几种方式
  10. 科技创业新锐企业给予奖杯及一次性20万元资金扶持