摘要

最近关于移动网络设计的研究已经证明了通道注意(例如,挤压和激发注意)对于提升模型性能的显著效果,但是它们通常忽略位置信息,而位置信息对于生成空间选择性注意图是重要的。本文提出了一种新的移动网络注意机制,将位置信息嵌入到信道注意中,我们称之为“协同注意”。与通过2D全局汇集将特征张量转换为单个特征向量的通道注意力不同,坐标注意力将通道注意力分解为两个1D特征编码过程,这两个过程分别沿两个空间方向聚集特征。以这种方式,可以沿着一个空间方向捕获长程相关性,同时可以沿着另一个空间方向保留精确的位置信息。然后,所得到的特征图被分别编码成一对方向感知和位置敏感的注意力图,该注意力图可以互补地应用于输入特征图,以增强感兴趣对象的表示。我们的协同注意很简单,可以灵活地插入到经典的移动网络中,如MobiLe v2、MobileNeXt和Factory Net,几乎没有计算开销。大量实验表明,我们的协同注意不仅有利于图像网的分类,更有趣的是,在下游任务中表现更好,如对象检测和语义分割。

工作介绍

考虑到移动网络有限的计算能力,迄今为止,移动网络最流行的注意力机制仍然是挤压和激发(SE)注意力[18]。它在2D全局池的帮助下计算通道关注度,并以相当低的计算成本提供显著的性能提升。然而,SE的注意力只考虑通道间信息的编码,而忽略了位置信息的重要性,这对于在视觉任务中捕捉对象结构至关重要[42]。后来的工作,如BAM [30]和CBAM [44],试图通过减少输入张量的通道维数来利用位置信息,然后使用卷积计算空间注意力,如图2(b)所示。然而,卷积只能捕捉局部关系,但无法对视觉任务所必需的长期依赖性进行建模[48,14]。

具体来说,我们的方法利用两个1D全局汇集操作来分别将沿垂直和水平方向的输入要素聚合成两个独立的方向件要素图。然后,这两个嵌入了方向特定信息的特征图被分别编码成两个注意力图,每个注意力图捕捉输入特征图沿一个空间方向的长程相关性。因此,位置信息可以保存在生成的注意力图中。然后,通过乘法将两个注意力图应用于输入特征图,以强调感兴趣的表示。我们将提出的注意力方法命名为坐标注意力,因为它的操作区分空间方向(即坐标)并生成坐标感知注意力图。

我们的协调关注提供了以下优势。首先,它不仅捕获跨通道信息,还捕获方向感知和位置敏感信息,这有助于模型更准确地定位和识别感兴趣的对象。其次,我们的方法灵活且重量轻,可以很容易地插入到移动网络的经典构建块中,例如MobileNetV2 [34]中提出的反向剩余块和MobileNeXt [49]中提出的沙漏块,以通过强调信息表示来增强特征。第三,作为一个预训练模型,我们的协同注意力可以给移动网络的下游任务带来显著的性能提升,特别是对于那些具有密集预测(例如,语义分割)的任务,这将在我们的实验部分中展示。

CVPR 2021 | 即插即用! CA:新注意力机制,助力分类/检测/分割涨点!相关推荐

  1. 中山大学提出SimAM:无参Attention!助力分类/检测/分割涨点!

    http://proceedings.mlr.press/v139/yang21o.html code: https://github.com/ZjjConan/SimAM 在正式介绍本文所提注意力模 ...

  2. CVPR 2021 |针对强时序依赖,即插即用、混合注意力机制的 ACTION 模块

    本文是对我们 CVPR 2021 接收的工作 "ACTION-Net: Multipath Excitation for Action Recognition" 的介绍.主要针对强 ...

  3. CVPR 2021 | 用于动作识别,即插即用、混合注意力机制的 ACTION 模块

    分享一篇来自 CVPR 2021 的文章,ACTION-Net: Multipath Excitation for Action Recognition.作者单位:都柏林圣三一大学,字节跳动 AI L ...

  4. CVPR 2021 | 基于Transformer的端到端视频实例分割方法

    实例分割是计算机视觉中的基础问题之一.目前,静态图像中的实例分割业界已经进行了很多的研究,但是对视频的实例分割(Video Instance Segmentation,简称VIS)的研究却相对较少.而 ...

  5. 注意力机制在活体检测中的应用

    1.注意力机制 意力模型(Attention Model)被广泛使用在自然语言处理.图像识别及语音识别等各种不同类型的深度学习任务中.注意力机制的概念来源于人体的视觉观察系统,针对一幅图像,大脑很快速 ...

  6. 论文浅尝 | 采用多层注意力机制的事件检测

    笔记整理:杨帆,浙江大学计算机学院硕士,研究方向知识图谱. 动机 事件编码(event encoding)之前的工作集中在提取实体,检测触发单词以及匹配预定义的模板,这些方法存在以下缺点:首先它们依赖 ...

  7. 注意力机制的分类 | Soft Attention和Hard Attention

    在前面两节的内容中我们已经介绍了注意力机制的实现原理,在这节内容中我们讲一讲有关于注意力机制的几个变种: Soft Attention和Hard Attention 我们常用的Attention即为S ...

  8. CVPR 2021 论文解读Vol.6 I 动态区域感知卷积,进一步提升分类/检测/分割性能

    论文单位:旷视研究院 论文链接:https://arxiv.org/abs/2003.12243 作者:Jin Chen, Xijun Wang, Zichao Guo, Xiangyu Zhang, ...

  9. keras cnn注意力机制_2019 SSA-CNN(自注意力机制)目标检测算法论文阅读笔记

    背景 <SSA-CNN Semantic Self-Attention CNN for Pedestrian Detection>是2019 的工作,其作者来自于南洋理工.这篇文章主要是做 ...

最新文章

  1. Hadoop集群中增加与ElasticSearch连接的操作
  2. springcloud学之前需要掌握什么_学国画之前我们需要准备什么?
  3. 乔布斯当年是这样面试我的,你能挺到哪一步?
  4. 应用场景的多样,奠定了区块链的未来
  5. 解决Flash影片中的图片抖动锯齿
  6. linux dd使用记录
  7. python 图例颜色_python – 来自颜色字典的matplotlib.pyplot scatterplot图例
  8. delimiter在mysql中的作用_细细研究MySql中delimiter起到的作用_MySQL
  9. python做var模型_【Python金融量化】VaR系列(五):Copula模型估计组合VaR
  10. 有关likely和unlikely??
  11. python可视化计算器_Python tkinter实现简单加法计算器代码实例
  12. CC2530的硬件功能及实例讲解
  13. AUTOCAD——快速提取说明文字
  14. Android 性能优化 (十一) 电量优化全解析 秒变大神
  15. html使table整体居中,如何让整个table表格居中?
  16. Hololens开发笔记
  17. linux一次三行显示文件内容,Linux 命令合集(二):查看文件及内容处理命令
  18. 新保险时代,技术即是保险,如水滋养万物——新保险
  19. 编程语言排行榜没有html,TIOBE:2019年12月全球编程语言排行榜
  20. 中文密室三部曲中最难的一部

热门文章

  1. 数据采集及部分数据标注平台工具说明
  2. python整蛊代码
  3. CAD制图的时候,怎样绘制CAD螺旋图形?
  4. Matlab 实现磁测数据日变改正
  5. 永久内外网互通解决方案
  6. 百度飞桨EasyDL图像分类:收费口车辆类型自动识别
  7. 从 0 到 1 学习 Presto,这一篇就够了
  8. windows 定制 terminal 上手实践
  9. 全国职称计算机等级考试用书,全国职称计算机等级考试题库及复习资料
  10. 2020年 TPAMI长文, Ball k-means:一种无界的快速自适应精确k-means算法