导读

本文是通道注意力机制的又一重大改进,主要是在通道注意力的基础上,引入多尺度思想,本文主要提出了金字塔分割注意力模块,即PSA module。进一步,基于PSA ,我们将PSA注意力模块替换ResNet网络Bottleneck中的3x3卷积得到了新的EPSA block。EPSA block可以作为一种“即插即用”模块用于现有骨干网络并显著提升性能。因此,我们将构建的骨干网络称之为EPSANet。相比其他注意力机制(比如SENet、ECANet、FcaNet等),EPSANet在图像分类、目标检测以及实例分割任务上均取得了显著性能提升。

  • 链接:https://arxiv.org/abs/2105.14447

  • 代码地址:https://github.com/murufeng/EPSANet

Abstract & Introduction

已有研究表明:将注意力模块嵌入到现有CNN中可以带来显著的性能提升。比如,SENet、BAM、CBAM、ECANet、GCNet、FcaNet等注意力机制均带来了可观的性能提升。但是,目前仍然存在两个具有挑战性的问题需要解决。一是如何有效地获取和利用不同尺度的特征图的空间信息,丰富特征空间。二是通道注意力或者或空间注意力只能有效捕获局部信息,而不能建立长期的依赖关系。最新的一些方法虽然能有效解决上述问题,但是他们同时会带来巨大的计算负担。基于此,本文首先提出了一种新颖的轻量且高效的PSA注意力模块。PSA模块可以处理多尺度的输入特征图的空间信息并且能够有效地建立多尺度通道注意力间的长期依赖关系。然后,我们将PSA 模块替换掉ResNet网络Bottleneck中的3x3x卷积,其余保持不变,最后得到了新的EPSA(efficient pyramid split attention) block.基于EPSA block我们构建了一个新的骨干网络称作:EPSANet。它既可以提供强有力的多尺度特征表示能力。与此同时,EPSANet不仅在图像识别任务中的Top-1 Acc大幅度优于现有技术,而且在计算参数量上有更加高效。具体效果:如下图所示,

总而言之,无需任何技巧,EPSANet取得了优于当前最好的通道注意力模型的性能。相比SENet-50,本文所提方案在图像分类Top-1 acc上取得了1.93%的精度提升,在目标检测任务上取得2.7 boxAP 提升,在实例分割任务上取得了1.7 mAP 提升。

主要创新点及贡献如下:

  1. 本文提出了一种新的高效金字塔注意力分割模块(Efficient Pyramid Split Attention, EPSA),该模块可以有效地提取更细粒度的多尺度空间信息,同时可以建立更长距离的通道依赖关系。EPSA模块非常灵活和可扩展的,因此可以直接应用到各类计算机视觉网络架构中。

  2. 本文提出了一种新的骨干网络:EPSANet,它可以学习更丰富的多尺度特征表示,同时可以自适应地对多维度的通道注意力权重进行特征重标定。

  3. 大量实验表明,EPSANet可以在ImageNet和COCO数据集实现图像分类、目标检测和实例分割任务上的性能提升。

模型方法:

首先简要回顾一下SENet模块,主要是提取通道注意力权重,具体所下所示:计算公式如下:

注意力权重计算如下:

PSA模块:本文主要是建立一个更高效的通道注意力机制。为此,我们主要提出了一种新的金字塔分割注意力(PSA)模块。如图3所示,PSA模块主要通过四个步骤实现。

  • 首先,利用SPC模块来对通道进行切分,然后针对每个通道特征图上的空间信息进行多尺度特征提取;

  • 其次,利用SEWeight模块提取不同尺度特征图的通道注意力,得到每个不同尺度上的通道注意力向量;

  • 第三,利用Softmax对多尺度通道注意力向量进行特征重新标定,得到新的多尺度通道交互之后的注意力权重。

  • 第四,对重新校准的权重和相应的特征图按元素进行点乘操作,输出得到一个多尺度特征信息注意力加权之后的特征图。该特征图多尺度信息表示能力更丰富。SPC模块:由上图所示,在PSA module中实现多尺度特征提取的重要模块就是SPC,如下图所示:

针对输入特征图,首先将特征图切分为个部分,用 来表示,每个分割的部分的通道数都为.同时,每个分割之后的特征图因此,针对划分出来的每个通道特征图,我们应用多尺度卷积的方式来提取不同尺度特征图的空间信息,这里我们主要运用多尺度卷积核分组卷积,分组卷积的作用主要是用来降低参数量。与此同时,我们还探索了一种根据卷积核的大小来自适吟选择Group大小的策略。根据实验结果,Group与Kernel size的关系式为:. 因此多尺度特征提取的过程具体计算方式如下:

这里,

最后我们可以得到多尺度融合之后的特征图:

这里在提取多尺度特征图之后,我们需要对不同尺度的特征图进行通道注意力权重提取,具体计算如下:

并且然后,整个多尺度通道注意力权重向量为:

为了建立长期的通道注意力依赖,并且实现多尺度通道注意力之间的信息交互。我们进一步利用Softmax来对通道注意力信息进行权值重标定。

最后,我们将对应尺度的特征图与进行权值重标定的注意力向量进行 channel-wise级别的相乘,即:

最后,我们将得到的多尺度通道注意力加权之后的特征图进行维度拼接,最后输出得到一个多尺度信息更为丰富的特征图,具体计算如下:

Experiments

下表给出了EPSANet在ImageNet上与其它网络结构的性能对比,从中可以看到:

  • 相比ResNet50,EPSANet50-Small在Top-1 acc上提高了2.29%,且参数量减少了11.7%,计算量减少了12.1%;

  • EPSANet50-Small取得了与SENet101相似的精度,但参数量却节省了54.2%,计算量节省了53.9%;

  • 相比ResNet101,SENet101,EPSANet101-Small分别在Top-1 acc上提高了1.6%和0.81%,并分别节省了12.7%与21.1%的计算资源;

  • 相比SENet,ECANet,FcaNet,EPSANet-50(large)分别在Top-1 acc上提高了1.93%,1.16%,0.12%。

  • 在与SENet101和CBAM具有相同参数量的情况下,EPSANet-101(large)在Top-1 acc上提高了1.76%和0.89%.

表3给出了EPSANet-50(small)和EPSANet-50(large)在COCO数据集上进行目标检测任务的性能对比,从中可以看到:我们的方法取得了最佳检测性能;具体来说:

  • EPSANet50(Small)以更少的参数量、更低的计算量超过了SENet50;

  • EPSANet50(Large)在所有检测器上都取得了当前最优的性能。

  • 上述实验结果表明:EPSANet具有很好的泛化性能,可以非常容易应用到其他下游任务。

表4给出了COCO数据集上实例分割的性能对比,很明显:

  • PSA注意力模块实现了最好的性能,超越了当前其它注意力模块。

  • 与当前性能最好的通道注意力方法FcaNet相比,EPSANet50-Large分别在AP、AP_50、AP_75这三个指标上提高了0.9%,0.4%,1.4%。

总结

本文主要提出了一种高效的、即插即用的、轻量级金字塔分割注意力(Pyramid Split Attention, PSA)模块。该注意力模块能够充分提取多尺度特征图空间信息以及实现跨维度通道注意力重要特征交互。基于PSA module,我们提出了一种高效的金字塔注意力分割(EPSA) block,它可以提高模型更细粒度的多尺度特征表示的能力,同时在多尺度通道注意力间建立了一种更长距离的特征依赖关系。最后,本文提出的EPSANet骨干网络有效地融合了多尺度上下文空间信息和图像级别的分类特征。通过大量的定性和定量实验表明,与传统的通道注意力机制相比,本文所提出的EPSANet在图像分类、目标检测和实例分割方面可以达到最先进的性能。未来,我们还将研究我们的PSA模块更轻量级的CNN架构中的性能。

推荐阅读

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 分层级联Transformer!苏黎世联邦提出TransCNN: 显著降低了计算/空间复杂度!

  • 注意力可以使MLP完全替代CNN吗? 未来有哪些研究方向?

  • 清华鲁继文团队提出DynamicViT:一种高效的动态稀疏化Token的ViT

  • 并非所有图像都值16x16个词--- 清华&华为提出一种自适应序列长度的动态ViT

重磅!DLer-CVPR2021论文分享交流群已成立!

大家好,这是CVPR2021论文分享群里,群里会第一时间发布CVPR2021的论文解读和交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

???? 长按识别,邀请您进群!

最强通道注意力来啦!金字塔分割注意力模块,即插即用,效果显著,已开源!...相关推荐

  1. 清华团队将Transformer用到3D点云分割上后,效果好极了丨开源

    萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 当Transformer遇上3D点云,效果会怎么样? 一个是当下最热门的模型(NLP.图像领域表现都不错),另一个是自动驾驶领域.机器人抓取 ...

  2. 清华大学胡事民是计算机视觉,清华团队将Transformer用到3D点云分割上后,效果好极了丨开源...

    萧箫 发自 凹非寺量子位 报道 | 公众号 QbitAI 当Transformer遇上3D点云,效果会怎么样? 一个是当下最热门的模型(NLP.图像领域表现都不错),另一个是自动驾驶领域.机器人抓取等 ...

  3. pytorch 三维点分类_用于RGBD语义分割的三维图神经网络(2017ICCV,已开源)

    3D Graph Neural Networks for RGBD Semantic Segmentation(2017ICCV, citation:78) 开源地址:https://github.c ...

  4. CVPR2020-超强通道注意力模块ECANet!

    Abstract 最近,通道注意机制已被证明在改善深度卷积神经网络(CNN)的性能方面具有巨大潜力.然而,大多数现有方法致力于开发更复杂的注意模块以实现更好的性能,这不可避免地会增加模型的复杂性. 为 ...

  5. 通道注意力超强改进,轻量模块ECANet来了!即插即用,显著提高CNN性能|已开源——总结3

    极市平台(微信公众号ID:extrememart):专注计算机视觉前沿资讯和技术干货.本文由极市平台首发,转载需获授权. 极市导读:今天给大家推荐一篇CVPR2020上对通道注意力进行改进的文章--- ...

  6. 多尺度注意力机制的语义分割

    多尺度注意力机制的语义分割 Using Multi-Scale Attention for Semantic Segmentation 在自动驾驶.医学成像甚至变焦虚拟背景中,有一项重要的技术是常用的 ...

  7. 利用名词到代词的蒸馏以理解动词,面向任务的实例分割注意力模型

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 内容来自:TechBeat 作者简介 李鹏飞 清华大学智能产业研究院博士生(2022-).研究方向为自动驾驶,计算机视觉,vision- ...

  8. rcnn 改进mask_李沐团队提出最强ResNet改进版,多项任务达到SOTA | 已开源

    十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在图像处理领域中,近年来的新模型可谓是层出不穷. 但在大多数的下游任务中,例如目标检测.语义分割,依旧还是用ResNet或其变体作为骨干网络 ...

  9. 李沐团队提出最强ResNet改进版,多项任务达到SOTA | 已开源

    十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在图像处理领域中,近年来的新模型可谓是层出不穷. 但在大多数的下游任务中,例如目标检测.语义分割,依旧还是用ResNet或其变体作为骨干网络 ...

最新文章

  1. TSR交通标志检测与识别
  2. AI实验室•西安站 教你用人脸识别打造爆款应用
  3. 大数据统计分析毕业设计_大数据分析与传统统计分析的区别
  4. 网易云terraform实践
  5. PHPStorm 配置远程服务器文件夹在本地windows镜像,实现代码自动同步(类似于Samba架构文件同步功能)
  6. linux watch
  7. 详谈Hibernate框架关系映射!
  8. react与微信小程序
  9. 计算机点击右键出现错误,电脑右键个性化打不开了怎么办
  10. 题5 正确的Java垃圾回收说法
  11. TensorFlow-gpu安装和测试(TensorFlow-gpu1.14+Cuda10)
  12. matlab 最小割集(需手动分析排除)
  13. 一只菜鸟的前端实习记录(碎碎念)
  14. OpenSSH 用户枚举漏洞(CVE-2018-15919)服务器修复方法(亲测实用)
  15. 联盟平台开屏广告收入大减,APP开发者应如何应对?
  16. 聊一聊DDR3中的ODT(On-die termination)
  17. 计算机专业课考研都有哪些,计算机专业考研的课程有哪些
  18. rj45 千兆接口定义_rj45接口定义,大神教你秒懂rj45的接线方法【详细方法】
  19. 化工人员定位系统提供智能安全保障
  20. 20221226英语学习

热门文章

  1. java通过JDBC链接SQLServer2012
  2. 线程同步初解---转载
  3. 11月Android笔记
  4. Python天天美味(5) - ljust rjust center
  5. 南邮java实验一报告_南邮JAVA程序设计实验1 综合图形界面程序设计
  6. Python3中出现“No module named ‘StringIO‘
  7. python DataFrame的合并方法总结
  8. 数据库连接工具datagrip较安全  代替Aqua Data Studio 6.5
  9. 从jar包中读取资源文件
  10. c语言奇偶判断程序,求助 奇偶校验的C语言编程