作者|Happy  编辑丨极市平台

导读

注意力机制、动态卷积最近几年被研究得非常透了,不过前述方法大多聚焦于特征图层面,而该文则是从权值角度出发提出了一种非常有意思的机制。该文所提方法仅作用于训练阶段,不会对推理造成任何的计算量消耗、网络结构改变,同时可取得媲美SE的性能提升,更重要的是它可以与SE相互促进

论文地址:
http://www.ecva.net/papers/eccv_2020/papers_ECCV/papers/123750086.pdf

Abstract

该文提出一种新颖的方法,用于在训练阶段同时判别卷积神经网络权值的重要性并对重要权值赋予更多的注意力。更确切的讲,作者针对权值从两个方面进行重要性分析:幅值位置。通过在训练阶段分析权值的上述两种特性,作者提出了两种独立的Weight Excitation(权重激励)机制。作者通过实验证实:在主流ConvNet上,在多个CV应用中,采用WE方法可以取得显著性能提升(比如在ImageNet分类任务上,可以提升ResNet50的精度达1.3%),而且这些改进不会造成额外的计算量或者网络结构调整。此外,只需很少的几行代码即可将其嵌入到卷积模块中。更重要的是,WE可以与其他注意力机制(比如SE)取得互补作用,进一步提升性能。

该文的主要贡献包含以下几点:

  • 提出两种关于权值的特性用于刻画每个权值的重要性;

  • 提出两种新颖的权值再参数化机制:通过调整反向传播梯度对重要权值赋予更多注意力,作者将这种训练机制称之为权值激励训练;

  • 在多个任务(ImageNet、Cifar100分类任务,VOC、Cityscapes语义分割以及手势识别、姿态识别等)、多个ConvNet架构上验证了所提方法的优异性能。

Method

在这部分内容中,我们先来看探索一下权值重要性与幅值、位置的关系;然后再看了解一下作者所提出的权值再参数化方法。注:作者将位置相关的方法称之为LWE(location-based WE),将幅值相关的方法称之为MWE(Magnitude-based WE)。

Investigating the importance of weights

为探索权值的重要性,作者进行了权值影响的系统性分析(通过将权值置零)。作者研究了关于权值的两种特性:幅值和位置。为更好说明两者的重要性,作者采用ImageNet数据集上预训练ResNet50进行相应数据分析。

  • Weight Magnitude。为探索权值幅值的重要性,作者通过如下流程进行了分析(结果见上图):

    • 对于每个卷积权值按照绝对值进行升序排序;

    • 将不同百分位的权值置零并记录模型性能下降情况。从上图可以看到:更高百分位的权值(即权值幅值更大)置零导致的性能下降更严重,这也就说明了权值的重要性随幅值变大而变大。

  • Weight Location。为探索权值位置的重要性(见上图),作者通过如下方式进行了分析

    • 选择预训练ResNet50中L个3x3卷积模块(L=16);

    • 对每个所选择的3x3卷积模块(),选择个输出通道()

    • 对每个所选择的输出通道,选择个输入通道();

    • 将上述所选择的输入通道对应的权值置零并记录模型性能下降情况.

    • 注:作者设置的参数为。结果见上图,也就是说ResNet每一个层将输出一个的下降情况数据,更高的下降数据意味着更重要的性能影响,也就需要进行保留并赋予高注意力。作者发现:浅层的下降波动更大,深层的下降波动较小,这也就意味着ConvNet不同位置的权值重要性是不同的,且浅层的权值重要性差异更明显。

Location-based weight excitation

正如前面所介绍的,卷积权值的重要性会随位置而发生变化,因此对于维度为的权值(),每个权值核的重要性是可变的。为对不同卷积核赋予不同的注意力,作者设计了一个大小的注意力图用于调整卷积核的赋值。这就会导致更重要的权值具有更大的反向传播梯度。那么如何设计这样一个注意力图呢,一种最简单的方式就是将其参数化到卷积中,但这种方式将ConvNet的参数量变大(对于ResNet50而言,约提升60%参数量)。

作者提出采用一个简单的子网络,它以权值作为输入并生成In个重要性注意力值,相同的子网络同时处理多路权值进而得到前述注意力图m。尽管该子网络可以具有多种不同的结构,作者选择了SE模块,定义如下:

与之对应的LWE结构如下图a所示,有没有觉得挺简单的呀,嘿嘿。

Magnitude-based weight excitation

前面已经介绍了LWE的原理,接下来就要介绍了MWE了。作者所提的MWE是一种新颖的激活函数,它以权值w作为输入,并赋予其不同的重要性注意力,定义如下:

其中,而M表示权值的最大幅值,表示超参数。此时权值的梯度就变成了:

此外需要注意的是:对于LWE或MWE的输入权值,作者先进行了归一化,而这一操作可以导致ConvNet性能的轻微提升。注:WE仅作用于训练阶段,而不会造成推理阶段的额外计算量或网络架构调整。

Experiments

为说明所提方法的有效性,作者在ImageNet分类、VOC语义分割以及Mini-Kinetics姿态识别等任务上进行了验证。

直接上结果了,ImageNet任务上的性能对比见下图。可以看到:在主流ConvNet上(如MobileNetV2、ResNet50、ResNeXt50、ResNet152-SE,Wide ResNet50)均可得到一致性的性能提升,且MWE的性能增益要比LWE增益低。作者同时发现:LWE对于深度分离卷积的增强并不好,这也是该方法的一个局限所在。与此同时,作者还将所提方法与其他注意力机制进行了对比,见下图b。相比SE,LWE的一个优势在于:提供同等性能增益同时具有更少的训练消耗、无需额外的推理消耗。

与此同时,作者还对比了所提方与其他规范化(如BatchNorm、GroupNorm)技术的性能差异。

最后,我们再来看一下所提方法在不同任务、不同架构上的性能增益对比,见下表。很明显,采用WE机制训练的模型均可得到一定程度的性能提升。

全文到此结束,更多实验结果与分析详见原文,建议各位同学去查阅一下原文。


与SENet互补提升,华为诺亚提出自注意力新机制:Weight Excitation|ECCV2020相关推荐

  1. 自注意力机制_与SENet互补提升,华为诺亚提出自注意力新机制:Weight ExcitationECCV2020...

    ↑ 点击蓝字 关注极市平台作者|Happy 编辑丨极市平台 极市导读 注意力机制.动态卷积最近几年被研究得非常透了,不过前述方法大多聚焦于特征图层面,而该文则是从权值角度出发提出了一种非常有意思的机制 ...

  2. 【深度学习】去掉softmax后Transformer会更好吗?复旦华为诺亚提出SOFT:轻松搞定线性近似...

    作者丨happy  编辑丨极市平台 导读 本文介绍了复旦大学&华为诺亚提出的一种新颖的softmax-free的Transformer-SOFT.所提SOFT显著改善了现有ViT方案的计算效率 ...

  3. 去掉softmax后Transformer会更好吗?复旦华为诺亚提出SOFT

    作者丨happy ​编辑丨极市平台 论文链接:https://arxiv.org/pdf/2110.11945.pdf 代码链接:https://github.com/fudan-zvg/SOFT 项 ...

  4. #今日论文推荐#中科院华为诺亚提出ViG:一种全新的骨干网络,性能不输CNN、ViT

    #今日论文推荐#中科院&华为诺亚提出ViG:一种全新的骨干网络,性能不输CNN.ViT 用图神经网络(GNN)做CV的研究有不少,但通常是围绕点云数据做文章,少有直接处理图像数据的. 其实与C ...

  5. NeurIPS 2021 Transformer部署难?北大华为诺亚提出Vision Transformer的后训练量化方法...

    关注公众号,发现CV技术之美 本文分享 NeurIPS 2021 论文『Post-Training Quantization for Vision Transformer』,由北大&华为诺亚联 ...

  6. 当CNN遇见Transformer!华为诺亚提出CMT:新视觉Backbone

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:AIWalker 标题&作者团队 CMT: Convolutional Neural Net ...

  7. 中科院华为诺亚提出ViG:一种全新的骨干网络,性能不输CNN、ViT!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 梦晨 发自 凹非寺 转载自:量子位(QbitAI) 用图神经网络( ...

  8. 华为诺亚加法网络再升级:精度提升,可以逼近任意函数

    转自:机器之心 深度卷积神经网络的计算常常需要巨大的能耗,因此难以在移动设备上实现.为此学界正在探索研究各式各样的新方法,本文要介绍的这项研究提出了使用加法替代 CNN 中的乘法(卷积),从而极大降低 ...

  9. CVPR 2022 | 华为诺亚北大提出量子启发MLP,性能超越Swin Transfomer

    ©作者 | 机器之心编辑部 来源 | 机器之心 来自华为诺亚方舟实验室.北京大学.悉尼大学的研究者提出了一种受量子力学启发的视觉 MLP 新架构. 近年来,计算机视觉领域的新型架构层出不穷,包括视觉 ...

最新文章

  1. Android学习系列(10)--App列表之拖拽ListView(上)
  2. 论jquery与vuejs结合时的部分问题
  3. Opencv step by step - 加载视频
  4. android开发启动画面,Android开发笔记——如何正确实现App启动页
  5. 解决 Flex navigateToURL 中文乱码问题
  6. 万亿条数据查询如何做到毫秒级响应?
  7. PyCharm编程环境的中英文字体分别设置的好处多----一石三鸟地解决中文字体不一致、英文字体不涵盖中文字符、编程字体实用性兼顾美观性的三个问题
  8. [PAT乙级]1032 挖掘机技术哪家强
  9. sublime text3
  10. 淮阴工学院计算机学院机房,实验室开放
  11. python400集_今日分享」Python400集全套教程
  12. 5.abp框架code first方式删除表
  13. python生成颜色数组
  14. java 1.7 32位官网下载地址_jdk1.7 32位下载|jdk1.7 32位官方下载「Java」-太平洋下载中心...
  15. 小程序按钮如何制作?
  16. 让电脑假装蓝屏的C语言,如何自己手动让电脑假装死机
  17. cs5460a c语言程序,cs5460a应用电路(含源程序)
  18. 计算机中什么是数组公式,EXCEL中数组的应用:什么是函数公式,什么是数组公式...
  19. 2.4 设置工作表的背景图片 [原创Excel教程]
  20. android文件删除工具下载,Coolmuster Android Cleaner下载

热门文章

  1. apache http配置https
  2. WEBAPI 帖子收藏
  3. 01_Difference between case object and object
  4. 一个在windowsXP启动linux as(grub引导)的简单方法
  5. c语言之贪吃蛇源码,C语言之贪吃蛇经典源码
  6. 图像分类matlab结果,libsvm图像二分类后,分类的图像结果如何显示?
  7. svm对未知数据的分类_基于SVM的高维不平衡数据分类方法与流程
  8. RandomUnderSampler 中的fit_resample 是 imblearn.base.py中调用output = self._fit_resample(X, y)
  9. tensorflow lstm 实现 RNN / LSTM 的关键几个步骤 多层通俗易懂
  10. 4年级计算机 设计贺卡教案,四年级上册信息技术《小贝的贺卡》教学设计