SimAM: A Simple, Parameter-Free Attention Module for Convolutional Neural Networks

论文名称：SimAM: A Simple, Parameter-Free Attention Module for Convolutional Neural Networks

作者：Lingxiao Yang, Ru-Yuan Zhang, Lida Li, Xiaohua Xie

Code：https://github.com/ZjjConan/SimAM

介绍

本文提出了一种简单有效的3D注意力模块，基于著名的神经科学理论，提出了一种能量函数，并且推导出其快速解析解，能够为每一个神经元分配权重。主要贡献如下：

受人脑注意机制的启发，我们提出了一个具有3D权重的注意模块，并设计了一个能量函数来计算权重；
推导了能量函数的封闭形式的解，加速了权重计算，并保持整个模块的轻量；
将该模块嵌入到现有ConvNet中在不同任务上进行了灵活性与有效性的验证。

方法

作者认为注意机制的实现应该遵循神经计算中的一些统一原则。因此，基于一些成熟的神经科学理论提出了一种新的方法。

在视觉神经学中，那些信息量（most informative）最大的神经元通常与周围神经元拥有不同的放电模式。

同时，一个活跃的神经元也可能一直周围的神经元活动，这种现象被称为”空间抑制“。

换言之，在视觉中，表现出明显空间一直效应的神经元应该被赋予更高的重要性，而找到这些神经元的最简单方式就是测量一个目标神经元与其他神经元之间的线性可分性。

能量函数

基于以上科学发现，提出了以下的能量函数（公式来源参考）：
et(wt,bt,y,xi)=(yt−t^)2+1M−1∑i=1M−1(y0−x^i)2.(1)e_t(w_t,b_t,\mathbf{y},x_i) = (y_t-\hat{t})^2+\frac{1}{M-1}\sum_{i=1}^{M-1}(y_0-\hat{x}_i)^2.\tag{1} et(wt,bt,y,xi)=(yt−t^)2+M−11i=1∑M−1(y0−x^i)2.(1)
ttt和xix_ixi是输入X∈RC×H×WX\in \mathbb{R}^{C\times H\times W}X∈RC×H×W中单通道上的目标神经元和其他神经元

t^=wtt+bt\hat{t}=w_tt+b_tt^=wtt+bt和x^i=wtxi+bt\hat{x}_i=w_tx_i+b_tx^i=wtxi+bt是ttt和xix_ixi的线性变换，wtw_twt和btb_tbt分别代表线性变换的权重和偏置

iii是空间维度上的索引，M=H×WM=H\times WM=H×W代表该个通道上神经元的个数

(1)(1)(1)式中的所有量都是标量，当yt=t^y_t=\hat{t}yt=t^和所有xi=yox_i=y_oxi=yo时取得最小值，其中，yty_tyt和yoy_oyo是两个不同的值

求解(1)(1)(1)式的最小值等价于求解目标神经元和其他所有神经元之间的线性可分性

简便起见，使用二值标签，即yt=1yo=−1y_t=1\quad y_o=-1yt=1yo=−1，并且添加了正则项，则最终的能量函数如下：
et(wt,bt,y,xi)=1M−1∑i=1M−1(−1−(wtxi+bt))2+(1−(wtt+bt))2+λwt2.(2)e_t(w_t,b_t,\mathbf{y},x_i) = \frac{1}{M-1}\sum_{i=1}^{M-1}(-1-(w_tx_i+b_t))^2+(1-(w_tt+b_t))^2+\lambda w_t^2.\tag2 et(wt,bt,y,xi)=M−11i=1∑M−1(−1−(wtxi+bt))2+(1−(wtt+bt))2+λwt2.(2)

公式的来源应该是SVM，将当前神经元设置为正类，其余神经元设置为负类，来衡量他们之间的差异性。

解析解

理论上，每个通道拥有MMM个能量函数，逐一求解是很大的计算负担

幸运的是，可以获得(2)(2)(2)的闭式解（即解析解），如下：
wt=−2(t−μt)(t−μt)2+2σt2+2λ,(3)w_t=-\frac{2(t-\mu_t)}{(t-\mu_t)^2+2\sigma_t^2+2\lambda},\tag3 wt=−(t−μt)2+2σt2+2λ2(t−μt),(3)
bt=−12(t−μt)wt.(4)b_t=-\frac{1}{2}(t-\mu_t)w_t.\tag4 bt=−21(t−μt)wt.(4)

其中μt=1M−1∑i=1M−1xi\mu_t=\frac{1}{M-1}\sum_{i=1}^{M-1}x_iμt=M−11∑i=1M−1xi，σt2=1M−1∑i=1M−1(xi−μt)2\sigma_t^2=\frac{1}{M-1}\sum_{i=1}^{M-1}(x_i-\mu_t)^2σt2=M−11∑i=1M−1(xi−μt)2，实际上就是该通道中除去目标神经元的均值和方差

由于解析解是在单个通道上获得的，因此可以合理假设每个通道中所有像素遵循相同的分布，最小能量即为：
et∗=4(μ2+λ)(t−μ)2+2σ2+2λ.(5)e_t^*=\frac{4(\mu^2+\lambda)}{(t-\mu)^2+2\sigma^2+2\lambda}.\tag5 et∗=(t−μ)2+2σ2+2λ4(μ2+λ).(5)
能量越低，神经元t与周围神经元的区别越大，重要性越高。因此，神经元的重要性可以通过1/et∗1/e_t^*1/et∗得到。

根据以往的神经学研究，哺乳动物大脑中的注意力调节通常表现为神经元反应的增益效应，因此使用放缩运算而非加法来实现加权：
X~=sigmoid(1E)⊗X,(6)\widetilde{X}=sigmoid(\frac{1}{E})\otimes X,\tag6 X=sigmoid(E1)⊗X,(6)
同时sigmoidsigmoidsigmoid函数还可以限制EEE中的过大值，并且不会影响每个神经元的相对重要性

Pytorch代码为：

def forward(X,lambda):n = X.shape[2] * X.shape[3] - 1d = (X - X.mean(dim=[2,3])).pow(2)v = d.sum(dim=[2,3])/nE_inv = d / (4 * (v + lambda)) +0.5return X * torch.sigmoid(E_inv)

实验

在各类任务上都取得了相当好的效果。

SimAM: A Simple, Parameter-Free Attention Module for Convolutional Neural Networks相关推荐

AW-Convlution:An Attention Module for Convolutional Neural Networks
AW-Convlution 文章目录 AW-Convlution 参考创新点问题&思想描述模块结构实验结果参考原文 Xception: Deep Learning with Dep ...
论文阅读——ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks
ECA-Net: Efficient Channel Attention for Deep Convolutional Neural Networks 改进版通道注意力 from CVPR2020 期 ...
SA-NET: SHUFFLE ATTENTION FOR DEEP CONVOLUTIONAL NEURAL NETWORKS
论文地址:https://arxiv.org/pdf/2102.00240.pdf Github地址:https://github.com/wofmanaf/SA-Net/blob/main/mode ...
Attention和增强RNN (Attention and Augmented Recurrent Neural Networks)
原文: Attention and Augmented Recurrent Neural Networks 递归神经网络是一种主流的深度学习模型,它可以用神经网络模型来处理序列化的数据,比如文本.音频 ...
论文那些事—DeepFool: a simple and accurate method to fool deep neural networks
DeepFool: a simple and accurate method to fool deep neural networks 1.摘要及背景提出Deepfool算法,对比FGSM和I-BL ...
Paying More Attetion to Attention:Improving the Performance of Convolutional Neural Networks via AT
Paying More Attetion to Attention:Improving the Performance of Convolutional Neural Networks via Att ...
意图识别算法：噪音处理之O2U-Net: A Simple Noisy Label Detection Approach for Deep Neural Networks
目录问题描述解决思路具体过程预训练阶段 Cyclical Training阶段 clean dataset训练阶段实验结果论文下载:O2U-Net: A Simple Noisy Labe ...
14.EPSANet: An Efficient Pyramid Squeeze Attention Block on Convolutional Neural Network(2021.3)
题目:卷积神经网络上的高效金字塔挤压注意块论文地址:https://arxiv.org/abs/2105.14447 摘要:最近,研究表明,在深度卷积神经网络中嵌入注意力模块可以有效提高其性能.在这 ...
[cs231n][Module 1: Neural Networks] Image Classification
原文:[image classification notes]. 翻译:图像分类笔记(上)(下). cs231n课程中的一篇介绍性教程,以下为阿幻的学习笔记: 照例,先摘个大纲: Intro to I ...

SimAM: A Simple, Parameter-Free Attention Module for Convolutional Neural Networks

介绍

相关工作

方法

能量函数

解析解

实验

SimAM: A Simple, Parameter-Free Attention Module for Convolutional Neural Networks相关推荐

最新文章

热门文章