一、Non-local

原文链接：Non-local Neural Networks | IEEE Conference Publication | IEEE Xplore

1.公式

$y_i=\frac{1}{C(x)}\sum_{\forall j}f(x_i,x_j)g(x_j)$

其中 $g(x_j)=W_gx_j$ 。

$f$ 的形式可以不同，如

(1)Gaussian：

$f(x_i,x_j)=e^{x_i^\mathrm{T}x_j}$

$C(x)=\sum_{\forall j}f(x_i,x_j)$

(2)Embedded Gaussian:

$f(x_i,x_j)=e^{\theta(x_i)^\mathrm{T}\phi(x_j)}$

$C(x)=\sum_{\forall j}f(x_i,x_j)$

自注意力（self-attention）是non-local在Embedded Gaussian中的特例。因为

$\frac{1}{C(x)}f(x_i,x_j)$

就是对给定的 $i$ ，沿着维度 $j$ 作softmax操作。

(3)点积（embedded）：

$f(x_i,x_j)=\theta(x_i)^\mathrm{T}\phi(x_j)$

$C(x)=N$

(4)拼接：

$f(x_i,x_j)=\mathrm{ReLU}(w^\mathrm{T}_f[\theta(x_i),\phi(x_j)])$

$C(x)=N$

其中 $[\cdot ,\cdot ]$ 表示拼接操作； $w_f$ 是将拼接后的向量转换为标量的权重向量。

2.Non-local块

$z_i=W_zy_i+x_i$

上图为Non-local（embedded Gaussian）的结构。图中蓝色方块为 $1\times 1\times 1$ 卷积； $\oplus$ 和 $\otimes$ 分别表示矩阵加法和矩阵乘法。1024和512代表通道数。softmax操作是对每一行做的。

如果去掉上图中的 $\theta$ 和 $\phi$ ，就变为Gaussian结构；将softmax操作替换为乘以 $1/N$ ，就变为点积结构。

实际实施时，不改变性能，但减小计算量的方法：在 $\phi$ 和 $g$ 后加入最大池化层。

二、Criss-Cross

原文链接：CCNet: Criss-Cross Attention for Semantic Segmentation | IEEE Conference Publication | IEEE Xplore

网络结构：

1.Criss-Cross模块结构

图中softmax在通道维度做。

2.Affinity操作

对于 $Q$ 中每个位置 $u$ ，可以得到其特征 $Q_u\in \mathbb{R}^{{C}'}$ ；同时可以得到 $K$ 中对应位置所在行和列的所有向量集合 $\Omega_u\in\mathbb{R}^{(H+W-1)\times {C}'}$ 。设 $\Omega_{i,u}$ 为 $\Omega_u$ 的第 $i$ 个元素，则Affinity操作定义为

$d_{i,u}=Q_u\Omega^{\mathrm{T}}_{i,u}$

记 $D$ 为Affinity操作的输出矩阵（或 $A$ 在softmax前的矩阵；其位置 $u$ 处的第 $i$ 个元素为 $d_{i,u}$ ），则

上图中，左边的矩阵为 $H$ ，上边的矩阵为 $K$ ，下边的矩阵为 $Q$ ，右边的矩阵为 $D$ ； $\otimes$ 表示Affinity操作。

3.Aggregation操作

对于 $V$ 中每个位置 $u$ ，可以得到其特征 $V_u\in \mathbb{R}^C$ 和集合 $\Phi_u\in\mathbb{R}^{(H+W-1)\times C}$ （所在行和列的所有向量集合）。则Aggregation操作为

${H}'_u=\sum_{i\in \left |\Phi_u \right |}A_{i,u}\Phi_{i,u}+H_u$

实际上就是线性组合（以 $A$ 的 $u$ 位置向量( $H+W-1$ 维)的每个元素作为系数/权重，作用于 $\Phi_u$ 中每一个位置的向量( $C$ 维)，相乘相加，作为 ${H}'$ 的 $u$ 位置元素向量( $C$ 维)）。

三、Squeeze and Excitation（SE）

原文链接：Squeeze-and-Excitation Networks | IEEE Journals & Magazine | IEEE Xplore

上图中：

$F_{tr}$ 为卷积、特征提取操作（不属于SE模块）；

$F_{sq}$ 为均值池化操作，输出为 $C$ 维向量；

$F_{ex}$ 为2层全连接层加sigmoid操作：

$s=F_{ex}(z,W)=\sigma(g(z,W))=\sigma(W_2\delta(W_1z))$

$F_{scale}$ 即 $s$ 的每个元素作为权重乘上 $U$ 的对应通道得到输出的每个通道：

$\tilde{x}_c=F_{scale}(u_c,s_c)=s_cu_c$

将SE嵌入到ResNet中：

四、CBAM

原文链接：https://arxiv.org/pdf/1807.06521.pdf

CBAM模块结构：

1.通道注意力模块结构

$\begin{aligned} M_c(F)&=\sigma(\textup{MLP}(\textup{AvgPool}(F))+\textup{MLP}(\textup{MaxPool}(F)))\\ &=\sigma(W_1(W_0(F^c_{avg}))+W_1(W_0(F^c_{max}))) \end{aligned}$

其中 $\sigma$ 表示sigmoid函数， $W_0\in\mathbb{R}^{C/r\times C}$ ， $W_1\in\mathbb{R}^{C\times C/r}$ ； $W_0$ 后有ReLU激活函数。

2.空间注意力模块结构

$\begin{aligned} M_s(F)&=\sigma(f^{7 \times 7}([\textup{AvgPool}(F);\textup{MaxPool}(F)]))\\ &=\sigma(f^{7 \times 7}([F^c_{avg};F^c_{max}])) \end{aligned}$

其中 $f^{7\times 7}$ 表示核为 $7\times 7$ 的卷积操作。

将CBAM嵌入ResNet中：

五、Dual-Attention

原文链接：Dual Attention Network for Scene Segmentation | IEEE Conference Publication | IEEE Xplore

网络结构：

1.位置注意力模块结构

图中 $B,C,D$ 的维度与 $A$ 相同； $B,C,D$ 的reshape表示将 $C\times H\times W$ 的矩阵变为 $C\times N$ （其中 $N=HW$ ）; $S\in \mathbb{R}^{N\times N}$ 为attention map； $\otimes$ 表示矩阵乘法；最后的reshape表示将 $C\times N$ 的矩阵变为 $C\times H\times W$ 。最终

$E_j=\alpha \sum_{i=1}^N(s_{ji}D_i)+A_j$

其中 $\alpha$ 为缩放因子，初始化为0，然后逐渐学习到更大的值；可知 $E$ 的每个位置是所有位置特征和原始特征的加权和。

2.通道注意力模块结构

图中A的reshape表示将 $C\times H\times W$ 的矩阵变为 $C\times N$ ； $\otimes$ 表示矩阵乘法；最后的reshape表示将 $C\times N$ 的矩阵变为 $C\times H\times W$ 。最终

$E_j=\beta \sum_{i=1}^C(x_{ji}A_i)+A_j$

其中缩放参数 $\beta$ 从0开始逐渐学习；可知 $E$ 的每个通道是所有特征通道和原始通道的加权和。

3.Sum Fusion操作

使用卷积层变换两个注意力模块的输出，然后进行矩阵求和。

注：self attention的permutation equivalent

如上图所示，输入交换次序，输出也会相应交换次序。

5种2D Attention整理（Non-Local、Criss-Cross、SE、CBAM、Dual-Attention）相关推荐

双重关系感知注意力机制 Dual Relation-Aware Attention[keras实现 dual attention优化版]
文章目录前言一.Compat Position Attention Module紧凑型位置注意力模块二.Compat Channel Attention Module紧凑型通道注意力模块三.效 ...
四种常见背包问题整理
四种常见背包问题整理四种常见背包问题包括:① 最优装配 ② 部分背包问题 ③ 01背包问题 ④ 完全背包问题 ① 最优装配给出 n 个物体,重量分别为 wi,使总重量不超过容量 C 的情况下选择尽 ...
GCN】在NLP中应用GCN的几种构图方法整理
GCN]在NLP中应用GCN的几种构图方法整理:https://blog.csdn.net/qq_27590277/article/details/106264292
Web 之 html 如何显示隐藏Html元素的两种方法简单整理
Web 之 html 如何显示隐藏Html元素的两种方法简单整理目录 Web 之 html 如何显示隐藏Html元素的两种方法简单整理一.简单介绍二.实现原理三.注意事项四.代码示例一.简 ...
注意力机制（SE、Coordinate Attention、CBAM、ECA）、即插即用的模块整理
总结曾经使用过的一些即插即用的模块以及一些注意力机制 ** 注意力模块:SE ** 代码源自这位大佬的仓库:https://github.com/moskomule/senet.pytorch cla ...
Dual attention network for scene segmentation
Dual attention network for scene segmentation 设计巧妙,但是没法解释方法的有效性 dual attention的思路太多了,这篇是应用在场景语义分割上. ...
【论文笔记】D2A U-Net: Automatic segmentation of COVID-19 CT slices based on dual attention and hybrid di
声明不定期更新自己精度论文,通俗易懂,初级小白也可以理解涉及范围:深度学习方向,包括 CV.NLP.Data Fusion.Digital Twin 论文标题:D2A U-Net: Automat ...
【Attention】Dual Attention（DANet） Fully Attention（FLA）
空间注意力有助于保留细节信息,通道注意力有助于保留大物体的语义一致性. 有效使用两种注意力可以提升性能. 本文旨在记录一些常用的注意力,以及代码实现,包括两篇文章,DANet,FLA. Dual At ...
【语义分割】DANet Dual Attention Network for Scene Segmentation
DANet(Dual Attention Network for Scene Segmentation)在语义分割领域多个数据集上取得了STOA的结果,值得大家关注. [废话两段] 由于之前没跑过语义 ...
文章阅读：Dual Attention Network for Scene Segmentation
原文地址:Dual Attention Network for Scene Segmentation 概述多尺度上下文融合的问题: 虽然上下文融合有助于捕获不同比例的对象,但它无法利用全局视图中对象 ...

5种2D Attention整理（Non-Local、Criss-Cross、SE、CBAM、Dual-Attention）