视觉注意力机制(上)

简介

注意力机制（Attention Mechanism）是机器学习中的一种数据处理方法，起源于自然语言处理（NLP）领域，后来在计算机视觉中广泛应用。注意力机制本质上与人类对事物的观察机制相似：一般而言，我们在观察事物的时候，首先会倾向于观察事物一些重要的局部信息（如下图所示，我们会首先将注意力集中在目标而不是背景的身上），然后再去关心一些其他部分的信息，最后组合起来形成整体印象。

注意力机制能够使得深度学习在提取目标的特征时更加具有针对性，使得相关任务的精度有所提升。注意力机制应用于深度学习通常是对输入每个部分赋予不同的权重，抽取出更加关键及重要的信息使模型做出更加准确的判断，同时不会对模型的计算和存储带来更大的开销，这也是注意力机制广泛使用的原因。

在计算机视觉中，注意力机制主要和卷积神经网络进行结合，按照传统注意力的划分，大部分属于软注意力，实现手段常常是通过掩码（mask）来生成注意力结果。掩码的原理在于通过另一层新的权重，将输入特征图中关键的特征标识出来，通过学习训练，让深度神经网络学到每一张新图片中需要关注的区域，也就形成了注意力。说的更简单一些，网络除了原本的特征图学习之外，还要学会通过特征图提取权重分布，对原本的特征图不同通道或者空间位置加权。因此，按照加权的位置或者维度不同，将注意力分为空间域、通道域和混合域。

典型方法

卷积神经网络中常用的注意力有两种，即空间注意力和通道注意力，当然也有融合两者的混合注意力，画了个示意图如下。

首先，我们知道，卷积神经网络输出的是维度为 $C×H×WC\times H \times W$ 的特征图，其中 $C$ 指的是通道数，它等于作用与输入的卷积核数目，每个卷积核代表提取一种特征，所以每个通道代表一种特征构成的矩阵。 $\times W$ 这两个维度很好理解，这是一个平面，里面的每个值代表一个位置的信息，尽管经过下采样这个位置已经不是原始输入图像的像素位置了，但是依然是一种位置信息。如果，对每个通道的所有位置的值都乘上一个权重值，那么总共需要 $C$ 个值，构成的就是一个 $C$ 维向量，将这个 $C$ 维向量作用于特征图的通道维度，这就叫通道注意力。同样的，如果我学习一个 $H×WH\times W$ 的权重矩阵，这个矩阵每一个元素作用于特征图上所有通道的对应位置元素进行乘法，不就相当于对空间位置加权了吗，这就叫做空间注意力。

下面我列举一些常见的使用了注意力机制的卷积神经网络，我在下面一节会详细介绍它们。

NL(Non-local Neural Networks)
SENet(Squeeze-and-Excitation Networks)
BAM(Bottleneck Attention Module)
CBAM(Convolutional Block Attention Module)
$A^2$ -Nets(Double Attention Networks)
GSoP-Net(Global Second-order Pooling Convolutional Networks)
GCNet(Non-local Networks Meet Squeeze-Excitation Networks and Beyond)
ECA-Net(Efficient Channel Attention for Deep Convolutional Neural Networks)
SKNet(Selective Kernel Networks)
CCNet(Criss-Cross Attention for Semantic Segmentation)
ResNeSt(ResNeSt: Split-Attention Networks)
Triplet Attention(Convolutional Triplet Attention Module)

网络详解

NL

Non-local Neural Networks 应该算是引入自注意力机制比较早期的工作，后来的语义分割里各种自注意力机制都可以认为是 Non-local 的特例，这篇文章作者中同样有熟悉的何恺明大神