深度学习——注意力机制

什么是注意力机制？
人第一眼看上面的图会首先注意到鹰，而不会太重视天空背景。然而，计算机在处理图像的时候是所有的图像内容同等看待，不会重点关注比较重要的信息。因此，人们提出了一种注意力机制，使计算机系统也能够关注重点信息而忽略不重要信息。

系统学会注意力——忽略无关信息而关注重点信息，提高处理效率和质量

注意力机制分为两类：

软注意力：关注区域或通道，具有确定性，可微性，能够用于网络学习的反向传播。

强注意力：关注每一个点，每一个点都可能延伸成重点区域，并且是动态变化的，故而具有不确定性，不可微性，主要用于强化学习。

主要介绍软注意力机制。强注意力机制不做介绍。

1.空间域注意力
根据feature map的空间位置特征差异，对重要区域进行定位，然后采样提取重要信息，忽略次要信息。
原论文：Spatial Transformer Networks
利用空间变换提取重要信息。

如上图是一个空间转换模块（可以作为基础模块嵌入其他网络中），特征U经过定位子网络（Localisation net）提取位置信息θ，然后生成网格对U进行采样。输出局部重点信息V。

例如：（a）是输入，（b)是采样网格，（c)是输出

2.通道域注意力
根据feature map的各通道差异性，计算各通道的权重值，权重值代表通道的重要程度。权重值与feature map 作乘积。下面是实例：
原论文：Squeeze-and-Excitation Networks
1.主要内容：提出了“Squeeze-and Excitation” (SE) block。SE模块能够根据卷积通道之间的相互依赖关系增强网络的特征表现能力，称为特征重校正。SE模块能够在全局信息中筛选并强调重要信息，也是注意力机制的一种。

2.SE block的主要结构

假设有X到U的卷积运算，即：

对于U来说，H, W，C分别为高，宽，通道数。SE block的主要运算操作在U上，分为三步：

一，挤压运算（Squeeze）

即一个全局池化，将含全局信息的U压缩成1×1×C。

二，激励运算（Excitation）

即两个全卷积层+两个激活层构成。z为挤压运算结果，W1为第一全卷积层权重，δ为relu激活函数，W2为第二全卷积层权重，σ为sigmoid激活函数。（注：W1全卷积层有一个缩减比率r ）

三，乘积运算

激励运算结果与U相乘，相当于给U的各个通道乘上了一个权重值，这个权重值反映了通道所含信息重要程度。

3.SE block结构的嵌入使用

SE block具有轻量级，计算消耗小的特点，能够被轻易嵌入到其他优秀网络模型中，以提高网络模型的特征表现力。如下图是将SE block嵌入残差块中的结构图：

3.混合域注意力
混合域注意力机制是在空间域和通道域上同时作用。即，feature map 的空间位置特征和通道特征同时参与计算，生成注意力掩膜mask（称attention map或weight map），注意力掩膜mask的权重代表了不同特征的重要程度，然后mask与feature map 作乘积。下面是两个实例：
原论文：Attention to Scale: Scale-aware Semantic image Segmentation

（a）深度卷积网络（由全卷积网络构成）提取不同尺度的特征，然后将不同尺度特征进行融合。
（b）将深度卷积网络提取到的特征输入到注意力模型中。注意力模型学习输出weight map，然后将weight map 分解为两个尺度的weight map。得到weight map包含了图像不同区域不同尺度的信息重要程度差异。
最后将不同尺度特征进行融合时，分别乘以对应尺度的weight，然后相加即得最终的Score。

原论文：Residual Attention Network for Image Classification

1.主要内容：
提出了残差注意力深度模型网络。
该网络具有以下特点：1）其由多个注意力模块堆叠而成，每个注意力模块能够捕获不同的注意类型。2）采用残差连接，避免梯度消失，能够扩展很大的深度，且能完成端到端的训练。

2.主体结构

如上图，有三个Attention Module构成。
每一个Attention Module 又由特征提取部分T和掩膜提取部分M构成。所以注意力模块的输出H为特征T和掩膜M的乘积，即：

掩膜提取部分的结构：

深度学习——注意力机制相关推荐

深入理解深度学习——注意力机制（Attention Mechanism）：自注意力（Self-attention）
分类目录:<深入理解深度学习>总目录相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...
深入理解深度学习——注意力机制（Attention Mechanism）：带掩码的多头注意力（Masked Multi-head Attention）
分类目录:<深入理解深度学习>总目录相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...
深入理解深度学习——注意力机制（Attention Mechanism）：注意力评分函数（Attention Scoring Function）
分类目录:<深入理解深度学习>总目录相关文章: ·注意力机制(AttentionMechanism):基础知识 ·注意力机制(AttentionMechanism):注意力汇聚与Nada ...
资源|深度学习注意力机制TensorFlow 使用教程
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 [导读]本资源介绍了以下3个方面:1)如何在图像上应用CNN at ...
深度学习 - 注意力机制
1 深度学习中的注意力机制 2014年Recurrent Modelsof Visual Attention -- NIPS 2014: 2204-2212 https://proceedings.n ...
【动手学深度学习----注意力机制笔记】
注意力提示因此,"是否包含自主性提示"将注意力机制与全连接层或汇聚层区别开来. 在注意力机制的背景下,我们将自主性提示称为查询(query). 给定任何查询,注意力机制通过注意力 ...
深度学习基础学习-注意力机制（计算机视觉中）
在网上看到很多关于注意力机制的说明,下面自己总结一下.大佬绕道下面放几个文章的链接添深度学习中的注意力模型计算机视觉中的注意力机制图像处理注意力机制Attention汇总注意力机制详述注意 ...
[深度学习] Attention机制，一文搞懂从实例到原理
一人类的视觉注意力扩展阅读: Attention and Augmented Recurrent Neural Networks[译文] 不用看数学公式!图解谷歌神经机器翻译核心部分:注意力机制 ...
深度学习: 注意力模型 (Attention Model)
Introduction 注意力模型,Attention Model . 是根据人对画面关注度权重的分布不均,而设计的一种新的深度学习模型. 注意力焦点由下图可看出,人们会把注意力更多投入到人 ...

深度学习——注意力机制

深度学习——注意力机制相关推荐

最新文章

热门文章