基于注意力的卷积神经网络高光谱波段选择

原文

名词

Attention机制
BBs building blocks
DL deep learning
HSI Hyperspectral image
1D one dimensional
FMs feature maps
EE Elliptical Envelope

概述

它将新的基于注意的卷积神经网络结合起来，根据波段的重要性对波段进行加权，并利用异常检测技术选择最重要的波段。
所提出的基于注意的方法是数据驱动的，在深度体系结构的不同深度重新使用卷积激活，识别光谱中信息最丰富的区域。
模块化，易于实现，无缝适用于任何卷积网络，并可以使用梯度下降训练端到端。

introduction

波段选择技术分为滤波器（无监督）和包装器（监督）算法。在分类之前应用，过滤方法不需要地面真相数据来选择特定的波段。然而，它们有几个缺点：

很难选择缩小的特征空间的最优维数
波段相关性往往被忽略，导致数据冗余
与其他波段结合时可能具有信息性的波段被删除
由于与其他波段的相关性较低，噪声波段通常被标记为信息性波段。

包装方法使用分类器性能作为目标函数来优化HSI带的子集。虽然这些方法降低了进一步HSI分析的内存需求，但这些算法引起了严重的计算开销。在这项工作中，我们减轻了这个问题，并将选择过程纳入了深度网络培训。到目前为止，尚未探讨这种办法

贡献点

一个新的波段选择算法
一种新的基于Attention的CNN结构，用于提取注意热图，显示频谱的哪些部分在CNN训练过程中对CNN很重要
验证
- 与HSI波段选择中的最新技术进行比较
- 验证波段选择对各种受监督学习者(常规和深度学习)的影响
- 了解将注意力模块附加到CNNs对其分类能力和训练特性的影响；
- 验证所获得结果的统计重要性

CNN概述

卷积层

在CNN中有两种类型的层：卷积层和池层(它们叠加在一起构成CNN的特征提取部分)。然后在特征提取器之后是深度网络的分类部分，通常是用全连接层来构建的
本文中 HSI中的每个像素作为1D输入，卷积核也是1维。输出O(i)中的第i项为
O ( i ) = ( I ∗ K ) ( i ) = ∑ j I ( j ) ⋅ K ( i − j ) O(i) = (I*K)(i) = \sum_j I(j)·K(i-j) O(i)=(I∗K)(i)=j∑I(j)⋅K(i−j)

例子如下

池化层

就是平常一样的

基于Attention 的CNN

输入是HSI中每个像素的光谱维信息。本文的Attention-CNN不修改训练过程中的网络损失。引入了一个额外的正则化损失，使多个注意热图彼此不同。避免用标准损失函数推断，使注意模块直接适用于CNN-修改损失需要进行灵敏度分析，以适当调整正则化项的权重，从而量化其对损失函数的影响

总体概述

为了减轻注意机制的计算负担，最大值池化层后加入注意模块。该模块由两部分组成

估计器：提取特征图中最重要的区域
置信门：为预测产生置信度分数
还可以修改整个CNN的结构，比如BBs的数量，一个BBs包括一个卷积层和一个最大池化层。本文中的这两个层都是1D的,结构如图

不同层次的特征 Z l Z^l Zl进行处理，生成注意力热图，并用于输出(i)基于局部信息的类假设，(ii)置信度 c l c^l cl。最后的输出是注意估计量的Softmax加权和，以及网络分类器的输出(ANN，包含两个隐藏层，包含512个神经元和128个神经元，加个激活函数ReLU)，超参数:卷积核大小和池窗口大小（图中表示为K），所有卷积层的核固定为（K=5,单步，填充数为2），所有层的池化窗（K=2,步长2）,卷积核数越来越少，降低了计算复杂度。下表给出了输出输出张量的维数：

b是HSI的波段数，AB如上上图。

估计器

注意估计器包含单核的1D卷积。核大小为BB提取的特征映射的数量，目的是降维，然后接一个ReLU激活函数和一个softmax 阐述最终关注热点图
F : R b ∗ n → R b ∗ 1 F : R^{b*n} \rightarrow R^{b*1} F:Rb∗n→Rb∗1
b和n分别为HSI波段的数目和特征映射的数目,注意估计器将深度为l处的所有特征映射合并为1个特征映射，并构建一个注意热图 Z ^ l \hat{Z}^l Z^l，突出每个activation map中每个条目的重要性。最终产生局部信息输出空间的假设 H l H^l Hl
H l = A v g P o o l ( Z ^ l ⨀ Z l ) H^l = AvgPool(\hat{Z}^l \bigodot Z^l) Hl=AvgPool(Z^l⨀Zl)
其中， ⨀ \bigodot ⨀是哈达玛积。注意在给定深度l处activation maps的数量可变，从96到54到36.再将 H l H^l Hl通过线性分类器来预测输入的标签
o l = H l W l o^l = H^lW^l ol=HlWl

置信门？？？

局部特征往往不足以输出高质量的类假设。因此我们将每个注意模块与网络的输出耦合起来，通过gate weight matrix W C W_C WC的内积来预测置信度得分c(在l层)
c l = t a n h ( H l W c l ) c^l = tanh(H^lW_c^l) cl=tanh(HlWcl)
网络最终输出是注意估计量和分类器 o n e t o^{net} onet乘置信分 c n e t c^{net} cnet的加权和
o u t p u t = s o f t m a x ( o n e t × c n e t + ∑ l = 1 ∣ ∣ B B ∣ ∣ c l ⋅ o l ) output = softmax(o^{net}×c^{net} + \sum_{l=1}^{||BB||}c^l·o^l) output=softmax(onet×cnet+l=1∑∣∣BB∣∣cl⋅ol)
Softmax回归将神经网络输出转成概率分布，
p i = e x i ∑ k = 0 C − 1 e x k p_i = e^{x_i}\over{\sum_{k=0}^{C-1}e^{x_k}} ∑k=0C−1exkpi=exi
p可用于预测每个传入的HSI像素的最终类标签。

选择HSI波段作为异常检测

利用椭圆包络(EE)算法在最终注意热图的基础上，从输入（全）HSI中提取最重要的，重要波段是少数，所以可以当作是异常值，在EE中，数据建模为具有特征维数之间协方差的高维高斯分布(EE算法的输入张量为B×1).并且椭圆包括大部分数据。椭圆外的样本就是异常，然后EE用快速估计算法3将数据划分为不重叠子样本，计算各特征维数C的均值 μ \mu μ和协方差矩阵，最后提取个样本 x x x的Mahalanobis距离D:
D = ( x − μ ) T C − 1 ( x − μ ) D = \sqrt{(x-\mu)^TC^{-1}(x-\mu)} D=(x−μ)TC−1(x−μ)
然后保存D的最小样本，在EE中，the fractional contamination rate λ \lambda λ 定义了数据集中应该选择多少异常，也就是要选择的波段比例。