论文笔记：FFA-Net Feature Fusion Attention Network for Single Image Dehazing

摘要

作者提出了一种端到端的特征融合注意力网络(FFA-Net)来直接恢复无雾图像。FFA-Net架构由以下三个主要部分组成:

（1）提出了一种新的特征注意(Feature Attention，FA)模块，该模块将通道注意机制与像素注意机制相结合，考虑到不同的宽度通道特征所包含不同的加权信息，且不同图像像素上的雾霾分布不均匀。FA对不同的特征和像素的处理是不平等的，这为处理不同类型的信息提供了额外的灵活性，提高了CNNs的表达能力。

（2）基本块结构由局部残差学习和特征注意力机制组成，局部残差学习允许较不重要的信息（如薄雾区域或低频区域）通过多个局部残差连接被绕过，让主网络架构关注更有效的信息。

（3）基于注意的不同层次特征融合(FFA)结构，特征权重自适应地从特征注意(FA)模块学习，赋予重要特征更多的权重。这种结构还可以保留浅层的信息并将其传递到深层。

论文代码地址

1. Introduction

1.1 单图像去雾(Single image dehazing)的目的是从有雾的输入中恢复干净的图像，根据物理散射模型，通常将雾化过程公式被定义为：

其中，I(z)I(z)I(z)和J(z)J(z)J(z)分别表示雾化图像和干净图像，A是全球大气光照(global atmosphere light)，t(x)t(x)t(x)是透射图（transmission map）。透射图可以表示为t(z)t(z)t(z)= e−βd(z)e^{-\beta d(z)}e−βd(z)，其中d(z)d(z)d(z)和β分别表示场景深度和大气散射参数。给定一个模糊的图像I(z)I(z)I(z)，大多数除雾算法都尝试估计t(z)t(z)t(z)和A，公式（1）也可以表示为：

与传统方法相比，深度学习方法试图直接对中间传输图(intermediate transmission map)或最终无霾图像( the final haze-free image)进行回归。 随着大数据的应用，它们以健壮性获得了优异的性能。本文提出了一种新的用于单图像去雾的端到端特征融合网络（简称FFA网络）。
以前基于CNN的图像去叠网络对通道和像素特征的处理是一样的，但是薄雾在图像中的分布是不均匀的，薄雾的权重应该与厚雾区域像素的权重明显不同。DCP还发现，在至少一个颜色（RGB）通道中，一些像素具有非常低的强度是非常常见的，这进一步说明了不同的通道特征具有完全不同的加权信息。
作者进一步设计了一个新颖的特征注意力（Feature Attention, FA）模块。FA模块在信道和像素特征上分别结合了信道注意力机制和像素注意力机制。 FA不平等地处理不同的特征和像素，这可以在处理不同类型的信息时提供额外的灵活性。
ResNet的出现使得训练一个非常深的网络成为可能。我们采用跳过连接（skip connection）的思想和t特征注意力机制（feature attention），设计了一个由多个局部残差学习跳过连接和特征注意力组成的基本块。一方面，局部残差学习可以通过多个局部残差学习绕过薄雾区域和低频信息，使主网络学习到更多有用信息。而信道注意力机制（channel attention）进一步提高了FFA网络的性能。

1.2 本文的贡献是以下四点：

（1）提出了一种新的用于单图像去雾的端到端特征融合注意力网络FFA网络。 FFA网络在很大程度上超越了以往最先进的图像去叠方法，尤其在雾度大、纹理细节丰富的区域表现尤为突出。如图一和图八所示。

（2）提出了一种新的特征注意力（Feature Attention, FA）模块，它结合了通道注意力和像素注意力机制。 该模块在处理不同类型的信息时提供了额外的灵活性，更加关注浓雾的像素和更重要的通道信息。

（3）提出了一个由局部残差学习和特征注意力（Feature Attention, FA）组成的基本块，局部残差学习允许通过多跳连接绕过薄雾区域和低频信息，特征注意力（Feature Attention, FA）进一步提高了FFA网络的能力。

（4）提出了一种基于注意力的特征融合（FFA）结构，这种结构可以保留浅层信息并将其传递到深层。此外，它不仅能融合所有特征，而且能自适应地学习不同层次特征信息的不同权重。

图一

2. Related Work

3. Fusion Feature Attention Network (FFA-Net)

如图二所示，特征融合注意力网络FFA-Net的输入是一个有雾的图像，它被传递到一个浅层特征提取部分，然后被输入到N组具有多个跳跃连接的群结构中，然后N 组结构的输出的特征图通过作者提出的的特征注意模块融合在一起，这些特征最终传递到重构部分和全局残差学习结构，从而得到无雾输出。
此外，N组结构中的每一组结构都将B个基本块结构与局部残差学习相结合，每一个基本块都结合了跳跃连接和特征注意（FA）模块。FA是由通道注意和像素注意组成的注意机制结构。

图二

3.1 Feature Attention（FA）

大多数图像去雾网络对通道和像素特征的处理是平等的，不能处理雾度分布不均匀和加权通道的图像。本文提出的特征注意力机制（Feature Attention, FA）（如图三）由通道注意力机制和像素注意机制（channel attention and pixel attention）组成，这可以在处理不同类型的信息时提供额外的灵活性。

图三

FA不平等地处理不同的特征和像素区域，这可以在处理不同类型的信息时提供额外的灵活性，并且可以扩展CNNs的表示能力。
关键的一步是如何为每个通道和像素特征生成不同的权重。我们的解决方案如下：

3.1.1 Channel Attention (CA)

按照DCP的理论，通道注意力（channel attention）主要关注不同的通道特征具有完全不同的加权信息。首先， 利用全局平均池化（average pooling）将通道全局空间信息转化为通道描述符。

其中Xc(i，j)X_c(i，j)Xc(i，j)表示位置（i，j）处的第c个通道XcX_cXc的值，HpH_pHp是全局池化函数。特征图的形状从C×H×WC×H×WC×H×W变为C×1×1C×1×1C×1×1。为了获得不同通道的权重，特征通过两个卷积层和sigmoid，ReLu激活函数后。

其中σσσ是Sigmoid函数，而δδδ是ReLu函数。最后，我们逐个元素地将输入FcF_cFc与通道CAcCA_cCAc的权重相乘。

3.1.2 Pixel Attention (PA)

考虑到不同图像像素上的雾度分布不均匀，作者提出了一种像素注意（PA）模块，以使网络更加关注信息特征，例如，雾度较大的像素和高频图像区域。
与CACACA类似，我们将输入F∗（CA的输出）F ∗（CA的输出）F∗（CA的输出）直接馈入到具有ReLu和Sigmoid激活函数的两个卷积层中。形状从C×H×WC×H×WC×H×W变为1×H×W1×H×W1×H×W。
最后，我们对输入F∗F^∗F∗和PAPAPA使用逐元素乘法，F~\tilde{F}F~ 是Future Attention（FA）模块的输出。

为了直观地说明特征注意力（FA）机制的有效性，作者打印了组结构输出的通道级和像素级特征权重图。 我们可以清楚地看到，不同的特征映射在不同的权值下被自适应地学习。

图四显示了较厚的有雾图像像素区域和具有较大权重的对象的边缘、纹理。像素注意力（PA）机制使得FFA网络更加关注高频和浓密的像素区域。

图四

图五显示出了一个3×64大小的图，并且三行对应于在channel方向上输出的三个组架构的特征映射权重，说明不同的特征自适应地学习完全不同的权重。

图五

3.2 Basic Block Structure

如图六所示，基本块结构由局部残差学习和特征注意力（FA） 模块组成，局部残差学习允许通过多个局部残差连接绕过薄雾或低频区域等不太重要的信息，而主网络则注重有效的信息。

图六

实验结果表明，其结构可以进一步提高网络性能和训练的稳定性，局部残差学习的效果可以在图七中看到。

图七

3.3 Group Architecture and Global Residual Learning

组架构（Group Architecture）结合了B基本块结构（B Basic Block Structure）和 跳过连接模块（skip connection）。连续的B块增加了FFA网络的深度和表现力。skip connection解决了FFA -Net训练困难的问题。在FFA网络的最后，使用两层卷积网络实现和一个长全局残差学习模块添加了恢复部分。最后，恢复了想要的无雾图像。

3.4 Feature Fusion Attention

首先将G组结构（G Group Architectures）输出的所有特征映射在通道方向连接起来。此外，通过乘以由特征注意力（FA）机制获得的自适应学习权重来融合特征。由此，我们可以保留低层的信息并将其传递到深层，由于权重机制的存在，使得FFA网络更加关注厚雾区、高频纹理和色彩保真度等有效信息。

3.5 Loss Function

均方误差（mean squared error，MSE）或 L2损失是目前应用最广泛的单图像去雾的损失函数。然而Lim等人指出，在PSNR和SSIM指标方面，许多使用L1损失的图像恢复任务训练取得了比L2损失更好的性能。遵循同样的策略，本文默认采用简单的L1损失。尽管许多去雾算法也使用感知损失（ perceptual loss）和GAN损失，但我们选择了去优化L1损失。

其中，Θ\ThetaΘ 表示FFA-Net的参数， IgtI_{gt}Igt表示ground truth，IhazeI_{haze}Ihaze表示输入。

4. Experiments

4.1 Datasets and Metrics

Li等人（2018）提出了图像去雾基准RESIDE，其中包含来自深度数据集（NYU Depth V2（Silberman, 2012））和立体数据集（Middlebury Stereo数据集（ Scharstein and Szeliski, 2003））。

RESIDE室内训练套件包含1399张清晰的图像和13990张由相应清晰图像生成的模糊图像。 The global atmosphere light的范围从0.8到1.0，the scatter parameters 的范围从0.04到0.2。为了与以前的最新方法进行比较，我们在综合目标测试集（SOTS）中采用了PSNR和SSIM指标以及全面的比较测试，该测试集包含500张室内图像和500张室外图像。我们还将在“现实有雾图像”上测试结果以进行主观评估。

4.2 Training Settings

我们在RGB通道中训练FFA-Net，并通过随机旋转90o90^o90o,180o180^o180o,270o270^o270o和水平翻转来增强训练数据集。提取2个大小为240×240的有雾图像块作为FFA-Nets输入。整个网络分别针对室内和室外图像进行5×1055×10^55×105、1×1061×10^61×106steps的训练。使用Adam优化器，其中β1β1β1和β2β2β2分别采用默认值0.9和0.999。

初始学习率设置为1×1041×10^41×104，我们采用余弦退火策略（He et al.2019）通过遵循余弦函数将学习率从初始值调整为0。假设批次总数为TTT，ηηη为初始收益率，则在批次t处的学习率ηtη_tηt计算为：

PytTorch，使用RTX 2080Ti GPU来实现模型。

4.3 Results on RESIDE Dataset

在本节中，我们将定量和定性地将FFA-Net与以前的最新图像去雾算法进行比较。我们将DCP，AOD-Net，DehazeNet，GCANet等四种不同的最新除雾算法进行了比较，比较结果如表1所示。

可以看出，我们提出的FFA-Net在PSNR和PSNR方面都远远优于所有四种不同的最新方法。SSIM。此外，我们在图八中给出了视觉效果的比较，以进行定性比较。

图八

Indoor and outdoor results：上面三行是indoor结果，下面三行是outdoor结果。
我们可以观察到：

DCP由于其潜在的先验假设而遭受严重的颜色失真，因此，它会丢失图像深度中的细节。 - AOD-Net无法完全消除雾度，并且倾向于输出低亮度图像。
相反，Dehazenet所覆盖的图像相对于地面真实情况而言亮度过高。
在第5行中，GCANet在高频细节信息性能（例如纹理，边缘和蓝天）下的处理能力始终不尽人意。

Real and image results：我们的网络可以神奇地发现：

第1行图像远处中隐约可见的塔楼。
更重要的是，我们的网络结果几乎完全与真实场景信息一致，例如在第二行中显示的带有纹理和雨滴的潮湿路面。
但是，发现在第2行的GCANet结果的建筑物表面上不存在斑点。从其他网络恢复的图像并不令人满意。我们的网络在图像细节和色彩保真度的逼真的表现上显然是优越的。

5. Ablation Analysis

为了进一步证明FFA-Net体系结构的优越性，我们通过考虑我们提议的FFA-Net的不同模块来进行消融研究。我们主要关注以下因素：
1）FA（功能关注）模块。
2）结合局部残差学习（LRL）和FA。
3）特征融合注意（FFA）结构。我们通过3×1053×10^53×105steps的训练将图像裁剪为48×48，其他配置与我们的实现细节相同。结果示于表2。

而且，如果我们充分利用本文中的实现细节，那么PSNR将达到35.77db。结果表明，我们考虑的每个因素在网络性能中都起着重要作用，尤其是FFA结构。我们还可以清楚地看到，即使我们仅使用FA结构，与以前的最新方法相比，我们的网络也可以具有非常强的竞争力。 LRL使网络培训稳定同时改善网络性能。 FA机制和特征融合（FFA）的结合使我们的结果达到了很高的水平。