3.Single Image Dehazing via MSCNN-HE 论文阅读

Single Image Dehazing via Multi-scale Convolutional Neural Networks with Holistic Edges

译为：基于整体边缘多尺度卷积神经网络的单幅图像去噪
作者：Xiaochun Cao、Wenqi Ren、Jinshan Pan、Hua Zhang和Ming-Hsuan Yang

Abstract

本文的算法：是由一个粗比例尺网络和细比例尺网络组成，粗比例尺基于整个图像预测整体传输图，细比例尺局部细化去雾效果。

数据集：NYU-Depth 在其基础上和成了一个模糊图像和相应传输图组成的数据集。

此外，提出了一个整体边缘引导网络来细化估计传输图的边缘。

然后就是，效果优于现有的合成图像和真实图像的质量和速度

Introduce

开局介绍很正常，太经典了，所有去雾的论文都绕不过的几种形式：1.介绍雾霾对计算机视觉的影响，因此我们需要去除雾霾，然后巴拉巴拉，前人的工作有———He，…，Cai,…(这两个我觉得一个是传统中的经典之作，He——DCP，一个算是深度学习中的去雾的开山之作，cai——DehazeNet)；2.近年来的工作是什么，谁谁谁取得了巨大进展。
接着二者最后几乎都会引向大气散射模型模型。这篇是第二种形式。近年来工作进展，很明显差不多。接着就到了大气散射模型的介绍了。老生常谈的，
I(x)=J(x)t(x)+A(1−t(x))I(x)=J(x)t(x)+A(1-t(x))I(x)=J(x)t(x)+A(1−t(x))

I(x)I(x)I(x)即输出的雾霾图像
J(x)J(x)J(x)即要恢复的场景亮度或者说是干净图像，剩下即是两个关键参数
AAA是全球大气光
t(x)t(x)t(x)是传输矩阵
而t(x)t(x)t(x)定义为:t(x)=e−βd(x)t(x)=e^{-\beta d(x)}t(x)=e−βd(x)
其中β\betaβ是大气的散射系数
d(x)d(x)d(x)是物体和相机之间的距离(distance)
如果我们知道大气光A和透射比t（x），可以根据（1）恢复清晰场景的辐射度J（x）。因为只有输入图像I（x）是已知的，所以单图像去叠是一个不适定的问题。

接着就是文章提出的部分，作者提出了一种多尺度卷积网络，这种算法学习到的特征很大程度上不依赖于场景图像的统计先验或者雾度相关属性。由于学习到的特征基于数据驱动的方法，所以可以描述雾霾图像的固有特征，同时可以帮助估计传输图。为了了解这些特征，使用了一个带有3个模块的神经网络，在传输图上直接回归。

第一个模块是粗尺度网络，它估计场景传输的整体结构

然后细尺度网络使用局部信息和粗尺度模块的输出对其进行细化。

最后，我们使用基于整体边缘的网络来细化传输图。整体边缘引导网络将整体边缘的结构传递给滤波输出。
意义：这消除了孤立和虚假的像素传输估计，同时鼓励相邻像素具有相同的标签。我们在由合成图像和真实模糊图像组成的大量数据集上，对照最先进的方法对所提出的算法进行了评估。

作者的贡献如下：

提出了一种多尺度CNN来从模糊图像中学习有效的特征，用于场景传输图的估计。场景传输图首先由粗比例尺网络估计，然后由细比例尺网络细化。
提出了一种基于模糊图像整体边缘信息的整体边缘引导网络来细化传输图
从纽约大学深度数据集那里，开发了一个由模糊图像及其传输图组成的基准数据集。
性能优异。

Related Word

介绍了早期的去雾历史：

方案一：

早期需要多帧来处理去雾问题。

或者使用不同角度的偏振滤光片(这里是相机方面的东西，使用物理方面的)捕捉同一场景的多幅图像，然后分析图像的不同偏振度以去除雾霾。又或者假设场景的n近似3D几何模型可用，从中可以得到数据驱动的去雾方法。

很明显，有时候一个场景只有一张图像可以使用的话呢？

方案二：

研究雾霾图像的物理特性

例如表面着色和场景传输的改进图像形成模型

基于类似的模型，Tan（2008）提出通过最大化模糊图像的局部对比度来增强其可见性，但恢复的图像通常包含扭曲的颜色和明显的光晕。

大神之作：He的DCP，被证明是有效去雾的。缺点是计算成本很高。然后很多人基于此进行改进，为了解决效率问题，结果过于增强。显得效果奇特。

早期的去雾方法确实是基于手工发现特征来开发的。

紧接着就是机器学习在CV领域的成功，导致数据驱动的去雾模型变得很流行。以下是文中出现的三个人：

在蔡等人（2016）中，使用深度神经网络进行透射估计（DehazeNet），然后按照传统方法估计大气光。然而，蔡等人基于图像块的上下文独立于传输图的假设合成模糊图像，这在实践中并不成立。此外，该网络在补丁级别进行训练，并充分利用来自更大区域的高级信息。
Li等人（2017）提出了大气散射模型，其中大气光和透射图以矩阵形式表示，并提出了一个AOD网络来直接估计清晰图像，而不是分别估计透射图和大气光。虽然AOD网络算法并不明确要求估计透射图和大气光，但它需要估计矩阵的参数。由于矩阵预测不使用透射图的信息，这些最终恢复的图像仍然包含一些烟雾残留物。
与这些基于学习的方法不同，该文章的算法直接从haze图像中估计传输图，其中所提出的网络在训练过程中受到地面真实传输图的约束。像这样的它能够保持模糊图像和传输图之间的相关性，从而获得更逼真的图像。此外，我们提出了一种新的多尺度CNN，该CNN具有整体边缘引导网络，可以自动学习模糊图像和传输图之间的映射。

Multi-scale Network for Transmission Estimation

本章是来说明算法大概的思路和不同的模块

分为3个模块：

粗尺度网络
粗比例尺网络的任务是预测场景的整体传输图。粗尺度网络包含四个特征提取层。除最后一层外，每个卷积层后面是校正线性单元（ReLU）.
卷积层该网络将RGB图像作为输入。卷积层由与输入特征映射卷积的滤波器组组成。每个卷积层的响应如下所示：
fnl+1=σ(∑m(fml∗km,nl+1+bnl+1))f_n^{l+1}=\sigma(\sum_m(f^l_m*k^{l+1}_{m,n}+b^{l+1}_n))fnl+1=σ(m∑(fml∗km,nl+1+bnl+1))
详细参数看文章：
细尺度网络
由细比例尺网络进行细化。这个网络中的感受野比粗尺度网络中的感受野小。除了第一和第二卷积层之外，细尺度网络堆栈的结构与粗尺度网络相似。我们的精细尺度网络结构如图2b（橙色虚线矩形）所示，其中粗输出传输图用作附加的低层特征图。我们在精细比例网络中将这两个连接在一起，以优化场景传输图。此外，我们使用零填充卷积来保持后续层中特征映射的大小。
读者感觉：这里可能是因为选择的卷积核小，所以感受野更小一些。
感受野：该概念是出现自生物学中的神经元只接受其所支配的刺激区域中的信号。引申过来可以理解为该一点在原始图像中所占的多少区域。感受野（Receptive Field）的定义是卷积神经网络每一层输出的特征图（feature map）上的像素点在输入图片上映射的区域大小。再通俗点的解释是，特征图上的一个点对应输入图上的区域。简单的说：好比一个图像经过几次卷积之后的1×1像素，这个像素是好多次3×3的卷积核卷积过提取的特征。那么这个特征是一开始从多大的矩阵拿过来的呢？
例如：两层3×3的卷积核卷积操作之后的感受野是5×5，其中卷积核（filter）的步长（stride）为1、padding为0，如下图所示：
整体边缘引导网络
损失函数

多尺度网络去雾

大气光估计

在获得场景传输图t(x)t(x)t(x)后，我们可以使用现有算法，来估计大气光。当气溶胶反射特性和主要场景照明在整个场景中大致均匀时，恒定的大气光是合适的近似值。因此，我们将A视为图像中的常数，并使用该方法（He等人2009；Zhu等人2015）进行估算。我们直接根据估计的传输图计算A。
从模糊图像模型出发,求导发现当t(x)=0t(x)=0t(x)=0的A，因此雾霾估计大气光A通过一个给定的阈值tht_hth
I(x)=A,t(x)<thI(x)=A,t(x)<t_hI(x)=A,t(x)<th
这是作者在合成图像的大气光估计：
[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-7GPDQV0k-1650888843383)(…/Picture/06/大气光.PNG)]
图片分析:Sulami的导致去雾后较暗，因为低估了大气光照，而Berman过度增强了去雾效果。相比之下作者的更好一些。

雾霾去除

一旦大气光A和场景投射图t(x)被估计了，就可以通过大气散射模型公式估计无雾图像J(x)=I(x)−At(x)+AJ(x)=\frac{I(x)-A}{t(x)}+AJ(x)=t(x)I(x)−A+A,然而当t(x)t(x)t(x)趋近于0时，用该模型直接估计会产生噪声。所以我们估计
J(x)=I(x)−Amax0.1,t(x)+AJ(x)=\frac{I(x)-A}{max{0.1,t(x)}}+AJ(x)=max0.1,t(x)I(x)−A+A

实验效果

在两个合成数据集和真实模糊图像上对所提出的算法进行了定量评估，并在准确性和运行时间方面与最先进的方法进行了比较。实施守则将向公众公布。在之前的工作（Ren等人，2016年）中，多尺度CNN被称为MSCNN，而提议的具有整体边缘引导网络的多尺度CNN被称为MSCNN-HE。
**训练参数：**实验设置该网络采用随机梯度下降法进行训练。动量值、重量衰减参数和批次大小设置为0.90.90.9,5×10−45×10^{-4}5×10−4和101010。每一批都是一个整体图像，其大小为320×240像素。初始学习率为0.001，每20个迭代后降低0.1，迭代数设置为70。在配备2.8 GHz CPU和NVIDIA K40 GPU的台式计算机上，训练时间约为10小时。
**训练数据：**用合成的模糊图像及其相应的传输图生成一个数据集。尽管存在一些室外数据集，但与现有的室内数据集（Sil berman等人，2012年）相比，深度图的精度和完整性更低。因此，我们从纽约大学深度数据集（Silberman et al.2012）中随机抽取6000张干净的图像和相应的深度图来构建训练集。此外，我们使用米德尔伯里立体数据集（Scharstein and Szeliski 2002，2003）生成了一组50幅合成模糊图像的验证集。我们生成随机大气光A=[k，k，k]，其中k∈ [0.7,1.0]，并随机抽取三个β∈ [0.5,1.5]适用于每幅图像。
我们使用消色差大气光，因为非消色差大气光(这里我觉得翻译成无色大气光好一点吧？)往往会产生一些不自然的棕红色或绿蓝色图像

主观视觉效果如下：

一般来说，视觉效果特别主观，所以需要客观的数据表示：

剩下对于分析，肯定都是扯。。。太经典了。有数据优越性体现怎么扯都可以的！

Conclusion

总结了一下，内容如下：

本文使用了多尺度深度网络解决图像去雾问题，该网络学习有效特征来估计单个雾霾图像的场景传输图。
本文的方法比以往需要仔细设计特征和组合的策略相比较更为容易实现和复现。
本文模型：先使用粗尺度网络学习场景传输图来进行细化。然后使用细尺度网络利用局部信息和粗尺度网络的输出进行细化。接着提出一个整体的边缘引导网络，来确保相同深度的对象有相同传输值。
实验得出在合成图像和真实图像上的实验结果证明了算法的有效性。