Denoising/图像恢复

去噪是图像恢复/增强领域的一个经典问题，现在来关注一下，其实我更想关注unpaired real data 的去噪问题

文章目录

GCBD-Image Blind Denoising With Generative Adversarial Network Based Noise Modeling
FDR-Net - Learning Disentangled Feature Representation for Hybrid-distorted Image Restoration
"Double-DIP": Unsupervised Image Decomposition via Coupled Deep-Image-Priors
DIP
Domain Adaptation for Image Dehazing

GCBD-Image Blind Denoising With Generative Adversarial Network Based Noise Modeling

2018 cvpr 的一篇文章

novel two-step framework. First, a Generative Adversarial Network (GAN) is trained to estimate the noise distribution over the input noisy images and to generate noise samples. Second, the noise patches sampled from the first step are utilized to construct a paired training dataset, which is used, in turn, to train a deep Convolutional Neural Network (CNN) for denoising
典型的估计噪声分布来获取paired images

大量的实验证明GAN 可以用来学习复杂的分布，那么直观来看我们可以用GAN 的生成器将clean 图像映射到一个具有和真实图像相似噪声的的图像。但是作者说: “it is not trivial to realize this goal”, “we found that it doesn’t work this way”. 尽管可以学习到类似的噪声分布，但是没有证明原始的分布没有被改变

为了解决这个问题，我们选择训练一个生成器学习这种噪声而不是噪声图片

豁然开朗就是这个意思吧
文章反复提到 internal information 和external information

framework

上图没怎么看懂，GAN 干了什么，怎么约束的Noise？
文章说为了简化问题，假设图像具有均值为0 的未知噪声

Noise Model
在构建成对训练数据之前，需要从噪声图像(noise image)估计噪声模块(approximate noise block)
噪声模块可以更好的噪声模型和噪声数据生成(noise modeling noise data generation)
这里才是文章的关键啊，估计噪声块，从噪声图像中去除背景干扰生成纯噪声的块(图像)，这就太强了啊，那他是怎样估计噪声块的呢—
假设纯噪声块图像为V(with weak background), 假设噪声的均值为0，那么使用含噪声块的噪声图像减去平滑块(smooth patch)的均值即可,使用文章算法并没有得到一个可信的结果，我觉得噪声为0的假设对于自然图像的采集可能可取，但是对于特定且不确定噪声有待商榷
总结下文章使用的快速平滑块搜索算法(fast smooth patch search algorithm, FSPSA)
噪声模型 y=x+ny=x+ny=x+n
假设噪声均值为0，那么ymean=xmeany_{mean}=x_{mean}ymean=xmean
在假设如果我们图像块足够平滑即使smooth patch，那么就有 n≈y−xsmooth−meann\approx y-x_{smooth-mean}n≈y−xsmooth−mean
基于此，文章提出一个FSOSA
p 是dxd 以步长sg 在噪声图像上的划窗
q 是hxh 以步长sl 在p上的划窗
如果某一个p 中每一个q 满足以下约束，即认为p 是一个平滑的块(smooth patch)

我尝试分析上式，式一，mean§ 表示背景的均值(因为假设噪声均值为0)，如果p 内每一个q 均值都和p 均值接近，那么说明背景是平滑的(这还不能充分表示平滑，平滑一定均值相近方差趋于0，但是这只是均值相近，那么怎么评估背景的方差呢？)；式二，方差的话应该怎么分析？单独分析的话可能不好分析，因为噪声和背景都有一个方差分布，方差是基于均值的离差，那么如果要背景足够smooth 的话，那么他的方差–>0 那么D(x+y)=D(x) + D(y) 不就是噪声的方差，这里的假设是否假设噪声方差一致，那么每个q 方差和总体接近，那么每个q 背景的方差是不是就趋于0.。。。。

GAN architecture

loss

这个操作也是非常值得借鉴的，使用GAN 来学习噪声的图像(分布)，得到噪声分布图像以后，使用clean img 获取paired 图像，就可以使用一个常规的Denoising 框架来训练这个end2end 网络
但是这一切的前提都是前面Noise model 估计的准确，我很好奇他的噪声估计这么准确吗？我尝试将反射图像分解作为一个去噪问题，估计反射图像的分布，并没有一个可信的结果，期待有做过这个实验的人来验证下

FDR-Net - Learning Disentangled Feature Representation for Hybrid-distorted Image Restoration

中科大文章，让我想起来应该是CameraLens 那篇文章，看题目应该是想将混合降质图像恢复的问题看作一个分离的图像特征表示问题，和我想做图像分解(image decomposition) 的思想是一样的吗？让我想起RetinexNet，也是一个图像分解的问题，我能否通过RetinexNet 的框架来做RR 分解？

Hybrid-distorted image restoration image restorated (HD-IR) 混合降质图像恢复
Disentangled Feature Learning 解耦特征学习
feature disentanglement module (FDM) 特征解耦模块
revising/inerse gain-control-based normalization 基于校正/逆增益控制的正则化
feature aggregation module (FAM) 特征聚合模块

提出问题：看了introduction 第一段突然发现文章做的事情和自己想的不太一样，他想解决的是在流媒体中图像压缩带来的问题，有关图像压缩的压缩伪影看这个简书

现有研究：对于单因素降质如去噪去雾去雨等已经有了很多的研究，但是现实中有很多降质的因素，面对HD-IR 有人通过多个合适的操作级联来尝试解决这个问题，但是这忽略了多种降质因素之间互相干扰

文章动机：基于[2] [26] 两个研究 [2]指出深度特征可以代表不同的图像降质，[26] 指出 > a series of filters and gain-control-based normalization could achieve the decomposition of different filter responses; 一系列的滤波器和基于增益控制的正则化可以达到不同滤波响应的分解
上面两个研究都不懂，但是作者基于此提出了一个FDM 实现了通道层面特征去相关(channel-wise feature decorrelation), 怎么做到的

FAM: 和high-level 任务不同，分类，ReID 提取的特征并没有聚类，但是对于low-level 图像恢复，聚合提取特征中有用的信息来重建图像是至关重要的， so 他们又提出来基于通道注意机制和基于增益控制正则化的逆变换的FAM 用以聚合特征( adaptive feature aggregation module (FAM) based on channel-wise attention mechanism and inverse transform of gain-controlbased normalization )

gan-control-based normalization
非线性分解自然信号(nonlinear decomposition of natural signals)

信号X 通过滤波器f 分解为若干表示(representation) L
通过gain-control-based normalization 加权归一化为R
参数： suitable weight / offset
参数是怎么确定的，保证归一化？可能和我想的类似softmax 归一化不太一样？

FDM

将卷积看作滤波器，则

为了在CNN 中实现公式2

每个FDM 三个FDlayers best
为了约束w 和b，文章介绍了引文[3] 提出的SVDO 作为损失约束，减少特征相关

the spectral value difference orthogonality regularization (SVDO)[3]
谱值差正交正则化

约束特征层的最大特征值和最小特征值接近，说明每个channel 表示的特征都是必要特征，做到“平均特征分解的作用”，这里的假设前提是，特征层能够很好的表示图像各特征结构，文章给的是引文[26][2]
这里对于约束特征值的做法不太理解，search下

知乎

上面这一段显得有心无力了，贴上来看看

PM 是卷积？
CA 常规的attention
通过公式7 更好的重建图像，不太能理解，通过这么多变换，还要通过相同的逆操作变回去？

Auxiliary Module

是在FDM 使用ResBlock 结构吗?

framework

看了整体框架有了更清晰的理解。。。。
multi-phase for different levels

multi-phase 尺度不一样是吗？
decoder 结构？
skip connection 是add 还是concate
fusion 所谓的 ‘a feature’ 指的是

loss

beta=0.00001

dataset

DIV2K dataset
仿真加入高斯噪声/高斯模糊/JPEG 压缩伪影
DID-HY dataset

experim

c 图没看懂？ab 和c 特征图大小不一样？c 图是每个channel 是一个长为30的向量？而且恰好，每个向量的的10维代表一种降质特征？

没有开源，联系作者，系合作文章，期待开源
有空尝试自己写一下

“Double-DIP”: Unsupervised Image Decomposition via Coupled Deep-Image-Priors

一图胜千言！
DIP - deep image prior

These capabilities are achieved in a totally unsupervised way, with no training examples other than the input image/video itself
文章说这个非监督的方式除了输入本身没有任何训练样本。我可能对DIP 有什么误解

layer-decomposition

What is common to all these decompositions is the fact that the distribution of small patches within each separate layer is “simpler” (more uniform) than in the original mixed image, resulting in strong internal self-similarity
作者将一些图像处理的任务看作一个统一的“layer-decomposition”的框架，这样的先验就是每个分离层“小块的分布”相比于原始的混合图像更简单，更均匀统一，拥有更强的内部自相似性

大量的任务(分割/去雾)表明单一图像的经验熵(empirical entropy)要比混合图像的经验交叉熵(empirical cross-entropy)更小，自相似性越高
single DIP 生成网络有足够的能力提取单个自然图像的低层次的统计特征[38],非监督方法处理图像的逆问题

Double-DIP framework

if Z = X + Y
then max{H(x), H(Y)} <= H(Z)

DIP

Domain Adaptation for Image Dehazing

作者想通过仿真数据来监督非配对数据的去雾问题，使用一个domain adaptation 来联系两者之间的分布差距

Domain Adaptation 分为feature-level or pixel-level adaptation（最小化最大平均差距）
由于去雾与一些先验知识DCP 和梯度平滑，加入loss 约束
由于去雾和深度信息有关，加入深度信息约束（spatial feature tansform, SFT）

Method

仿真数据 XS={xs,ys}s=1NlX_S= \{x_s,y_s\}_{s=1}^{N_l}XS={xs,ys}s=1Nl

真实数据 XR={xr}r=1NuX_R= \{x_r\}_{r=1}^{N_u}XR={xr}r=1Nu

GS−RG_{S-R}GS−R GR−SG_{R-S}GR−S GSG_SGS GRG_RGR

image translaation losses

Image dehazing losses
for G_R
仿真数据监督分支
MSE

非监督分支
TV

DCP

for G_S

consistency loss