【论文学习】Spatially Variant Linear Representation Models for Joint Filtering

前言

这篇文章是CVPR 2019的一篇文章，只是突然翻到了，就读了一下。文章的思路其实很简单，就是将卷积神经网络（CNN）与传统方法相结合（这是我一直提倡的）；但是我首先要说明，文章中的一些说法我觉得是值得商榷的。本篇博客会先介绍文章的思路，然后进行简单的分析。

文章思路

文章的核心工作是提出了一种空间变换线性表征模型（spatially variant linear representation model，简称SVLRM）用于联合滤波。并与现有的一些方法进行了对比。下面介绍一下文章中的思路。

分析引导滤波

为了引出自己的观点，作者首先介绍了Guided filter（点这里）。在GF中，除了输入图像 III 之外，还需要输入一张引导图像 GGG ，根据这两张图可以求出每个像素点的线性变换系数 aaa 和 bbb ，最终输出图像的结构与引导图相似，像素的变换过程被表示为；

输出图中像素的梯度与引导图中对应像素的梯度满足如下关系；

“根据这个关系，引导图中的结构细节被直接转换到输出图，这导致目标图中会有引导图中的额外信息。”这个说法有一定道理，因为这正是引导滤波中使用引导图像的意义的意义；但是之前关于GF的博客中有提到，输入图像与引导图像之间并不是简单的线性变换，因为线性系数的值有输入图像和引导图像共同决定，因此这个说法也不是绝对的。

此外，作者还认为：“由于单个像素的线性系数最终是由不同窗口的线性系数求均值得到的，因此，会导致结果图中重要的结构信息被平滑。” 这个观点也是正确的，在之前的博客中，我们也通过实验验证了和解释了原因。

然后作者表示：“线性系数很重要，决定了引导图像中的结构是否被传递到结果图中。” 为了解决上述问题，作者提出了SVLRM，并且使用CNN计算线性系数。

提出模型

由于局部线性模型仅仅参考了局部的信息，这决定了这类方法会引入额外的结构。所以提出了下面的转换关系；
F=α(G,I)G+β(G,I)F=\alpha (G,I)G+\beta (G,I)F=α(G,I)G+β(G,I)
与引导滤波中不同，系数 α(G,I)\alpha(G,I)α(G,I) 和 β(G,I)\beta (G,I)β(G,I) 是由引导图像 GGG 和输入图像 III 共同决定的。（使用全图的信息就能够解决上述问题了吗？或许也无法解决，所以这个根据或许无法成立。）

但是求解系数的过程非常困难，然后作者根据梯度下降算法和链式法则说明求解 α(G,I)\alpha(G,I)α(G,I) 和 β(G,I)\beta (G,I)β(G,I) 的过程是可导的，因此可以使用CNN网络进行预测。

CNN计算系数

文中使用的网络结构共12个卷积层，每一层的卷积核的size是3，卷积步长为1，前11个卷积层的通道数为64，并且除了最后一层之外，其他的每一层使用 relurelurelu 激活函数。使用 L1L1L1 范数作为网络的损失函数。

对于模型训练的其他信息，如输入图与引导图如何传递进网络？，输出为几通道？，并未有太多的介绍，但是从文中的其他描述来看，我认为：作者应该是将输入图与引导图在通道维度进行了连接，然后传递进入网络，输出也应该是维度一致的，即同时输出 α(G,I)\alpha(G,I)α(G,I) 和 β(G,I)\beta (G,I)β(G,I) 两张图像。

通过输出的两张系数图，与引导图进行线性计算，然后得到输出图，与GT做 L1L1L1 范数计算优化。

结果对比

对于结果的对比，其实没什么好说的，因为文章的作者总是说自己的结果好，王婆卖瓜嘛。

文章主要与一种直接实现端到端计算得到输出图的深度学习方法以及GF进行了对比，证明自己的方法更好。然后同引导滤波中一样，手工求解了两个系数解，并与文中的方法对比系数图和结果。总的来说，作者认为自己方法取得了 state-of-the-art 的结果。

但是，我好奇的是这张计算效率的比较。联合双边滤波作为一个传统的方法，计算的效率居然比文中的深度学习的方法慢这么多，慢了60倍。。。。并且，从文中的描述来看，文中的网络结构的计算量不算小。可能与算法具体实现过程有关吧。

文章分析

回过头再看这篇文章，作者首先描述了GF这种局部线性模型的缺点，然后提出SVLRM，再用CNN计算线性系数。其实算法的思路可以简单理解为使用CNN提取输入图与引导图的有效信息得到引导滤波的线性系数。至于卷积网络是否学到了全局的空间信息，这一点是不可知的。

为什么不直接用端到端的模型获取结果图，而是获取线性系数呢，从文中的结果来说：获取线性系数的方法获得的结果能够保存更多的细节和结构信息 至于为何如此，文中并未细说。我个人认为有三种可能：

深度学习的过程与网络结构，学习率、优化方式、损失函数等诸多因素有关。有一定的偶然性！
在传统图像处理中，认为在缩放系数比缩放结果图更能保留细节。比如，低分辨上得到的计算系数通过插值得到高分辨图像对应的系数，再将该系数作用到高分辨图像得到结果 AAA ，将低分辨系数作用于低分辨输入图，再将结果图插值到高分辨得到结果 BBB ，前者比后者的细节保留会更好。
线性变换也相当于多次卷积运算。

已完。。。。。有错误请指出