【论文学习】Spatially Variant Linear Representation Models for Joint Filtering
前言
这篇文章是CVPR 2019的一篇文章,只是突然翻到了,就读了一下。文章的思路其实很简单,就是将卷积神经网络(CNN)与传统方法相结合(这是我一直提倡的);但是我首先要说明,文章中的一些说法我觉得是值得商榷的。本篇博客会先介绍文章的思路,然后进行简单的分析。
文章思路
文章的核心工作是提出了一种空间变换线性表征模型(spatially variant linear representation model,简称SVLRM)用于联合滤波。并与现有的一些方法进行了对比。下面介绍一下文章中的思路。
分析引导滤波
为了引出自己的观点,作者首先介绍了Guided filter(点这里)。在GF中,除了输入图像 III 之外,还需要输入一张引导图像 GGG ,根据这两张图可以求出每个像素点的线性变换系数 aaa 和 bbb ,最终输出图像的结构与引导图相似,像素的变换过程被表示为;
输出图中像素的梯度与引导图中对应像素的梯度满足如下关系;
“根据这个关系,引导图中的结构细节被直接转换到输出图,这导致目标图中会有引导图中的额外信息。”这个说法有一定道理,因为这正是引导滤波中使用引导图像的意义的意义;但是之前关于GF的博客中有提到,输入图像与引导图像之间并不是简单的线性变换,因为线性系数的值有输入图像和引导图像共同决定,因此这个说法也不是绝对的。
此外,作者还认为:“由于单个像素的线性系数最终是由不同窗口的线性系数求均值得到的,因此,会导致结果图中重要的结构信息被平滑。” 这个观点也是正确的,在之前的博客中,我们也通过实验验证了和解释了原因。
然后作者表示:“线性系数很重要,决定了引导图像中的结构是否被传递到结果图中。” 为了解决上述问题,作者提出了SVLRM,并且使用CNN计算线性系数。
提出模型
由于局部线性模型仅仅参考了局部的信息,这决定了这类方法会引入额外的结构。所以提出了下面的转换关系;
F=α(G,I)G+β(G,I)F=\alpha (G,I)G+\beta (G,I)F=α(G,I)G+β(G,I)
与引导滤波中不同,系数 α(G,I)\alpha(G,I)α(G,I) 和 β(G,I)\beta (G,I)β(G,I) 是由引导图像 GGG 和输入图像 III 共同决定的。(使用全图的信息就能够解决上述问题了吗?或许也无法解决,所以这个根据或许无法成立。)
但是求解系数的过程非常困难,然后作者根据梯度下降算法和链式法则说明求解 α(G,I)\alpha(G,I)α(G,I) 和 β(G,I)\beta (G,I)β(G,I) 的过程是可导的,因此可以使用CNN网络进行预测。
CNN计算系数
文中使用的网络结构共12个卷积层,每一层的卷积核的size是3,卷积步长为1,前11个卷积层的通道数为64,并且除了最后一层之外,其他的每一层使用 relurelurelu 激活函数。使用 L1L1L1 范数作为网络的损失函数。
对于模型训练的其他信息,如输入图与引导图如何传递进网络?,输出为几通道?,并未有太多的介绍,但是从文中的其他描述来看,我认为:作者应该是将输入图与引导图在通道维度进行了连接,然后传递进入网络,输出也应该是维度一致的,即同时输出 α(G,I)\alpha(G,I)α(G,I) 和 β(G,I)\beta (G,I)β(G,I) 两张图像。
通过输出的两张系数图,与引导图进行线性计算,然后得到输出图,与GT做 L1L1L1 范数计算优化。
结果对比
对于结果的对比,其实没什么好说的,因为文章的作者总是说自己的结果好,王婆卖瓜嘛。
文章主要与一种直接实现端到端计算得到输出图的深度学习方法以及GF进行了对比,证明自己的方法更好。然后同引导滤波中一样,手工求解了两个系数解,并与文中的方法对比系数图和结果。总的来说,作者认为自己方法取得了 state-of-the-art 的结果。
但是,我好奇的是这张计算效率的比较。联合双边滤波作为一个传统的方法,计算的效率居然比文中的深度学习的方法慢这么多,慢了60倍。。。。并且,从文中的描述来看,文中的网络结构的计算量不算小。可能与算法具体实现过程有关吧。
文章分析
回过头再看这篇文章,作者首先描述了GF这种局部线性模型的缺点,然后提出SVLRM,再用CNN计算线性系数。其实算法的思路可以简单理解为使用CNN提取输入图与引导图的有效信息得到引导滤波的线性系数。至于卷积网络是否学到了全局的空间信息,这一点是不可知的。
为什么不直接用端到端的模型获取结果图,而是获取线性系数呢,从文中的结果来说:获取线性系数的方法获得的结果能够保存更多的细节和结构信息 至于为何如此,文中并未细说。我个人认为有三种可能:
- 深度学习的过程与网络结构,学习率、优化方式、损失函数等诸多因素有关。有一定的偶然性!
- 在传统图像处理中,认为在缩放系数比缩放结果图更能保留细节。比如,低分辨上得到的计算系数通过插值得到高分辨图像对应的系数,再将该系数作用到高分辨图像得到结果 AAA ,将低分辨系数作用于低分辨输入图,再将结果图插值到高分辨得到结果 BBB ,前者比后者的细节保留会更好。
- 线性变换也相当于多次卷积运算。
已完。。。。。有错误请指出
【论文学习】Spatially Variant Linear Representation Models for Joint Filtering相关推荐
- [论文学习]TDN: An Integrated Representation Learning Model of Knowledge Graphs
[论文学习以及翻译]TDN: An Integrated Representation Learning Model of Knowledge Graphs 文章主要内容 摘要 前言 相关工作 基于T ...
- 论文学习12-Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data(CRF
文章目录 abstract 1.introduction 1.2 条件模型 2.标签偏差问题 3.CRF 提出条件随机场CRF abstract 我们提出了条件随机场,这是一个建立概率模型来分割和标记 ...
- 【论文学习】G-Rep:面向任意目标检测的高斯表示
[论文学习]G-Rep: Gaussian Representation for Arbitrary-Oriented Object Detection 高斯分布应用到Oriented Object ...
- CLIP 论文学习笔记《Learning Transferable Visual Models From Natural Language Supervision》
论文标题:Learning Transferable Visual Models From Natural Language Supervision 论文地址:https://arxiv.org/a ...
- 论文笔记:Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks
Dynamic Scene Deblurring Using Spatially Variant Recurrent Neural Networks(利用空间变化循环神经网络对动态场景去模糊) 这是C ...
- Dual Graph Attention Networks for Deep Latent Representation of Multifaceted Social...》论文学习笔记
Dual Graph Attention Networks for Deep Latent Representation of Multifaceted Social Effects in Recom ...
- CLIP论文笔记--《Learning Transferable Visual Models From Natural Language Supervision》
CLIP论文笔记--<Learning Transferable Visual Models From Natural Language Supervision> 1.Introducti ...
- 【论文学习】《A Survey on Neural Speech Synthesis》
<A Survey on Neural Speech Synthesis>论文学习 文章目录 <A Survey on Neural Speech Synthesis>论文学习 ...
- 【论文学习笔记】《An Overview of Voice Conversion and Its Challenges》
<An Overview of Voice Conversion and Its Challenges: From Statistical Modeling to Deep Learning&g ...
最新文章
- mysql基础搭建_MySql基础-构建MySql数据库:安装MySql-server、MySql-client
- MyClass a,b[2],*p[2]调用了几次构造函数
- 【clickhouse】clickhouse NO DELAY, INTO OUTFILE, SETTINGS, ON, FORMAT, Dot, SYNC, token
- wince内存配置(转gooogleman的工作日志)
- 用sql取a与b的交集_【庖丁解牛SQL(二)】SQL核心语法速查
- it男java_java-学习8
- 冻库正常低压力是多少_弹涂鱼上市卖不动,还有8万斤要进冻库,市场低迷,不值钱了...
- java的四个元注解 @Retention @Target @Document @Inherited
- Androidstudio 里面的app下目录介绍
- 点译PDF的翻译器或者PDF阅读器插件
- Taro webview中的h5页面如何使用原生小程序API
- linux ov7725模块驱动,stm32f4 驱动ov7725摄像头,使用dcmi一直无法产生中断
- kettle 资源库 配置信息
- 音视频的流程:录制、播放、编码解码、上传下载等
- 2022-2027(新版)中国生物素酰三肽-1行业发展动态与投资趋势预测报告
- Perl qw()函数
- mxgraph进阶 三 Web绘图——mxGraph项目实战 精华篇
- 高一被清华姚班录取,高三委拒谷歌 offer,一个重度网瘾少年到理论计算机科学家的蜕变!......
- Windows常见事件ID
- 关于SaaS运营的不成熟的小建议
热门文章
- 修改数据库的兼容级别
- AjaxFileUploader上传插件 兼容性好
- 页面的访问速度如何提高?(我所知道的,哪位高手有其它的高见,敬请提醒....)...
- 解决: service endpoint with name xxx already exists
- Javascript前端加载等待圆型圈提示实现效果
- Spring RestTemplate示例
- 分布式面试 - 为什么要进行系统拆分?
- Fedora/RedHat上搭建MariaDB
- 表关联使用INNER JOIN实现更新功能
- 如何选择开源许可证?