• 论文信息

    • 标题: Depth Estimation via Affinity Learned with Convolutional Spatial Propagation Network
    • 作者:Xinjing Cheng, Peng Wang, Ruigang Yang
    • 机构:百度研究院
    • 出处:ECCV 2018
  • 代码链接

    • https://github.com/XinJCheng/CSPN
  • 论文主要贡献

    • 提出 CSPN 模块,比起 SOTA 的传播策略,能够高效、精确地进行深度估计
    • 将 CSPN 扩展到深度补全任务,在传播过程提供稀疏测量结果
  • 论文要点翻译

    • 摘要

      • 单张图像的深度估计是计算机视觉领域的基础研究问题,本文提出了简单有效的卷积空间传播网络用于学习深度估计任务中的亲和矩阵(affinity matrix)
      • 具体来说,本文采用的是高效的线性传播模型,方法通过循环卷积的方式进行传播,邻域像素的亲和力关系通过深度卷积神经网络进行学习
      • 本文将设计的 CSPN 方法运用到两个单目深度估计任务中:(1)对 SOTA 方法输出的深度预测结果进行优化;(2)将稀疏的深度图数据转为密集深度图,主要通过在空间传播的过程中填充对应的稀疏深度图实现;第二个任务的主要依据在于雷达采集的数据通常较为准确,不过样本相对稀疏
      • 本文将提出的 CSPN 在 NYU v2 和 KITTI 两个数据集上进行了实验测试,实验结果表明,提出的 CSPN 模块可以改进深度估计的质量(深度估计误差降低至少 30%),并提高了运行的速度(是原来方法的2-5倍)
    • 引言
      • 单目深度估计任务利用单张图像估计每个像素到相机的距离,已经在增强现实、自动驾驶、机器人等领域得到广泛运用。给定单张图像,现有的许多方法利用深度全卷积神经网络,结合户内户外的大量的训练数据,改进模型的全局估计能力,利用 deconv 、跨层链接、上采样等操作进行局部结构信息优化;然而, 对现有方法的输出结果仔细观察可以发现,预测的深度图在物体边缘仍然表现不佳,和给定的图像契合程度不足
      • 最近的方法中,Liu 等人提出直接利用空间传播网络学习和图像有关的亲和矩阵,比起手工设计的图像分割亲和矩阵而言,该方法得到更好的结果。但是,这个 SPN 执行的是每次扫描一行或者扫描一列的方式,本质上是串行的,因此在实际的从左到右的传播过程中,最右边的一列必须等最左边的一列传播的值进行更新,此外,本文还观察到,深度优化通常不需要全局的信息传播,这个过程仅仅只需要一些局部的上下文
      • 本文提出卷积空间传播网络 CSPN,其中所有像素对应的深度值都在局部的卷积上下文的条件下进行同时的更新,而更长范围的场下问则通过循环的方式进行获取,实验结果显示,CSPN 可以得到比 SPN 和双边滤波方法更为精确的结果,在实验中还发现本文的 CSPN 方法通过并行更新的策略得到显著的性能改善,在推理速度和越策结果质量上都比串行方法更优
      • 为了验证提出的 CSPN 的易用性,CSPN 可以简单地将稀疏深度图转换为致密深度图,这个任务在机器人和自动驾驶领域有重要应用价值,因为雷达采集的数据通常是精确但稀疏的结果。通过将稀疏的测量结果和图像比较,本文生成全分辨率的致密深度图,为完成该任务,本文主要考虑三个重要的算法要求:(1)恢复得到的致密深度图应当贴合原始图像;(2)稀疏结果中的深度值应当得以保留,因为他们是从精确的雷达结果获取的;(3)稀疏图转致密的过程应当使得邻域的深度值保持圆滑
      • 为了满足上述的三个条件,本文使用【13】中提出的镜像链接操作,使得能够生成更好的深度图,另外,本文将传播过程嵌入到 SPN 中,以保持稀疏点的深度值,实验结果表明,该方法能够生成比没有稀疏样本的 SPN 更好的结果和更低的误差,最终,将 SPN 替换为本文的 CSPN,得到了最好的结果
      • 在两个数据集上的实验结果表明,模型能够提高大概 30% 的 SOTA 方法性能,而且推理速度是相关方法运用 SPN 方法推理速度的 2-5 倍
    • 相关工作
      • 利用 CNN 和 CRF 的单目深度估计:监督学习方法、半监督学习方法、无监督学习方法;CRF 用于优化结果,这些方法中的衡量邻域限速的亲和力的方式都是手工设计的
      • 深度增强:通过图像滤波操作结合手工设计的亲和力矩阵的增强、基于 TV(total variation)的数据驱动的增强;图像超分辨率
      • 用于空间扩散的亲和力矩阵:用于直接预测亲和力矩阵的 DCNN、随机漫步网络用于优化像素级的语义分割亲和力矩阵;空间传播网络
      • 深度补全:深度补全
    • 方法
      • 本文将问题形式化为各向异性扩散过程,扩散的张量通过深度 CNN 直接从给定的图像学习,最后用于指导输出结果的优化
      • 给定深度图 Do∈Rm×nD_o\in \mathbb R ^{m \times n}Do​∈Rm×n 为现有的深度估计网络的输出,结合图像 X∈Rm×nX \in \mathbb{R}^{m \times n}X∈Rm×n,任务的目的在于通过 N 次迭代得到新的深度图 DnD_nDn​,该结果首先保留图像的更多细节信息,并对像素级的深度预测结果进行优化
      • 不失一般性地,将 DoD_oDo​ 嵌入到隐空间 H∈Rm×n×cH \in \mathbb{R}^{m \times n \times c}H∈Rm×n×c,则大小为 k 的核卷积转换函数对于每个步骤 t 可以写为 : Hi,j,t+1=∑a,b=−k−12k−12ki,j(a,b)⨀Hi−a,j−b,tH_{i,j,t+1}=\sum_{a,b=-\frac{k-1}{2}}^{\frac{k-1}{2}}k_{i,j}(a,b) \bigodot H_{i-a,j-b,t}Hi,j,t+1​=∑a,b=−2k−1​2k−1​​ki,j​(a,b)⨀Hi−a,j−b,t​,其中的 ki,j(a,b)=k^i,j(a,b)∑a,b,a,b≠0∣k^i,j∣,ki,j(0,0)=1−∑a,b,a,b≠0ki,j(a,b)k_{i,j}(a,b)=\frac{\hat k_{i,j}(a,b)}{\sum_{a,b,a,b \ne 0}|\hat k_{i,j}|},k_{i,j}(0,0)=1-\sum_{a,b,a,b \ne 0}k_{i,j}(a,b)ki,j​(a,b)=∑a,b,a,b​=0​∣k^i,j​∣k^i,j​(a,b)​,ki,j​(0,0)=1−∑a,b,a,b​=0​ki,j​(a,b)
      • 上述公式中的转换核 k^i,j∈Rk×k×c\hat k_{i,j} \in \mathbb{R}^{k \times k \times c}k^i,j​∈Rk×k×c 是亲和力网络的输出结果,和输入图像相关;核的大小 kkk 通常设为奇数以保证计算像素 (i,j) 的邻域上下文时计算区域是对称的,⨀\bigodot⨀ 是元素对应乘操作,本文将核的权重正则化到 (−1,1)(-1,1)(−1,1) 以保证模型训练的稳定和收敛,满足 ∑a,b,a,b≠0∣ki,j(a,b)∣≤1\sum_{a,b,a,b \ne 0}|k_{i,j}(a,b)| \le 1∑a,b,a,b​=0​∣ki,j​(a,b)∣≤1。最后,通过 N 次迭代循环,达到稳定的分布
      • 与 PDE 扩散过程的对应关系
        • 本文的 CSPN 满足 SPN 的所有性质,将上述的公式重新写为

        • 上述公式中 λi,j=∑a,bki,j(a,b)\lambda_{i,j}=\sum_{a,b}k_{i,j}(a,b)λi,j​=∑a,b​ki,j​(a,b),G 是 mn×mnmn \times mnmn×mn 的转换矩阵,PDE 扩散过程可以推导为:

          • Hvt+1=GHvt=(I−D+A)HvtH_v^{t+1}=GH_v^t=(I-D+A)H_v^tHvt+1​=GHvt​=(I−D+A)Hvt​
          • Hv(t+1)−Hvt=−(D−A)HvtH_v^{(t+1)}-H_v^t=-(D-A)H_v^tHv(t+1)​−Hvt​=−(D−A)Hvt​
          • ∂tHv(t+1)=−LHvt\partial_t H_v^{(t+1)}=-LH_v^t∂t​Hv(t+1)​=−LHvt​
          • 其中的 L 是拉普拉斯矩阵,D 是包含所有 λi,j\lambda_{i,j}λi,j​ 的对角矩阵,A 是亲和力矩阵,A 是 G 的非对角线部分
        • 从形式化的过程可以看出,本文的 CSPN 和 SPN的扫描线式的传播方式不同,SPN 按序扫描图像中四个方向的所有部分,而 CSPN 每一步同时只向所有方向传播图像的局部区域

        • 实际过程选择卷积操作学习 CSPN 的核,因为可以通过图像向量化的方式高效实现,且能够在深度优化等任务中得到实时性能

      • 用于深度补全的空间传播
        • 比起深度估计,深度补全有额外的稀疏深度图 DsD_sDs​ 输入帮助 RGB 图像的深度估计,具体来说,一个稀疏集合的像素可以得到深度传感器采集的真实深度值,该信息可以用于指导深度估计中的传播过程
        • 相似的,将稀疏深度图 Ds={di,js}D_s=\{d_{i,j}^s\}Ds​={di,js​} 嵌入到隐空间表示 HsH^sHs,则可以得到 Hi,j,t+1=(1−mi,j)Hi,j,t+1+mi,jHi,jsH_{i,j,t+1}=(1-m_{i,j})H_{i,j,t+1}+m_{i,j}H_{i,j}^sHi,j,t+1​=(1−mi,j​)Hi,j,t+1​+mi,j​Hi,js​,mi,j=I(di,js>0)m_{i,j}=\mathbb{I}(d_{i,j}^s\gt 0)mi,j​=I(di,js​>0) 表示(i,j) 位置是否有可用的深度信息
        • 通过这样的方式,优化的深度图可以保留稀疏次啊杨的结果,再利用这些结果传播信息到邻域像素,保证系数深度和邻域像素之间的圆滑性,借助扩散过程,最终的深度图能够较好匹配原图像结构,使得方法满足本文提出的三个要求
        • 此外,该过程仍然满足 PDE 扩散的性质,转换矩阵仍然可以将 G 中的行进行替换得到
        • 提出的策略主要有几个优势:保留稀疏深度值得准确结果、偏移值稳定等
      • 复杂性分析
        • CSPN 是卷积操作,因此一步的时间复杂度为 O(log⁡2(k2))O(\log_2(k^2))O(log2​(k2)),最终的 N 步复杂度为 O(log⁡2(k2)N)O(\log_2(k^2)N)O(log2​(k2)N)
      • 端到端架构

论文笔记-Depth Estimation via Affinity Learned with Convolutional Spatial Propagation Network相关推荐

  1. 引导方法深度补全系列—基于SPN模型—1—《Depth estimation via affinity learned with convolutional spatial propagat》文章细读

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 目录 创新点 方法详解 对比SPN 总结 创新点 1.改进了SPN网络,主要是更新方式上从串行扫描改为局部同时更新,也就是CSPN 网 ...

  2. 论文笔记--Efficient Estimation of Word Representations in Vector Space

    论文笔记--Efficient Estimation of Word Representations in Vector Space 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 NNLM ...

  3. 论文笔记(三):PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes

    PoseCNN: A Convolutional Neural Network for 6D Object Pose Estimation in Cluttered Scenes 文章概括 摘要 1. ...

  4. 图像隐写术分析论文笔记:Deep learning for steganalysis via convolutional neural networks

    好久没有写论文笔记了,这里开始一个新任务,即图像的steganalysis任务的深度网络模型.现在是论文阅读阶段,会陆续分享一些相关论文,以及基础知识,以及传统方法的思路,以资借鉴. 这一篇是Medi ...

  5. 【论文笔记】DUDA‑Net: a double U‑shaped dilated attention network for automatic infection area segmentati

    声明 不定期更新自己精读的论文,通俗易懂,初级小白也可以理解 涉及范围:深度学习方向,包括 CV.NLP.Data fusion.Digital Twin 论文题目: DUDA‑Net: a doub ...

  6. 论文笔记27 -- (视频压缩)Learned Video Codec with Enriched Reconstruction for CLIC P-frame Coding

    <Learned Video Codec with Enriched Reconstruction for CLIC P-frame Coding > 20年12月提交在arXiv上的一篇 ...

  7. 论文《Depth Estimation From a Light Field Image Pair With a Generative Model》学习

    2018SCI(一区) Abatract 在这篇论文中,我们提出了另一种方法来估计由一对光场相机捕捉到的两幅不同的地图.我们的方法综合了两种临界深度线索,分别从极外平面图像和双目立体视觉中推导出一种全 ...

  8. 【论文笔记】Beyond Low-frequency Information in Graph Convolutional Networks

    文章目录 1. Abstract 2. Introduction 低频和高频信号作用 FAGCN怎么设计 3. An Experimental Investigation 4. Model 4.1 f ...

  9. 模型优化论文笔记5----采用shuffled block和group convolutional的MBNet(71K)用于AMC

    <Multi-shuffled Convolutional Blocks for Low-complex Modulation Recognition> 论文地址:https://ieee ...

最新文章

  1. Kona 8:鹅厂基于OpenJDK开源的JDK
  2. 【鸿蒙 HarmonyOS】UI 布局 ( 帧布局 StackLayout )
  3. NEUQ 2015: Bitmap(二维hash)
  4. java runtime 返回值_Java Runtime.exec()注意事项 | 学步园
  5. Linux C++ 回射服务器
  6. 网易严选Java开发三面面经:南京黑马java培训怎么样
  7. 海上瓶子下有东西吗_《海上钢琴师》:宁愿一生孤独,不愿随波逐流。
  8. vmware vcenter 4.1升级到5.0
  9. 工作中线程池使用不当的问题记录(get是阻塞式的)
  10. vbs脚本的基本使用
  11. [病毒木马] Windows 映像劫持
  12. unigui发布_unigui+fastReport实现web打印方案
  13. apkg格式怎么打开_干货:pdf转换器简单、好用,还能在线互转文件格式!
  14. 「抖音同款播放器」上市:卡顿、黑屏和模糊,这些技术来解决
  15. 抖音实时弹幕和礼物信息数据接口采集,/douyin/liveroom/audience
  16. 30 行代码实现,支付宝蚂蚁森林自动收能量!
  17. 淘宝API关键词搜索接口调用示例
  18. 怎么在matlab画双坐标,如何利用matlab的plotyy函数画双坐标图??
  19. ELK系列(四)、Logstash读取nginx日志写入ES中
  20. 永大电梯服务器显示连接断开,提供上海永大电梯服务器

热门文章

  1. 项目计划太复杂?试试思维导图
  2. 安装了 Imagick(或者没有安装) 提示 Class ‘Imagick‘ not found
  3. 2019-2-14 if条件判断语句+车费计算器
  4. bottle step by step (一) bottle的简单介绍
  5. 如何实现一个手帐 App
  6. Vue中输入框自动获取焦点-移动端ios不能唤起键盘解决办法
  7. PCB硬件设计之网口
  8. OpenCV函数汇总
  9. 哈工大威海计算机组成原理课程设计,哈工大威海计算机学院 计算机组成原理课件80 x86.ppt...
  10. SPARROW架构介绍