基本情况

  • 题目:Monocular depth estimation with hierarchical fusion of dilated CNNs and soft-weighted-sum inference

    • (基于膨胀卷积神经网络软加权和推理分层融合单目深度估计
  • 出处:2018 PR
  • 作者:Li, B., Dai, Y., & He, M.
  • 引用: (2018). Monocular depth estimation with hierarchical fusion of dilated cnns and soft-weighted-sum inference. Pattern Recognition83, 328-339.

摘要

单目深度估计是描述多种不同尺度物体复杂合成中的一项具有挑战性的任务。尽管深卷积神经网络(CNNs)在最近取得了巨大的进展,但最先进的单眼深度估计方法仍然无法处理这样具有挑战性的现实场景。

在本文中,我们提出了一个深度端到端学习框架来解决这些挑战,它学习直接从彩色图像到相应深度图的映射。

  • 首先,我们通过对比基于回归的公式,将单目深度估计作为一个多类别密集标记任务(a multi-category dense labeling task)。这样,我们就可以在语义分割等密集标记技术的基础上更进一步。
  • 其次,我们用分层的方式,将前端扩张卷积神经网络(front-end dilated convolutional neural network的不同侧输出进行融合,以此来利用多尺度深度线索进行深度估计,这是实现尺度感知深度估计的关键。
  • 第三,我们提出用软加权和推理(soft-weighted-sum inference)代替硬最大推理即:将离散的深度分数转化为连续的深度。从而减小了量化误差的影响,提高了算法的鲁棒性。

在NYU Depth V2和KITTI数据集上的大量实验表明了我们的方法与目前最先进的方法相比的优越性。此外,在NYU V2数据集上的实验表明,我们的模型能够学习深度概率分布

1 介绍

深度估计的目的是预测单个或多个图像的像素深度,这是一个必要的中间组件,以了解三维场景。研究表明,深度信息对识别[1,2]、人机交互[3]、三维模型重建[4]等任务都有好处。

传统的技术主要是利用多幅图像来解决深度预测问题,包括

  • 多视图重建、
  • 运动中恢复结构(SfM)和
  • 同步定位和映射(SLAM)[]。

然而,单目单视点深度估计远远滞后于多视点深度估计。这主要是由于问题本身是不确定的,并且固有的模棱两可(illposed and inherently ambiguous):一张单独的图像本身并不能明确地提供任何深度提示(也就是说,给定一个场景的彩色图像,有无数个3D场景结构可以精确地解释2D测量值)。
当特定场景相关知识可用时,可以利用几何假设如

  • "Blocks World" model [5],
  • "Origami World" model[6],
  • 从阴影恢复形状[7]和
  • 重复结构[8],

实现单个图像深度估计或三维重建。然而,这些线索通常对具有特定结构的图像有效,并不适用于一般场景。

近年来,基于学习的单目深度估计方法,即直接从数据中学习预测场景的几何形状,得到了广泛的应用。通常,这种方法通过利用单目图像和深度之间的关系,在像素级场景标记管道中(pixel-level scene labeling pipeline)重新计算潜在的深度估计问题。全卷积神经网络被证明是解决这类问题的一种有效方法。深度卷积神经网络(deep convolutional neural network, CNN)在这个问题上已经取得了相当大的进展,

  • 并取得了很好的性能[7,8,9,10,11,12,13,14]。

尽管上面的成功,最先进的单眼深度估计方法仍达不到处理现实世界中具有挑战性的复杂分解描述不同尺度的多个对象。

由于以下困难:

  • 1)严重的数据不平衡问题由于透视效果,深度较小的样本远大于深度较大的样本;
  • 2)与语义标注等密集预测任务相比,深度值的变化更加迅速;
  • 3)深度估计需要使用大范围上下文信息(long range context information )来处理尺度模糊。

虽然已经有了各种后处理方法来

  • 从deep network map中细化估计深度[7,8,9,10,11,12,13,14],

但是提高单目深度估计的瓶颈仍然是特别设计的CNN架构,这是非常令人期待的。

在本文中,我们提出了一个基于deep CNN的框架来解决上述挑战,

  • 该框架以端到端方式学习从彩色图像到对应深度图的直接映射。
  • 与广泛使用的回归公式相比,我们重新将单目深度估计作为一个多类密集标记问题
  • 该网络以深度残差网络[15]为基础,
  • 设计了膨胀卷积分层融合层来扩展接收域和融合多尺度深度线索。
  • 为了减少量化误差的影响,提高算法的鲁棒性,我们提出了一种软加权和推理方法。

大量的实验结果表明,即使我们训练我们的网络作为一个具有多项逻辑损失的标准分类任务,我们的网络能够学习不同类别之间的概率分布。我们的框架的总体流程图如图1所示。

我们的主要贡献可以概括为:

  • 我们提出了一种基于单目深度估计的深度端到端深度学习框架,该框架将单目深度估计作为一种分类任务,同时使用膨胀卷积分层特征融合来学习尺度感知深度线索。
  • 我们的网络能够输出不同深度标签之间的概率分布
  • 提出了一种软加权和推理方法,减少了量化误差(quantization error)的影响,提高了算法的鲁棒性。
  • 我们的方法在室内和室外基准数据集,NYU V2和KITTI数据集上都取得了最先进的性能。

2 相关工作

在这一节中,我们简要回顾了单目深度估计的相关工作,大致可以分为传统的基于MRF/CRF的方法基于深度学习的方法

基于MRF/CRF的方法:

  • Saxena等人的开创性工作[16,17]解决了多尺度马尔可夫随机场(MRF)模型的问题,该模型的参数是通过监督学习获得的。
  • Liu[18]等人通过预测的语义标签估计深度图,使用更简单的MRF模型实现了性能的提高。
  • Ladicky等人[19]展示了透视几何可以用来改善结果,并展示了场景标记和深度估计在统一框架下是如何相互受益的,其中提出了像素级分类器,可以从单个图像中联合预测语义类深度标记

除了这些参数方法外,其他的研究如[20,21,22]以非参数的方式重新进行了单目深度估计,其中整个深度图是从候选深度图推断出来的。

  • Liu等人[21]提出了一种离散连续条件随机场(CRF),旨在避免过度平滑,保持遮挡边界。
  • Anirban等人[]针对这个问题提出了一种神经回归森林模型。这些作品为单幅图像深度估计问题提供了重要的见解和线索,但它们大多使用了手工制作的特征,因此限制了它们的性能,特别是在复杂的场景。

基于深度学习的方法:

近年来,由于有了深度卷积神经网络(CNN),单眼深度估计已经得到了极大的改进。

  • Eigen et al.[23]通过训练一个大型的层叠深度CNN,使得单目深度估计得到了很大的改进。然而,部分由于在网络模型中使用了全连接层,他们的网络必须用非常大的规模的数据进行训练。
  • 相比之下,Li等[7]提出了基于patch的CNN框架层次化的CRF模型对原始估计深度图进行后处理,显著减少了所需的训练图像数量
  • Liu等[8]提出了CRF-CNN联合训练架构,可以联合学习CRF和CNN的参数。
  • Wang et al.[9]提出了一种用于联合语义标注单眼深度预测的CNN架构。
  • Chen等人[24]提出了一种利用相对深度标注估计度量深度的算法。
  • 最近,Laina等人[12]提出用Huber损失代替L2损失来处理深度分布的长尾效应。
  • Cao等人[11]证明,将深度估计作为分类任务,可以获得比L2损失回归更好的结果,但对于成功进行的分析还不够。

另外,与我们的方法不同的是,他们在测试阶段使用hard-max推理。Xu等人[13]提出了多尺度连续CRFs,以更好地提取层次信息,提高最终结果的平滑度。我们的分层信息融合策略比[13]简单得多,但我们也取得了比较的结果。

无人监督的单目深度学习

除了上面的方法使用ground truth深度地图监督网络学习,有另一组方法,使用新颖的观点,综合监督网络学习,利用立体影像的可用性和图像序列[25][14][26][27],引出了无人监督的深度运动(Unsupervised-Depth-Motion)。

  • Garg等人[25]提出利用图像重建损失训练一个单目深度估计网络,采用泰勒近似将损失线性化
  • Godard等人的[14]用更容易获得的双目立体影像代替了训练过程中显式深度数据的使用,这加强了相对于左右图像产生的差异之间的一致性,与现有方法相比,提高了性能和鲁棒性。
  • 沿着这条管道,Zhou等人[26]提出了一种无监督学习框架,用于基于图像扭曲(image warping)对非结构化视频序列进行单目深度和摄像机运动估计,以评估图像误差。
  • Kuznietsov等人[27]采用半监督方式学习深度,其中稀疏 ground truth 深度和光一致性共同使用。
  • Ummenhofer等人[28]训练了一个端到端的卷积网络,从连续的、无约束的图像对计算深度和摄像机运动,其中架构由多个堆叠的编解码器网络组成。

这些无监督的方法的关键监督信号来自于新颖的视图合成的任务:给定一个输入视图的场景,合成一个从不同的相机姿势看到的场景的新的图像。实质上,对经过校正的立体图像或连续的图像帧已经隐式地编码了深度信息。

我们的工作也与基于FCN(全卷积网络)的稠密标注相关。

  • Long等[29]提出了用于语义分割全卷积神经网络,该神经网络被广泛应用于其他密集标注问题。
  • Hariharan等[30]提出低层CNN feature对于边界保持和目标定位效果更好。
  • Yu等[31]最近证明,扩张(膨胀)的卷积可以在保持特征图分辨率的同时,扩大相应神经元的感受野。
  • Chen[32]在语义问题上成功地利用了扩张卷积,并展示了如何在预先训练好的CNN上构建它们。

论文笔记_S2D.19_2018-PR_基于膨胀卷积神经网络与软加权和推理的分层融合单目深度估计相关推荐

  1. 【2022集创赛】飞腾杯二等奖作品:基于单目深度估计网络的全息显示终端

    本篇文章是2022年第六届全国大学生集成电路创新创业大赛飞腾杯二等奖作品分享,参加极术社区的**[有奖征集]分享你的2022集创赛作品,秀出作品风采**活动. 1.团队介绍 参赛单位:西安电子科技大学 ...

  2. Deep Learning论文笔记之(五)CNN卷积神经网络代码理解

    Deep Learning论文笔记之(五)CNN卷积神经网络代码理解 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文,但 ...

  3. Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现

    Deep Learning论文笔记之(四)CNN卷积神经网络推导和实现 zouxy09@qq.com http://blog.csdn.net/zouxy09          自己平时看了一些论文, ...

  4. Deep Ordinal Regression Network for Monocular Depth Estimation 单目深度估计,论文阅读,DORN;视频笔记

    tags: 单目深度估计,论文阅读,DORN 原始论文是: Deep Ordinal Regression Network for Monocular Depth Estimation Huan Fu ...

  5. 单目深度估计 | Real-Time Monocular Depth Estimation using Synthetic Data 学习笔记

    文章目录 1. 摘要 2. 创新点和局限性 3 研究 3.1 阶段1-单目深度估计模型. 3.1.1 损失函数 3.1.2 训练细节 3.2 阶段2-通过风格迁移的域自适应 3.2.1 损失函数 3. ...

  6. 基于高分辨率的单目深度估计网络(AAAI2021)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨图灵智库 来源丨 泡泡机器人SLAM 标题: HR-Depth:High Resolution ...

  7. 单目深度估计 | Learning Depth from Monocular Videos using Direct Methods 学习笔记

    文章目录 摘要 1. 论文主要贡献: 2. 从视频中学习预测深度 2.1 尺度模糊 2.2 建模姿态估计预测器 3. 可微分直接视觉测距法 3.1 直接视觉测距法(DVO) 3.2 可微分的实现 4 ...

  8. 无监督单目深度估计 Unsupervised Monocular Depth Estimation with Left-Right Consistency 论文方法分析

    最近在做深度估计相关的毕业设计,一般的基于深度学习单目深度估计算法都是基于监督学习的方法,也就是说我希望输入一张拍摄到的单目照片,将它通过卷积神经网络后生成一张深度图.在这个过程中我们就要求需要有大量 ...

  9. 基于深度学习的单目深度估计综述

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 文章:Monocular Depth Estimation Based On Deep Learnin ...

  10. 单目深度估计(Monocular Depth Estimation)论文阅读 2021-01-15

    单目深度估计 问题公式化:求非线性映射函数 一.数据集: NYU Depth:视频序列和dense depth map通过RGB-D采集的,但是不是每一种图像都有深度图,因为映射是离散的. KITTI ...

最新文章

  1. 操作系统课设--系统调用
  2. vSphere资源:下载及文档地址
  3. Android开发之shape自定义ProgressBar进度条样式
  4. u盘 轻量linux,3种方法来创建轻量、持久化的Xubuntu Linux USB系统盘
  5. # 检测中英输入法_奇怪的知识点增加了 手机输入法还能做更多
  6. 遇到一次传导干扰的怪事
  7. python print%s s_python - print(%s's %s is %s. % \) 有具体代码,请问这种怎么解释?
  8. python语义网络图_知识图谱之语义网络篇
  9. 为什么CAD导出PDF没有颜色
  10. 10kV变电所运维平台的现代化智能构建方案
  11. python计算log2×_带有Python示例的math.log2()方法
  12. 基于VisMockup装配公差分析技术(VisVSA)的介绍
  13. 阿里云与线下IDC对接IPsec虚拟专用网络
  14. noip2011 观光公交 (贪心)
  15. asp.net 文件下载的五种方式
  16. vue 前端中如何改变图标大小
  17. 一刀工具箱 - 经纬度查询
  18. 个人用户永久免费,可自动升级版Excel插件,使用VSTO开发,Excel催化剂功能第11波-快速批量插入图片...
  19. matlab 线性拟合polyfit_matlab最小二乘法拟合y=a*exp(-b/t),转换成线性用polyfit怎么写程序啊,有偿私聊我...
  20. android 输入文本,Android控件之EditText(输入文本框控件)

热门文章

  1. 在阿里云上创建带gpu的ecs实例
  2. 《软件测试》阅读笔记
  3. zzbower入门教程
  4. css3的clip-path方法剪裁实现(三角形,多边形,圆,椭圆)
  5. 三万字带你了解那些年面过的Java八股文
  6. 正则表达式过滤多个词语并替换为相同长度的星号
  7. C++ 前向声明(转载)
  8. 非阻塞connect的作用及代码示例
  9. 50. 熟悉与STL相关的Web站点
  10. IDEA运行多个实例