基本情况

题目：Multi-Scale Continuous CRFs as Sequential Deep Networks for Monocular Depth Estimation
引用：Xu, D., Ricci, E., Ouyang, W., Wang, X., & Sebe, N. (2017). Multi-scale continuous crfs as sequential deep networks for monocular depth estimation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 5354-5362).
开源代码：https://github.com/danxuhk/ContinuousCRF-CNN.git

摘要

本文从单个静止图像中解决了深度估计的问题。受近期多尺度卷积神经网络（CNN）工作的启发，我们提出了一个深度模型，它融合了从多个CNN侧输出得到的补充信息。与以前的方法不同，通过连续条件随机场（CRF）进行整合（使用连续CRFs集成前端CNN的多个侧输出映射）。特别是，我们提出了两种不同的变体，一种基于多个CRF的级联，另一种基于统一的图形模型。通过设计连续CRF的平均场更新的新型CNN实现，我们表明两个提出的模型可以被视为序列深度网络，并且训练可以端到端地执行。通过广泛的实验评估，我们证明了所提出方法的有效性，并在公开可用的数据集上建立了新的最先进的结果。

1 简介

虽然从单个图像估计场景的深度对于人类来说是自然的能力，但是设计用于从RGB数据准确地预测深度信息的计算模型是一项具有挑战性的任务。过去已经进行了许多尝试来解决这个问题。特别是，由于强大的深度学习模型，最近的作品取得了显着的成绩[8,9,20,24]。假设具有大的RGB深度对训练集的可用性，单眼深度预测被铸造为像素级回归问题，并且通常采用卷积神经网络（CNN）架构。

在过去几年中，在研究界已经做出了很大的努力来改进用于像素级预测任务（例如语义分割，轮廓检测）的CNN模型的性能。

先前的工作已经表明，对于深度估计以及其他像素级分类/回归问题，可以通过组合来自多个尺度的信息来获得更准确的估计[8,33,6]。这可以通过不同的方式实现，

例如，融合对应于不同网络层的特征映射或
设计具有对应于不同分辨率的图像的多个输入的架构。

其他工作已经证明，通过在卷积神经结构中级联添加条件随机场（CRF），可以大大提高性能，并且CRF可以完全集成在深层模型中，使用反向传播[36]，从而实现端到端的训练。然而，这些工作主要集中在离散域中的像素级预测问题（例如，语义分割）。虽然是互补的，但到目前为止，这些策略只是孤立地考虑，以前的工作都没有利用CRF推理框架内的多尺度信息。

在本文中，我们认为，受益于图形模型的灵活性和表现力，我们可以优化融合来自多个CNN侧输出层的表示，从而提高传统多尺度策略的性能。通过利用这一想法，我们引入了一种新的框架来估计单个静止图像的深度图。与先前通过平均或串联融合多尺度特征的工作相反，我们建议通过设计基于连续CRF的新方法来集成多层侧输出信息。具体来说，我们提出两种不同的方法

第一种方法基于单一的多尺度CRF模型，
而另一种方法则考虑一系列特定尺度的CRF。

我们还表明，通过在连续CRF中引入平均场更新的通用CNN实现，两个模型等同于顺序深度网络，并且可以设计端到端方法用于训练。通过广泛的实验评估，我们证明了提出的基于CRF的方法比传统的多尺度方法产生更准确的深度图，用于像素级预测任务[10,33]（图1）。此外，通过在公开的NYU Depth V2 [30]和Make3D [29]数据集上进行实验，我们证明我们的方法优于单眼深度估计的最新方法。

总而言之，本文的贡献有三个方面。

首先，我们提出了一种用于从RGB输入预测深度图的新方法，其利用从CNN内层导出的多尺度估计，通过在CRF框架内融合它们。
其次，由于像素级深度预测的任务意味着推断出一组连续值，我们展示了如何将平均场（MF）更新实现为顺序深度模型，从而实现整个网络的端到端训练。我们相信，我们的MF实施不仅对研究深度预测的研究人员有用，而且对那些对涉及连续变量的其他问题感兴趣的人也有用。因此，我们的代码是公开的。
第三，我们的实验表明，所提出的多尺度CRF框架优于以前的方法，通过组合多个损失[33]或采用特征级联[10]来整合来自中间网络层的信息。

我们还表明，我们的方法在公共基准测试中优于最先进的深度估计方法，并且所提出的基于CRF的模型可以与不同的预先训练的CNN架构结合使用，从而不断提高其性能。

2 相关的工作

深度估算

用于从单个图像进行深度估计的先前方法可以分为三个主要组：

（i）在手工制作的特征上操作的方法，
（ii）基于图形模型的方法和
（iii）采用深度网络的方法。

解决深度预测任务的早期工作属于第一类。

Hoiem等人 [12]介绍了照片弹出窗口，这是一种从单张照片创建基本3D模型的全自动方法。
Karsch等[14]开发了深度转移，一种非参数方法，其中通过转移多个相似图像的深度然后应用一些翘曲和优化程序来重建输入图像的深度。
Ladicky [17]证明了将语义对象标签与深度特征相结合的好处。

其他工作利用图形模型的灵活性来重建深度信息。

例如，Delage等人[7]提出了一种动态贝叶斯框架，用于从室内场景中恢复3D信息。
在[28]中引入了经过区别训练的多尺度马尔可夫随机场（MRF），以便最优地融合局部和全局特征。
在[21]中，深度估计被视为离散连续CRF中的推理问题。但是，这些工作没有采用深度网络。

最近的深度估计方法基于CNN [8,20,32,26,18]。

例如，Eigen等人[9]提出了一种用于深度预测的多尺度方法，考虑两个深度网络，一个基于整个图像执行粗略全局预测，另一个在本地进行精炼预测。这种方法在[8]中得到了扩展，以处理多个任务（例如语义分割，表面法线估计）。
王等人 [32]引入了CNN进行联合深度估计和语义分割。使用分层CRF进一步细化所获得的估计。
与我们最相似的工作是[20]，其中深CNN和连续CRF的表征能力被联合用于深度预测。然而，[20]中提出的方法基于超像素，并且没有利用与多个尺度相关的信息。

多尺度CNN

最近，从像素级预测任务的多个尺度组合信息的问题引起了相当大的兴趣。

在[33]中，提出了一种深度监督的完全卷积神经网络用于边缘检测，跳过层网络，其中从主要网络的不同级别导出的特征映射在输出层中被共同考虑，也变得非常流行[22,3]。
其他工作被认为是多流体系结构，其中多个并行网络接收不同规模的输入被融合[4]。在不同的深度网络模型中也使用了扩张的卷积（例如扩张或睾丸），以便聚合多尺度的背景信息[5]。

我们不知道以前将多尺度表示用于连续CRF框架的工作。

3 多尺度模型用于深度估计

在本节中，我们将介绍我们从单个图像进行深度估计的方法。我们首先将深度预测问题正式化。然后，我们描述了所提出的多尺度模型的两种变体，一种基于级联的CRF，另一种基于单个多尺度CRF。最后，我们展示了如何对端到端的整个深度网络进行训练，为连续CRF中的均值迭代引入了一种新颖的CNN实现。

在之前的工作之后，我们制定了从单眼RGB输入进行深度预测的任务，作为学习非线性映射F：从图像空间I到输出深度空间D的问题。
我们模型的第二个组成部分是融合块。如先前的作品[22,3,33]所示，从不同CNN层生成的特征捕获补充信息。提出的融合块背后的主要思想是使用CRF有效地集成我们的前端CNN的侧输出映射，以进行稳健的深度预测。

我们的方法源于这样的直觉：这些表示可以在顺序框架内组合，即以特定尺度执行深度估计，然后在随后的级别中细化所获得的估计。具体来说，我们引入并比较了两种不同的多尺度模型，这两种模型都基于CRF，并且对应于两种不同版本的融合块。

第一个模型基于单个多尺度CRF，其集成了来自不同尺度的信息，并同时在相邻像素和相邻尺度的估计深度值之间实施平滑约束。
第二个模型实现了一系列特定尺度的CRF：在每个尺度上，采用CRF从侧面输出图sl中恢复深度信息，每个CRF模型的输出用作后续模型的附加观测值。

在3.2节中，我们详细描述了两个模型，而在3.3节中，我们展示了如何通过堆叠几个基本块来实现它们作为顺序深度网络。我们将这些块称为C-MF块，因为它们实现了连续CRF的平均场更新。

结论

我们介绍了一种从单个RGB输入预测深度图像的新颖方法，该方法对于其他跨模态任务也特别有用[34，35]。该方法的核心是一个基于连续CRF的新颖框架，用于融合从CNN侧输出获得的多尺度表示。我们证明了该框架可以与几种常见的CNN架构结合使用，并且适合端到端训练。广泛的实验证实了所提出的多尺度融合方法的有效性。尽管本文专门解决了深度预测问题，但我们认为计算机视觉中涉及连续变量的像素级预测的其他任务，也可以从我们在CNN框架内实现均值字段更新中受益。

论文笔记_S2D.29_2017_CVPR_多尺度连续CRFs作为序列深度网络的单目深度估计相关推荐

Deep Ordinal Regression Network for Monocular Depth Estimation 单目深度估计,论文阅读,DORN；视频笔记
tags: 单目深度估计,论文阅读,DORN 原始论文是: Deep Ordinal Regression Network for Monocular Depth Estimation Huan Fu ...
单目深度估计 | Learning Depth from Monocular Videos using Direct Methods 学习笔记
文章目录摘要 1. 论文主要贡献: 2. 从视频中学习预测深度 2.1 尺度模糊 2.2 建模姿态估计预测器 3. 可微分直接视觉测距法 3.1 直接视觉测距法(DVO) 3.2 可微分的实现 4 ...
无监督单目深度估计 Unsupervised Monocular Depth Estimation with Left-Right Consistency 论文方法分析
最近在做深度估计相关的毕业设计,一般的基于深度学习单目深度估计算法都是基于监督学习的方法,也就是说我希望输入一张拍摄到的单目照片,将它通过卷积神经网络后生成一张深度图.在这个过程中我们就要求需要有大量 ...
单目深度估计(Monocular Depth Estimation)论文阅读 2021-01-15
单目深度估计问题公式化:求非线性映射函数一.数据集: NYU Depth:视频序列和dense depth map通过RGB-D采集的,但是不是每一种图像都有深度图,因为映射是离散的. KITTI ...
单目深度估计 | Real-Time Monocular Depth Estimation using Synthetic Data 学习笔记
文章目录 1. 摘要 2. 创新点和局限性 3 研究 3.1 阶段1-单目深度估计模型. 3.1.1 损失函数 3.1.2 训练细节 3.2 阶段2-通过风格迁移的域自适应 3.2.1 损失函数 3. ...
单目深度估计学习笔记
GYDepth 没开源: CVPR2021单目深度估计:腾讯光影研究室优势夺冠,成果落地应用竞赛结果及相关论文可见:https://arxiv.org/pdf/2105.08630.pd 比赛的最终 ...
深度学习（二十八）基于多尺度深度网络的单幅图像深度估计
基于多尺度深度网络的单幅图像深度估计原文地址:http://blog.csdn.net/hjimce/article/details/50569474 作者:hjimce 一.相关理论本篇博文主要 ...
[深度学习论文笔记]Knowledge distillation from multi-modal to mono-modal segmentation networks从多模态到单模态分割的知识提取
Knowledge distillation from multi-modal to mono-modal segmentation networks 从多模态分割网络到单模态分割网络的知识提取 MI ...
[论文阅读-NeRF+SLAM]NeRF-SLAM：使用神经辐射场表征的实时稠密单目SLAM系统
NeRF-SLAM NeRF-SLAM: Real-Time Dense Monocular SLAM with Neural Radiance Fields 第一个结合稠密单目SLAM和层次化体素神 ...
论文笔记_S2D.77_2013_TOR_使用RGBD相机的3D建图(RGBD SLAM V2)
目录基本情况摘要介绍系统流程特征提取运动估计 EMM:Environment Measurement Model 回环检测图优化建图OctoMap 参考基本情况出处:Endres ...

论文笔记_S2D.29_2017_CVPR_多尺度连续CRFs作为序列深度网络的单目深度估计