用于单眼深度估计的结构化注意力导向卷积神经场（论文2018）

Structured Attention Guided Convolutional Neural Fields for Monocular Depth Estimation

原文：https://cn.bing.com/academic/profile?id=2ac25844c864abdb885635687a0b5f81&encoded=0&v=paper_preview&mkt=zh-cn

声明：自己的笔记，很想和这方面的人交流，关于论文中的一些问题，疑惑和不解。

摘要：

最近的工作已经显示了将条件随机场（CRFs）模型集成到深层架构中以改进像素级预测任务的好处。在此基础上，本文提出了一种新的单目深度估计方法。与之前的工作类似，我们的方法使用连续的CRF来融合来自前端卷积神经网络（CNN）不同层的多尺度信息。与以往的研究不同，我们的方法得益于一个结构化的注意模型，该模型能够自动调节不同尺度上相应特征之间传递的信息量。重要的是，所提出的注意模型无缝地集成到CRF中，允许对整个体系结构进行端到端的训练。我们的大量实验评估证明了该方法的有效性，该方法在kitti基准上与以前的方法相比具有竞争力，并且在纽约大学depth v2数据集上的性能优于当前的技术水平。

一、介绍

从图像中恢复深度信息的问题在计算机视觉中得到了广泛的研究。传统的方法通过考虑对感兴趣的场景的多个观察来操作，例如从两个或多个摄像机获得的或对应于不同照明条件的。最近，研究界试图通过将单目深度估计作为一个有监督的学习问题来解决，从而放松多视角假设。具体地说，在给定一对图像和相关深度图的大训练集的情况下，深度预测被视为像素级回归问题，即学习一个模型来直接预测与RGB图像的每个像素对应的深度值。

在过去几年中，几种方法建议解决这一任务，并取得了显著成效，这要归功于深度学习模式近年来，人们提出了各种卷积神经网络（CNN）结构，解决了如何联合估计深度图和语义标签等不同的子问题[35]，如何建立对噪声具有鲁棒性的模型或如何组合多尺度特征[10]。针对后一个问题，最近的研究表明，CRF可以集成到深层架构中[22，31]，并且可以利用CRF来优化融合从CNN内部层获得的多尺度信息[36]。

在这些工作的启发下，本文提出了利用多尺度单目深度估计的图形模型的可行性。然而，我们与以前的方法有很大的不同，我们认为，不仅可以在预测级别上操作，而且可以直接利用内部的CNN特征表示来获得更精确的估计。为此，我们设计了一个新的CRF模型，该模型通过集成注意机制自动学习鲁棒的多尺度特征。我们的注意力模型可以自动调节在不同尺度上相关特征之间应该传递多少信息。

注意力模型已经成功的应用于计算机视觉中，并且在像素级预测任务中，如语义分割中，它们对提高CNNs的性能特别有用[4,13]。在这项工作中，我们证明注意力模型单目深度预测中也非常有用。我们还证明，在CRF推理过程中，注意变量可以与多尺度特征表示联合估计，并且，通过采用一个结构化注意力模型[17]（即通过对相关像素和尺度的注意变量施加相似性约束），我们可以进一步提高性能。通过广泛的实验评估，我们证明我们的方法比基于CRFs[22,31]和多尺度CRFs[36]的传统方法产生更加准确的深度图（图1）。此外，通过在纽约大学的公共Deoth V2数据集[30]和Kitti[8]数据集上进行实验，我们表明我们的方法优于大多数最先进的算法。

贡献：综上所述，我们做出了以下贡献：（i）提出了一种新的深度学习模型，用于从静态图像中计算深度图，该模型无缝地集成了前端CNN和多尺度CRF。重要的是，我们的模型可以进行端到端的训练。与之前的工作不同[36，22，31] 我们的框架不把它看作是只输入的预测图，而是直接在特征层操作。此外，通过采用适当的一元和成对势，我们的框架允许更快的推理。（ii）我们的方法得益于一种新的注意机制，该机制允许可靠地融合来自多个尺度的特征以及集成结构化信息。（iii）我们的方法在纽约大学深度v2[30]数据集上展示了最新的艺术表现，并且在Kitti基准的更具挑战性的室外场景中表现最佳[8] 代码已公开

二、相关工作
单目深度估计。在近十年来，单目深度估计问题引起了人们的广泛关注。虽然早期的方法大多基于手工制作的特征[12,16,19,28]，但最近的作品采用了深层架构[5、22、31、26、20、36、9]。在文献[6]中，提出了一种基于两个CNN的模型：第一个网络用于粗略估计深度，而第二个网络用于细化预测。在文献[20]中，提出了一种集成新的反向Huber损耗的剩余网络。在文[2]中，也使用了深度残差网络，但从静止图像的深度估计问题从回归转化为分类任务。最近的工作也显示了采用多任务学习策略的好处，例如联合预测深度和执行语义分割、自我运动估计或表面正常计算[5、38、31]。最近的一些文献中提出了无监督或弱监督模型深度图重建[9,18]。其他作品利用了在深度学习体系结构中用于估计深度图的图形模型的灵活性。例如，在[31]中，采用分级CRF来细化CNN获得的深度预测。在[22]中，提出了一种连续的CRF，用于从超像素体上计算的CNN特征生成深度图。与我们最相似的工作是[36]，在这里，CRF被用来组合从CNN的多个内层得到的多尺度信息。我们的方法从相似的直觉发展而来，但进一步整合了注意力模型，大大提高了估计的准确性。据我们所知，这是第一篇在单目深度估计的背景下开发注意机制的论文。

CNNs中多尺度信息的融合。最近的许多工作已经表明，将多尺度信息结合起来用于像素级预测任务，如语义分割[3]、深度估计[36]或轮廓检测[32]。例如，在[3]中使用了扩张卷积。文献[1]考虑了具有不同分辨率输入的多流结构，而文献[25]则提出了融合来自不同层的特征映射的技巧。在[32]中，利用深度监控来融合来自多个内部层的信息。文献[36]考虑了CRF对多尺度信息的集成。在文献[4，33]中，注意模型被用于在语义分割和物体轮廓检测的背景下结合多尺度特征。我们在本文中提出的方法是完全不同的，因为我们采用了一个结构化的注意模型，它是在CRF-CNN框架内共同学习的。

三、基于结构化注意引导条件神经场的深度图估计

在这一节中，我们描述了从静止图像估计深度图的方法。我们首先概述了我们的方法，然后介绍了所提出的具有结构化注意的CRF模型。我们在本节结束时提供了一些有关实现的详细信息。

图2示意性地描述了提议的架构和我们的CRF模型。在更精细的尺度上对学习到的表示和对应于每个中间层的特征之间的关系建模的想法受到了最近的Densenet架构的启发[14]。正如在我们的实验（第4节）中所证明的那样，这种策略可以提高[36]中提出的级联模型的性能。

3.2.结构化注意引导多尺度CRF

3.2.1 建议模型

3.2.2 导出平均场更新

我们想指出的是，由于（2），（3）和（5）中势函数的定义，我们的方法中平均场更新的计算比[36]中高斯函数考虑成对势的计算效率要高得多。实际上，高斯卷积在前向和后向过程中都涉及更高的计算开销。我们将在第4节中进一步讨论这一方面。

我们的结果清楚地表明，该方法优于文献[6]中所有采用原始数据集的有监督学习方法。重要的是，与以前基于CRFs模型的工作相比[31,22,36]的性能改进是显著的。特别是，我们认为，相对于[36]的准确性的提高证实了我们最初的直觉，即直接在特征水平上操作并将注意力模型集成到CRF中，可以得到更精确的深度估计。最后，我们想指出，考虑到扩展训练集，我们的方法也优于大多数方法。此外，我们的框架和在95k样本上训练的[36]中的deep模型之间的性能差距非常小，我们还提供了一些用图3所示方法估计深度图的示例。我们的预测与基本事实相比较，很明显，我们的方法甚至在对象边界上也相当精确的（注意，例如，在对象（如椅子和桌子）的情况下，恢复细粒细节的准确性）。

最后，考虑到测试阶段的计算量，我们将所提出的方法与先前的方法进行了比较。图4描述了一些基线方法（数字取自原始论文）的平均相对误差与运动是间（即对一副图像进行分类的时间）。我们的方法保证了准确性和时间之间的最佳权衡（注意laina等人的deep模型[20]是在扩展数据集上训练的）。有趣的是，将我们的方法与[36]进行比较：当两个模型都在原始集合[6]上训练时，所提出的框架不仅在精度方面优于[36]，而且通过在CRF中采用不同势函数，结果得到更快的推论，另一个有趣的比较是[31]和[22]，因为这些作品也是基于CRF的。我们的模型在精度和运行时将方面都明显优于[22]和[31]（参见图4和表1）:由于可视化的问题，我们在图4中没有显示[31]，因为原始文件报告恢复单个图像深度图的时间是40秒。

KITTI数据集。在Kitti数据集上还与最新方法进行了比较，相关结果如表2所示。作为基线，我们考虑Saxena等人的工作。[27]，Eigen等人[6]，Liu等人[22]，周等.[38]，Garg等人。[7]，Godard等人[9]和库兹涅佐夫等人。[18]。重要的是，前四种方法仅使用单目图像来预测深度信息，而在[7]、[9]和[18]中，训练中考虑立体设置，因此这些方法与我们的方法不可直接比较。如表所示，除了[18]中的最新方法外，我们的方法在考虑监督设置的情况下优于所有以前的方法。关于[18]，我们得到的误差较小，而精度稍差。为了完整起见，我们还报告了以前的方法在考虑立体声设置时的性能。在这些方法中，Kuznietsov等人[18]利用地面真实感监控和立体信息，实现最佳性能。遵循同样的想法，我们相信一个有趣的未来研究方向将是将立体声提示集成到我们的框架中。图5还显示了与一些最新方法的定性比较。

融合研究。为了进一步证明该方法的有效性，我们对kitti数据集进行了消融研究。表3显示了我们的分析结果。在表中，“多重深层监控”是指用[32]中的方法对前端CNN进行训练；“W/注意模型”是指在优化过程中考虑了注意变量AI，但丢弃了结构潜能；“W/结构注意模型”是指使用了结构注意模型。根据以前的研究结果[31，36，22]，将CRFs模型嵌入到一个深层架构中可以显著提高性能。此外，采用CRFs是组合多尺度特征的一种非常有效的策略，这一点在将我们的结果与CRF和对应于朴素特征连接的结果进行比较时显而易见。最后，更重要的是，通过引入带有注意机制的CRF模型，特别是，有了结构性注意力，我们可以显著提高绩效。

五、总结

提出了一种新的单目深度估计方法。本文的主要贡献是建立了一个CRF模型，该模型通过学习一组潜在的特征表示和相关的注意模型，将CNN内部的多尺度信息最优地结合起来。我们证明，通过在特征层结合多尺度信息和采用结构化注意机制，我们的方法明显优于以前基于CRF-CNN模型的深度估计方法[37，22，36]。重要的是，我们的框架可以与几个CNN架构结合使用，并且可以端到端地进行训练。广泛的评估表明，我们的方法优于大多数基线。未来的研究可以基于场景深度的预测来执行跨域检测任务[34]。

用于单眼深度估计的结构化注意力导向卷积神经场（论文2018）相关推荐

DepthFormer:利用远距离相关性和局部信息估计准确的单眼深度估计
[Paper] 目录核心介绍相关工作方法 Encoder = Transformer Brance + CNN Brance HAHI Module 实验结果核心目的:解决有监督的单眼深度 ...
【干货】Entity Embeddings : 利用深度学习训练结构化数据的实体嵌入
[导读]本文是数据科学家Rutger Ruizendaal撰写的一篇技术博客,文章提出深度学习在非结构数据中有不错的表现,当前通过实体嵌入也可以使之在结构化数据中大放异彩.具体讲解了如何利用深度学习训 ...
【论文精读】从单张图像进行深度估计的深度卷积神经场
从单张图像进行深度估计的深度卷积神经场 Paper Information Abstract Introduction Related Work Deep convolutional neural f ...
【论文精读】使用深度卷积神经场从单目图像学习深度
使用深度卷积神经场从单目图像学习深度 Paper Information Abstract 1 Introduction 1.1 Related Work 2 DEEP CONVOLUTIONAL N ...
【深度学习】吴恩达深度学习-Course3结构化机器学习项目-第一周机器学习（ML）策略(1)作业
题目仅含中文!! 视频链接:[中英字幕]吴恩达深度学习课程第三课 - 结构化机器学习项目参考链接: [中英][吴恩达课后测验]Course 3 - 结构化机器学习项目 - 第一周测验吴恩达< ...
#每天一篇论文#238/365 基于注意力的上下文聚合网络用于单目视觉深度估计
Attention-based Context Aggregation Network forMonocular Depth Estimation 本文提出了一种在enconde阶段加入注意力网络结构 ...
实体嵌入(向量化)：用深度学习处理结构化数据
摘要: 本文详细阐述了深度学习如何来实现处理结构化数据的方法. 嵌入源自于NLP(word2vec)中的单词学习,上图来自Aylien 本博文将涉及机器学习中两个重复出现的问题:第一个问题是深度学习在 ...
如何用深度学习处理结构化数据？
这篇博客主要关注的是深度学习领域一个并不非常广为人知的应用领域:结构化数据.本文作者为旧金山大学(USF)在读研究生 Kerem Turgutlu. 使用深度学习方法按照本文所介绍的步骤处理结构化数据 ...
吴恩达深度学习笔记——结构化机器学习项目（Structuring Machine Learning Projects）
深度学习笔记导航前言传送门结构化机器学习项目(Machine Learning Strategy) 机器学习策略概述正交化(orthogonalization) 评价指标数字评估指标的单一性 ...

用于单眼深度估计的结构化注意力导向卷积神经场（论文2018）

Structured Attention Guided Convolutional Neural Fields for Monocular Depth Estimation

用于单眼深度估计的结构化注意力导向卷积神经场（论文2018）相关推荐

最新文章

热门文章