基本情况

题目：Towards unified depth and semantic prediction from a single image
出处：Wang, P., Shen, X., Lin, Z., Cohen, S., Price, B., & Yuille, A. L. (2015). Towards unified depth and semantic prediction from a single image. In Proceedings of the IEEE conference on computer vision and pattern recognition (pp. 2800-2809).

摘要

深度估计和语义分割是图像理解中的两个基本问题。虽然这两项任务紧密相关且互惠互利，但它们通常是分开或顺序解决的。基于这两个任务的互补性，我们提出了一个联合深度和语义预测的统一框架。给定一幅图像，我们首先使用训练好的卷积神经网络(CNN)来联合预测由像素深度值和语义标签组成的全局布局。通过允许深度和语义信息之间的交互，联合网络提供了比仅为深度预测[6]训练的最先进的CNN更准确的深度预测。为了进一步获得精细层次的细节，在全局布局的指导下，将图像分解为局部分割，进行区域层次深度和语义预测。利用像素全局预测和区域局部预测，我们将推理问题建立在一个两层层次条件随机场(HCRF)中，以产生最终的深度和语义映射。如实验所示，我们的方法有效地利用了两种任务的优点，并提供了最新的结果。

1 介绍

首先讲了深度估计以及语义分割的联系，

虽然它们在场景理解中涉及到不同的方面，但图像区域的语义和几何属性之间存在较强的一致性。
当一个任务的信息可用时，它将提供有价值的先验知识来指导另一个任务。

然后讲了很多学者运用语义分割解决深度估计问题，但是存在一些问题

然而，这些方法要么假设语义标签是已知的，要么进行语义分割来生成语义标签

同时，语义分割以及深度估计自身也有一些问题，

由于两个任务是顺序执行的，预测的语义标签中的错误不可避免地传播到深度结果中
另一方面，在语义分割中，随着来自额外深度传感器的RGBD数据可用性的增加，许多方法使用深度作为另一个通道来规范分割，取得了比单独使用RGB图像更好的性能。

由于这两个任务是互惠互利的，因此已经进行了广泛的研究以共同解决视频中的问题[2、8、19、34]，其中可以轻松地通过运动获得结构3D信息。然而，从单一图像共同解决两个问题的努力是初步的[21]，主要是因为这两个任务的推论在单一图像中更为不适。提出两个任务可以互利的联合推理问题并非易事。本文是朝着这个方向迈出的又一步。与以前的方法[21]的语义和几何属性之间的一致性仅限于局部片段或对象不同，我们提出了一个统一的框架来合并来自整个图像的全局上下文和来自区域的局部预测，通过这些框架之间的一致性深度和语义信息是通过联合训练自动学习的。

图1说明了我们方法的框架。我们在两层分层条件随机场（HCRF）中制定联合推理问题。底层的一元电势（unary potentials）是像素深度值和语义标签，它们由从整个图像进行全局训练的卷积神经网络（CNN）预测，而上层的一元电势是区域深度和语义地图，这些地图来自另一个在本地区域接受培训的基于CNN的回归器。全局CNN的输出虽然粗略，但却提供了非常准确的全局范围和语义指导，而局部回归器则提供了深度和语义边界方面的更多详细信息。深度和语义信息之间的交互作用是通过CNN的联合训练来捕获的，并在HCRF的联合推理中得到进一步加强。

我们在NYU v2数据集[31]上评估了我们的方法的深度估计和语义分割。通过使用我们的联合全局CNN进行推断，深度预测比仅CNN的深度提高了平均8％的相对增益，并且也优于最新技术。合并局部预测后，HCRF生成的最终深度图在视觉质量方面得到了显着改善，结构和边界更加清晰。同时，在语义分割中，我们进一步表明，我们的联合方法优于R-CNN [10]，后者目前是最有效的语义分割方法，相对于平均IOU而言要高10％。

综上所述，本文的贡献有三点：

1.我们提出了一个统一的框架，用于从单个图像进行联合深度和语义预测。这两项任务的一致性是通过联合培训来学习的，并在整个框架的不同阶段实施，以提高两项任务的性能。
2.我们在两层HCRF中提出问题，以加强全局和局部预测之间的协同作用，其中全局布局用于指导局部预测并减少局部歧义，而局部结果提供详细的区域结构和边界。
3.通过广泛的评估，我们证明了共同解决我们框架中的两个问题对这两项任务都有好处，并达到了最新水平。

参考：

解读Towards Unified Depth and Semantic Prediction from a Single Image（1）
解读Towards Unified Depth and Semantic Prediction from a Single Image（2）
解读Towards Unified Depth and Semantic Prediction from a Single Image（3）
解读Towards Unified Depth and Semantic Prediction from a Single Image（4）

论文笔记_S2D.31_2015-CVPR_对单张图像进行统一的深度和语义预测相关推荐

论文笔记_S2D.77_2013_TOR_使用RGBD相机的3D建图(RGBD SLAM V2)
目录基本情况摘要介绍系统流程特征提取运动估计 EMM:Environment Measurement Model 回环检测图优化建图OctoMap 参考基本情况出处:Endres ...
论文笔记——HDD算法：异构网络中信息扩散的深度学习方法
HDD算法发表在knowledge-Based Systems上的一篇文章.有许多现实世界的复杂系统与多类型相互作用的实体,可以被视为异构网络,包括人类连接和生物进化.这类网络的主要问题之一是预测信 ...
【论文精读】从单张图像进行深度估计的深度卷积神经场
从单张图像进行深度估计的深度卷积神经场 Paper Information Abstract Introduction Related Work Deep convolutional neural f ...
【每周CV论文推荐】初学深度学习单张图像三维人脸重建需要读的文章
欢迎来到<每周CV论文推荐>.在这个专栏里,还是本着有三AI一贯的原则,专注于让大家能够系统性完成学习,所以我们推荐的文章也必定是同一主题的. 基于图像的人脸三维重建在人脸分析与娱乐领域里 ...
图像内复制粘贴篡改取证matlab_[论文笔记] 篡改检测：RGB-N
[论文笔记] Learning Rich Features for Image Manipulation Detection 说在前面个人心得: 第一次关注篡改检测,最常见的篡改方式是拼接.复制移动 ...
【论文笔记】DSIFN：用于高分辨率双时相遥感图像变化检测的深度监督图像融合网络
本文是论文<A deeply supervised image fusion network for change detection in high resolution bi-tempora ...
图像隐写术分析论文笔记：Deep learning for steganalysis via convolutional neural networks
好久没有写论文笔记了,这里开始一个新任务,即图像的steganalysis任务的深度网络模型.现在是论文阅读阶段,会陆续分享一些相关论文,以及基础知识,以及传统方法的思路,以资借鉴. 这一篇是Medi ...
enet分割_[论文笔记] 图像语义分割——ENet（ICLR 2017）
[论文笔记] 图像语义分割--ENet(ICLR 2017) bluestyle • 2019 年 05 月 03 日介绍 Motivation: 移动应用上的实时像素级语义分割是一个重要的问题,然 ...
【论文笔记】—本征图像分解—Unsupervised—USI^3^D—2020-CVPR
[论文介绍] 提出了第一个基于物理的单图像无监督学习用于本征图像分解网络USI3D(Unsupervised Single Image Decomposition) 本征图像,是指将一幅图像分解成两个 ...
Deep Learning for Image and Point Cloud Fusion in Autonomous Driving: A Review（自动驾驶图像点云融合深度学习综述）论文笔记
原文链接:https://arxiv.org/pdf/2004.05224.pdf II.深度学习的简要回顾 B.点云深度学习本文将点云深度学习方法分为5类,即基于体素.基于2D视图.基于点.基于图 ...

论文笔记_S2D.31_2015-CVPR_对单张图像进行统一的深度和语义预测

基本情况

摘要

1 介绍

论文笔记_S2D.31_2015-CVPR_对单张图像进行统一的深度和语义预测相关推荐

最新文章

热门文章