目录

基本情况

摘要

介绍

网络结构


基本情况

  • 题目:Deep ordinal regression network for monocular depth estimation
  • 出处:Fu, H., Gong, M., Wang, C., Batmanghelich, K., & Tao, D. (2018). Deep ordinal regression network for monocular depth estimation. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (pp. 2002-2011).
  • 采用的数据集:The KITTI Vision Benchmark Suite
  • 开源代码:GitHub - hufu6371/DORN (caffe)

摘要

单眼深度估计在理解3D场景几何中起着至关重要的作用,是一个不适定问题(ill-posed problem)。通过探索来自深度卷积神经网络(DCNN)的图像级信息和层次特征,最近的方法已取得了显着改进。这些方法将深度估计建模为一个回归问题,并通过最小化均方误差来训练回归网络,均方误差受收敛速度慢和局部解不能令人满意的困扰。此外,现有的深度估计网络

  • 采用重复的空间池化操作,从而导致不良的低分辨率特征图。
  • 为了获得高分辨率的深度图,需要跳连接或多层反卷积网络,

这会使网络训练变得复杂,并消耗更多的计算量。

为了消除或至少很大程度上减少这些问题,我们

  • 引入了间距递增离散化(spacing-increasing discretization,SID)策略,以将深度离散化并重铸深度网络学习作为序列回归问题

    • 通过使用普通回归损失训练网络,我们的方法可以获得更高的准确性和更快的同步收敛性。
  • 此外,我们采用了多尺度网络结构,该结构避免了不必要的空间池化并并行捕获了多尺度信息。
    • 提议的深度序列回归网络(DORN)在三个具有挑战性的基准(即KITTI [16],Make3D [49]和NYU Depth v2 [41])上获得了最新的结果,并且在很大程度上优于现有方法。

介绍

从2D图像估计深度是场景重建和理解任务(例如3D对象识别,分割和检测)的关键步骤。在本文中,我们从单个图像(以下简称为MDE, Monocular Depth Estimation)研究了单目深度估计问题。与根据立体图像或视频序列进行的深度估计(其中已取得重大进展)[19、29、26、44]相比,MDE的进展缓慢。 MDE是一个不适的问题:可能从无数不同的3D场景中生成单个2D图像。为了克服这种固有的歧义,典型的方法

  • 利用具有统计学意义的单眼线索或特征,例如透视和纹理信息,物体大小,物体位置和遮挡物[49、24、32、48、26]。

最近,一些工作通过使用基于DCNN的模型[38,55,46,9,28,31,33,3]大大改善了MDE性能,证明了深层特征优于手工特征。这些方法通过学习DCNN估计连续深度图来解决MDE问题。由于此问题是标准回归问题,因此通常采用对数空间中的均方误差(MSE)其变体作为损失函数。尽管优化回归网络可以实现合理的解决方案,但我们发现收敛速度很慢,最终的解决方案远不能令人满意。另外,现有的深度估计网络[9、15、31、33、38、57]通常将最初设计用于图像分类的标准DCNN以完全卷积的方式用作特征提取器。在这些网络中,

  • 重复的空间池化迅速降低了特征图的空间分辨率(通常为32步),这对于深度估计而言是不希望的。

    • 尽管可以通过多层反卷积网络[33、15、31],多尺度网络[38、9]或跳过连接[57]通过合并更高分辨率的特征图来获得高分辨率的深度图,但这种处理不仅需要额外的计算和内存成本,而且还会使网络架构和训练过程复杂化。

与MDE的现有发展相比,我们建议将连续深度离散化为多个间隔,并将深度网络学习转换为序列回归问题,并提出如何通过DCNN将序数回归纳入密集的预测任务。更具体地说,我们建议使用间距递增离散化(SID)策略而非统一离散化(UD)策略执行离散化,这是由于深度预测的不确定性随底层ground truth深度的增加而增加的,这表明在预测较大的深度值时最好允许相对较大的误差,以避免过大的深度值对训练过程的影响过大。在获得离散深度值之后,我们通过序数回归损失对网络进行训练,其中考虑了离散深度值的排序。

为了简化网络培训并节省计算成本,我们引入了一种网络体系结构,该体系结构避免了不必要的二次采样,并以一种更简单的方式而不是跳过连接来捕获多尺度信息。受场景解析的最新进展启发[60,4,62],我们首先在最后几个合并层中删除了子采样,然后应用膨胀卷积来获得较大的接收场。然后,通过应用具有多个扩张速率的扩张卷积,从最后一个池化层中提取多尺度信息。最后,我们开发了一种全图像编码器,该图像以比完全连接的全图像编码器[2、10、9、35、28]低得多的内存成本有效捕获图像级信息。整个网络以端到端的方式进行培训,而无需进行分阶段的培训或迭代完善。在三个具有挑战性的基准上进行的实验,即KITTI [16],Make3D [49、48]和NYU Depth v2 [41],证明了该方法可以达到最新的结果,并且在性能上远胜于最新算法。

本文的其余部分安排如下:

  • section2: 对相关文献的简要回顾;
  • section3: 提出的详细方法;
  • section4: 除了在这些基准上的定性和定量性能外,我们还评估了所提出方法的多个基本实例,以分析这些核心因素的影响;
  • section5: 最后,总结了整个论文。

网络结构

论文笔记_S2D.38_2018-CVPR_DORN_用于单目深度估计的深度有序回归网络相关推荐

  1. MonoDETR:用于单目3D检测的深度感知transformer(CVPR2022)

    作者丨zyrant@知乎 来源丨https://zhuanlan.zhihu.com/p/508682621 编辑丨3D视觉工坊 -- 2022.4.29 by 周报拓展. --CVPR还有一篇Mon ...

  2. 华为诺亚方舟加拿大实验室提出BANet,双向视觉注意力机制用于单目相机深度估计...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 这篇文章的作者是华为加拿大诺亚方舟实验室,是一篇将双向注意力机制用于弹幕深度估计的工作.主要的创新点在 ...

  3. DROID-SLAM: 用于单目双目RGBD相机的深度视觉SLAM

    作者丨Clark@知乎 来源丨https://zhuanlan.zhihu.com/p/479534098 编辑丨3D视觉工坊 论文信息 @article{teed2021droid,title={D ...

  4. DID-M3D | 用于单目3D目标检测的解耦实例深度(ECCV2022)

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 后台回复[多模态综述]获取论文! 后台回复[ECCV2022]获取ECCV2022所有自动驾驶方向论文! 后台 ...

  5. 干货!探索单目车辆估计中的中间几何表示

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 我们在这项工作中提出一种从单张RGB图片估计车辆在相机坐标系中姿态的方法.与传统方法不同的是,我们不采用先估计观测角再进行转换的二步方法 ...

  6. 单目图像深度估计 - 相对深度篇:Depth in the Wild Size to Depth

    目录 入门篇:图像深度估计相关总结 应用篇:Learning to be a Depth Camera 尺度篇:Make3D 迁移篇:Depth Extraction from Video Using ...

  7. OpenCV4每日一练day11:单目位姿估计

    一.单目位姿估计   根据相机成像模型,如果已知相机的内参矩阵.世界坐标系中若干空间点的三维坐标和空间点在图像中投影的二维坐标,那么可以计算出世界坐标系到相机坐标系的旋转向量和平移向量.如图所示,当知 ...

  8. 单目、双目及深度相机比较

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 1.mono 优点: 结构简单,成本低,便于标定和识别 缺点: 在 ...

  9. 【论文精读】从单张图像进行深度估计的深度卷积神经场

    从单张图像进行深度估计的深度卷积神经场 Paper Information Abstract Introduction Related Work Deep convolutional neural f ...

  10. EPro-PnP:用于单目物体姿态估计的广义端到端概率 PnP(CVPR 2022)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨张海晗 来源丨泡泡机器人SLAM 标题:EPro-PnP: Generalized End-to ...

最新文章

  1. java 时间生成字符串_java随机生成时间字符串的方法
  2. 华水c语言课程设计,【图片】发几个C语言课程设计源代码(恭喜自己当上技术小吧主)【东华理工大学吧】_百度贴吧...
  3. 计算机中丢失了ll是什么意思,丢失了ntoskrnl.exe和hal.ll
  4. 云小课 | 守护网络安全不是问题,iptables的四表五链为你开启“八卦阵”
  5. uboot中DEBUG定义
  6. eclipse的maven项目,如何使用java run main函数
  7. 云队友丨抖音之后,互联网失去创造力
  8. word大纲视图 标题格式设置方式
  9. 高中计算机教室标语,高中教室标语
  10. 重磅!超详细的 JS 数组方法整理出来了
  11. 大卫 异星觉醒 机器人_吓坏无数人的《异星觉醒》,怎么最后还招恨了?
  12. 无向图全局最小边割集
  13. 【华人学者风采】汪玉 清华大学
  14. js 封装cookie
  15. Django操作数据库
  16. HBase原理 | HBase分区影响与合理分区设置
  17. 2014阿里巴巴秋季校园招聘-软件研发工程师笔试题/面试问题收集
  18. python常用函数及模块
  19. (3.1)【多媒体中的数据隐藏】数字音频中的数据隐藏、原理、音频隐写工具 S-TOOLS、提取工具MP3Stego
  20. 获取 Nuget 版本号

热门文章

  1. css3中的border-image用法
  2. HP推出UFT新版本UFT12 5以及LeanFT
  3. 水晶报表攻克系列3-如何在程序中自定义纸张
  4. js 的push 方法
  5. tomcat的server.xml中的Context节配置
  6. Nginx正确记录post日志的方法
  7. 从无线安全到内网渗透
  8. struts1.x 标签库
  9. @Transactional(rollbackFor=Exception.class)的作用
  10. CSS Lint-线上CSS检测工具 让你的样式表更正确精简