图像深度估计,是目前计算机视觉研究中的经典问题。深度图(Depth Map)表示每个像素在空间中的位置,是一种普遍的三维场景信息表达方式,广泛应用于自动驾驶、三维重建等方面。
基于深度学习的单目图像深度估计是本领域近几年的趋势。想把最近看的几篇论文做一下总结,主要是方便以后查看。

1.Depth Map Prediction from a Single Image using a Multi-Scale Deep Network-NIPS2014


这篇论文是第一篇基于深度学习做单目图像深度估计的文章。本文提出了一个Multi-Scale的深度神经网络用来解决深度预测的问题。通过对整幅图进行全局预测(Global Coarse-Scale Network)和局部调优(Local Fine-Scale Network),来获取单张图的深度图。

2.Unsupervised Monocular Depth Estimation With Left-Right Consistency-CVPR2017


采用无监督学习的方法来估计深度,基本思路是匹配好左右视图的像素,得到disparity map。根据得到的视差disparity,由d = bf/disparity,算出depth map。
本文是利用图像重建误差来最小化光度误差,虽可以得到很好地图像重建结果,但得到深度预测结果非常差。为了优化这个结果,作者采用Left-Right Consitency来优化。也就是以左视图为输入,以右视图为training中的监督真值,生成右侧对应的视图;然后又以左视图为监督真值,根据右视图生成左视图。最小化这两个过程的联合loss则可以得到一个很好的左右视图对应关系。最终网络得到一个四个scale大小的输出(disp1-disp4)。
Code:https://github.com/mrharicot/monodepth

3.Towards real-time unsupervised monocular depth estimation on CPU-IROS2018


这篇文章是在《Unsupervised Monocular Depth Estimation With Left-Right Consistency》的基础上提出了pydnet模块,为解决计算大量参数,在正向恢复时间需大量的内存,模型的实时性能只能在高端或耗电量大的gpu上可行的问题。这是第一种能够在cpu上实现这种性能的方法。
Code:https://github.com/mattpoggi/pydnet

4.Unsupervised Learning of Depth and Ego-Motion from Video-CVPR2017


这篇文章使用端到端的学习方法,以视图合成作为监督信号,提出一种基于视频序列的无监督学习框架,用于估计单目图像深度和相机运动。虽然效果不太好,但是在方法和适用性方面是很值得学习的。《Unsupervised Ego-Motion and Dense Depth Estimation with Monocular Video》这篇文章在zhou的基础上,提出了两个新的loss函数,效果有很大提升。
Code:https://github.com/tinghuiz/SfMLearner

5.Deep Ordinal Regression Network for Monocular Depth Estimation-CVPR2018

这篇论文的思想是将深度估计建模为一个回归问题,网络框架是deeplab+序回归。网络框架部分是借鉴语义分割中经典的网络框架模型deeplabv2和pspnet思想。该方法具有较高的精度和较快的同步收敛速度,同时也能够捕捉多尺度信息。
目前在KITTI-depth prediction上排名第二,获得2018年“鲁棒视觉挑战”一等奖。
Code:https://github.com/hufu6371/DORN

6.Attention-based Context Aggregation Network for Monocular Depth Estimation-CVPR2019


这篇论文基本思想是把深度估计问题转换为分类问题(那么有一个问题就是:语义分割领域的框架是不是可以直接拿过来用???)。
网络框架分为三部分:
1.Encoder框架采用ResNet网络(能提取稠密特征,有较好的梯度传播能力),本文将原始ResNet中的block3和block4替换为2-膨胀残块和4-膨胀残块,有利于初始化预训练参数,保持subsequent特征图的尺度;
2.Decoder框架提出了新的CAM(Context Aggregation Module)模块,利用Self-attention和Image-Pooling分别提取并聚合图像级和像素级上下文信息;
3.提出了一种易于实现的Soft Ordinal Inference,与单纯的硬推理相比,该策略可以减少离散误差,生成更真实的深度图。
Code:https://github.com/miraiaroha/ACAN

7.Depth from Videos in the Wild:Unsupervised Monocular Depth Learning from Unknown Cameras-CVPR2019

这篇论文是今年四月份由谷歌AI与机器人实验室联合发布的最新研究结果,效果可媲美LiDAR。

这品论文提出了一种利用相邻视频帧间的一致性作为监控信号,同时从单目视频中学习深度、自我运动、物体运动和摄像机内参的新方法。主要贡献如下:
1.证明了可以用一种无监督的方式训练深度网络,并从视频本身预测出相机的内参(包括镜头畸变参数);
2.是第一个以几何方式从预测深度直接处理视频中的遮挡问题;
3.大大减少了处理场景中移动元素所需的语义理解量:只需要一个覆盖可能属于移动对象的像素的单个掩码,而不是分割移动对象的每个实例并跨帧跟踪它。
这篇文章还未公布源码,文章还需再更进一步的理解。

基于深度学习的单目图像深度估计总结相关推荐

  1. 最新综述|深度学习的单目人体姿态估计

    向大家推荐一篇今天新出的人体姿态估计综述文章 Monocular Human Pose Estimation: A Survey of Deep Learning-based Methods ,对20 ...

  2. 单目图像深度估计 - 深度篇:David Eigen的两篇研究

    目录 入门篇:图像深度估计相关总结 应用篇:Learning to be a Depth Camera 尺度篇:Make3D 迁移篇:Depth Extraction from Video Using ...

  3. 基于深度学习的单目深度估计综述

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 文章:Monocular Depth Estimation Based On Deep Learnin ...

  4. 前车碰撞预警——FCW,基于深度学习和单目摄像头测距的前车碰撞预警源码

    前车碰撞预警--FCW,基于深度学习和单目摄像头测距的前车碰撞预警源码. 单目测距,多目标跟踪. 车辆检测,智能adas,FCW,价格只包括源码及设计文档讲解. 我使用的版本说明: gpu版本: an ...

  5. 基于深度学习和单目摄像头测距的前车碰撞预警源码

    前车碰撞预警--FCW,基于深度学习和单目摄像头测距的前车碰撞预警源码 单目测距,多目标跟踪. 车辆检测,智能adas,FCW,编号只包括源码及设计文档讲解. 我使用的版本说明: gpu版本: ano ...

  6. 单目图像深度估计——Monodepth2

    深度估计方法及网络架构 深度估计方法 网络架构 深度网络 位姿网络 损失函数构建 深度估计方法 Monodepth2使用基于单目图像的无监督学习法完成深度估计的任务.根据SFM模型原理在卷积神经网络中 ...

  7. 单目图像深度估计 - 入门篇

    由于公司网站设置,基于git的Blog越来越难打开,所以把部分内容搬运到这里. 一转眼都是两年前的内容了,且大部分都是我的个人理解,现在看来也难免有些Bug.虽然后来由于项目安排的关系没有继续单目图像 ...

  8. 单目图像深度估计 - 应用篇:Learning to be a Depth Camera

    目录 入门篇:图像深度估计相关总结 应用篇:Learning to be a Depth Camera 尺度篇:Make3D 迁移篇:Depth Extraction from Video Using ...

  9. 单目图像深度估计 - 泛化篇:S2R-DepthNet

    单目图像深度估计 - 泛化篇:S2R-DepthNet 偶然看到微软亚研的单目图像深度估计发表在了CVPR2021上,决定更新一下这个系列. 官方已经有了十分详细的论文解读,我认为这篇文章比较有意思的 ...

最新文章

  1. python3写unicode编码到文件
  2. python安装cv-oracle时如何解决vc++的问题_python中cx_Oracle模块安装遇到的问题与解决方法...
  3. 【Java面试题】41 两个对象值相同(x.equals(y) == true),但却可有不同的hash code,这句话对不对?...
  4. hashMap怎么解决hash冲突的
  5. 请求分页内存管理的模拟 c++代码_C开发实战-内存管理
  6. linux 手动配置ip地址方法
  7. iOS Hacker dumpdecrypted脱壳
  8. 自己动手写CPU(3)逻辑、移位操作与空指令
  9. android usb多个,android、windows上多个USB Camera同时使用实验小结
  10. 全栈测试:平衡单元测试和端到端测试
  11. excel mysql插件_智分析Excel插件
  12. ffmpeg sws_scale函数详解
  13. java基础:13.1 集合框架 - ArrayList
  14. 小议数据库主键选取策略(转)
  15. 计算机英语videos啥意思,video是什么意思_video翻译_读音_用法_翻译
  16. vLive带你走进虚拟直播世界
  17. RBP系统管理之日志管理
  18. 2023AP微积分AB考试报名开启
  19. 华为2020校招笔试编程题 看这篇就够了(上)
  20. 【360图书馆】插入U盘自动攻击:BadUSB原理与实现

热门文章

  1. 大笨钟:微博上有个自称“大笨钟V”的家伙,每天敲钟催促码农们爱惜身体早点睡觉。
  2. docker搭建mysql主从数据库
  3. Nginx代理导致请求头某些内容丢失
  4. 如何在windows本地搭建StackEdit
  5. python爬虫----图片爬取之高清原图
  6. python 路径拼接总结
  7. 安卓8.1运行linux,在 Linux 上安装安卓 8.1 Oreo 来运行应用程序和游戏 | Linux 中国...
  8. 手机浏览器css差异问题,手机和桌面之间的CSS行高属性差异
  9. SQL语句学习之SQL基础的表创建以及添加数据
  10. 百度地图选点定位界面