一、A generalized Depth Eestimation Algorithm with a Single Image 一种基于单一图像的广义深度估计算法(TPAMI,1992)

1. 边读边记

深度估计对于场景估计、物体识别等计算机视觉方向有重要作用;
严格来说,深度是指物体表面到薄凸透镜的第一主平面的距离;
实体视觉(stereopsis)方法是比较流行的方法,该方法基于测量双目视差(binocular disparity),然后用三角测量(triangulation)方法修复3D结构,然后用特征提取和匹配来衡量差异性。对应过程是该方法最复杂的部分。

最近有一种基于摄像机焦距(camera focus)的新方法[引文9],称为DFF法(Ddistance From Focus),用散焦或模糊的数量来估计距离。该方法只需要一张图就可以重构深度信息,并且不需要特征对应(feature correspondence)过程。引文9认为模糊的边(blurred edge)是由正常聚焦的边与可以近似为2D高斯分布G(r, σ)的点扩散函数(point spread function)卷积成的。空间常数σ与深度直接有关,深度由散焦(defocus)数量决定。具体分析在引文9和11. 单一点光源在散焦图像上的点扩散函数取决于光的波长和透镜系统的特性。分析认为对于白色光,不同波长的光所获得的点扩散函数之和具有这个2D高斯分布的一般形式。

文献12把点扩散函数推广到旋转对称(rotationally moment)形式,采用二阶中心矩做参数σ,用一种近似形式来估计深度。

以上两种方法都用二阶变异(second-order differentiation operation)来估计σ,但是二阶变异对噪声很敏感,本文提出一种广义算法,把σ分解为σx和σy,因此也不再需要边缘取向(edge orientation)。

当一个点不在凸透镜的焦点上的时候,它在成像平面上成的像就是一个模糊的圈,称为模糊圈(blur circle)。实际的模糊点的个数还要取决于透镜系统和该点距离实际焦点的距离。

透镜公式告诉我们:F−1=D−1+v−1F^{-1}=D^{-1}+v^{-1}F−1=D−1+v−1
其中FFF是透镜的焦距。

经过一些转化和加入高斯分布,得到了文章中公式(3)的形式。D为深度,D的估计方法在Section II的最后一段。
文章认为观测到的图像(observed unfocused image)f(a,b)是由聚焦图像(well-focused image)I(x,y)与高斯函数G(x,y,σ)卷积得到的,即公式(4)。经过一系列转化,σ分解为x方向和y方向,得到Section IV的前两个公式,这就是本文的最终优化目标。

文章最终用牛顿法求解。由于优化目标不算凸优化,因此使用观测到的图像作为g1和g2的初始值。
大体如此,求解和一部分推导没完全看懂。

2. 好词好句

rigorously speaking 严格来讲
the novelty of … is ···的新奇之处是
the validity of 正确性
let us assume that 让我们假设
with respect to 关于,至于
convergence property 收敛性
take a coarse search 做一个粗搜索

二、Depth Estimation from Image Structure 从图像结构中估计深度(TPAMI,2002)

1. 边读边记

如果没有绝对的深度度量线索,如双目视差、移动(motion)、散焦(defocus),从观测者到场景的距离就无法得知。色差、边缘、连接可能提供场景的3D模型,却无法提供尺度。一种可能的绝对深度信息渠道是已知物体的投影尺度(image size)。然而这又带来了识别问题,也比较难做。本文提出了一种基于整体场景结构的深度估计方法,不依赖于特定物体。

文章认为,空间结构、场景中主要物体的尺度和位置会随着到观测者的距离的变化而变化,而且这种变化是常规的可预测的。通过识别图像中表现出来的结构,这种结构性的规律稳定到可以用来估计场景的平均深度。

多数深度信息修复技术关注的是相对深度,如从阴影(shading)、纹理变化、边界和交合、对称图像、分形维度(fractal dimension)来塑性(shape),或者从其他的图形提示,例如闭合(occlusions)、相对尺度、相对地平线的海拔等等。这些方法应用场景有限。
绝对(absolute)深度估计相关研究也很多,大多依赖于有限信息源,如双目视觉、移动视差、散焦等等。
然而在普通视觉下也应该能估计深度信息。有一种信息可以利用,是熟悉物体的尺度,如脸,身体,车辆等等。然而这要求在非约束条件下做图像分割,难做且不可靠。

本文为绝对深度估计提供了一种新的信息源:全局图像结构。这种信息不需要多目视觉或图像分割。

文章扯了很多局部/全局傅里叶/谱,很冗长。前面的introduction算是看懂了一些东西。从全局图和局部图出发做场景的平均深度估计,又分为人工场景和自然场景,主要是基于EM算法做估计。

2. 好词好句

we demonstrate that 我们论证/证明了
infer 推论
illustrate 阐述
remains still difficult and unreliable 仍然很难且不可信
it is acknowledged that 公认
our objective is to 我们的目标是

三、Unsupervised Monocular Depth Estimation with Left-Right Consistency 基于左右一致性的单目无监督深度估计(CVPR, 2017)

1. 边读边记

本文提出了一种新的训练目标,使得CNN能够估计深度值,尽管没有真实的深度值。通过探索极线约束和图像重构损失,用网络获取了不一致图像。提出了一种新的损失函数。
在运动结构(structure from motion)、X光成像、双目和多视角立体系统(multi-view stereo)等方面已经有了丰硕成果,然而他们多假设场景中可以获取多个视角的数据。为了解决这个问题,提出了很多有监督的单目深度估计方法,使用ground truth depth data做线下训练。但是这些方法的应用局限于可以大规模获取像素级别深度值对应的场景中。
深度估计的应用,文章列举了很多。

文章的网络是用合成深度来训练的,只是不需要ground truth深度。已有的类似方法要么输出图像分辨率不够,要么效果不够好。

对于左右两个视角,文章提出求解一个dl和dr,分别用于右侧视角和左侧视角重构彼此,其中d指的是图像差异,是模型需要预测的精确到像素的一个标量。
通过推论左侧视角如何卷曲到右侧,文章的网络预测了深度。
测试时,网络在最佳尺度上预测视角差异性,要求与输入图像分辨率相同。然后用已知的摄像机baseline和距离训练集的焦点长度,可以把差异图转化为深度图。

构建的新损失函数没细看,大致是分三部分,一部分encourage重构图像与对应输入趋于相似,一部分enforce流畅的差异图,一部分perfer左右差异图具有一致性。

这篇会议文章读起来比较顺畅,没有太多拐弯抹角。而且给出了代码和演示视频,以后可以好好参考对照。

2. 好词好句

promising 有前途的,有前景的
despite the absence of 尽管没有…
ground truth depth data 真实的深度值
fruitful approaches have relied on 基于…的方法成果丰硕
these can come in the form of … 可能是…的形式
a surge in …方面的突飞猛进

有关深度估计的几篇文章的阅读笔记相关推荐

  1. 单目图像深度估计 - SLAM辅助篇:MegaDepth

    目录 入门篇:图像深度估计相关总结 应用篇:Learning to be a Depth Camera 尺度篇:Make3D 迁移篇:Depth Extraction from Video Using ...

  2. 今天看到的关于深度学习的一篇文章,可以好好学习下

    是微信分享的:Link <人人都可以做深度学习应用:入门篇>

  3. 到底什么是 localhost、127.0.0.1、0.0.0.0 和 本机IP ?(参考多篇文章的学习笔记)

    到底什么是 localhost.127.0.0.1.0.0.0.0 和 本机IP ? 平时配置项目环境及运行项目的过程中,会接触到 localhost.127.0.0.1.0.0.0.0 和 本机IP ...

  4. 深度学习半监督:mean teacher阅读笔记

    参考博客:[深度学习]半监督学习入门:Mean teachers_兔子爱读书的博客-CSDN博客_mean teacher

  5. 连上Internet-linux鸟哥的私房菜服务器篇04(阅读笔记)

    4.1    Linux连上Internet前的注意事项     4.1.1 Linux的网络卡     1. 网络卡 的装置代号(ethX)     2. 网络卡的模块(驱动程序)     3. 观 ...

  6. 深度学习——数据预处理篇

    深度学习--数据预处理篇 文章目录 深度学习--数据预处理篇 一.前言 二.常用的数据预处理方法 零均值化(中心化) 数据归一化(normalization) 主成分分析(PCA.Principal ...

  7. DepthFormer:利用远距离相关性和局部信息估计准确的单眼深度估计

    [Paper] 目录 核心 介绍 相关工作 方法 Encoder = Transformer Brance + CNN Brance HAHI Module 实验结果 核心 目的:解决有监督的单眼深度 ...

  8. 单目图像深度估计 - 泛化篇:S2R-DepthNet

    单目图像深度估计 - 泛化篇:S2R-DepthNet 偶然看到微软亚研的单目图像深度估计发表在了CVPR2021上,决定更新一下这个系列. 官方已经有了十分详细的论文解读,我认为这篇文章比较有意思的 ...

  9. 深度学习之单目深度估计:无监督学习篇

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者:桔子毛 https://zhuanlan.zhihu.com/p/29968267 本文仅做学术 ...

  10. 深度学习之对象检测_深度学习时代您应该阅读的12篇文章,以了解对象检测

    深度学习之对象检测 前言 (Foreword) As the second article in the "Papers You Should Read" series, we a ...

最新文章

  1. C#读取与修改XML文档
  2. 对表头指针、表头结点,单链表删除的理解
  3. 微信怎么at所有人_微信分付怎么开通,入口在这里,简单几步教你快速开通
  4. 测量程序运行时间的几个函数
  5. spring.net结合普通三层(实现IOC 及AOP中的异常记录功能)
  6. 解决datepicker设置选中日期setDate不生效问题
  7. 加载msvcr100.dll时提示已加载,但是为什找不到输入点dllregisterserver
  8. Python 跑深度学习遇到的一些问题集锦
  9. js获取当前日期,并且转化为时间格式“yyyy-MM-dd HH:MM:SS”
  10. JAVA的教师档案管理系统_教师档案管理系统的设计与实现
  11. 社交媒体中有哪些有趣的数据?能挖掘出哪些价值?
  12. java代码中实现excel表下载
  13. 1至9填入九个方框内_把19这九个数字填在方框里
  14. 黄河科技学院计算机应用技术在哪个校区,黄河科技学院成考计算机应用技术(高升专)专业_黄河科技学院成考报名_成考计算机应用技术专业就业方向_中国教育在线...
  15. 【VS配置】如何设置调试命令行参数
  16. html 苹果 地图,iOS谷歌地图全景显示
  17. 使用Python的pandas-datareader包下载雅虎财经股价数据
  18. EtherCAT源代码分析(1)
  19. 0xC0000005: 读取位置 0x6C6C6568 时发生访问冲突的原因及解决方法
  20. 【git学习】GitLab中如何批量删除本地以及远程的TAG标签

热门文章

  1. 从程序员到项目经理(9):程序员加油站 -- 再牛也要合群
  2. 我选择 wxWidgets 而不是 Qt 作为图形用户界面框架的一些想法
  3. 周鸿祎和马化腾对话,泄露曝光
  4. Java中直接输出一个类的对象
  5. 登录,注册,个人信息,退出的隐藏和出现
  6. vue+nodejs+element 实现drawio绘图效果
  7. 得到 jason中 string 的值_简单高性能的Json解析器: Jason
  8. A[1080]Graduate Admission 两个cmp比较函数两个struct结构体
  9. e: 无法定位软件包 python-pip_关于Sony镜头不同系列定位的最全面分析
  10. stl map 查找不到返回什么_STL 容器结构和分类