3-d depth reconstruction from a single still image(中文)

在这申明一下由于翻译很多公式我是截图的有点难布局在上面,加上时间忙,就没有继续布局,或者编辑公式,如果要word版的在下面留言。或者原版的PDF版

**原文链接:**https://cn.bing.com/academic/profile?id=a8f9797e679c7d7b0571639e793977c9&encoded=0&v=paper_preview&mkt=zh-cn

其中红色字体是应用和相对应的翻译

作者:Ashutosh Saxena · Sung H. Chung · Andrew Y. Ng

摘要:
我们考虑从单个静止图像进行3维深度估计的任务。我们采用有监督的学习方法来解决此问题,在此方法中,我们首先收集(非结构化的室内和室外环境(包括森林,人行道,树木,建筑物等)的单眼图像训练集)及其相应的地面深度图。然后,我们应用监督学习来预测深度图的值作为图像的函数。深度估计是一个具有挑战性的问题,因为仅局部特征不足以估计一个点的深度,因此需要考虑图像的全局背景。我们的模型使用了分层的多尺度马尔可夫随机场(MRF),该场域融合了多尺度的局部和全局图像特征,并对图像中的深度以及深度之间的关系进行了建模。我们证明 即使在非结构化场景中,我们的算法也经常能够恢复相当准确的深度图。我们进一步提出了一种结合单眼提示和立体(三角测量)提示的模型,以获得比单独使用单眼提示或立体提示更准确的深度估计。

正文:

从图像中恢复三维深度是计算机视觉中的一个基本问题,在机器人技术、场景理解和三维重建中有着重要的应用。视觉三维重建的大部分工作都集中在双目视觉(立体视觉)(Scharstein和Szeliski,2002年)和其他需要多幅图像的算法上,如运动结构(Forsyth和Ponce,2003年)和离焦深度(Das和Ahuja,1995年)。这些算法只考虑几何(三角剖分)差异。除了立体/三角测量线索外,还有许多单目线索,如纹理变化和梯度、散焦、颜色/雾度等,其中包含有用和重要的深度信息。尽管人类通过无缝地结合许多立体和单眼线索来感知深度,但大多数深度估计的工作都集中在立体视觉上。

从单个静止图像进行深度估计是一项困难的任务,因为仅给定局部图像特征,深度通常保持模糊。因此,我们的算法必须考虑到图像的全局结构,并使用关于场景的先验知识。我们还将深度估计视为朝着更大的图像理解目标迈出的一小步但至关重要,因为它将有助于理解场景的空间布局、在场景中找到可行走的区域、检测对象等任务。在本文中,我们将监督学习应用于从一个单一的静止图像(图1a),包含各种非结构化环境,包括室内和室外,包括森林、人行道、建筑物、人、灌木丛等。

我们的方法是基于在多个空间尺度上使用分层的多尺度马尔可夫随机场(mrf)来建模深度和深度之间的关系。对于深度估计问题,我们采用有监督的学习方法,使用三维扫描仪收集训练数据,它包含了大量的图像和它们相应的基本真理深度图。(这些数据已经在互联网上公开发布)利用这个训练集,我们在给定单目图像特征的情况下,对深度的条件分布进行建模。虽然我们的mrf模型中的学习是近似的,但是映射推理可以通过线性规划来处理。

我们进一步考虑如何将来自单个图像的单眼提示合并到立体系统中,单目线索和(纯几何)立体线索在很大程度上提供了关于深度的正交信息,因此是互补的。我们表明,结合单目和立体的线索提供更好的深度估计比单独获得。

我们还将这些思想应用于自主避障。使用我们算法的一个简化版本,我们驾驶一辆小型遥控车在各种非结构化的户外环境中高速行驶,这些环境中既有人造障碍物,也有自然障碍物。

本文的结构如下。第2节概述了用于三维深度重建的各种方法。第3节描述了人类用于深度感知的一些视觉线索。第4节描述了用于捕捉单眼线索的图像特征。我们在章5节中描述了我们的概率模型。第6节,6.1,我们描述了收集对准图像和激光数据的设置。第四节给出了单幅图像的深度预测结果。第6.2节还描述了我们算法的简化版本在自动驾驶小型遥控汽车中的使用。我们在第7节中描述了如何将单目和立体声信号合并到我们的模型中,第8节,总结。

2、相关工作

虽然我们的工作主要集中在单个静止图像的深度估计上,但是还有许多其他的三维重建技术,例如:使用激光或雷达传感器(quartulli和datcu 2001)、使用两张(或两张以上)图像(scharstein和szeliski 2002)和使用视频序列(coelis等人2006年)。在基于视觉的方法中,大多数工作都集中在立体视觉(见Scharstein和Szeliski 2002年的综述)和其他需要多幅图像的算法上,例如光学菲奥(Barron等人,2002年)。1994),运动结构(Forsyth和Ponce 2003)和离焦深度(Das和Ahuja 1995)。Frueh和Zakhor(2003)通过合并地面和空中视图构建了三维城市模型。大量算法从图像和激光数据重建已知物体(如人体)的三维形状(Thrun和Wegbreit 2005;Anguelov等人2005年)。结构光(scharstein和szeliski 2003)为深度重建提供了另一种方法。

有一些算法可以在非常特定的设置下从单个图像执行深度重建。Nagai等人(2002)对已知的、固定的物体(如手和脸)从单个图像进行表面重建。从阴影中提取形状等方法(Zhang等人,1999年;Maki等人2002)和纹理的形状(Lindeberg和GARDIN 1993;马利克和RoxHordz 1997;马利克和Perona 1990)通常假设均匀的颜色和/或纹理,(1),因此,我们会对我们考虑的复杂的、无约束的、高纹理的图像进行非常差的处理。Hertzmann和Seitz(2005)从多幅图像中重建了高质量的三维模型,但他们要求图像在目标对象旁边还包含已知形状的“辅助”对象。Torresani和Hertzmann(2004)致力于从视频序列重建非刚性表面形状。Torralba和Oliva(2002)研究了图像的傅里叶谱以计算场景的平均深度。Michels等人(2005)使用监督学习估计到障碍物的一维距离,以应用自主驾驶小型汽车。Delage等人(2005年,2006年)从单目图像生成了室内环境的三维模型,仅包含墙壁和地板。单视图计量学(Criminisi等人2000)假设场景中的消失线和消失点是已知的,并计算平行线之间的角度以从曼哈顿图像推断三维结构。

(1)此外,这些算法中的大多数都假设是朗伯曲面,这意味着曲面的外观不会随视点的变化而变化

我们在(Saxena et al.并在(Saxena等人2007年)。在我们的当代作品中,霍伊姆等人。(2005a,2005b)通过将图像分为地面、垂直和天空,建立了一个简单的“弹出”式三维模型。他们的方法假设世界是一个简单的“地面垂直”结构,但在许多环境下都失败了,它不满足这个假设,也不能给出精确的度量深度映射。在单图像三维重建概念的基础上,Hoiem等人(2006)和Sudderth等人(2006)基于学习的物体识别与三维场景表示的集成。Saxena等人(2006b)扩展了这些思想,创建了既视觉上令人愉悦又在数量上精确的三维模型。

我们的方法借鉴了计算机视觉的许多思想,如特征计算和图像的多尺度表示。其他作者已经使用了各种图像特征和表示,例如gabor滤波器(nestares等人,1998),小波(Strang和Nguyen,1997),sift特征(Mortensen等人2005),等等。这些图像特征中的许多用于识别物体等目的(Murphy等人2003年;Serre等人2005),面孔(Zhao等人2003),面部表情(Saxena等人2004),抓取(Saxena等人2006a);图像分割(Konishi and Yuille 2000),计算场景的视觉要点(Oliva and Torralba 2006)和计算自然图像的稀疏表示(Olshausen and Field 1997)。立体和单目图像特征一起用于目标识别和图像分割(Kolmogorov等人。2006年)。

我们的方法是基于学习马尔可夫随机场(mrf)模型。mrfs是机器学习的主力,已经成功地应用于许多局部特征不足和需要使用更多上下文信息的问题。例如图像去噪(摩尔多瓦等。2006),立体视觉和图像分割(Scharstein和Szeliski,2002),文本分割(Lafferty等人2001),对象分类(Murphy等人2003年),以及图像标记(He等人2004年)。为了在自然图像中识别人造结构,kumar和hebert使用了一种判别随机场算法(kumar和hebert 2003)。由于mrf学习在一般情况下是很难的,这些模型大多是用伪似然方法训练的,有时模型的参数也是人工调整的。

3、深度知觉的视觉线索

人类使用许多视觉线索来感知深度。这些线索通常分为四个不同的类别:单眼、立体、运动视差和焦点线索(Loomis 2001;Schwartz 1999)。人类结合这些线索来理解世界的三维结构(Welchman等人,2005年;Porrill等人1999年;Wuetal。2004年;卢米斯2001年)。下面,我们将更详细地描述这些线索。我们的概率模型将试图捕捉一些单目线索(第5),以及立体三角测量线索(第7条)。
3.1、单眼线索

人类使用单目线索,如纹理变化、纹理梯度、插入、遮挡、已知对象大小、灯光和阴影、薄雾、散焦等(Bulthoff等人例如,许多物体的纹理在与观察者的距离不同时看起来就不同。纹理梯度,捕捉边缘方向的分布,也有助于指示深度(Malik和Perona 1990)。例如,具有平行线的平铺地板在图像中似乎有倾斜线。远处的斑块在直线方向上的变化较大,而附近几乎平行的斑块在直线方向上的变化较小。同样,当在不同距离观察时,草场将具有不同的纹理梯度分布。烟雾是另一种深度信号,是由大气光散射引起的(Narasimhan和Nayar2003)。

许多单眼线索是“上下文信息”,因为它们是图像的全局属性,不能从小块图像中推断出来。例如,如果我们只观察被遮挡对象的一小部分,则无法确定遮挡。虽然局部信息(如面片的纹理和颜色)可以提供有关其深度的一些信息,但这通常不足以准确地确定其绝对深度。再举一个例子,如果我们取一片晴朗的蓝天,很难判断这片蓝天是无限远的(天空),还是它是蓝色物体的一部分。由于像这样的模棱两可,人们需要看图像的整体组织来确定深度。

3.2、立体声提示

每只眼睛接收到的世界观略有不同,立体视觉将这两种视角结合起来感知三维深度(Wandell 1995)。根据对象的距离,对象将投影到两个视网膜上的不同位置(立体系统中的相机)。视网膜(立体)视差随物体距离而变化,与物体距离成反比。视差通常不是估计远处物体微小深度变化的有效线索。

3.3、运动视差和焦点提示

当观察者移动时,较近的对象似乎比较远的对象移动得更多。通过观察这种称为运动视差的现象,人们可以估计场景中的相对距离(Wexler等人,2001年)。人类有能力通过控制镜头的曲率来改变眼睛镜头的焦距,从而帮助他们聚焦在不同距离的物体上。聚焦或调节提示是指从已知的眼睛镜头结构和物体图像的清晰度估计物体距离的能力(harkness 1977)。

4、特征向量

在我们的方法中,我们将图像分割成小的矩形面片,并为每个面片估计一个深度值。我们使用两种类型的特征:绝对深度特征(用于估计特定面片的绝对深度)和相对特征(用于估计相对深度(两个面片之间深度差的大小)。这些特征试图捕捉人类视觉系统中的两个过程:局部特征处理(绝对特征),如天空遥远;连续性特征(相对特征),人类通过这个过程了解两个相邻的斑块是否在三维中物理连接,从而具有相似的深度。**(2)

*(2)如果一幅图像的两个相邻区域显示出相似的特征,人类通常会认为它们是同一物体的一部分,因此具有相似的深度值。

我们选择了捕捉三种局部线索的特征:纹理变化、纹理梯度和颜色。纹理信息主要包含在图像强度通道中(Wandell 1995)*(3),因此我们应用了Laws’Masks(Davies 1997;Michels等人到这个通道计算纹理能量(图2)。在颜色通道的低频信息中,雾度被重新反射,我们通过对颜色通道应用局部平均滤波器(第一定律掩模)来捕捉这一点。最后,计算一个估计在对噪声鲁棒的纹理梯度中,我们使用六个定向边缘滤波器卷积强度通道(如图2所示)。

*(3)我们在YCBCR颜色空间中表示每个图像,其中Y是强度通道,CB和CR是颜色通道。

你可以想象包含更多的功能来捕捉其他线索。例如,为了模拟雾和霾等大气效应,还可以包括从光散射物理(Narasimhan和Nayar2003)计算的特征。类似地,还可以包括基于surfaceshading的特性(maki等人。2002年)。

4.1、绝对深度特征

我们首先计算图像中的补丁i的汇总统计信息,如下所示。我们使用17(9个Laws mask,2个颜色通道,6个纹理梯度)个滤波器,其中分别给出绝对能量和平方能量之和*(4)。这给了我们一个34维的初始特征向量。

*(4)我们使用K属于{1,2,4}进行的实验并没有显著提高性能。

要估计一个面片的绝对深度,以面片为中心的局部图像特征是不够的,必须使用图像的更多全局属性。我们试图通过使用在多个空间尺度(图像分辨率)提取的图像特征来捕获这些信息。*(5)(见图3。)

*(5)每个空间尺度上的面片被排列成一个大小相等、覆盖整个图像的不重叠区域的网格。我们在实验中使用了三个量表。

不同深度的物体在不同分辨率下表现出非常不同的行为,使用多尺度特征可以让我们捕捉到这些变化(Willsky 2002)。例如,蓝天在不同的尺度下可能看起来很相似,但有纹理的草不会。除了捕获更多的全局信息外,在多个空间尺度上计算特征还有助于解释对象的不同相对大小。更近的物体在图像中显得更大,因此将在更大比例的特征中被捕获。同样的物体在远处会很小,因此会被捕捉到小尺度的特征。因此,捕捉物体出现时的尺度的特征可以给出强有力的深度指标。

为了捕获额外的全局特征(例如遮挡关系),用于预测特定面片深度的特征从该面片以及四个相邻面片计算。这在三个尺度中的每一个尺度上重复,使得在一个斑块上的特征向量包括其近邻的特征,在更大的空间尺度上的近邻的特征(从而捕获在图像平面中稍远的图像特征),以及在更大的空间尺度上的近邻的特征;如图3所示。最后,在室外场景中发现的许多结构(如树木和建筑物)都显示出垂直结构,即它们与自身垂直连接(物体不能悬在空旷的空气中)。因此,我们还为修补程序的功能添加了它所在列的附加摘要功能。

对于每个面片,在包含了3个尺度上来自它自己和它的4个邻居的特征,以及它的4列面片的摘要特征之后,我们的绝对深度特征向量x是19 x 34 = 646维。

4.2、相对深度特征

我们使用不同的特征向量来学习两个相邻面片之间的相关性。具体地说,我们计算17个滤波器输出 中的每个的10位直方图,在s尺度上为每个斑块i提供总共170个特征。这些特征用于估计两个不同位置的深度之间的关系。我们认为,学习这些估计比预测绝对深度需要更少的全局信息,但需要从单个补丁获得更多的细节。例如,给定两个具有独特、独特、颜色和纹理的相邻面片,我们可以安全地得出结论,它们是同一对象的一部分,因此它们的深度很近,即使没有更多的全局特征。因此,我们对两个相邻斑块i和j在s尺度上的相对深度特征将是它们的直方图之间的差异,即。

5、概率模型

由于局部图像特征本身通常不足以估计深度,因此模型需要更全面地了解场景的空间结构。我们通过建立图像不同部分深度之间的关系来捕捉图像的空间结构。虽然特定面片的深度取决于面片的特征,但它也与图像其他部分的深度有关。例如,同一建筑物内两个相邻斑块的深度高度相关,我们将使用层次多尺度马尔可夫随机场(MRF)来模拟斑块深度与其相邻斑块深度之间的关系(图4)。除了与相邻斑块的相互作用外,非相邻斑块的深度之间有时也存在较强的相互作用。例如,考虑位于大型建筑上的补丁的深度。所有这些补片的深度都是相似的,即使有小的不连续性(比如建筑物墙上的窗户)。然而,当以最小的尺度观察时,一些相邻的面片很难识别为同一对象的一部分。因此,我们还将在多个空间尺度上模拟深度之间的相互作用。

5.1、高斯模型

我们的第一个模型将是联合高斯马尔可夫随机场(MRF),如(1)所示。

为了捕捉多尺度深度关系,我们将为多尺度s=1、2、3建模深度di(s)。在我们的实验中,我们实施了一个硬约束,即高标度的深度是低标度深度的平均值。(6)更正式地,我们定义。在这里,是s.(7)标度的区域i的4个邻居。

(6)相反,一个人可以有软约束,将高标度的深度与低标度的深度联系起来。人们还可以设想在mrf中加入更多的约束,例如图像中长直边上的点应该位于三维模型中的直线上,等等。
(7)我们用8个连通邻域代替4个连通邻域的实验在精度上得到了微小的提高,但代价是要花费更长的推理时间。

图4多尺度MRF模型,用于建模特征与深度之间的关系、相同尺度下深度之间的关系以及不同尺度下深度之间的关系。(仅显示3个比例中的2个,以及边缘的子集)

在(1)中,M是图像中的斑块总数(在最低尺度上);Z是模型的归一化常数;XI是斑块I的绝对深度特征向量,其中和是模型的参数。具体地说,我们对图像中的每一行使用不同的参数,因为我们考虑的图像是从水平安装的相机上拍摄的,因此图像的不同行具有不同的统计特性。例如,如果一块蓝色的斑块位于图像的上部,则它可能代表天空;如果位于图像的下部,则它更可能代表水。

我们的模型是一个有条件训练的MRF,因为它的深度d模型总是以图像特征x为条件的,即它只对建模。首先通过最大化训练数据的条件对数似然来估计(1)中参数。由于该模型是一个多变量高斯,通过求解线性最小二乘问题得到了参数的极大似然估计。

上述指数中的第一项将深度作为单个面片i的多尺度特征的函数进行建模。指数中的第二项对要平滑的深度施加软“约束”。如果方差项是一个固定常数,则该项的效果是它趋向于平滑邻近斑块的深度估计。然而,在实践中,各个补丁之间的依赖关系在任何地方都不相同,我们对的期望值可能取决于本地补丁的特性。

因此,为了提高精度,我们扩展了模型,将第二项分母中的“方差”项作为面片i和j的相对深度特征的线性函数来捕获(在第节中讨论)。4.2条)。我们将方差建模为。这有助于确定哪些相邻面片可能具有相似的深度;例如,如果相邻面片相似,“平滑”效果会更强。这一思想被应用于多个尺度,因此我们可以针对不同的尺度(以及图像的行r)学习不同的。利用二次规划(QP)学习参数与期望值的拟合,约束条件为(保持估计值为非负)。

类似于我们讨论的,我们还学习方差参数作为特征的线性函数。由于绝对深度特征是非负的,估计的也是非负的。参数VR被选择为适合于到的预期值,受 约束。该项给出了第一项不确定度的度量,并取决于特征。这是由于观察到,在某些情况下,无法根据局部特征可靠地估计深度。在这种情况下,我们必须更多地依赖于相邻斑块的深度,正如指数中的第二项所模拟的那样。

在学习了参数之后,给定一个新的测试集图像,我们可以通过D最大化(1)来找到深度的MAP估计,因为(1)是高斯的,在d中是二次的,因此它的最大值很容易在闭合形式中找到(每幅图像最多取1秒2秒)。更多细节见附录1。

5.2、拉普拉斯模型

我们现在提出了第二个模型(见(2)),它使用拉普拉斯而不是高斯来模拟深度的后验分布。

我们这样做的动机有三个方面。首先,相对深度的直方图在经验上比高斯分布更接近拉普拉斯分布(图5,见Huang等人(2000年)提供更多关于深度统计的详细信息),这强烈表明,最好将其建模为一个。(8)第二,拉普拉斯分布具有较重的尾部,因此对图像特征中的异常值和训练集depthmaps中的错误(用激光扫描仪收集;见第节)更为稳健。6.1条)。第三,高斯模型通常无法给出具有锐利边缘的深度图;相反,拉普拉斯模型更倾向于对锐利过渡/离群点进行建模。
(8)尽管拉普拉斯分布很好地符合多尺度相对深度的对数直方图,但在零附近有一个未建模的峰值。较新的模型(Saxena等人2006b)试图模拟这一峰值,这是由于相邻深度在最佳尺度上经常位于同一物体上。

该模型由拉普拉斯传播参数(类似于(1))和和参数化。拉普拉斯模型的极大似然参数估计是不可处理的(因为分区函数依赖于)。然而,通过与高斯情形类比,我们近似这是通过求解方程组来最小化l1(而不是l2)误差,即。这里是绝对深度特征的矩阵。在高斯模型之后,我们同样以相同的方式学习分母中的拉普拉斯扩展参数,除了代替估计和的期望值外,我们估计了作为和的线性函数的和的期望值。这是用一个线性程序完成的,其中。

即使在Laplacian模型中,最大似然(ML)参数估计在拉普拉斯模型中是难处理的,但是给定一个新的测试集图像,深度d的地图推断是可处理的和凸的。附录2中给出了将推理问题作为线性规划(LP)求解的详细信息。

注:我们还可以扩展这些模型,将指数中的高斯项和拉普拉斯项结合起来,例如,使用l2范数项表示绝对深度,使用l1范数项表示交互项。在这种情况下,映射推理仍然是可处理的,并且可以使用凸优化作为QP(二次规划)来解决。

6、实验

6.1、数据收集

我们使用三维激光扫描仪收集图像及其相应的深度图(图7)。扫描仪使用激光设备(Sick LMS-291),以1.0FI分辨率提供垂直列中的深度读数。为了收集沿着另一个轴(左到右)的读数,患病的激光被安装在摇摄马达上。电机在每次垂直扫描后旋转,以收集另一垂直列的激光读数,水平角分辨率为0.5FI。我们利用垂直激光扫描、马达读数以及已知的激光装置和相机的相对位置和姿态重建深度图。我们还收集了具有相应深度的立体对的数据。7),通过安装LAGR(学习应用于地面机器人)机器人上的激光测距设备(图8)。LAGR车辆配备有传感器、车载电脑和点灰色研究大黄蜂立体声摄像机,安装的基线距离为11.7厘米(Saxena等人,2007年)。

我们收集了425对图像深度图,图像分辨率为1704 x 2272,深度图分辨率为86—107。在这里报告的实验结果中,75%的图像/深度图用于训练,剩下的25%用于坚持测试。这些图像包括各种各样的场景,包括自然环境(森林、树木、灌木丛等)、人造环境(建筑物、道路、人行道、树木、草地等)和纯室内环境(走廊等)。由于激光的限制,深度图的最大范围为81m(激光扫描仪的最大范围),并且由于反馈、缺少激光扫描和移动物体而存在较小的附加误差。在运行我们的学习算法之前,我们将所有深度转换为对数尺度,以便在训练中强调乘法错误而不是加法错误。实验中使用的数据可从以下网址获得:: http://ai.stanford.edu/~asaxena/learningdepth/.

6.2、结果
我们在真实世界的测试集上测试了我们的模型:森林(包含树木、灌木丛等)、校园区域(建筑物、人员和树木)和室内场景(如走廊)。

表1显示了三类环境(森林、校园和室内)的测试集结果,这些环境具有不同的尺度、摘要统计和邻居特征组合。基线模型无特征训练,预测训练深度的平均值。我们发现多尺度和列特征提高了算法的性能。包括来自邻近补丁的特征,这有助于捕获更多的全局信息,将误差从0.162个数量级降低到0.133个数量级。(9)我们还注意到,拉普拉斯模型比高斯模型表现更好,室内场景的误差降低到0.084个数量级,在所有场景上平均时,误差降低到0.132个数量级。从经验上讲,拉普拉斯模型确实给出了边界明显更清晰的深度图(如我们在第节的讨论)。5.2;另见图6)。
(9)9错误在log10范围内。因此,误差意味着实际深度上的乘性误差为10。例如,100.132=1.355,因此表示35.5%的乘法误差。

                    (图6)

图9显示了对深度中的空间关系进行建模是很重要的。在指数(2)中不使用第二项的情况下估计的深度,即仅使用具有行敏感参数的图像特征预测的深度,噪音很大(图9d)。(10)通过指数(2)中的第二项,在多个尺度上模拟相邻深度之间的关系也给出了更好的深度图(图9e)。最后,图9c显示了模型在深度上的“先验”;显示的深度映射反映了模型对图像行敏感参数的使用。在我们的实验中,我们还发现许多特征/线索被赋予了很大的权重;因此,一个只训练少量线索的模型(例如,通过特征选择方法选择的前50名)无法预测合理的深度。
(10)该算法的总误差为0.181,而我们的全模型误差为0.132。

我们的算法在各种环境中都能很好地工作,如图6(最后一列)所示。许多基于“地面探测”的视觉算法(如Gini和Marchi 2002)在阴影引起的不连续或显著亮度变化时表现不佳,或者当地面纹理发生重大变化时。相比之下,我们的算法似乎对亮度变化(如阴影(图6,第4行)和相机曝光(图6,第2和第5行)具有鲁棒性。

该算法的一些误差可以归因于训练集的误差或局限性。例如,训练和测试集中的深度的最大值是81米;因此,远处的物体都被映射到81米的距离。此外,对于诸如玻璃的反射/透明物体,激光读数通常是不正确的;因此,我们的算法也经常错误地估计这样的物体的深度。在数量上,我们的算法在包含非常不规则的树的图像上产生了最大的误差,其中图像中的大部分三维结构由树叶和树枝的形状控制。然而,可以说,在这些图像上,即使是人类水平的表现也会很差。

我们注意到,单目线索依赖于从训练中学习到的关于环境的先验知识。这是因为单目视觉三维重建是一个固有的模糊问题。因此,单目线索可能无法很好地概括出与训练集中的图像非常不同的图像,例如水下图像或航空照片。

为了测试算法的泛化能力,我们还估计了从网上下载的图像(相机参数未知的图像)的深度。(11)模型(仅使用单眼提示)能够在大多数图像上生成合理的深度图(图10)。非正式地,我们的算法似乎能够很好地预测相对深度(即它们与相机的相对距离);(12)即使对于与训练集非常不同的场景,例如太阳光场、油画场景、山脉和湖泊、从海上拍摄的城市天际线、降雪时的城市等等。

(11)由于我们没有从互联网上下载图像的基本真相深度图,因此无法对这些图像进行定量比较。此外,在极端情况下的正交摄像机或非常广角的透视摄像机,我们的算法将需要修改,以考虑到摄像机的视野。
(12)对于大多数应用,如使用深度知识的物体识别、机器人导航或三维重建,相对深度是足够的。如果相机参数已知或估计,可以重新缩放深度以给出精确的绝对深度。

汽车驾驶实验michels等人。(2005)USEDA单目深度估计算法的简化版本,用于驾驶遥控汽车(图11a)。该算法从320-240像素分辨率的网络摄像机拍摄的单个静止图像中预测(1-D)深度。该学习算法既可以训练在每个方向上最接近障碍物的真实摄像机图像上,也可以训练在由合成图像组成的训练集上。所得到的算法,结合真实和合成数据训练,能够学习单目视觉线索,准确估计场景中障碍物的相对深度(图11b)。我们在四个不同的地点驾驶汽车来测试算法,从有混凝土瓦和树木的人造环境,到有岩石、树木和灌木丛的森林环境中的不平地面,在那里,汽车距离最近的障碍物几乎从不超过1米。碰撞前的平均时间从19秒到200秒以上,这取决于障碍物的密度(Michels等人,2005年)。非结构化测试场地仅限于没有拍摄训练或开发图像的区域。有关自动驾驶汽车的算法视频,请访问:http://ai.stanford.edu/~asaxena/rccar。

7、利用单眼线索提高立体视觉的性能
考虑从一对立体摄像机拍摄的两幅图像中估计深度的问题(图12)。最常见的方法是立体视觉(stereovision),即使用两幅图像进行三角剖分来估计深度。在过去的几十年里,研究人员开发了非常好的立体视觉系统(见Scharstein和Szeliski 2002年的综述)。尽管这些系统在许多环境下都能很好地工作,但立体视觉基本上受到两个摄像机之间基线距离的限制。特别是,当考虑的距离较大时,它们的深度估计往往不准确(因为即使是非常小的三角测量/角度估计误差也转换为非常距离误差大)。此外,立体视觉也倾向于对于对应图像的无纹理区域失败无法可靠地找到。

另一方面,人类通过无缝地将单目线索和立体线索结合起来感知深度。我们相信单目线索和(纯几何)立体线索在很大程度上提供了关于深度的正交信息,因此是互补的。立体提示是基于两幅图像之间的差异,而不是依赖于图像的内容即是图像是完成随机的,它仍然会产生一种差异模式(例如,随机点立体图,Bulthoff等1998)。在另一方面,单目视觉线索的深度估计是基于单张图像中所显现的环境证据,在这一部分中,我们研究如何将单目视觉线索与任何合理的立体视觉系统相结合,来获得比单独的立体视觉系统更好的深度估计。

7.1、立体对应的差异
利用立体视觉对两张图片(由两个相机以基线距离隔开)进行深度估计包括三个步骤:第一步,建立两张图像对应关系。接着,计算每个图片中特征的相对位移(被称为“视差”)。最后,利用摄像机几何知识来确定特征相对于摄像机的三维深度。

立体对应给出了视差的可靠估计,除非图像的大部分是没有特征的(即,找不到对应)。此外,对于给定的相机之间的基线距离,精度随着深度值得增加而减少。在很远目标的限制下,这是没有可观测的视差,和深度估计通常是失败的。从经验上讲,当深度超过一定的距离时,立体视觉的深度估计往往边的不靠谱。

我们的立体视觉系统通过剔除纹理很小的像素,或者和在关系对应不明确的地方后,在两张图像之间找到很好的特征对应关系。更正式的说,我们拒绝任何在搜索窗口中最佳匹配但并不明显比所有其他匹配的特征好。我们使用绝对差相关和作为度量分数来查找对应关系(Forsyth和Ponce 2003)。我们的相机(和算法)允许0.2像素视差的亚像素插值精度。尽管我们使用了立体视觉的基本实现,但是本文的思想也可以很容易地与其他,也许是更好的立体视觉系统一起应用

7.2、立体建模中的不确定性
视差误差通常被建模为高斯分布(Das 和 Ahuja 1995)或其他一些重尾分布(例如,Szeliski 1990)。具体来说,视差误差有两个原因:(a)假设唯一/完美对应,由于图像噪声(包括混叠/像素化)的存在,视差误差很小,且高斯模型很好。(b)通信中偶尔出现的错误会导致较大的错误,从而导致视差的重尾分布(Szeliski,1990年)。

如果在计算立体图像的视差g时(由于图像噪声等原因)的标准差是,那么深度的标准差(13)是。对于我们的立体系统,我们得到的大概是0.2像素;(14)然后用它来估计。因此,请注意,这个是一个估计深度的函数,具体地说,立体度的捕获了这样的一个事实,即距离晕的物体的深度估计方差大于近距离的物体的深度估计方差。

(13)利用统计的Delta规则:,由的二阶泰勒级数逼近得到。这个深度d是与视差g作为有关,摄像机参数决定C。
(14)还可以设想获得作为立体对应期间使用的匹配度量函数的更好的估计值(Brown等人,2003),如归一化平方差和;或学习作为基于视差/纹理特征的函数。

7.3、概率模型
我们使用马尔可夫随机场(MRF)模型,该模型模拟了图像中不同点的深度之间的关系,将单目和立体两种线索结合起来。因此,特定区域的深度取决于该区域的单目特征,立体视差以及图像其他部分的深度。

(3式)

(4式)

在高斯和拉普拉斯MRFs(见(3)和(4))中,我们现在有一个附加项,这是从视差获得的深度估计。*(15)这个术语模型了立体视差估计与深度的关系。模型中的其他术语类似于第5节中的(1)和(2)。

*(15)在这项工作中,我们直接使用DI,立体声作为立体声提示。在(Saxena等人2006c),我们使用从立体视觉深度创建的特征库作为识别物体抓取点的提示。

7.4、立体系统效果
在这些实验中,我们收集了257个不同室外和室内环境下的深度图,图像的分辨率为1024 x 768 和 深度图的分辨率为67 x 54。我们使用75%的图像/深度图进行训练,剩下的25%用来进行测试。

我们定量比较了一些的几种不同方式使用单目和立体提示的算法:
(一)基线:该模型训练时没有任何特征,预测训练深度的平均值
(二)立体视觉:原始的立体深度估计,缺失值设置为训练深度图中的深度的平均值
(三)立体视觉(平滑):改方法执行插值和区域填充;使用拉普拉斯模型,在(4)式指数中没有第二项。并且也没有用单目线索来估计作为图像函数的
(四)单目视觉(高斯):仅仅使用单目视觉线索来进行估计深度,不使用(3)式中的高斯模型指数的第一项。
(五)单目视觉(拉普拉斯):仅仅使用单目视觉线索来进行深度的估计,不使用(4)式中拉普拉斯模型指数的第一项。
(六)立体视觉+单目视觉:使用完整模型进行深度估计

表格2显示,尽管该模型仅能使用单目视觉线索(“Mono”)预测深度,但当我们同时使用单目视觉和立体视觉线索时,性能显著提高。该算法能够以0.074个数量级误差(即。乘于误差的18.6%,因为10^0.074 = 1.186)估计深度,这意味着比0.088的立体(平滑)性能有了显著的改善

图13显示了该模型能够预测各种环境中的深度映射(深度图)(第5列)。它还演示了该模型如何从立体视觉和单目视觉线索中获得最佳的估计,从而估计出更精确的深度图。例如,在第6行(图13),立体(第3列)生成的深度图(深度映射)非常不准确;但是,单目视觉模型相当准确地预测深度(第4列)。组合模型使用两组线索来生成更好的深度图(或深度映射)(第5列)。在第三行,立体视觉线索比单目线索给出了更好的估计。我们再次看到,我们的组合MRF模型,同时使用单目和立体线索,给出了一个准确的深度图(第五列),修正了立体视觉的一些错误,例如立体视觉预测为接近的一些遥远区域。

在图14中,我们研究了算法的行为,并将其作用到相机的三维距离函数。在小距离情况下,该算法更加依赖于立体线索,立体线索比单目线索更为精确。然而,在距离较大的情况下,立体视觉的性能会下降,而且算法更多地依赖单目视觉线索。由于我们的算法对立体视觉和单目视觉的不确定性进行了建模,因此能够有效的将立体视觉和单目视觉的不确定性结合起来。

我们注意到,单目线索依赖于从训练中学习到的关于环境的先验知识。这是因为单目三维重建是一个固有的模糊问题。相比之下,我们使用的立体视觉线索是纯几何的,因此即使在从非常不同的环境拍摄的图像上也应该工作良好。例如,单目算法有时无法预测仅在图像中部分可见的对象的正确深度(例如,图13,第2行:左侧的树)。对于位于此类对象上的点,该点的大多数相邻点位于图像之外;因此,此处相邻深度之间的关系不如位于图像中间的对象有效。然而,在许多情况下,立体声提示仍然允许估计准确的深度映射(第2行,第5列)。



8、结论

在过去的几十年里,立体视觉和其他“三角测量”线索已经成功地被应用于许多重要的问题上,包括机器人导航,建立城市环境的三维模型和目标识别。与三角测量的算法(如立体视觉和运动结构)不同,我们开发了一类利用大量正交单目线索集的算法。我们提出了一种层次化的多尺度马尔可夫随机场(MRF)学习模型,该模型利用这些线索来估计单个静止图片的深度。这些单目线索不仅仅可以和三角测量相结合,而且在大距离深度估计方面也优于大多数基于三角测量的线索。虽然我们的工作仅限于深度估计,但是我们相信这些单眼深度和形状的线索在视觉领域的许多其他应用中也有着丰富的前景。

Acknowledgements:感谢设计和制造这台三维扫描仪的杰米·舒尔特和帮助我们收集这项工作所用数据的安德鲁·洛金比尔,我们也感谢杰夫·米歇尔斯、拉里·杰克尔、塞巴斯蒂安·特伦、闵孙和彼特·阿比尔的有益讨论。这项工作得到了DARPA LAGR项目的支持,合同号为FA8650-04-C-7134。

附录1:高斯模型的映射推理(MAP Inference for Gaussian Model)
我们可以重写(1)为标准的多元高斯模型(5式)

式中,,其中和分别表示(1)指数中第一项和第二项的方差和的矩阵。(16)是这样一个矩阵,使得行在多个尺度上给出相邻斑块的深度差(如(1)的指数中的第二项)。因此,我们对深度的映射估计是。
(16)请注意,如果图片中每个点的方差是恒定的,则。即本质上是的平滑版

在学习过程中,我们在学习和估计之间迭代。从经验上看,和非常接近于,因此,该算法在2-3次迭代后收敛。

附录1:拉普拉斯模型的映射推理(MAP Inference for Laplacian Model)

通过d(见(2)),最大化可以得到深度的精确映射推断。更正式地说,

式中、、、。我们的特征由给出,学习的参数是,它给出了一个简单的估计的深度。是一个矩阵,使得行在多尺度上给出相邻斑块深度的差异(如指数(2式)中的第三项)。

我们将辅助变量作为线性规划(LP)来提出:

在我们的实验中,对图像进行映射推断大约需要7-8秒。

从单个静止图像进行 3d 深度重建(论文2007)相关推荐

  1. 【论文学习笔记-2】高分辨率3D深度重建

    [论文学习笔记-2] 高分辨率3D深度重建 背景介绍 模型 目标 Related Works 背景介绍 应用场景广泛:桥,电缆etc 高分辨率图像的特点:像素多,potential disparity ...

  2. Make3D:从单个静止图像学习3D场景结构(论文2007)

    Make3D Learning 3D Scene Structure from aSingle Still Image(译文) 下载原文:https://cn.bing.com/academic/pr ...

  3. [读论文]弱监督学习的精确 3D 人脸重建:从单个图像到图像集-Accurate 3D Face Reconstruction with Weakly-Supervised Learning:From

    论文地址:Accurate 3D Face Reconstruction with Weakly-Supervised Learning:From Single Image to Image Set ...

  4. 深度学习以最佳纳米尺度分辨率解决重叠单个分子的3D方向和2D位置,生成蛋白质图片...

    编辑 | 萝卜皮 偶极扩散函数 (DSF) 工程重塑了显微镜的图像,可以最大限度地提高测量偶极状发射器 3D 方向的灵敏度.然而,严重的泊松散粒噪声.重叠图像以及同时拟合高维信息(包括方向和位置)使单 ...

  5. CVPR 2022 | 腾讯优图实验室30篇论文入选,含场景文本语义识别、3D人脸重建、目标检测、视频场景分割和视频插帧等领域...

    关注公众号,发现CV技术之美 本文转载自腾讯优图 近日,CVPR 2022官方公布了接收论文列表(CVPR 2022 接收论文公布! 总计2067篇!),来自腾讯优图实验室共计30篇论文被CVPR收录 ...

  6. 收集了100+论文的最新综述来了!基于深度学习的图像深度重建

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 今天给大家分享的论文是2020年最新的综述:A Survey on Deep Learning Arc ...

  7. 深度学习 3d人脸 重建_深度学习实时3D人脸跟踪

    深度学习 3d人脸 重建 Snapchat was made popular by putting funny dog ears on people's head, swapping faces an ...

  8. ECCV2022论文汇总:检测/分割/跟踪/3D/深度估计/姿态解算等多个方向!

    作者 | 汽车人 编辑 | Autobox 目前,公众号正向大家广泛征稿中,欢迎童鞋们投稿,我们将有一定的稿费支持哦,详细信息请点击: 汽车人,快来投稿了! 数据集 COO: Comic Onomat ...

  9. 3D人脸重建硕博论文阅读

    基于人脸单视图的3D人脸重建方法研究(华南理工) 摘要 基于人脸正视图来开展 3D 人脸重建.在选择人脸正面图像后,采用主动形状模型(Active Shape Model,ASM)算法进行人脸对齐,从 ...

  10. 论文阅读-使用CNN从双平面X光片走向自动化3D脊柱重建以进行统计脊柱模型拟合

    Toward Automated 3D Spine Reconstruction from Biplanar Radiographs Using CNN for Statistical Spine M ...

最新文章

  1. Keras框架下的保存模型和加载模型
  2. 网关技术选型,为什么选择 Openresty ?事件驱动、协程...
  3. MySQL 数据库 引擎
  4. Handler详细说明系列(六)——View的post()详解
  5. python坐标系转换函数_Numpy-坐标系之间的转换
  6. long 比较大小_Long-Term Feature Banks
  7. 不唐突的JavaScript的七条准则
  8. nginx反向代理和rewrite进行解决跨域问题、去掉url中的一部分字符串,通过nginx正则生成新的url
  9. 组态王c语言编程实例,组态王命令语言程序.doc
  10. javascript中的内置对象和数据结构
  11. 创业是一个高风险高收入的行业
  12. 福大软工1816 - 第四次作业(团队展示)
  13. Win7、Windows Server 2008下无法在Windows Service中打开一个已经存在的Excel 2007文件问题的解决方案...
  14. PS 如何使用钢笔工具
  15. Mybatis原生dao开发方法实现增删改查
  16. kotlin语言学习文档 for Android
  17. 复杂性,科学,方法论?
  18. 信道估计之MMSE算法
  19. 为什么你写了一万小时的代码,却没能成为架构师?| 程序员有话说
  20. 职称计算机个人档案号查询,干部人事档案编号在线查询

热门文章

  1. Tortoise SVN 如何汉化(最简单的处理方式,一看就会)
  2. soapui 免费版 实现 datasource+ dataLoop
  3. Rife算法的Matlab实现
  4. 手把手教你上手Proteus(下载安装+仿真51单片机程序)
  5. fiddler的安装与配置
  6. 基于地理距离的省际空间权重矩阵
  7. 面向组学大数据的生物信息学研究
  8. vc与三菱PLC编程口通信C语言源代码,三菱PLC通讯与编程实例!
  9. 数据库系统概论(第5版)
  10. 数学建模之预测方法总结与案例