基于MVS深度推断的非参数深度分布建模

摘要

通常，边界像素遵循多模态分布而非单峰分布。这使得在cost volume金字塔较粗级别上的错误深度预测，且不能在细化级别上进行校正，导致错误的深度预测。作者提出一种相反的方法，就是在非参数化的深度分布模型上处理单峰和多峰模型分布上的像素。作者的方法在早期阶段粗级别上输出多重深度假设从而避免错误。当在后续级别围绕这些假设进行局部搜索时，并不会保持刚性的深度空间顺序，因此，引进了一个稀疏的成本聚合网络来获取各个volume的信息。方法在DTU和Tanks&Temples数据集上对边界区域的表现比现有的方法有大幅度提升。

介绍

近来，使用cost volume pyramid的基于学习的方法通常在粗级别上构建的初始深度估计来执行局部深度搜索，而他们假设所有像素都服从单峰分布，并且将每个像素的深度估计为在预定范围内近似连续的深度分布期望。这些方法忽视了有剧烈深度变化的小物体和边界区域，在这些区域，单峰分布假设并不成立。
如果估计的粗深度远离实际深度，误差将传播到细化级别，并且无法通过局部深度搜索进行校正，从而导致不正确的深度预测。
作者通过使用多模态分布在不同分辨率下对每个像素深度进行显式建模。并且使用非参数分布沿着3D视觉线学习每个深度假设的概率。这种方法比其他参数化方法灵活，特别在由粗到细结构中。在最高分辨率下使用其对应深度块内的深度分布来指导学习过程。给定学习分布，并通过前K个概率对深度假设进行分支来构建下一级别的cost volume。
但是，由于像素深度分支处理，它失去了相对空间关系。所以，作者提出一种稀疏成本聚合网络，以保持相对空间关系。
论文主要贡献：

提出了一个非参数深度概率分布模型，允许处理具有单峰和多峰分布的像素
建立了一个基于已建模的像素深度概率分布来对深度样本进行分支，从而建立一个cost volume pyramid
应用了一个稀疏的成本聚合网络来处理每个cost volume以维持其中的刚性的几何空间信息，并避免空间模糊
作者的方法在边界区域效果比之前方法更优，并成为DTU数据集上目前的最新技术。

方法

这是作者基于从粗到精构建的cost volume金字塔执行深度推断的方法的总体流程。关键思想是基于围绕顶部K个深度假设的局部搜索来构建级联cost volume，并通过对像素深度概率分布建模来获得的。

Non-parametric depth distribution modelling

如果离散深度图具有足够高的分辨率。并且可以很好地近似连续深度分布，那么单峰深度分布就是一种有效的假设。难是，低分辨率的像素可能是一组具有不同深度值的3D点云的共同投影，尤其是在一些具有深度不连续物体边界的3D结构上时。

现有的级联cost volume方法使用单峰分布来表示这些像素可能导致不正确的深度估计。估计深度可能离任何深度模式太远，因此无法在后续的细化步骤中恢复。作者在一组离散的深度假设上近似该连续分布。

Cost volume pyramid

用于深度初始化的常规cost volume

给定一个预先定义的全局深度搜索范围，在逆深度空间上均匀采样深度值。每一个采样深度表示该平行于参考摄像机图像平面的一个平面。使用深度d计算出的differential homography，将源视图的特征映射到参考视图。并把matching cost计算为参考特征f0Lf_0^Lf0L与被映射源特征fi→0,dLf_{i\rightarrow0,d}^Lfi→0,dL的Group-wise相关性。然后估计每个深度假设平面的cost maps，并将它们连接成一个cost volume。并采用视图聚合模型来估计来自不同源视图的可见性映射并融合匹配代价。
给定常规cost volume，然后使用一个常规3D-UNet去cost aggregation。初始的成本聚合网络输出一个概率模型，其定义为每个像素的非参数深度概率分布，代表每个深度样本的可能性。

用于深度细化的稀疏cost volume

将level lll上每个选定的深度样本细分为两个样本来定义level lll-1的深度样本。

每个像素dm的计算公式为：

并且深度搜索间隔Δdl−1=0.5Δdl\Delta d^{l-1}=0.5\Delta d^lΔdl−1=0.5Δdl。
然后根据新的深度样本构建cost volume来建模在level l−1l-1l−1d 深度概率分布。但因为深度样本是以像素方式形成的，因此不保留相邻3D点之间的相对空间位置。所以使用稀疏cost volume和基于稀疏卷积的聚合信息。

稀疏cost aggregation网络

因为使用常规的密集3D卷积不能使稀疏cost volume有效聚合，所以利用pkp_kpk的刚性空间关系构建了一个稀疏成本聚合网络，由三个稀疏3D conv层、一个稀疏BN层和一个稀疏ReLU激活层组成。网络的输出是一个概率分布，可作为构建下一细化级别的cost volume的输入，如图。

Depth Inference at full resolution

只在全分辨率level 0下执行深度推断，并将估计分布的期望作为每个像素的深度

损失函数

以高分辨率地面真实值的深度图观察近似为深度概率分布。而地面真实值概率分布近似于对应patch在全分辨率下的深度观测直方图，并由观察之和归一化。

最后，在预测概率和地面真实概率之间以二元交叉熵计算损失，

由于地面真值概率分布通常集中在少数几个假设上，导致零概率和非零概率样本数量不平衡，所以做了损失平衡。

在最后的level，损失采用l1l_1l1范数测量真实深度图与最终估计深度图之间的距离。

总损失是二元交叉熵损失和l1l_1l1损失的加权求和。

实验

实现

训练
使用大小为640 × 512的降采样和裁剪图像及其对应的深度图在DTU数据集上训练模型。
度量
精确度度量从估计点云到地面真实点云的距离，单位是毫米，完整性度量从地面真实点云到估计点云的距离。总分是准确性和完整性的平均值。
评估
设每层假设数为{M l}Ll=0 {8,16,32,96}进行检验。

在DTU上的结果

在平均完整性和总体得分上都优于所有现有的方法。
还利用平均深度误差分析了边界重建的质量在拉普拉斯金字塔的5个区域

对不同深度平滑区域的性能。该方法在边界区域(R0)误差最小。
在效率方面，模型需要6054 MB GPU内存和1.2s来估计全分辨率的深度图，这与现有的基于成本体积的方法相当。

在Tanks and Temples上的结果

与现有方法的定量比较。模型可以在坦克和庙宇的数据集上取得有竞争力的性能。

消融实验

使用标准3D卷积的非参数深度分布建模会由于空间模糊导致性能下降。提出的稀疏代价聚合可以提高基于单模的方法的性能。提出的非参数深度分布建模需要稀疏代价聚合以获得最佳重构质量。
局限
然而，稀疏卷积的计算成本很高，因为它们没有完全优化。这增加了推断时间。

结论

提出了一种基于每个像素的非参数深度概率分布建模的深度推断方法。作者的建模可以处理具有单模态和多模态深度分布的像素，比如边界上的像素。作者的方法在粗水平上不推断深度，这避免了在早期和随后传播到细化水平的深度误差。实验结果表明，该方法能够获得较好的性能，尤其是对边缘像素的提取。

[MVS]《Non-parametric Depth Distribution Modelling based Depth Inference for Multi-view Stereo》阅读笔记相关推荐

Cross-Attention Fusion Based Spatial-Temporal MGCN for Traffic Flow Prediction阅读笔记
论文:基于交叉注意融合的时空多图卷积网络交通流预测,Cross-Attention Fusion Based Spatial-Temporal Multi-Graph Convolutional Ne ...
《Sentiment Analysis of Chinese Microblog Based on Stacked Bidirectional LSTM》论文阅读笔记
文章名:<Sentiment Analysis of Chinese Microblog Based on Stacked Bidirectional LSTM> 作者:JUNHAO ZH ...
《PaDiM: a Patch Distribution Modeling Frameworkfor Anomaly Detection and Localization》论文阅读笔记
作者:Thomas Defard, Aleksandr Setkov, Angelique Loesch, Romaric Audigier 出自:Nov2020 作者提出了一种新的斑块分布建模框架P ...
毫米波目标检测论文阅读笔记 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar
毫米波目标检测论文 | Radar Transformer: An Object Classification Network Based on 4D MMW Imaging Radar Jie Ba ...
论文阅读《MVS Net：Depth Inference for UNstructured Multi-view Stereo》
MVS Net:Depth Inference for UNstructured Multi-view Stereo 目录 MVS Net:Depth Inference for UNstructur ...
A Rapid Scene Depth Estimation Model Based on Underwater Light Attenuation Prior......
A Rapid Scene Depth Estimation Model Based on Underwater Light Attenuation Prior for Underwater Imag ...
论文精读《CaDNN: Categorical Depth Distribution Network for Monocular 3D Object Detection》
CaDNN: Categorical Depth Distribution Network for Monocular 3D Object Detection 文章目录 CaDNN: Categori ...
【论文简述及翻译】MVSNet：Depth Inference for Unstructured Multi-view Stereo（ECCV 2018）
一.论文简述 1. 第一作者:Yao Yao 2. 发表年份:2018 Oral 3. 发表期刊:ECCV 4. 关键词:MVS.端到端网络.代价体.深度图.可微分单应变换 5. 探索动机:传统方法 ...
论文阅读笔记--Aesthetics-Driven Stereoscopic 3-D Image Recomposition With Depth Adaptation-2018
论文阅读笔记:美学引导的带有深度适应的立体3D图像重构 I.介绍 II.相关工作 A.单目(2D)图像处理 1)美学驱动的重构(Recomposition) 2)图像分割与抠图(Segment and ...

[MVS]《Non-parametric Depth Distribution Modelling based Depth Inference for Multi-view Stereo》阅读笔记