Paper

摘要

介绍

摘要

随着卷积神经网络的出现，立体匹配算法最近取得了巨大的进展。但是，因为结构薄、非理想修正、相机模块不一致和各种硬情况场景等实际复杂因素，从智能手机等大众级设备拍摄的真实图像对中准确提取视差仍然是一个巨大的挑战。在本文中，作者提出了一套创新的设计来解决实际立体匹配的问题：

为了更好地恢复精细的深度细节，设计了一个循环细化的层次网络，以粗到细的方式更新视差，以及堆叠级联结构进行推理；
提出了自适应群相关层来减轻错误修正的影响；
采用了一个新的合成数据集，对困难的情形给予特别注意力，以便更好地推广到真实场景。研究结果不仅在Middlebury和ETH3D基准中排名第一，显著超过现有的最先进的方法，而且在现实生活中显示了高质量的细节，这清楚地证明了贡献的有效性。

作者对来自Holopix50K数据集的图像的预测示例，展示了立体对的左侧图像及其相应的预测视差。
结果实现了较高的准确性，并显示了高质量的细节，为精细结构的对象。

介绍

立体匹配是计算机视觉的一个经典研究课题，给定一对修正图像，是计算两个对应像素之间的位移，即“视差”。它在自动驾驶、增强现实、模拟散景渲染等许多应用中都发挥着重要的作用。

近年来，在大型合成数据集的支持下，基于卷积神经网络(CNN)的立体匹配方法将视差估计的精度提高到了一个新的高度。然而，为了使该算法在日常摄影的场景中真正实用，我们仍然面临着三个主要的障碍。

首先，对于大多数现有的算法来说，精确恢复精细图像细节或网、线框等薄结构的视差仍然是一个复杂的问题。日常照片是高分辨率的，这更让问题复杂化。例如，在计算中，围绕细节的视差误差会导致渲染结果退化，不利于人类感知。其次，对于真实世界的立体图像对，很难获得完美的修正，因为它们通常是由具有不同特征的相机模块产生的。例如，目前大多数智能手机都用广角镜头和长焦镜头捕捉立体声对，它们具有焦距和失真参数等明显特征，不可避免地会导致不理想的校正。因此，现有的假设立体对被完全修正的方法在这种对抗性条件下很可能失败。此外，由不一致的摄像机模块产生的图像对可能在照明、白平衡、图像质量等方面发生变化，这使得估计任务更加困难。最后，虽然它已经表明，模型训练从足够大的合成数据集可以推广到真实场景，视差估计在典型的硬情况下，如非纹理或重复纹理区域，仍然很困难，这需要特别注意在覆盖相关场景的训练数据集。

【研究动机】 在本文中，作者提出了 CREStereo，交叉立体声匹配网络，即级联立体匹配网络，它包括一套新的设计，以解决实际的立体匹配的问题。为了更好地恢复复杂的图像细节，设计了一个分层网络，以粗到细的方式反复更新视差；此外，采用堆叠级联体系结构进行高分辨率推断。为了减轻校正误差的负面影响，设计了一个自适应群局部相关层来进行特征匹配。此外，我们引入了一个新的合成数据集，在光线、纹理和形状方面具有更丰富的变化，以便更好地推广到真实世界的场景。

目前为止，CREStereo在ETH3D立体双视图和 Middlebury基准测试中都排名第一，并在KITTI 2012/2015上取得了具有竞争力的性能。此外，作者的网络在任意真实场景中表现出了优越的性能，很好地证明了设计的有效性。

因此，作者主要贡献可以总结如下：

提出了一种用于实际立体匹配的级联递归网络和堆叠的高分辨率推理结构；
设计了自适应群相关层来处理非理想校正；
创建了一个新的合成数据集，以更好地推广到现实场景；
方法在 Middlebury和ETH3D等公共基准上优于现有方法的显著优势，大大提高了真实立体图像恢复视差的准确性。

方法

在本节中，将介绍提出的级联立体匹配网络(CREStereo)和新合成数据集

自适应群相关层

作者观察到，很难为现实世界的立体相机实现完美的校准。例如，两个相机可能不会严格放置在水平外极线上，导致在三维空间中轻微旋转；或者相机镜头的图像即使经过修正后也会有残余失真。因此，对于立体图像对，对应的点可能不位于同一扫描线上。因此，作者提出了一种自适应群相关层(AGCL)来减少这种情况下的匹配模糊性，在只计算局部相关的情况下，比全对匹配获得更好的性能。

局部特征注意力：作者不计算每对像素的全局相关性，而是只匹配一个局部窗口中的点，以避免大量的内存消耗和计算成本。针对稀疏特征匹配的LoFTR特征匹配，在级联第一阶段的相关计算之前添加了一个注意模块，以便将全局上下文信息聚合到单个或交叉特征图中。在之后，在主干输出中添加了位置编码，这增强了特征映射的位置依赖性。交替计算自注意和交叉注意，其中使用线性注意层来降低计算复杂度。

2D-1D转换局部搜索：不同于流量估计网络RAFT及其立体版本，其中全对相关性由两个C×H×W特征图的矩阵乘法计算，输出4DH×W×W×W或3DH×W×W成本量，只在一个局部搜索窗口中计算相关性，该窗口输出更小体积的H×W×D，以节省内存和计算成本。H和W表示特征图的高度和宽度，D是相关对的数量远小于W。作者的相关计算也不同于基于成本体积立体网络搜索范围与前景对象的最大位移。这个固定的范围比作者使用的局部相关对的数量要大得多，这导致了更多的噪声干扰。此外，当模型推广到具有不同基线的立体声对时，不需要预设范围。

给定两个重新采样和参与的特征图F1和F2，在位置(x，y)上的局部相关性可记为：

为d-th(d∈[0，D−1])相关对的匹配代价，C为特征通道数，
f(d)和g(d)表示当前像素在水平和垂直方向上的固定偏移量。

传统上，在立体匹配中，两个校正图像之间的搜索方向只位于外极线上。为了处理非理想的立体整流情况，我们采用了2D-1D替代局部搜索策略来提高匹配精度。在一维搜索模式下，我们设置g(d)=0和f(d)∈[−r，r]，其中r=4。保留f(d)的正位移值，以便在每次迭代采样后调整不准确的结果。由等式计算的结果1被堆叠并连接在通道维度上，以获得最终的相关V。在二维搜索模式中，使用与扩张卷积相似的k×k网格进行相关计算。设置了k=√2r+1来确保特征具有相同数量的通道，因此它们可以被输入到一个共享权重的更新块中。与迭代重采样合作，交替局部搜索也作为循环细化的传播模块，其中网络学习用其更准确的邻居替换对当前位置的有偏预测。

可变形的搜索窗口：立体匹配经常存在遮挡或无文本区域。在一个固定形状的局部搜索窗口中计算的相关性往往容易受到这些情况的影响。将可变形卷积扩展到相关计算中，使用内容自适应搜索窗口来生成相关对，这与AANet不同，后者仅在成本聚合中采用类似的策略。利用学习到的附加偏移量dx和dy，新的相关性可以计算为

偏移量如何改变传统搜索窗口的形式
自适应局部相关的说明。
顶部和底部分别是2D和1D情况，它们共享相同数量的搜索邻居，产生相同形状的相关图。

Group-wise相关性：受引入组级4D代价体积的启发，我们将特征图分成G组，分别计算局部相关性。最后，我们将G相关体积串联起来。在通道维度上的D × H × W，得到GD × H × W的输出量。过程如图。

级联的网络

对于非纹理或重复纹理区域，由于接受域大、语义信息充足，使用低分辨率和高级特征映射进行匹配更加鲁棒。然而，在这种特征图中，精细结构的细节可能会丢失。为了保持鲁棒性，同时保留高分辨率输入中的细节，作者提出了级联迭代精化的相关计算和视差更新。循环更新模块：我们基于GRU块和自适应组相关层(AGCL)构建了循环更新模块(RUM)。与PAFT不同的是，特征金字塔构建在单个相关层中，输出合并为一个卷，我们分别计算每个特征映射在不同级联级别的相关性，并单独细化几个迭代的视差。“sampler”以fn导出的坐标网格为输入，对分组特征的位置进行采样。{f1,…， fn}为初始化f0的n次迭代的中间预测。电流相关体积由学习到的偏移量o∈R2×(2r+1)×h×w构造。GRU块更新当前预测并在下一次迭代时反馈给AGCL。级联改进：除了级联的第一级(从输入分辨率的1/16开始，视差初始化为所有0)，其他级别将从前一级的预测的上采样版本作为初始化。虽然处理不同层次的细化，所有RUMs的重量相同。在最后一级细化后，进行凸上采样，得到输入分辨率下的最终预测结果。

叠加级联推理

正如前几节所讨论的，在训练过程中，作者使用固定分辨率的三层特征金字塔进行层次细化。然而，对于分辨率较高的图像作为输入，需要进行更多的降采样，以扩大接收域，进行特征提取和相关计算。但对于高分辨率图像中位移较大的小目标，直接下采样可能会使这些区域的特征退化。为了解决这一问题，作者设计了一种具有推理快捷方式的堆叠级联架构。特别的，作者预先对图像对进行下采样，构建一个图像金字塔，并将它们输入到同一个训练好的特征提取网络中，以利用多层次的上下文。图下图右侧显示了堆叠级联架构的概览，为了简洁起见，没有显示同一阶段的跳跃连接。对于堆叠级联的某一特定阶段，该阶段的所有RUM将与更高分辨率阶段的最后一个RUM一起使用。叠层梯级的所有阶段在训练中都有相同的重量，所以没有精细的调整。

损失函数

对于每个阶段s∈{116, 18, 41}的特征金字塔，作者用上采样算子µs将输出{fis，···，f sn}的序列调整到完全预测分辨率，并使用类似RAFT的指数加权l1距离为损失函数(γ设为0.9)。给定ground truth视差dgt，总损失定义为:

合成训练数据

与以前的合成数据集相比，作者的数据生成管道将额外的注意力放在现实场景中具有挑战性的案例上，并具有各种增强功能。作者利用Blender生成我们的合成训练数据。每个场景由左右图像对和对应像素精确的密集视差图组成，由双虚拟相机和习惯位置的物体捕获。作者的主要设计考虑如下所示。

形状：作者用多种来源使模型的形状多样化，作为主要的场景内容:

ShapeNet数据集，超过40000个不同形状的常见物体的3D模型，形成基本内容来源。
Blender的树苗生成插件，提供精细而杂乱的视差图。
使用搅拌机的内部基本形状结合线框修改器来生成具有挑战性的场景的模型，包括孔洞和开放式结构。

灯光和纹理：作者将颜色和亮度随机的不同类型的灯光放置在场景内部的随机位置，造成了一个复杂的照明环境。现实世界的图像被用作物体和场景背景的纹理，特别是包含重复模式或缺乏可见特征的硬场景。此外，利用了Blender的Cycles渲染器的光追踪能力，并随机将对象设置为透明或带有金属反射，以便用类似的属性覆盖真实世界的场景。

视差分布：为了覆盖不同的基线设置，作者努力保证生成的数据的视差在大范围内平滑分布。我们将物体放置在由摄像机的视野和最大距离形成的截锥体形状的空间中。从概率分布中随机选择每个物体的确切位置，然后根据其距离进行缩放，以防止遮挡视线。这种做法导致随机但可控的视差分布。

实验

数据集和评估指标

根据三个流行的公共基准来评估本文的方法。Middlebury2014提供了不同光照环境下的23对高分辨率图像。用大基线立体相机拍摄，Middlebury的最大视差可以超过600像素。ETH3D由27幅单色立体图像对组成，通过激光扫描仪进行视差采样，覆盖室内和室外场景。KITTI 2012/2015由200幅广角立体街景图像对组成，使用激光雷达采样稀疏视差地面真实度。

除了作者渲染的数据集，收集主要的公共数据集用于训练，包括Sceneflow ， Sintel和Falling Things。scenflow包含39k多个合成场景设置的训练对。坠落物包含了大量来自家居物体模型场景的图像。Sintel提供来自各种合成序列的1.2k立体声对。作者利用的其他数据源有InStereo2K ， Carla和AirSim。

为了进行评估，作者遵循流行的度量标准，包括AvgErr(平均误差)、Bad2.0(视差误差大于2像素的像素百分比)、D1-all(左图视差异常像素百分比)等。

实现细节

训练：本文的网络是用Pytorch实现的框架。模型在8 NVIDIA GTX上训练2080Ti gpu，批量大小为16。整个训练过程设置为30万次迭代。使用标准学习率为0.0004的Adam优化器。在训练开始时进行6000次迭代的热身过程，学习率从标准值的5%线性增加到100%。在180000次迭代后，在训练结束时，学习率线性下降到标准值的5%。训练模型的输入尺寸为384 × 512。所有训练样本在输入模型之前都要经过一组增广运算。

增强：为了模拟摄像机模块的不一致性和非理想校正，我们采用多种数据增强技术进行训练。首先，我们对两个输入分别应用非对称色差增强，包括亮度、对比度和伽马的偏移。为了进一步增强现实图像中校正误差的鲁棒性，我们只对正确的图像进行了空间增强:在很小的范围内略微进行随机单应变换和垂直位移(< 2像素)。为了避免不适定区域的不匹配，我们使用高度和宽度在50到100像素之间的随机矩形遮挡块。最后，为了将来自不同来源的输入数据拟合到网络的训练输入大小中，对这组立体图像和视差进行随机调整和裁剪操作。

消融实验

在本节中，作者将在不同的设置下评估我们的模型，以证明网络组件的有效性。除对层叠级联进行烧蚀研究外，所有评价分辨率均为768 × 1024。

相关类型：为了比较不同类型的相关性的影响，作者将他们的相关性层替换为其他形式。如表1所示，2D和与它们的局部形式相比，[45]和[23]中使用的1D全对相关导致准确性大幅下降。当作者将交替局部关联替换为单一的二维或一维关联会降低最终精度，当网络包含1级联以上时，由于校正误差随着分辨率的增加而增加，这一点更加明显。

组件AGCL：如表1的下半部分所示，使用固定的相关窗口而不学习偏移降低了精度，这证明了自适应机制的有效性。用单一形式替换组相关性和去除局部特征注意模块都降低了算法的精度。

级联的RUMs：比较了不同数量级联的性能。如表1所示，使用没有级联的单一RUM会导致精度的大幅下降。当改变级联数时，在保持关联类型不变的情况下，级联数越多，预测误差明显减小。这说明了级联架构的重要性。

RUMs的消融研究：上半部分是对不同形式的相关层和不同级别级联的比较，训练在除Middlebury和ETH3D之外的公共数据集上。下半部分是在完整数据集上训练的AGCL关键组件的评估。

级联：在推理过程中，使用不同层次的图像金字塔作为输入输入级联，同时共享相同的训练参数。比较了不同分辨率下不同级联的性能。如表2所示，仅使用单个级联时，预测误差随输入大小的增加而增大。多层输入大大降低了误差，表明我们的叠级联方案对视差精度有很大的提高。

新的合成数据：为了分析作者提出的合成数据的有效性，从训练数据集中采样了35,000对图像，并与类似大小的图像进行比较Sceneflow。这两个数据集用于训练我们的模型，在50,000次迭代中使用相同的增强。如图6所示，作者的合成数据降低了训练损失和在ETH3D和Middlebury验证数据中都有更好的性能。这表明作者的数据集在领域泛化方面更有优势。

使用scenflow和作者合成数据集训练的模型的训练损失和ETH3D / Middlebury验证误差

与SOTA对比

Middlebury：用来自的23对图像(包括另外13对带有ground truth的图像)来训练本文的网络Middlebury 2014数据集与作者的完整训练集在没有微调。将Middlebury训练集的比例提高到整个训练集的2%。使用调整大小的全分辨率图像，采用两阶段推断，在1536 × 2048的测试集进行评估，并将结果提交到在线排行榜。在120多种其他方法中，作者在大多数指标上都取得了第一名，超过了公布的最先进的bad的2.0指标占21.73%，A95指标占31.00%。与其他方法的定量比较结果如表3所示。

ETH3D：作者在整个训练集上训练我们的网络，其中2%的增强训练数据来自ETH3D低分辨率双视图立体数据集。在不进行微调的情况下，评估测试集的大小为768 × 1024，其中采用两阶段推断。在撰写本文时，作者在所有指标的在线基准测试中实现了最先进的发布方法。在糟糕的1.0度量上，本文的方法比发布的最先进的方法高出59.84%。定量比较如表4所示。

KITTI：与Middlebury和ETH3D的训练过程不同，作者在完整训练集上对预训练的模型进行微调，在KITTI上再进行50K次迭代2012年和2015年训练集。初始学习率设置为0.0001。作者增强KITTI数据集的75%，其余部分从整个训练集中随机抽样。在评估过程中，作者将输入填充到384×1248后再馈入网络，采用单级推理。作者在两个数据集上都实现了具有竞争力的性能，在2像素错误阈值下的outnoc上超过了KITTI 2012中的LEAStereo[8] 9.47%。我们在图8中展示了KITTI 2015的视觉对比。

视觉上与其他方法比较的一例 KITTI 2015测试集。作者的方法保留了更多的细节

实用性能

与来自标准立体数据集的真实图像相比，从消费级设备上获取的图像对立体匹配提出了更大的挑战。为了公平的比较，用作者发布的代码和推荐的设置在我们的完整训练集上训练所有其他立体声网络。

Holopix50K：图9显示了作者的网络在不同场景下与Holopix50K[16]数据集上发表的几次立体匹配的定性比较结果。进行预认证以消除可能的负视差。可视化结果表明，该方法在猫须和金属丝网等细物体上具有明显优势。本文呢也在无纹理的区域实现了更好的性能，如墙壁和窗户。

扰乱的ETH3D：作者在ETH3D数据集上模拟了实际场景中常见的干扰，以测试所提方法的鲁棒性，并给出了定量结果。图10所示。这些干扰包括图像模糊、颜色变换、色差噪声、图像透视变换、垂直位移和空间畸变。结果表明，本文的方法不容易受到这些干扰。

智能手机的照片：由于真实场景中ground truth的视差难以获取，一种经验方法是手动标记前景掩模Mf来评估视差质量。IoU(交集/联合)是分割任务中常用的度量方法。对于视差图，可以设置一个阈值t，得到前景掩模Mt，其中前景的视差值大于t。“mxIoU”表示通过改变t, Mf和Mt之间的最大IoU。“mxIoUbd”意味着从Mf边界处的带状区域内的mxIoU(设置p = 4)个像素。定量和定性比较结果分别如表5和图11。

对400个智能手机捕捉到的场景进行定量分析。作者为每种方法选择性能最好的分辨率。
使用RAFTStereo比较智能手机照片中重复纹理和非纹理情况的预测差异。mxIoU得分在图中标出。

总结

尽管深度立体视觉网络取得了前所未有的成功，但在真实场景中精确恢复差异仍然存在障碍。

本文，作者提出CREStereo，一个新颖的立体匹配网络，在公共基准和现实场景中都能获得最先进的结果。作者在这里的关键信息是，为了让算法真正在现实世界中工作，网络架构和训练数据都值得缜密的思考。

通过自适应相关的级联递归网络，能够比现有方法更好地恢复精细的深度细节; 通过精心设计的合成数据集，能够更好地处理非纹理或重复纹理区域等硬情况场景。本文的方法的一个限制是，该模型还不够有效，不能在当前的移动应用程序中运行。

未来的改进可以使我们的网络适应各种便携式设备，最好是实时的。

CREStereo： Practical Stereo Matching via Cascaded Recurrent Networkwith Adaptive Correlation-论文阅读相关推荐

《CREStereo：Practical Stereo Matching via Cascaded Recurrent Network with Adaptive Correlation》论文笔记
参考代码:CREStereo 1. 概述介绍:双目立体匹配在像Middlebury数据上已经取得了不错的效果,但是将训练得到的匹配模型应用到实际场景下时输出效果会出现较大退化.这是因为实际运用场景情 ...
【论文简述及翻译】RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching（3DV 2021）
一.论文简述 1. 第一作者:Lahav Lipson 2. 发表年份:2021 3. 发表期刊:3DV,Best paper 4. 关键词:立体匹配.端到端训练.迭代优化.GRU 5. 探索动机:立 ...
论文笔记 - RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching
这篇博客是对论文RAFT-Stereo: Multilevel Recurrent Field Transforms for Stereo Matching的阅读笔记. 论文地址位于paper,代码已 ...
DSM: 域不变的立体匹配网络解析(Stereo Matching Networks)
作者| flow 编辑| 3D视觉开发者社区导语:本文是由来自牛津大学.百度研究院以及香港中文大学团队发表的论文,该团队提出了域不变的立体匹配网络方法,用于解决立体匹配网络中直接跨域泛化的问题.适合 ...
Stereo Matching 立体匹配学习资料
Middlebury Stereo Evaluation Camera Calibration and 3D Reconstruction OpenCV学习笔记(18)双目测距与三维重建的OpenCV ...
学习《Hardware-Efﬁcient Bilateral Filtering for Stereo Matching》一文笔记。
个人收藏了很多香港大学.香港科技大学以及香港中文大学里专门搞图像研究一些博士的个人网站,一般会不定期的浏览他们的作品,最近在看杨庆雄的网点时,发现他又写了一篇双边滤波的文章,并且配有源代码,于是下载下 ...
OpenCV立体声匹配 stereo matching将L和R图像转换为视差和点云的实例(附完整代码)
OpenCV立体声匹配 stereo matching将L和R图像转换为视差和点云的实例 OpenCV立体声匹配 stereo matching将L和R图像转换为视差和点云的实例 OpenCV立体声匹 ...
python立体匹配误匹配率_立体匹配算法（Stereo Matching）及其在OpenCV中的应用
模拟人的两只眼睛的Stereo相机最近变得很受欢迎.通过对stereo相机拍摄的左右两张图进行匹配找出视差图,可以还原物体的3D信息. 立体匹配(Stereo matching)的步骤如下: 1: 预 ...
基于Patachmatch的stereo matching笔记（三）：《PatchmatchNet》
PatchmatchNet 论文:PatchmatchNet: Learned Multi-View Patchmatch Stereo(2020) 1.Introduction 出发点: 由于 3D ...

CREStereo： Practical Stereo Matching via Cascaded Recurrent Networkwith Adaptive Correlation-论文阅读

摘要

介绍

相关工作

方法