一、论文简述

1. 第一作者：Feihu Zhang、Victor Prisacariu

2. 发表年份：2019

3. 发表期刊：CVPR

4. 关键词：立体匹配、CNN、端到端训练、半全局匹配、聚合

5. 探索动机：PSMNet叠沙漏主干通过频繁下采样和上采样减少了使用3D卷积所产生巨大的内存和计算成本，但这导致视差图中的精度损失。传统的半全局匹配（SGM）和代价过滤都是强大而有效的代价聚合方法，但是，它们是不可微分的，不能以端到端的方式训练。

6. 工作目标：是否可以提出新的代价聚合方法，用于端到端立体重建，以取代3D卷积的使用，能够显着提高精度，同时降低内存和计算成本？

7. 核心思想：本文提出两种新的神经网络层，用于同时获得局部与全局的代价依赖关系。3D卷积层具有固定的权重，并且总是对整个图像中的所有位置执行相同的局部区域中聚合，本文使用GA层替代3D卷积实现更好的代价聚合。GA层=SGA层+LGA层。第一种是半全局聚合层，SGA层，它是 SGM 的可微近似，在单个层中进行半全局聚合，聚合的方向、范围和强度完全由可变权重根据不同位置的几何和上下文信息引导。。第二种是局部引导聚合层，LGA层，它遵循传统的滤波策略来精细化最后的输出，学习了几个引导过滤器，以改进匹配代价并帮助恢复薄结构的信息。

8. 实现方法：

特征抽取：使用堆叠沙漏网络，通过不同层之间的串联密集连接。左视图和右视图共享特征提取块。然后，使用左图像和右图像抽取的特征形成4D代价体。
4D代价体的代价聚合：几个SGA层用于代价聚合，并且LGA层可以在视差回归的softmax层之前和之后实现。它改进了薄结构并补偿了由代价体下采样引起的精度损失。
产生代价聚合权重的指导子网络：。引导子网络由几个快速2D卷积层组成，输出被规整并归一化为这些GA层所需的权重矩阵，子网络的输入是参考视图（例如左图像）。
损失：采用平滑的L1损失函数。
视差回归：同GC-Net。

9. 实验结果：两个GA层比九个3D卷积层更有效；SGA步骤在浮点运算（FLOP）方面的计算复杂度小于一个3D卷积层的1/100，在Scene Flow数据集和KITTI基准测试中GA-Ne比最好的方法具有更高的精度。

10.论文&代码下载：

GA-Net: Guided Aggregation Net for End-to-end Stereo Matching

https://github.com/feihuzhang/GANet

二、论文翻译

GA-Net: Guided Aggregation Net for End-to-end Stereo Matching

摘要

在立体匹配任务中，匹配代价聚合在传统方法和深度神经网络模型中都起着至关重要的作用，以准确估计视差。我们提出了两种创新的神经网络层，分别用于捕获局部和整个图像的代价依赖性。第一种是半全局聚合层，它是半全局匹配的可微近似；第二种是局部引导聚合层，它遵循传统的代价过滤策略来改进薄结构。

这两个层可用于代替广泛使用的3D卷积层，3D卷积层由于其具有立方计算/存储复杂性，因此计算代价高并且消耗存储。在实验中，我们展示了具有双层引导聚合块的网络轻松胜过具有19个3D卷积层的最先进的GC-Net。我们还训练了深度引导聚合网络（GA-Net），在Scene Flow数据集和KITTI基准测试中它比最先进的方法具有更好的精度。

1. 介绍

立体重建是计算机视觉、机器人和自动驾驶的主要研究课题。其目的是通过计算立体图像对中的匹配像素之间的视差来估计3D几何。但由于各种现实问题，这也是具有挑战性的，例如遮挡，大的无纹理区域（天空，墙壁等），反射表面（窗户），薄结构和重复纹理。

传统上，立体重建被分解为三个重要步骤：特征提取（用于匹配代价计算），匹配代价聚合和视差预测。由于遮挡、平滑、反射、噪声等原因，基于特征的匹配通常是模糊的，错误匹配的代价低于正确的匹配。因此，代价聚合是在具有挑战性的区域中获得准确视差估计所需的关键步骤。

深度神经网络已应用于例如[30,33]中的匹配代价计算，这些方法具有（i）基于传统方法的代价聚合，例如代价过滤和半全局匹配（SGM）和（ii）通过单独步骤的视差计算。这种方法相对于传统的像素匹配提升明显，但在无纹理、反射和遮挡区域中仍然难以产生精确的视差。DispNet是将匹配与视差估计联系起来的端到端的方法，但直到GC-Net才通过使用3D卷积将代价聚合纳入训练管道机制。最近的工作PSMNet，通过实现堆叠沙漏主干进一步提高了精度，并大大增加了3D卷积层的数量，用于代价聚合。通过频繁下采样和上采样减少了使用3D卷积所产生巨大的内存和计算成本，但这导致视差图中的精度损失。

在这些方法中，传统的半全局匹配（SGM）和代价过滤都是鲁棒而有效的代价聚合方法，已广泛应用于许多工业产品中。但是，它们是不可微分的，不能以端到端的方式轻松训练。

在这项工作中，我们提出了两个新的代价聚合层，用于端到端立体重建，以取代3D卷积的使用。我们的方案可显着提高准确性，同时降低内存和计算成本。

首先，我们引入了一个半全局引导聚合层（SGA），它实现了半全局匹配（SGM）的可微近似，并在整个图像上聚合不同方向的匹配代价。这使得能够在遮挡区域或大的无纹理/反射区域中进行准确估计。

其次，我们引入局部引导聚合层（LGA）来处理薄结构和物体边缘，以便恢复由下采样和上采样层引起的细节损失。

如图1所示，仅具有两个GA层和两个3D卷积层的代价聚合块轻松胜过先进的GC-Net，其具有十九个3D卷积层。更重要的是，就FLOPs（浮点运算）而言，一个GA层的计算复杂度仅为3D卷积的1/100。这让我们能够构建一个实时GA-Net模型，与其他现有的实时算法相比，它可以实现更高的准确性，并以15-20fps的速度运行。

图1：性能图示。（a）具有挑战性的输入图像。（b）先进方法GC-Net的结果，其具有19个用于匹配代价聚合的3D卷积层。（c）GA-Net-2的结果，它仅使用两个GA层和两个3D卷积层。它将匹配信息聚合到大的无纹理区域，并且比GC Net快一个数量级。（d）真实值。

我们通过改进用于特征提取和匹配代价聚合的网络结构来进一步提高精度。完整的模型，我们称之为“GA-Net”，在Scene Flow数据集和KITTI基准上实现了最好的准确性。

2. 相关工作

由于遮挡、平滑、反射、噪声等原因，基于特征的匹配代价通常是模糊的，错误匹配的代价很容易低于正确的匹配。为了解决这个问题，人们已经开发了许多代价聚合方法来改进代价体并实现了更好的估计。本节简要介绍了在立体重建中应用深度神经网络的相关工作，重点是现有的匹配代价聚合策略，并简要回顾传统局部和半全局代价聚合的方法。

2.1. 立体匹配的深度神经网络

深度神经网络用于计算[4,6,29,33]中的图像块相似度得分，并具有传统的代价聚合和视差计算/改进方法[9,10]，用于获得最终的视差图。这些方法取得了先进的准确性，但是受传统匹配代价聚合步骤的限制，经常在遮挡区域、大的无纹理/反射区域和物体边缘周围产生错误的预测。其他一些方法改善传统代价聚合的性能，例如，SGM-Nets使用神经网络预测SGM的惩罚参数，而Schonberger等人学会了通过在立体匹配中优化来融合提议，Yang等人提出使用最小生成树来聚合代价。

最近，端到端的深度神经网络模型已经变得流行。Mayer等人创建了一个大的合成数据集来训练端到端的深度神经网络用来视差估计（例如DispNet）。Pang等人建立了一个两阶段卷积神经网络，首先估计然后改进视差图。Tulyakov等人提出了用于实际应用的端到端深度立体模型。GCNet将特征提取、代价聚合和视差估计加入到单个端到端深度神经模型，在几个基准测试中获得最好的准确性。PSMNet使用了金字塔特征提取和堆叠沙漏块，具有25个3D卷积层，进一步提高了准确性。

2.2. 代价聚合

传统的立体匹配算法[1,9,27]增加了一个额外的约束，通过惩罚相邻视差的变化来强制平滑。这可以是局部的和（半）全局的，如下所述。

2.2.1. 局部代价聚合

代价体C由每个像素位置处的候选视差值d的匹配代价形成。它的大小为H×W×Dmax（H：图像高度，W：图像宽度，Dmax：视差的最大值），并且可以针对每个候选视差d形成Dmax切片。有效的代价聚合方法是局部代价过滤框架[10,31]，其中代价体C（d）的每个切片由引导图像过滤器[8,25,31]独立地过滤。视差为d时的像素位置p=（x，y）的滤波是在相同切片C（d）中的所有邻域q∈Np的加权平均：

其中C（q，d）表示位置p的候选视差d的匹配代价。CA（p，d）表示聚合匹配代价。可以使用不同的图像滤波器[8,25,31]来产生引导滤波器权重ω。由于这些方法仅汇总了局部区域Np的代价，因此它们可以快速运行并具有实时性能。

2.2.2. 半全局匹配

当执行（半）全局聚合时，匹配代价和平滑约束被指定为一个能量函数E（D），输入图像的视差图为D。立体匹配的问题现在可以表述为找到最佳视差图D*，即最小化能量E（D）：

第一项ΣpCp（Dp）是视差图D的所有像素位置p处的匹配代价之和。如果在视差图D中具有小的视差不连续性（|Dp-Dq|=1），则第二项是对于p附近的位置q的常数惩罚P1。对于所有较大的视差变化（|Dp-Dq|>1），最后一项增加了较大的常数惩罚P2。

Hirschmuller提出从16个方向汇总1D的匹配代价，得到O（KN）时间复杂度的近似解，这就是众所周知的半全局匹配（SGM）。视差d处的位置p的代价CrA（p，d）是在整个图像上沿着方向r上路径的聚合，并且递归地定义为：

其中r是一元方向向量。在MC-CNN中使用相同的聚合步骤[23,30]，并且在[1,2,14]中采用类似的迭代步骤。

在下一节中，我们将详细介绍更高效的引导聚合（GA）策略，其中包括半全局聚合（SGA）层和局部引导聚合（LGA）层。两个GA层都可以在端到端模型中通过反向传播来实现，以取代低效的3D卷积并获得更高的精度。

3. 引导聚合网络

在本节中，我们描述了我们提出的引导聚合网络（GA-Net），包括引导聚合（GA）层和改进的网络结构。

3.1. 引导聚合层

最先进的端到端的立体匹配神经网络通过连接立体视图之间的特征，构建了4D匹配代价体（大小为H×W×Dmax×F，H：高度，W：宽度，Dmax ：最大视差，F：特征大小），并以不同的视差值计算。接下来通过代价聚合阶段对其进行改进，最后用于视差估计。与这些方法不同，受半全局和局部匹配代价聚合方法的启发，我们提出了半全局引导聚合（SGA）和局部引导聚合（LGA）层，如下所述。

3.1.1. 半全局聚合

传统的SGM在不同的方向上迭代地聚合匹配代价（等式（3））。在端到端可训练的深度神经网络模型中使用这种方法有一些困难。

首先，SGM有许多用户定义的参数（P1，P2），这些参数不能直接调整。所有这些参数在神经网络训练期间成为不稳定因素。其次，SGM中的代价聚合和惩罚对于所有像素、区域和图像是固定的，不能适应不同的条件。第三，在深度估计中难最小值（hard-minimum）选择导致许多的前向平行表面。

我们设计了一个支持反向传播的新的半全局代价聚合步骤。这比传统的SGM更有效，并且可以在深度神经网络模型中重复使用以提高代价聚合效果。提出的聚合步骤是：

这与SGM有三种不同。首先，我们让用户定义的参数是可学习的，并添加它们作为匹配代价项的惩罚系数/权重。因此，对于不同的情况，在不同位置这些权重是自适应的并且更灵活。第二，我们用加权和替换等式(3)中的第一个/外部最小值选择，在精度上没有任何损失。这种变化在[24]中被证明是有效的，其中使用具有步幅的卷积来代替最大池化层以获得全卷积网络，并且没有影响准确性。第三，内部/第二最小值选择被改变为最大值选择。这是因为我们模型的学习目标是最大化真实的深度的概率，而不是最小化匹配代价。由于方程（4）中的最大CrA（p-r,i）可以由d个不同的位置的CrA（p，d）共享，这里，我们不使用另一个加权求和来替换它以便减少计算复杂性。

对于方程（3）和方程（4），CrA（p，d）的值沿着路径增加，这可能导致非常大的值。为避免这样的问题，我们将每一项的权重归一化。这引出了我们新的半全局聚合：

C（p，d）是代价体（尺寸为H×W×Dmax×F）。与传统的SGM相同，可以将代价体在第三维度针对每个候选视差d切成Dmax个切片，并且每一个切片都重复等式（5）的聚合操作，并且使用共享权重矩阵（w0 … 4）。所有权重w0 … 4都可以通过引导子网络获得（如图2所示）。与在16个方向上进行聚合的原始SGM不同，为了提高效率，在整个图像上我们的聚合只沿着每行或每列的四个方向进行（左，右，上和下），即r∈{（0,1），（0，-1），（1,0）（- 1,0）}。

图2：（a）结构概述。左图像和右图像输入到权重共享特征提取管道机制。它由堆叠的沙漏CNN组成，并通过连接方式连接。然后，使用所提取的左图像特征和右图像特征用来形成4D代价体，将其输入到代价聚合块中以进行正则化、改进和视差回归。引导子网络（绿色）生成引导代价聚合（SGA和LGA）的权重矩阵。（b）SGA层半全局聚合四个方向的代价体。（c）在视差回归之前多次使用LGA层改进局部4D代价体。

通过在四个方向中选择最大值来获得最终的聚合输出Cr（p）：

最后一次最大值选择仅保留一个方向的最佳消息。这保证了聚合效果不会被其他方向模糊。SGA层中w和C（p，d）的可以通过反向计算方程（5）完成反向传播（细节可在附录A中获得）。我们的SGA层可以在神经网络模型中重复几次，以获得更好的代价聚合效果（如图2所示）。

3.1.2. 局部聚合

我们现在介绍局部引导聚合（LGA）层，目标是改进薄结构和物体边缘。下采样和上采样广泛用于立体匹配模型，模糊了薄结构和物体边缘。LGA层学习了几个引导过滤器，以改进匹配代价并帮助恢复薄结构的信息。局部聚合遵循代价过滤器定义（等式（1）），可以写成：

代价体的不同切片（总共Dmax个切片）在LGA中共享相同的过滤/聚合权重。这与本文中的原始代价过滤框架和SGA（公式（5））相同。然而，与在K×K局部/邻近区域Np中使用K×K滤波核来过滤代价体的传统代价滤波器不同，我们提出的LGA层具有三个K×K滤波器（ω0，ω1和ω2），分别对应视差为d、d-1和d+1的像素位置p。即对于每个像素位置p，在K×K局部区域内它聚合了K×K×3权重矩阵。权重矩阵的设置也类似于[11]，但是如[10]中的设计在聚合期间会共享权重和过滤器。

3.1.3. 有效实现

我们使用几个2D卷积层来构建快速引导子网络（如图2所示）。实现类似于[32]。它使用参考图像作为输入，并输出聚合权重w（公式（5））。对于尺寸为H×W×D×F（H：高度，W：宽度，D：最大视差，F：特征大小）的4D代价体C，引导子网络的输出被分割、重整并归一化为四个权重矩阵H×W×K×F（K=5），用于等式（5）中四个方向的聚合。注意，对应于切片d的不同视差的聚合共享相同的聚合权重。类似地，LGA层需要学习H×W×3K2×F（K = 5）权重矩阵并使用等式（7）进行聚合。

即使SGA层涉及跨宽度或高度的迭代聚合，由于不同特征通道或行/列中的元素之间的独立性，可以并行计算前向和后向。例如，当在左方向聚合时，不同通道或行中的元素是独立的并且可以同时计算。LGA层的元素也可以通过简单地将其分解为元素的矩阵相乘和求和来并行计算。为了增加LGA层的感受野，我们用相同的权重矩阵重复计算等式（7）两次，这与[5]类似。

3.2. 网络架构

如图2所示，GA-Net由四部分组成：特征提取块，4D代价体的代价聚合，产生代价聚合权重的指导子网络和视差回归。对于特征提取，我们使用堆叠沙漏网络，通过不同层之间的连接密集连接。左视图和右视图共享特征提取块。然后，使用左图像和右图像提取的特征形成4D代价体。几个SGA层用于代价聚合，并且LGA层可以在视差回归的softmax层之前和之后实现。它改进了薄结构并补偿了由代价体下采样引起的精度损失。权重矩阵（在等式（5）和等式（7）中）由额外的引导子网络生成，子网络的输入是参考视图（例如左图像）。引导子网络由几个快速2D卷积层组成，输出被重塑并归一化为这些GA层所需的权重矩阵。

3.3. 损失函数

我们采用平滑的L1损失函数来训练我们的模型。与L2损失相比，平滑L1在视差不连续处是鲁棒的并且对异常值或噪声具有低灵敏度。训练模型的损失函数定义为：

其中，|d^-d| 测量视差预测的绝对误差，N是用于训练的具有真实值的有效像素的数量。

对于视差估计，我们采用[13]中提出的视差回归：

视差预测d是通过其概率加权的每个视差候选者的总和。通过softmax操作σ（·）在代价聚合之后计算每个视差d的概率。视差回归比基于分类的方法更鲁棒并且可以生成亚像素精度。

4. 实验

在本节中，我们使用Scene Flow和KITTI数据集评估具有不同设置的GA-Nets。我们使用pytorch或caffe（仅用于实时模型的实现）实现我们的结构。所有模型都使用Adam进行优化（β1= 0.9，β2= 0.999）。我们将输入图像进行240×576随机裁剪，在八个GPU上进行训练，批量大小为16。视差的最大值设置为192。在训练之前，我们通过减去它们的平均值并除以它们的标准差将图像的每个通道归一化。我们在Scene Flow数据集上训练模型10个epoch，学习率恒定为0.001。对于，我们将在Scene Flow数据集上预训练的模型在KITTI数据集进行微调，并且进一步训练640个epoch。微调的学习率在前300个周期为0.001，并在剩余的周期减小到0.0001。

4.1. 消融实验

我们评估不同设置的GA-Nets的性能，包括不同的结构和不同的GA层数（0-4）。如表1中所列，引导聚合模型明显优于仅具有用于代价聚合的3D卷积层的基准设置。在KITTI数据集上用于特征提取和代价聚合的新结构提高了0.14％，在Scene Flow数据集上提高了0.9％。最后，在KITTI2015验证集上具有三个SGA层和一个LGA层的最佳设置的GA-Net获得了2.71％的最好的3-pixel阈值错误率。它还在Scene Flow测试设置上实现了最佳的0.84像素的EPE和9.9％的1-pixel阈值误差率。

表1：具有不同设置的GA-Nets的评估。平均端点误差（EPE）和阈值误差率用于评估。

4.2. 引导聚合的效果

在本节中，我们将引导聚合策略与其他匹配代价聚合方法进行比较。我们还通过观察不同模型输出的post-softmax概率来分析GA层的影响。

首先，GA-Nets与GC-Net（具有19个3D卷积）和PSMNet（具有25个3D卷积）中的代价聚合结构进行比较。我们固定了上面提出的网络的特征提取结构。如表2所示，GA-Nets具有较少的参数，运行速度更快并获得更好的精度。例如，只有两个GA层和两个3D卷积，我们的GA-Net-2的EPE优于GC-Net 0.29像素。此外，具有3个GA层和7个3D卷积的GA-Net-7优于目前最好的具有25个3D卷积的PSMNet。

表2：不同代价聚合方法的比较。EPE和1-pixel阈值误差率用于场景流数据集的评估。

我们还通过与没有GA步骤相同的结构进行比较来研究GA层的影响。这些基准模型“GA Nets*”具有相同的网络结构和其他所有的设置，除了没有实现GA层。如图3所示，对于所有模型，GA层明显提高了模型的精度（EPE为0.5-1.0像素）。例如，与使用11个3D卷积的GA-Net*-11（1.54）相比，具有两个3D卷积和两个GA层的GA Net2产生较低的EPE（1.51）。这意味着两个GA层比九个3D卷积层更有效。

图3：引导聚合效果的图示。将GANets与没有GA层的相同结构进行比较。在Scene Flow数据集使用EPE进行评估。

最后，为了观察和分析GA层的影响，在图4中，我们绘制了关于候选视差范围的post-softmax概率。这些概率在等式（9）中被直接使用估计视差，并且可以反映代价聚合策略的有效性。数据样本全部来自一些具有挑战性的区域，例如大的无纹理区域（天空），反射区域（汽车的窗口）和物体边缘周围的像素。比较了三种不同的模型。第一个模型（图4的第一行）仅具有3D卷积（没有GA层），第二个模型（图4的第二行）具有SGA层，而最后一个模型（图4的最后一行）具有两个SGA层和LGA层。

图4：关于视差值的post-softmax概率分布。红线是真实值的视差。样本选自三个具有挑战性的区域：（a）大平滑区域（天空），（b）来自车窗的反射区域和（c）物体边缘周围的区域。第一行显示没有GA层的概率分布。第二行显示半全局聚合（SGA）层的效果，最后一行显示具有一个额外的局部引导聚合（LGA）层的改进后的概率。

如图4（a）所示，对于大的无纹理区域，会有很多噪声，因为在这些区域中没有任何明显的特征用于正确匹配。SGA层通过聚合周围的匹配信息成功地抑制概率中的噪声。LGA层进一步将概率峰值集中在真实值上。它可以改进匹配结果。类似地，在反射区域的样本中（图4（b）），SGA和LGA层纠正了错误的匹配并将峰值集中在正确的视差值上。对于物体边缘周围的样本（图4（c）），分别受背景和前景的影响，概率分布中通常有两个峰值。SGA和LGA层在合适的最大选择上空间聚合来减少来自背景的错误匹配信息的聚合，并因此抑制出现在背景的视差值的错误概率峰值。

4.3. 与SGM和3D Convolutions的比较

SGA层是SGM的可微近似。但是，与具有人工制作的特征的原始SGM和具有基于CNN的特征的MC-CNN相比，它产生了更好的结果（如表5所示）。这是因为1）SGA没有任何用户定义的参数，这些参数都是以端到端的方式学习的。2）SGA的聚合由权重矩阵完全引导和控制。指导子网络学习有效的几何和上下文知识，以控制代价聚合的方向，范围和强度。

此外，与原始SGM相比，SGA层避免了较大的无纹理区域中的大多数正面平行近似。（例子如图5所示）这可能受益于：1）在方程（5）中使用软加权和（而不是方程（3）中的硬最小/最大选择）：2）方程（9）的回归损失有助于实现亚像素精度。

图5：与传统SGM的比较。在GA-Net-15和SGM上更多的结果和比较。

我们的SGA层也比3D卷积层更有效。这是因为3D卷积层受卷积核大小限制只能在的局部区域中聚合。因此，为了获得好的结果，一系列3D卷积以及编码器和解码器结构是必不可少的。相比较，我们的SGA层在单个层中进行半全局聚合会更有效。SGA的另一个优点是聚合的方向、范围和强度完全由可变权重根据不同位置的几何和上下文信息引导。例如，SGA在遮挡和大平滑区域中表现完全不同。但是，3D卷积层具有固定的权重，并且总是对整个图像中的所有位置执行相同的操作。

4.4. 复杂性和实时模型

一个3D卷积层的计算复杂度为O（K3CN），其中N是输出blob的元素数量。K是卷积核的大小，C是输入blob的通道数。作为比较，SGA的复杂度是O（4KN）或O（8KN），用于四方向或八方向聚合。在GC-Net和PSMNet中，K=3，C=32,64或128，在我们的GA-Nets中，K=5（对于SGA层）。因此，我们提出的SGA步骤在浮点运算（FLOP）方面的计算复杂度小于一个3D卷积层的1/100。

SGA层比3D卷积更快、更有效。这让我们能够建立一个准确的实时模型。我们实现了GA-Net-1的一个caffe版本（只有一个3D卷积层，没有LGA层）。通过对代价体使用4个下采样和上采样，我们进一步简化了模型。在一个TESLA P40 GPU上，实时模型可以以15〜20fps的速度运行300×1000的图像。我们与最好的实时模型比较准确性。如表3所示，实时GA-Net远远优于其他现有的实时立体匹配模型。

表3:与现有实时算法的比较

4.5. 基准评估

对于基准评估，我们使用完整设置的GA-Net-15进行评估。我们将GA-Net与Scene Flow数据集和KITTI基准中最先进的深度神经网络模型进行比较。

4.5.1. Scene Flow数据集

Scene Flow合成数据集包含35454次训练图像和4370次测试图像。我们使用“final”数据集进行训练和测试。通过评估测试集上的EPE和1-pixel 阈值误差率，将GA-Nets与其他最好的DNN模型进行比较。结果展示在表2中。我们发现GA-Net在两个评估指标上都优于现有网络，具有明显的优势。（与目前最好的PSMNet相比，EPE提高0.25像素，误差率提高2.2％）。

4.5.2. KITTI2012 和 KITTI2015 数据集

在Scene Flow数据集进行训练后，我们分别在KITTI 2015和KITTI 2012数据集微调GA-Net15。然后在测试集上评估模型。根据在线排行榜，如表4和表5所示，GA-Net具有较少的低效3D卷积，但实现了更高的精度。在所有评估指标中它都超过了目前最好的PSMNet。示例在图6中展示。GA-Nets可以有效地将正确的匹配信息聚合到具有挑战性的大的无纹理或反射区域中，以获得精确的估计。它还可以很好地保持目标结构。

图6:可视化和比较的结果。第一行：输入图像。第二行:GC-Net的结果。第三行: PSMNet的结果。最后一行:GA-Net的结果。蓝色箭头指出了显著的改进。引导聚合可以有效地将视差信息聚合到大的无纹理区域(如汽车和窗户)，并给出精确的估计。它还可以很好地聚合目标知识并保持深度结构(最后一栏)。

表4:KITTI 2012基准的评价结果

表5:KITTI 2015基准的评价结果

5. 结论

在本文中，我们开发了更高效且有效的引导匹配代价聚合（GA）策略，包括用于端到端立体匹配的半全局聚合（SGA）和局部引导聚合（LGA）层。GA层显着提高了在挑战区域的视差估计的准确性，例如遮挡，大的无纹理/反射区域和薄结构。GA层可用于替代计算代价高昂的3D卷积并获得更高的精度。

【论文简述及翻译】GA-Net: Guided Aggregation Net for End-to-end Stereo Matching（CVPR 2019）相关推荐

【论文简述及翻译】StereoNet: Guided Hierarchical Refinement for Real-Time Edge-Aware Depth Prediction（ECCV）
一.论文简述 1. 第一作者:Sameh Khamis 2. 发表年份:2018 3. 发表期刊:ECCV 4. 关键词:立体匹配.深度估计.边缘感知改进.代价体滤波.深度学习 5. 探索动机:目前基 ...
【论文简述及翻译】ACVNet：Attention Concatenation Volume for Accurate and Efficient Stereo Matching（CVPR 2022）
一.论文简述 1. 第一作者:Gangwei Xu,Junda Cheng 2. 发表年份:2022 3. 发表期刊:CVPR 4. 关键词:端到端训练.代价体.注意力机制.3D聚合.回归 5. 探索 ...
【论文简述及翻译】GWCNet：Group-wise Correlation Stereo Network（CVPR 2019）
一.论文简述 1. 第一作者:Xiaoyang Guo 2. 发表年份:2019 3. 发表期刊:CVPR 4. 关键词:端到端训练.组相关体.改进的堆叠沙漏网络.3D卷积.回归 5. 探索动机:完全 ...
【论文简述及翻译】Correlate-and-Excite: Real-Time Stereo Matching via Guided Cost Volume Excitatio（CVPR 2021）
一.论文简述 1. 第一作者:Antyanta Bangunharcana 2. 发表年份:2021 3. 发表期刊:CVPR 4. 关键词:立体匹配.代价聚合.特征激励.实时网络.视差回归 5. ...
【论文简述及翻译】MVSNet：Depth Inference for Unstructured Multi-view Stereo（ECCV 2018）
一.论文简述 1. 第一作者:Yao Yao 2. 发表年份:2018 Oral 3. 发表期刊:ECCV 4. 关键词:MVS.端到端网络.代价体.深度图.可微分单应变换 5. 探索动机:传统方法 ...
【论文简述及翻译】PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume（CVPR 2018）
一.论文简述 1. 第一作者:Deqing 2. 发表年份:2018 3. 发表期刊:CVPR 4. 关键词:光流估计.端到端训练.代价体.金字塔 5. 探索动机:大多数性能最好的方法都采用能量最小化 ...
【论文简述及翻译】Learning for Disparity Estimation through Feature Constancy（CVPR 2018）
一.论文简述 1. 第一作者:Zhengfa Liang.Yiliu Feng 2. 发表年份:2018 3. 发表期刊:CVPR 4. 关键词:CNN.端到端训练.视差改进.特征恒量.视差估计 5. ...
【论文简述及翻译】FlowNet: Learning Optical Flow with Convolutional Networks（ICCV 2015）
一.论文简述 1. 第一作者:Alexey Dosovitskiy等 2. 发表年份:2015 3. 发表期刊:ICCV 4. 关键词:光流估计.端到端训练.CNNs.数据集 5. 探索动机:卷积神经 ...
【论文简述及翻译】PSMNet：Pyramid Stereo Matching Network（CVPR 2018）
一.论文简述 1. 第一作者:Jia-Ren Chang 2. 发表年份:2018 3. 发表期刊:CVPR 4. 关键词:端到端训练.连接体.空间金字塔池化.堆叠沙漏的3D CNN.回归 5. 探索 ...

【论文简述及翻译】GA-Net: Guided Aggregation Net for End-to-end Stereo Matching（CVPR 2019）

一、论文简述

二、论文翻译

【论文简述及翻译】GA-Net: Guided Aggregation Net for End-to-end Stereo Matching（CVPR 2019）相关推荐

最新文章

热门文章