PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation

摘要

我们提出了PointFusion，一种利用图像和3D点云信息的通用3D对象检测方法。与使用多级管道或保持传感器和数据集特定假设的现有方法不同，PointFusion在概念上简单且与应用程序无关。图像数据和原始点云数据分别由CNN和PointNet架构独立处理。然后，由新的融合网络组合所得到的输出，该融合网络使用输入的3D点作为空间锚点来预测多个3D盒子假设及其置信度。我们在两个不同的数据集上评估PointFusion：KITTI数据集，其中包含利用激光雷达相机设置捕获的驾驶场景，以及使用RGB-D相机捕捉室内环境的SUN-RGBD数据集。我们的模型是第一个能够在不使用任何数据集特定模型调整的情况下在这些不同数据集上表现更好或与现有技术相媲美的模型。

1介绍

我们专注于3D物体检测，这是影响大多数自动机器人系统的基本计算机视觉问题，包括自动驾驶汽车和无人驾驶飞机。3D对象检测的目标是恢复场景中所有感兴趣对象的6个自由度姿势和3D边界框尺寸。虽然卷积神经网络的最新进展已经在复杂环境中实现了精确的2D检测[25,22,19]，但3D物体检测问题仍然是一个开放的挑战。从单个图像进行3D盒回归的方法，甚至包括最近的深度学习方法，如[21,36]，仍具有相对较低的准确度，尤其是在较长范围的深度估计中。因此，许多当前的现实世界系统要么使用立体声系统，要么用激光雷达和雷达增强其传感器堆栈。激光雷达混合传感器设置在自动驾驶汽车中特别受欢迎，通常由多级管道处理，它分别预处理每个传感器模态，然后使用专家设计的跟踪系统（如卡尔曼滤波器）执行后期融合或决策级融合步骤[4,7]。这样的系统在没有其他传感器的背景的情况下简化了假设并做出决策。受深度学习处理各种原始感官输入的成功启发，我们提出了一种早期的3D盒估计融合模型，它直接学习如何最佳地组合图像和深度信息。摄像机和3D传感器的各种组合广泛地应用于该领域，并且希望有一个单一的算法，其推广到尽可能多的不同问题设置。许多真实世界机器人系统配备有多个3D传感器：例如，自动驾驶汽车通常具有多个激光雷达并且还可能具有雷达。然而，目前的算法通常假设一个RGB-D相机[32,16]，它提供RGB-D图像，或单个激光雷达传感器[3,18]，它允许创建激光雷达深度的局部前视图像和强度读数。许多现有算法也做出了特定于域的特定假设。例如，MV3D [3]假设所有对象都可以在点云的自上而下的2D视图中进行分割，它适用于普通的自驾车情况，但不适用于物体可以相互叠加的室内场景。此外，自上而下的视图方法往往只适用于汽车等物体，但不适用于其他关键对象类别，如行人或骑自行车的人。与上述方法不同，我们提出的融合架构旨在与域无关，并且与3D传感器的布局，类型和数量无关。因此，它是通用的，可用于各种机器人应用。

在设计这样的通用模型时，我们需要解决异构图像和3D点云数据相结合的挑战。以前的工作通过直接将点云转换为卷积友好形式来解决这一挑战。这包括将点云投射到图像上[11]或将点云体素化[32,17]。这两种操作都涉及有损数据量化，需要特殊模型来处理激光雷达图像[34]或体素空间[27]中的稀疏性。相反，我们的解决方案将输入保留在其本机表示中，并使用异构网络体系结构对其进行处理。特别是对于点云，我们使用最近提出的PointNet [23]架构的变体，它允许我们直接处理原始点。

我们用于从图像和稀疏点云进行3D对象框回归的深层网络有三个主要组成部分：现成的CNN [13]从输入RGB图像作物中提取外观和几何特征，PointNet [23]的变体处理原始3D点云，以及融合子网络，将两个输出结合起来预测 3D边界框。如图2所示，这种异构网络架构充分利用了两个数据源，而没有引入任何数据处理偏差。我们的融合子网络具有新颖的密集3D盒预测结构，其中对于每个输入3D点，网络预测3D盒相对于该点的角位置。然后，网络使用学习评分函数来选择最佳预测。该方法的灵感来自空间锚[25]和密集预测[15]的概念。直觉是使用输入3D点作为锚点来预测相对空间位置，与直接回归每个角落的3D位置的架构相比，减少了回归目标的方差。我们证明了密集预测架构胜过直接大幅度回归3D角落位置的架构。

我们在两个独特的3D物体检测数据集上评估我们的模型。KITTI数据集[10]侧重于室外城市驾驶场景，其中行人，骑自行车者和汽车在使用摄像机 - 激光雷达系统获取的数据中进行注释。SUN-RGBD数据集[30]通过RGB-D摄像机在室内环境中记录，具有700多个对象类别。我们表明，通过结合点融合与现成的2D对象检测器[25 ]，我们获得了与为KITTI [3]和SUN-RGBD [16,32,26]设计的最先进方法相比或更好的3D物体检测。据我们所知，我们的模型是第一个在这些非常不同的数据集上获得竞争结果的模型，证明了它的普遍适用性。

图2.密集PointFusion体系结构的概述。PointFusion有两个特征提取器：一个处理原始点云数据的PointNet变体（A），以及一个从输入图像中提取视觉特征的CNN（B）。我们提出了两种融合网络公式：一种直接回归盒角位置的香草全局结构（D），以及一种新颖的密集结构，可预测8个角中每个角相对于输入点的空间偏移，如（C）所示：对于每个输入点，网络预测从角落（红点）到输入点（蓝色）的空间偏移（白色箭头），并选择具有最高分数的预测作为最终预测（E）。

2相关工作

我们概述了之前关于6-DoF对象姿态估计的工作，这与我们的方法有关。

基于几何的方法 许多方法专注于从单个图像或图像序列估计6-DoF对象姿势。这些包括2D图像与其相应的3D CAD模型[1,5,37]之间的关键点匹配，或者将3D重建模型与地面实况模型对齐以恢复对象姿势[28,9]。古普塔等人。 [12]提出使用CNN预测语义分割图以及对象姿势假设，然后使用ICP将假设与已知对象CAD模型对齐。这些类型的方法依赖于强类别形状先验或地面实况对象CAD模型，这使得它们难以扩展到更大的数据集。相反，我们的通用方法估计没有对象类别知识或CAD模型的对象的6-DoF姿势和空间维度。

从图像的3D框回归 深度模型的最新进展极大地改进了2D物体检测，并且一些方法提出用全3D物体姿势扩展目标。33]使用R-CNN提出2D RoI和另一个网络来回归对象姿势。[21]结合了一组深度学习的3D对象参数和2D RoI的几何约束来恢复完整的3D盒子。翔等人。 [36,35]通过聚类从对象模型学习的3D体素模式来联合学习依赖于视点的检测器和姿势估计器。虽然这些方法在估计物体方向方面表现出色，但是通常通过施加几何约束来处理从图像中对物体进行3D定位[21]并且仍然是缺乏直接深度测量的挑战。我们模型的关键贡献之一是它学会有效地组合互补图像和深度传感器信息。

深度数据的3D框回归 较新的研究已经提出直接解决离散化3D空间中的3D物体检测问题。宋等人。 [31]学习使用合成生成的3D特征对由3D滑动窗口生成的3D边界框提议进行分类。后续研究[32]使用Region Proposal Net-work [25]的3D变体生成3D提议，并使用3D ConvNet处理体素化点云。Li等人的类似方法。 [17]专注于检测车辆并使用3D完全卷积网络处理体素化输入。然而，由于离散化的体积表示，这些方法通常过于昂贵。例如，[32]处理一帧大约需要20秒。其他方法，例如VeloFCN [18]，专注于单个激光雷达设置并形成密集的深度和强度图像，其使用单个2D CNN处理。与这些方法不同，我们采用最近提出的PointNet [23]来处理原始点云。该设置可以容纳多个深度传感器，并且时间复杂度与范围测量的数量线性地成比例，而与3D场景的空间范围无关。

2D-3D融合陈等人的MV3D。 [3]在自上而下的激光雷达视图中生成对象检测建议，并将它们投影到前置激光和图像视图，融合所有相应的特征以进行定向框回归。这种方法假设单激光雷达设置并且在限制性假设中进行烘焙，即所有对象都在同一空间平面上，并且可以仅从点云的俯视图中进行定位，点云适用于汽车但不适用于行人和骑自行车者。相比之下，我们的方法没有场景或对象特定的限制，并且对所使用的深度传感器的种类和数量没有限制。

图1. 我们的PointFusion模型在KITTI数据集[10]（左）和SUN-RGBD [30]数据集（右）上的3D对象检测结果示例。在本文中，我们展示了我们简单而通用的传感器融合方法能够处理具有独特环境和传感器类型的数据集，并且能够在各自的数据集上更好地或与最先进的方法相媲美。

3 Pointfusion

在本节中，我们描述了我们的PointFusion模型，该模型从2D图像裁剪和通常由激光雷达传感器产生的相应3D点云执行3D边界框回归（参见图1）。当我们的模型与提供2D对象作物的最先进的2D物体探测器相结合时，例如[25]，我们得到了一个完整的3D物体探测系统。我们将理论上直接的端到端模型留待未来的工作，因为我们已经通过这种简单的两阶段设置获得了最先进的结果。此外，目前的设置允许我们插入任何最先进的探测器，而无需修改融合网络。PointFusion有三个主要组件：提取点云特征的PointNet网络变体（图2A），提取图像外观特征的CNN（图2B），以及结合了两者和输出3D边界的融合网络作物中的对象框。我们描述了融合网络的两种变体：香草全局架构（图2C）和新型密集融合网络（图2D），其中我们使用密集空间锚机制来改进3D盒子预测和两个评分函数选择最佳预测。下面，我们将详细介绍点云和融合子组件。

3.1点云网络

我们使用QI等人的PointNet架构的变型来处理输入点云〔23〕。PointNet率先使用对称函数（max-pooling）来实现无序3D点集的处理中的置换不变性。该模型摄取原始点云并学习每个点的空间编码以及聚合的全局点云特征。然后将这些特征用于分类和语义分割。

PointNet具有许多理想的属性：它直接处理原始点而无需像体素化或投影那样的有损操作，并且它与输入点的数量成线性比例。但是，原始的PointNet公式不能用于开箱即用的3D回归。在这里，我们描述了我们对PointNet所做的两项重要更改。

没有BatchNorm批量归一化已成为现代神经结构设计中不可或缺的因素，因为它有效地减少了输入特征中的协方差偏移。在最初的PointNet实现中，所有完全连接的层后面都是批量标准化层。但是，我们发现批量标准化会妨碍3D边界框估计性能。批量标准化旨在消除其输入数据的规模和偏差，但对于3D回归的任务，点位置的绝对数值是有帮助的。因此，我们的PointNet变体删除了所有批量标准化层.

输入标准化如在设置中所描述的，通过找到可以投影到框上的场景中的所有点来获得图像边界框的对应3D点云。然而，3D点的空间位置与2D盒位置高度相关，这引入了不期望的偏差。PointNet应用空间变换器网络（STN）来规范化输入空间。但是，我们发现STN无法完全纠正这些偏见。我们改为使用已知的相机几何来计算规范旋转矩阵Rc。Rc将穿过2D盒中心的光线旋转到相机框架的z轴。这在图3中示出。

图3 在输入预处理期间，我们计算旋转Rc以规范化每个RoI内的点云。

3.2融合网络

融合网络将使用标准CNN提取的图像特征和由PointNet子网络产生的对应点云特征作为输入。它的工作是组合这些功能并输出目标对象的3D边界框。下面我们提出两种融合网络配方，一种香草全球融合网络和一种新颖的密集融合网络。

全局融合网络 如图2C所示，全局融合网络处理图像和点云特征，并直接对目标边界框的八个角的3D位置进行回归。我们尝试了许多融合函数，发现两个向量的串联，然后应用了许多完全连接的层，可以获得最佳性能。然后，全局融合网络的损失函数是：

其中是地面实况框角，是预测角部位置，是[23]中引入的空间变换正则化损失，以强制学习空间变换矩阵的正交性。全局融合网络的主要缺点是回归目标的方差直接取决于特定场景。对于自动驾驶，可以预期系统检测从1米到超过100米的物体。这种差异给网络带来负担并导致次优性能。为了解决这个问题，我们转向精心研究的2D物体检测问题以获得灵感。一种常见的解决方案是通过使用滑动窗口[6]或通过预测相对于空间锚[24,8,15,25]的框位移来生成对象建议，而不是直接回归2D框。这些想法激发了我们密集的融合网络，如下所述。

密集的融合网络 该模型背后的主要思想是使用输入的3D点作为密集的空间锚点。不是直接回归3D盒角的绝对位置，而是针对每个输入3D点，我们预测从该点到附近盒子的角落位置的空间偏移。结果，网络变得与场景的空间范围无关。模型架构在图2C中示出。我们使用PointNet的变体来输出逐点特征。对于每个点，这些点与全局PointNet特征和图像特征连接，产生n×3136输入张量。密集融合网络使用多个层处理此输入，并输出3D边界框预测以及每个点的分数。在测试时，选择具有最高分数的预测作为最终预测。具体地说，密集融合网络的损失函数是：

其中N是输入点的数量，是地面实况框角落位置和第i个输入点之间的偏移量，包含预测的偏移量。是得分函数损失，我们将在下一小节中深入解释。

3D盒子参数化我们通过其8个角来参数化3D盒子，因为：（1）该表示用于当前最先进的方法[18,3]，这有利于公平比较。（2）它推广了具有N个参考点的任何3D形状，并且它适用于我们的空间锚点方案：我们可以预测空间偏移而不是角落的绝对位置。

3.3密集融合预测评分

函数的目标是将网络集中在从靠近目标框的点学习空间偏移。我们提出了两个评分函数：一个监督评分函数，它直接训练网络来预测一个点是否在目标边界框内，以及一个不可访问的评分函数，让网络选择可以产生最佳预测的点。

监督评分 受监督的评分损失训练网络预测一个点是否在目标框内。让我们将点i的偏移回归损失表示为，将第i个点的二进制分类损失表示为。

然后我们有

其中表示第i个点是否在目标边界框中，是交叉熵损失，这会损害给定点是否在框内的错误预测。如所定义的，该监督评分功能将网络集中在学习上以预测目标边界框内的点的空间偏移。然而，这个公式可能不会给出最佳结果，因为最有信心的方框内的点可能不是具有最佳预测的点。

无监督得分 无监督评分的目标是让网络直接了解哪些点可能给出最佳假设，无论他们是否最自信地在对象框内。我们需要训练网络，以便为可能产生良好预测的点分配高可信度。该公式包括两个相互竞争的损失项：我们更喜欢所有点的高置信度，但是，角落预测误差的得分与该置信度成比例。让我们将定义为点i的角偏移回归损失。然后损失变成：

其中w是两个术语之间的权重因子。上面，第二个术语编码增加ci置信度的对数奖励。我们在所有实验中凭经验找到最佳w并使用w = 0.1。

4实验

我们专注于回答两个问题：1）与保存数据集或传感器特定假设的模型相比，PointFusion在不同的传感器配置和环境中表现良好，2）密集预测体系结构的性能优于直接回归空间位置的体系结构。为了回答1），我们将我们的模型与两个不同的数据集KITTI数据集[10]和SUN-RGBD数据集[30]的现有技术进行了比较。为了回答2），我们对第3节中描述的模型变化进行了消融研究。

4.1数据集

KITTI KITTI数据集[10]包含城市驾驶场景中汽车，行人和骑车人的2D和3D注释。传感器配置包括广角相机和Velodyne HDL-64E LiDAR。官方训练集包含7481张图像。我们遵循[3]并将数据集拆分为训练集和验证集，每个集包含整个集的大约一半。我们在所有三个对象类别的验证集上报告模型性能。

SUN-RGBD SUN-RGBD数据集[30]侧重于室内环境，其中标记了多达700个对象类别。通过具有不同分辨率的不同类型的RGB-D相机收集数据集。训练和测试集分别包含5285和5050个图像。我们在测试集上报告模型性能。我们遵循KITTI培训和评估设置，但有一个例外。由于SUN-RGBD在2D和3D对象注释之间没有直接映射，因此对于每个3D对象注释，我们将3D框的8个角投影到图像平面，并使用最小的封闭2D边界框作为训练数据用于2D物体探测器和我们的模型。我们在与[26,16]相同的10个对象类别中报告模型的3D检测性能。因为这10个对象类别包含相对较大的对象，我们还在[32]的19个类别中显示检测结果，以显示我们的模型在所有大小的对象上的性能。我们在KITTI和SUN-RGBD中使用相同的超参数集。

4.2度量

我们在评估中使用3D对象检测平均精度度量（AP 3D）。如果预测的3D盒与地面真值盒的3D交合比(3D IoU)超过阈值，则预测3D盒是真阳性。我们计算每类精确回忆曲线，并使用曲线下面积作为AP度量。我们使用KITTI数据集的官方评估协议，即分别为Car，Cyclist，Pedestrian的3D IoU阈值为0.7,0.5,0.5。在[30,26,16]之后，我们对SUN-RGBD中的所有类使用3D IoU阈值0.25。

4.3实施细节

架构我们使用在ImageNet [29]上预训练的ResNet-50来处理输入图像裁剪。输出特征向量由最终残差块（块-4）产生，并在特征映射位置上平均。我们使用PointNet的原始实现，删除了所有批量标准化层。对于2D物体探测器，我们使用在MS-COCO [20]上预训练的现成的Faster-RCNN [25]实现[14]，并对实验中使用的数据集进行微调。我们在所有实验中使用相同的超参数和架构集。

训练和评估

在训练过程中，我们随机调整大小并将地面真相2D边界框沿x和y维度移动10％。这些盒子用作我们模型的输入作物。在评估时，我们使用训练的2D检测器的输出。对于每个输入2D框，我们裁剪图像并将其调整为224×224，并在训练和评估中随机采样最多400个输入3D点。在评估时，我们将PointFusion应用于每个图像的前300个2D检测器盒。通过将2D检测得分与预测的3D边界框得分相乘来计算3D检测得分。

4.4 架构

我们比较了6种模型变体，以展示我们的设计选择的有效性。

*final使用我们的密集预测架构和无监督评分功能，如第2节所述,3.3。

*dense实现具有监督评分功能的密集预测体系结构，如第2节中所述,3.3。

*dense-no-im与密集相同，但仅使用点云作为输入。

*global是一个直接回归3D框的8个角位置的基线模型，如图2D所示。

*global-no-im与全局相同，但仅将点云作为输入。

*rgb-d用通用CNN替换PointNet组件，CNN将深度图像作为输入。我们将其用作同构架构基线的示例。

4.5对KITTI的评价

概述表1显示了仅使用KITTI验证集上的汽车类别进行训练和评估的模型的综合比较，包括所有基线和最先进的方法3DOP [2]（立体声），VeloFCN [18]（LiDAR））和MV3D [3]（LiDAR + rgb）。在我们的变体中，final达到了最佳性能，而同质CNN架构rgb-d具有最差的性能，这强调了我们的异构模型设计的有效性。[3]最终模型也超出了轻松类别MV3D [3]的最新技术（中增加了3％），并且在中等类别上具有相似的性能（中减少了1.5％）。当我们使用最终的3个KITTI类别（全等）训练单个模型时，我们大致进一步增加3％，在简单示例上比MV3D增加6％，在中等增益上增加0.5％。这表明我们的模型学习了可以跨类别共享的通用3D表示。尽管如此，MV3D在硬件示例上表现优于我们的模型，这些示例是显着遮挡的对象，相当大的余量（对于所提到的两个模型，为6％和3％）。我们认为MV3D与被遮挡物体的差距是由于两个因素：1）MV3D使用鸟瞰图检测器用于汽车，与我们的前视设置相比，它更不容易受到遮挡。它还使用定制设计的汽车检测功能，通过少量培训示例可以更好地概括2）MV3D是一个端到端系统，它允许一个组件潜在地纠正另一个组件中的错误。将我们的方法转变为完全端到端的系统可能有助于进一步缩小这一差距。与MV3D不同，我们通用且简单的方法在行人和骑车人身上取得了优异的成绩，这在很大程度上是最先进的（参见表2）。

表1. 结果为KITTI数据集上的car类别。模型仅在car示例上进行训练，但Ours-final所有类别）除外，它在所有3个类别都经过训练。

表2针对所有KITTI类别培训的模型的结果。

全局与密集 密集体系结构比表1中所示的全局体系结构具有明显的优势：dense and dense-no-im分别以较大的优势优于global and global-no-im。这显示了使用输入点作为空间锚点的有效性。

监督与无监督分数 在第二节 3.3，我们引入了监督和无监督的评分功能。表1和表2显示，无监督评分功能对我们的仅限汽车和所有类别的车型表现得更好一些。这些结果支持了我们的假设，即在对象内部自信的点并不总是能够给出最佳预测的点。对于特定任务而言，最好依靠自学习评分函数而不是手工挑选的代理目标。

融合影响 仅汽车和所有类别的评估结果都表明，融合激光雷达和图像信息总是比仅激光雷达的架构产生显着的收益，但各级的收益不同。表2显示，行人（AP3D为3％至47％）和骑行者（5％至32％）的增幅最大。这些类别中的物体较小且激光雷达点较少，因此它们从高分辨率相机数据中获益最多。虽然稀疏的激光雷达点通常足以确定物体的空间位置，但图像外观特征仍然有助于估计物体的尺寸和方向。下面定性地分析这种效果。

定性结果 图4显示了仅激光雷达架构dense-no-im和我们的最终模型的一些样本预测。我们观察到融合模型比仅激光雷达模型更好地估计物体的尺寸和方向。在（a）栏中，可以看出融合模型能够确定骑车者和行人的正确方向和空间范围，而仅激光雷达模型通常输出不准确的方框。在（b）中也可以观察到类似的趋势。在（c）和（d）中，我们注意到虽然仅激光雷达模型正确地确定了汽车的尺寸，但它无法预测被遮挡或远离的汽车的正确方向。图4的第三行显示了更复杂的场景。（a）表明我们的模型正确地检测到梯子上的人。（b）显示复杂的高速公路驾驶场景。（c）和（d）表明我们的模型偶尔会在极其混乱的场景中失败。

图4. KITTI数据集的定性结果。检测结果显示在3D中的透明框和图像中的线框框中。3D方框角有颜色以指示方向：红色为正面，黄色为背面。输入2D检测框以红色显示。前两行将我们最终的激光雷达+ rgb模型与只有激光雷达的模型比较密集 - 无冲击。底行显示最终模型的更多结果。得分> 0.5的检测可视化。

输入点数 最后，我们对在测试时限制输入点数量的影响进行了研究。给定每个作物最多训练400个点的最终模型，我们改变每个RoI的最大输入点数并评估3D检测性能如何变化。如图5所示，性能保持恒定在300-500点并且在200点以下迅速降低。这表明我们的模型需要一定数量的点才能表现良好，但对变化也很有效。

图5. 消融实验：给出每个RoI的最大输入点数量的3D检测性能（）。

4.6 SUN-RGBD评估

与我们的基线比较 如表3所示，final是我们最好的模型变量，并且优于rgb-d基线6％mAP。这比KITTI数据集中的间隙要小得多，这表明CNN在给出密集深度信息时表现良好（rgb-d摄像机为每个rgb图像像素提供深度测量）。此外，rgb-d与我们的激光雷达模型大致相当，这证明了我们的Point-Net子组件和密集架构的有效性。

与其他方法比较 我们将我们的模型与现有技术中的三种方法进行比较。深度滑动形状（DSS）[32]使用提议网络生成3D区域，然后使用3D卷积网络处理它们，这非常慢。我们的模型优于DSS 3％mAP，同时速度提高15倍。Ren等人的定向梯度云（COG）。 [26]利用场景布局信息并执行详尽的3D边界框搜索，使其在几十分钟内运行。相比之下，PointFusion仅使用投射到2D检测框的3D点，并且仍然优于10个类别中的6个类别的COG，同时接近其整体mAP性能。PointFusion也比Lahoud等人的方法更有优势。 [16]，它使用多级流水线来使用对象关系信息执行检测，方向回归和对象细化。我们的方法更简单，并没有做出特定于环境的假设，但它获得了略微更好的mAP，而速度提高了3倍。请注意，为简单起见，我们的评估协议将每个图像的所有300个2D检测器提议传递给PointFusion。由于我们的2D探测器每帧仅需0.2秒，因此我们只需丢弃分数低于阈值的检测盒即可轻松获得亚秒级评估时间，并且性能损失最小。

定性结果 图6显示了19个对象类别的最终模型的一些样本检测结果。我们的模型能够检测各种尺度，方向和位置的物体。请注意，因为我们的模型不使用自上而下的视图表示，所以它能够检测位于其他对象之上的对象，例如床顶上的枕头。故障模式包括由仅在图像中部分可见的对象或来自2D检测器的级联错误引起的错误。

图6.我们在SUN-RGBD测试装置上的最终模型的样品3D检测结果。我们的模型能够在其他对象之上检测可变比例，方向甚至对象的对象。得分> 0.7的检测可视化。

5结论和未来工作

我们提供了PointFusion网络，它可以从图像和点云信息中准确估计3D对象边界框。我们的模型有两个主要贡献。首先，我们使用异构网络架构处理输入。使用PointNet模型直接处理原始点云数据，这避免了有损输入预处理，例如量化或投影。其次，我们介绍了一种新颖的密集融合网络，它结合了图像和点云表示。它预测多个三维假设相对于输入三维点，作为空间锚点，并自动学习选择最佳假设。我们表明，使用相同的体系结构和超参数，我们的方法能够在与两个截然不同的数据集上保存数据集和传感器特定假设的方法相同或更好地执行。未来工作的有希望的方向包括将2D探测器和PointFusion网络组合成单个端到端3D探测器，以及使用时间组件扩展我们的模型以在视频和点云流中执行联合检测和跟踪。

参考

[1] M. Aubry, D. Maturana, A. A. Efros, B. C. Russell, and J. Sivic. Seeing 3d chairs: exemplar part-based 2d-3d align-ment using a large dataset of cad models. In Proceedings of the IEEE conference on computer vision and pattern recog-nition, pages 3762–3769, 2014. 2

[2] X. Chen, K. Kundu, Y. Zhu, A. G. Berneshawi, H. Ma, S. Fidler, and R. Urtasun. 3d object proposals for accurate object class detection. In Advances in Neural Information Processing Systems, pages 424–432, 2015. 6, 7

[3] X. Chen, H. Ma, J. Wan, B. Li, and T. Xia. Multi-view 3d object detection network for autonomous driving. In IEEE CVPR, 2017. 1, 2, 3, 4, 5, 6, 7

[4] H. Cho, Y.-W. Seo, B. V. Kumar, and R. R. Rajkumar. A multi-sensor fusion system for moving object detection and tracking in urban driving environments. In Robotics and Automation (ICRA), 2014 IEEE International Conference on, pages 1836–1843. IEEE, 2014. 1

[5] A. Collet, M. Martinez, and S. S. Srinivasa. The moped framework: Object recognition and pose estimation for manipulation. The International Journal of Robotics Research,

30(10):1284–1306, 2011. 2

[6] N. Dalal and B. Triggs. Histograms of oriented gradients for human detection. In Computer Vision and Pattern Recognition, 2005. CVPR 2005. IEEE Computer Society Conference on, volume 1, pages 886–893. IEEE, 2005. 4

[7] M. Enzweiler and D. M. Gavrila. A multilevel mixture-of-experts framework for pedestrian classification. IEEE Transactions on Image Processing, 20(10):2967–2979, 2011. 1

[8] D. Erhan, C. Szegedy, A. Toshev, and D. Anguelov. Scalable object detection using deep neural networks. In Proceedings of the IEEE Conference on Computer Vision and

Pattern Recognition, pages 2147–2154, 2014. 4

[9] V. Ferrari, T. Tuytelaars, and L. Van Gool. Simultaneous object recognition and segmentation from single or multiple model views. International Journal of Computer Vision,67(2):159–188, 2006. 2

[10] A. Geiger, P. Lenz, and R. Urtasun. Are we ready for autonomous driving? the kitti vision benchmark suite. In Computer Vision and Pattern Recognition (CVPR), 2012 IEEE Conference on, pages 3354–3361. IEEE, 2012. 1, 2, 5

[11] M. Giering, V. Venugopalan, and K. Reddy. Multi-modal sensor registration for vehicle perception via deep neural networks. In High Performance Extreme Computing Conference (HPEC), 2015 IEEE, pages 1–6. IEEE, 2015. 2

[12] S. Gupta, P. Arbeláez, R. Girshick, and J. Malik. Aligning 3d models to rgb-d images of cluttered scenes. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4731–4740, 2015. 2

[13] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770–778, 2016. 2

[14] J. Huang, V. Rathod, C. Sun, M. Zhu, A. Korattikara, A. Fathi, I. Fischer, Z. Wojna, Y. Song, S. Guadarrama, and K. Murphy. Speed/accuracy trade-offs for modern convolu-tional object detectors. In Proceedings of the IEEE international conference on computer vision, 2017. 5

[15] L. Huang, Y. Yang, Y. Deng, and Y. Yu. Densebox: Unifying landmark localization with end to end object detection. arXiv preprint arXiv:1509.04874, 2015. 2, 4

[16] J. Lahoud and B. Ghanem. 2d-driven 3d object detection in rgb-d images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 4622–4630, 2017. 1, 2, 5, 8

[17] B. Li. 3d fully convolutional network for vehicle detection in point cloud. IROS, 2016. 2

[18] B. Li, T. Zhang, and T. Xia. Vehicle detection from 3d lidar using fully convolutional network. arXiv preprint arXiv:1608.07916, 2016. 1, 2, 4, 6, 7

[19] T.-Y. Lin, P. Goyal, R. Girshick, K. He, and P. Dollr. Focal loss for dense object detection. In Proceedings of the IEEE international conference on computer vision, 2017. 1

[20] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ra-manan, P. Dollár, and C. L. Zitnick. Microsoft coco: Com-mon objects in context. In European conference on computer vision, pages 740–755. Springer, 2014. 5

[21] A. Mousavian, D. Anguelov, J. Flynn, and J. Kosecka. 3d bounding box estimation using deep learning and geometry. IEEE CVPR, 2017. 1, 2

[22] T.-Y. L. nad Piotr Dollar, R. Girshick, K. He, B. Hariharan, and S. Belongie. Feature pyramid networks for object detection. In IEEE CVPR, 2017. 1

[23] C. R. Qi, H. Su, K. Mo, and L. J. Guibas. Pointnet: Deep learning on point sets for 3d classification and segmentation.arXiv preprint arXiv:1612.00593, 2016. 2, 3, 4

[24] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi. You only look once: Unified, real-time object detection. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 779–788, 2016. 4

[25] S. Ren, K. He, R. Girshick, and J. Sun. Faster r-cnn: Towards real-time object detection with region proposal networks. In Advances in neural information processing systems, pages 91–99, 2015. 1, 2, 3, 4, 5

[26] Z. Ren and E. B. Sudderth. Three-dimensional object detection and layout prediction using clouds of oriented gradients.In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1525–1533, 2016. 2, 5, 8

[27] G. Riedler, A. O. Ulusoy, and A. Geiger. Octnet: Learning deep representationsat highresolution. InProceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2017. 2

[28] F. Rothganger, S. Lazebnik, C. Schmid, and J. Ponce. 3d object modeling and recognition using local affine-invariant image descriptors and multi-view spatial constraints. International Journal of Computer Vision, 66(3):231–259, 2006.2

[29] O. Russakovsky, J. Deng, H. Su, J. Krause, S. Satheesh, S. Ma, Z. Huang, A. Karpathy, A. Khosla, M. Bernstein, A. C. Berg, and L. Fei-Fei. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision (IJCV), 115(3):211–252, 2015. 5

[30] S. Song, S. P. Lichtenberg, and J. Xiao. Sun rgb-d: A rgb-d scene understanding benchmark suite. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 567–576, 2015. 1, 2, 5

[31] S. Song and J. Xiao. Sliding shapes for 3d object detection in depth images. In European conference on computer vision,pages 634–651. Springer, 2014. 2

[32] S. Song and J. Xiao. Deep sliding shapes for amodal 3d object detection in rgb-d images. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,pages 808–816, 2016. 1, 2, 5, 8

[33] S. Tulsiani and J. Malik. Viewpoints and keypoints. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1510–1519, 2015. 2

[34] J. Uhrig, N. Schneider, L. Schneider, U. Franke, T. Brox,and A. Geiger. Sparsity invariant cnns. arXiv preprint arXiv:1708.06500, 2017. 2

[35] Y. Xiang, W. Choi, Y. Lin, and S. Savarese. Data-driven 3d voxel patterns for object category recognition. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 1903–1911, 2015. 2

[36] Y. Xiang, W. Choi, Y. Lin, and S. Savarese. Subcategory-aware convolutional neural networks for object proposals and detection. In Applications of Computer Vision (WACV),

2017 IEEE Winter Conference on, pages 924–933. IEEE, 2017. 1, 2

[37] M. Zhu, K. G. Derpanis, Y. Yang, S. Brahmbhatt, M. Zhang, C. Phillips, M. Lecce, and K. Daniilidis. Single image 3d object detection and pose estimation for grasping. In Robotics and Automation (ICRA), 2014 IEEE International Conference on, pages 3936–3943. IEEE, 2014. 2

PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation相关推荐

3D Bounding Box Estimation Using Deep Learning and Geometry 论文笔记
3D Bounding Box Estimation Using Deep Learning and Geometry 论文链接: https://arxiv.org/abs/1612.00496 一 ...
3d object是什么文件_[单目3D目标检测论文笔记] 3D Bounding Box Estimation
本文是3D Bounding Box Estimation Using Deep Learning and Geometry的论文笔记及个人理解.这篇文章是单目图像3d目标检测的一个经典工作之一.其目 ...
Deep3Dbox(3D Bounding Box Estimation Using Deep Learning and Geometry)理解
文章目录本文创新点作者Ideal来源作者方法核心思想目标 MultiBin loss 约束训练数据增强网络结构及loss 角度loss 维度loss 实验推理性能参考资料文中所 ...
3D bounding box网络简化
3D bounding box网络简化原始网络vgg19(出来512x7x7)加三个分支的全连接网络. 修改先采用resnet19替换vgg19 直接采用tochvision的resnet19网络 ...
3d bounding box 标注工具
3d bounding box 标注工具 3d-bat / 257star point-cloud-annotation-tool /266star SUSTechPoints /131star La ...
[VOT15](2021CVPR)Alpha-Refine: Boosting Tracking Performance by Precise Bounding Box Estimation
先贴一张整体流程图:(Alpha-Refine即插即用,无需再训练) Abstract 提出问题:许多跟踪器采用多阶段策略来提升边界框估计,其先粗略地估计目标位置然后在接下来的阶段精调初始的预测结果. ...
【论文阅读】【三维目标检测】VoteNet：Deep Hough Voting for 3D Object Detection in Point Clouds
文章目录 Hough Voting VoteNet 网络结构 Voting in Point Clouds Object Proposal and Classification from Votes ...
Seeing Through Fog Without Seeing Fog:Deep Multimodal Sensor Fusion in Unseen Adverse Weather （翻）
Title:Seeing Through Fog Without Seeing Fog:Deep Multimodal Sensor Fusion in Unseen Adverse Weather ...
3D空间中的AABB(轴向平行包围盒, Aixe align bounding box)的求法
引言在前面的一篇文章中讲述了如何通过模型的顶点来求的模型的包围球,并且还讲述了基本包围体除了包围球之外,还有AABB包围盒.在这一章,将讲述如何根据模型的坐标求得它的AABB盒. 表示方法 AABB ...

PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation

PointFusion: Deep Sensor Fusion for 3D Bounding Box Estimation相关推荐

最新文章

热门文章