Orientation-boosted Voxel Nets for 3D Object Recognition–ORION论文阅读

三维物体识别的定向增强体素网络–Orion
orientation 翻译为定向，方位，方向等

一、论文翻译

摘要
最近的工作在使用3D卷积网络的3D物体识别中显示出良好的识别结果。在本文中，我们证明了物体方向//面向对象（ object orientation）在3D识别中起着重要的作用。更具体地说，我们认为对象在旋转下会诱发（induce）网络中的不同特征。因此，我们将类别级别（category-level）的分类任务作为多任务问题进行处理，在该问题中，除了将类别标签（class label）作为并行任务之外，还训练了网络来预测对象的姿态。我们表明，这在分类结果上有了显著改进。我们在代表各种3D数据源的几个数据集上测试了建议的体系结构：LiDAR数据，CAD模型和RGB-D图像。我们报告了有关分类的最新结果（state-of-the-art），以及3D检测超过基线的准确性和速度的显着提高。

1.Introduction

近年来，产生三维点云的各种设备已经得到了广泛的应用，例如汽车和机器人的距离传感器，或者像Kinect这样的深度相机。从运动结构和SLAM方法已经相当成熟，并产生合理的点云。随着深度学习的日益普及，识别功能不再是人工设计的，而是由网络来学习的。因此，从2D到3D识别只需要在网络体系结构[21，38]中进行微小的概念变化。
在本文中，我们详细阐述了利用三维卷积网络进行三维识别的方法，重点研究了辅助任务学习方面的问题。通常，一个深层次的网络被直接训练成感兴趣的任务，也就是说，如果我们关心类标签（ class labels），网络就会被训练来产生正确的类标签。这种方法没有任何问题。然而，它需要网络学习基本的概念，如对象姿态，概括为数据的变化（generalize to variations in the data）。通常情况下，网络并不学习完整的基本概念，而是一些只部分推广到新数据的表示。
本文主要研究了物体方向//面向对象（ object orientation）的概念。实际任务只关心对象标签，而不关心其方向。然而，要生成正确的类标签，网络表示的至少一部分必须与对象的方向保持不变，这在3D中并不简单。有效地，为了在分类任务上取得成功，网络也必须解决定位估计任务（orientation estimation task），但是损失函数并没有给出解决这一辅助任务（auxiliary task）的任何直接指示。我们显示，在训练中强迫网络产生正确的方向会显着地提高分类的准确性-图1。
我们介绍了一种实现这种思想的网络体系结构，并在4种不同的数据集上对其进行了评价，这些数据集表示点云的大量采集方法：激光测距扫描器、RGB-D图像和CAD模型。网络的输入是从这些数据源中的任何一个获取的对象候选，这些数据源作为占用网格输入到网络。我们将没有定位信息的基线与我们的定向增强版本进行了比较，并在所有实验中获得了更好的结果。我们还比较了现有的三维分类方法，并在大多数实验中使用我们的shalow定向增强网络实现了最新的结果。在我们的实验范围内，我们扩展了Modelnet 40数据集，该数据集由超过12k个对象组成，每类对齐使用一些自动对齐过程[28]。我们将提供附加注释（additional annotation）。
我们还将分类器应用于三维检测场景中，采用了一种简单的3D滑动盒方法。在这种情况下，方位估计不再仅仅是一项辅助任务，它还决定了盒的方向，大大减少了3D检测器的运行时间。
图1：向3D分类网络添加定向分类作为辅助任务，提高了其类别级分类精度。

2 Related Work

大多数以前关于3D对象识别的工作都依赖于手工制作的特征描述符（handcrafted feature descriptors），例如点特征直方图（Point Feature Histograms）[26，27]，3D形状背景（ 3D Shape Context）[19]，或旋转图像（Spin Images）[18]。基于曲面法线的描述符也非常流行[14,23]。Yulanguo等人[40]对这些描述符进行了广泛的调查。
三维识别的特征学习第一次出现在RGB-D图像的上下文（the context of RGB-D images）中，其中深度被视为额外的输入通道[1，6，8]。因此，在概念上非常类似于图像中的特征学习的方法。Gupta等[12]对其进行了研究，并将3D合成模型投影到图像平面中。
三维卷积神经网络(CNNs)已经出现在视频中。Tran等人[35]使用视频帧堆栈作为3D信号，使用他们的3D CNN(称为C3D)来处理多个视频分类任务。3D CNN不仅限于视频，还可以应用于其他三维输入，如点云，就像我们的工作中那样。
最密切相关的是吴等人的工作。[38]和Maturana&Sherer[21]，即3D ShapeNets和VoxNet。吴等人使用深度置信网络（Deep Belief Network）将几何三维形状表示为三维体素网格上二元变量的概率分布。他们也使用他们的方法从深度地图完成形状。ModelNet数据集是随着他们的工作而引入的。VoxNet[21]是由一个简单但有效的CNN组成的，它接受类似Wu等人的输入体素网格。[38]。在这两项工作中，通过旋转对象来增强训练数据，使网络学习到一个旋转不变性的特征表示。然而，与本文提出的网络相比，网络不是强制输出对象方位（ object orientation,），而仅仅是它的类标签。而在原则上，类标签的损失应该是网络学习不变表示的充分动力，而我们的实验表明，方向上的一个明确的损失有助于网络学习这种表示。
苏等人[34]利用物体的姿态显式地从多个角度绘制三维物体，并使用二维CNN的组合结构中的投影图像来提取特征。然而，这种方法仍然依赖于图像中对象的外观，而这种方法只在能够呈现的稠密表面表现得很好。对于稀疏和潜在不完整的点云，这种方法是不适用的。宋等人[32]关注于RGB-D场景中的三维物体检测。他们利用3D CNN的3D对象包围框建议。在识别部分，它们结合了三维的几何特征和二维的颜色特征。
最近有几个3D数据集可用。悉尼城市物体（Sydney Urban Objects）[7]包括从距离扫描器中获得的点云。Sun-RGBD[33]和Sun-3D[39]在一个地方收集一些重构的点云和RGB-D数据集，在某些情况下，它们还为原始数据集添加额外的注释。在本文中，我们使用了Sun-RGBD为NYU-DepthV2数据集[30]提供的注释。ModelNet是一个由合成的3D对象模型组成的数据集[38]。Sedaghat&Brox[28]利用运动的结构和关于场景结构的一些假设，从单目视频中创建了带注释的三维点云汽车数据集。
最近并与这项工作并行，在监督[2，9，13]，半监督[24]和无监督[37]方法中，仅在Model NET [38]的3DCAD模型上使用了2D或3DCNNs。虽然我们的主要架构与大多数模型相比是相当浅的，而且与依赖于高分辨率输入图像的方法相比，我们使用了相当低的分辨率，但是我们仍然提供了在对齐模型Net10子集上的最新技术结果，并且ModelNet40子集的粗略和自动对齐的版本上有着不相上下的结果。
大多数发布的检测工作都试图直接在图像的2D空间中检测对象。Wang&Poner[36]是最早利用点云获取对象建议的。在另一个工作线中，Gonez等人[11]和Chen等[5]将2D和3D数据混合用于检测。许多作者，包括Li等[20]和Huang等[15]采用多任务方法来处理任务。

3 Method

核心网络体系结构基于VoxNet[21]，如图2所示。它以一个三维体素网格为输入，包含两个带有3D滤波器的卷积层，和两个全连接层。虽然这一选择可能不是最优的，但我们保持它能够直接与我们对VoxNet的修改相比较。此外，我们试验了一个稍微深一点的网络，它有四个卷积层。
点云和CAD模型被转换为体素网格(占位网格)。对于NYUv 2数据集，我们使用了提供的转换工具；对于其他数据集，我们实现了自己的版本。我们尝试了二元值和连续值占用率网格。最后，结果的差异是可以忽略不计的，因此我们只报告了前者的结果。

图2-基本方向增强。类标签和定向标签是两个独立的输出。分配给每个类的定向标签的数量可能与其他类不同。这两项产出对训练的贡献是相等的-具有相同的权重。

多任务学习

通过增加方向估计作为辅助并行任务来修改基线结构。我们称由此产生的体系结构为定向增强体素网络（ORIentation-boosted vOxel Net – ORION）。不失一般性，在实际应用中，我们只把围绕z轴(方位角)的旋转看作是方位变化最大的分量。在这篇文章中，我们使用“定向/方位”（orientation）一词来指这个分量。
定向是连续的变量，并且网络可以被训练以提供这样的输出。然而，该思想是对对象的不同方位进行不同的处理，因此我们将方位估计作为分类问题。这也是数据集约束的放松，因为数据的粗略对齐消除了对严格定向注释的需要。该网络具有产生类标签空间和方向的输出节点，并学习映射：

xi是输入实例，ci是他们的对象类标签和定向（方位）标签。
我们不将不同的对象类中相同的定向/方位放入同一方向类中，因为我们不试图从对象的绝对姿态中提取任何信息。共享所有类的定向输出将使网络学习在类之间共享的特征，以确定方向，这与我们想要的方向相反：利用定向估计作为辅助任务来改进对象分类。例如，不需要45°方位的桌子与具有相同方向的车共享任何有用信息。
我们为这两个任务选择多项交叉熵损失（multinomial cross-entropy）[25]，因此我们可以通过对它们求和来组合它们：

Lc是物体分类的损失，Lo是定向估计任务的损失。我们使用了相等的损失权重(伽马γ＝0.5)，并且在我们的分类实验中发现，结果不依赖于在该值附近权重γ的精确选择。然而，在其中方位估计不再是辅助任务的检测实验之一中，我们使用较高的权重用于定向输出以提高其准确性。
由于不同的对象对称性，每个对象类的定向标签的数量不同-图2。我们不希望网络试图区分，例如，一张桌子和它旋转180度后的副本。出于同样的原因，对于旋转对称的对象，如极点，或旋转中性的对象，例如不能分配有意义方位标签的树，我们只指定一个节点。这是在较小的数据集中手动决定的。然而，在较大的Modelnet 40数据集的自动对齐过程中，定向的数量也会自动分配给不同的类。详情见补充材料。

Voting

也可以在网络的入口利用对象定向。在测试阶段，我们将测试对象的多个旋转馈送到网络，并基于从每个推断传递获得的票数获得关于类标签的最终共识，如下所示：

Sk是网络分配给物体主（物体类别）输出层第k个节点的分数，xr是有旋转指数r的测试输入。

4 Datasets

我们在四个数据集中对我们的网络进行训练和测试，其中三个数据集在图3中示出。我们选择了数据集，使得它们代表不同的数据源。

Sydney Urban Objects - LiDAR/Pointcloud

该数据集包括26个类别中的631个对象的LiDAR扫描。数据集中的对象“点云”始终是不完整的，因为它们仅由来自单个视点的LiDAR传感器看到。因此，这些对象的质量绝对比不上合成的3D对象，这使得分类成为一项具有挑战性的任务，甚至对于人眼也是如此；参见图3。在我们的类别级分类中，这个数据集也是特别关注的，因为它提供了对车辆的严格分类：4wd、公交车、汽车、卡车、ute和van都是不同的类别。我们使用与[21]相同的设置来使我们的结果与他们的结果相当。点云被转换为大小为32x32x32的体素栅格，其中对象占用28x28x28空间。在每个边上使用大小2的Zero-paddings(补零)来实现训练过程中的置换增强。我们还注释了方向以使数据适合我们的方法。我们将向公众提供这些数据。

图3-来自我们在实验中使用的各种3D数据集的示例。在顶部，两个描述了来自NYUv2[30]和Sydney[7]数据集的示例场景。下面的样本来自ModelNet数据集。KITTI数据集与悉尼数据集相似，此处未显示。

NYUv2 - Kinect/RGBD

此数据集包含对应于10个对象类的总数量的2808个RGBD图像。类类型与ModelNet10数据集共享。我们使用尺寸为32x32x32的体素栅格，其中包含大小的主要对象28x28x28。其余部分包括对象的背景，并且每个对象的最大数量为12个旋转。数据集不提供方向注释，因此我们使用Sun-RGBD基准提供的注释[33]。

ModelNet - Synthetic/CAD

该数据集由合成的CAD模型组成。ModelNet 10子集由与NYUv 2数据集中相同类的一致对齐对象组成。此数据集中的对象网格被转换为大小为28x28x28的体素网格，类似于NYUv 2设置。ModelNet 40子集不附带对齐项(或方向注释)。因此，我们提供了方向的手动注释，我们将公开提供。此外，我们运行了一个无监督的自动化过程来对齐ModelNet 40的样本。详情请参阅补充资料。

KITTI - LiDAR/Pointcloud

Kitti数据集[10]在其目标检测任务中包含7481幅训练图像和7518幅测试图像。每一幅图像都代表一个场景，其中也有一个相应的Velodyne点云。在图像中提供了2D和3D边界框注释。使用所提供的摄像机校准参数，它们可以转换为Velodyne扫描仪的坐标。我们只在检测实验中使用这个数据集。为了能够在多个层次上报告和分析我们的方法的效果，我们将公开可用的训练集分成80%和20%的子集，分别用于训练和测试。

5 Experiments and Results

5.1 Classification

所有数据集上的分类结果如表1所示。对于悉尼城市对象数据集，我们报告了按类支持加权的平均F1分数，如[38]中所示，以便能够与他们的工作进行比较。这个加权平均值考虑到这个数据集中的类是不平衡的。对于其他数据集，我们报告平均精度。悉尼数据集提供了4个折叠/子集用于交叉验证；在每个实验中，三个折叠用于训练，一个用于测试。此外，由于该数据集的大小较小，我们用不同的随机种子运行每个实验三次，并报告所有12个结果的平均值。
我们实现了对基线的明确改进，并报告了所有三个数据集的最新结果，与以前的最先进的相比，它的架构要浅得多（2 vs 43conv）以及大量节省了参数（1M vs.18M）。
我们还实验了一个稍微深一点的网络（表1的最后一行），但发现网络开始在较小的数据集上过拟合（overfit）。这个扩展架构的细节可以在补充材料中找到。
表1-在三个数据集上分类结果以及与最先进方法的比较。我们报告整体分类的准确性，除了悉尼数据集，我们报告加权平均F1得分。方向估计的辅助任务明显提高了所有数据集的分类精度，我们报道了该方法的单网络结果。

5.1.1 Non-aligned Dataset

由于Modelnet 40数据集没有附带对齐，所以我们手动注释了方向。作为替代，我们还使用Sedaghat&Brox[28]中引入的方法，以无监督的方式逐个类对齐对象。这一过程的细节可在补充材料中找到。表2显示了在训练期间使用额外注释所获得的巨大改进。有趣的是，自动对齐几乎和乏味的手动定位标记一样好。这表明网络甚至可以从粗略的注释中受益。
由于训练样本数目多，具有四个卷积层的深层网络比只有两个卷积层的网络表现更好。
批标准化(Batch normalization，BN)是众所周知的在网络训练时帮助解决问题[16]。在卷积层中添加批归一化会使结果得到一致的改进；例如，参见表2。我们推测，批归一化会导致来自第二个任务的误差更深地传播到网络中。

图4-一些样本分类结果。我们展示了这样的例子,在这些例子中,这两个网络是不同的。

表2-ModelNet40的分类精度。训练期间的方向信息即使当通过无监督对齐方式获得方向标签时[28]，也可以显然地提高分类精度。事实上，手工分配的标签不会产生任何明显的改进。批标准化和两个附加的卷积层提高了结果。

5.2 Detection

我们在检测场景中测试了我们建议的方法的性能，其中方向敏感网络被用作二进制对象分类器，用于以滑动窗口的方式为3D边界框建议分配分数。我们测试了3D检测器以检测Kitti数据集中的汽车。
图5在这种示例性检测场景中量化了Orion体系结构的改进。仅仅将我们的体系结构作为一个二进制分类器，就能显着地拉出PR曲线，提高平均精度。在这种情况下，我们只依赖于网络的对象分类输出，并对旋转进行了穷举搜索–18个旋转步骤覆盖360度。当我们利用网络的定向输出来直接预测对象的方位时，主要的优点就是实现了。这导致了18倍运行时间的提升。我们还注意到，通过增加方位输出的损失权重，从而强调方位，进一步提高了检测结果。
值得注意的是，与大多数在Kitti数据集的RGB图像中运行检测的检测器相比，我们不使用RGB图像，而只使用3D点云。我们通过在训练集中获得汽车尺寸的统计度量限制了对比例和纵横比空间的搜索。

图5-在左上角，样本场景的检测框显示在其三维点云表示中。然后，3D框被投影到2D图像平面-右上角。绿色盒子是真实车。蓝色和红色分别显示真假。下面一行显示了用于多个检测实验的精确召回曲线。

6 Analysis

为了分析定向增强网络的行为，我们将其与相应的基线网络进行了比较.为了找出对应关系，我们首先对基线网络进行足够长的训练，使其达到一个稳定的状态。然后利用训练后的网络初始化ORION的权重，并以较低的学习率继续训练。我们发现一些滤波器倾向于对物体的定向特异性（orientation-specific）特征变得更加敏感。我们还发现，在基线网络中，一些滤波器作为类中所有可能的旋转对象的主导滤波器，而Orion则设法将贡献分布在不同的滤波器上，以适应不同的方向。补充材料中给出了这些实验和可视化的细节。

7 Conclusions

对于三维对象分类任务，通过在训练过程中增加概念作为辅助任务，可以支持对某些概念的学习，如目标方向的不变性。通过迫使网络在训练过程中也产生目标方向，在测试时获得了较好的分类结果。这一发现在所有数据集上都是一致的，并使我们能够在大多数数据集上建立最先进的结果。该方法也适用于一种简单的滑动三维盒的三维检测。在这种情况下，网络的方向输出避免了对对象旋转的穷举搜索。

Supplementary Material

8 Auto-Alignment of the Modelnet40 dataset

Modelnet40 [38]由40个类别中的12000多个未对齐对象组成。我们使用Sedaghat＆Brox [28]的方法来逐个类别自动对齐对象。

Mesh to Point-Cloud Conversion

[28]的自动对齐方法使用对象的点云表示作为输入。因此，我们通过把均匀分布的点分配给对象面来将Modelnet40的3D网格转换为点云。
网格中的隐藏面需要删除，因为[28]的所谓的“分层方向直方图”（Hierarchical Orientation Histogram，HOH）主要依赖于对象的外表面。我们使用“环境遮挡”方法的Jacobson实现[17]解决了这个问题[22]。
我们试图在不同的表面上大致以相同的密度分布点，而不管它们的形状和大小如何，以避免朝向更大/更宽的点的偏置。我们的基本点云由每个对象的大约50000个点组成，然后使用[28]中使用的平滑签名距离曲面重建方法（Smooth Signed Distance surface reconstruction method，SSD)[3]将其转换为较轻的模型。

Auto-Alignment

我们首先在每个类中创建了一个“参考集”，包括一个随机的其对象的子集，初始大小为100。然后，根据[28]，当从参考集中自动删除低质量对象时，这个数字被减少。然后使用此参照集将类的剩余对象逐个对齐。
对于HOH描述符，我们对根组件分别使用了φ和θ维度中的32和8个除法（divisions）。我们还使用了8个子组件，16个除法用于φ，4个用于θ-参见[28]。

Automatic Assignment of Number of Orientation Classes

自动分配定向类数量
正如在正文中指出的，对于所有的对象类别，我们没有使用相同数量的定向类。我们用一种方法实现了自动对齐过程，该参数是为每个类别自动确定的：在生成每个类中的参考集时，对齐过程使用3种不同的配置，搜索空间分别跨越360、180和90度旋转。每次运行都会产生一个误差度量，表示作为参考集的模型的总体质量，我们尽可能为每个类别分别指定12、6和3个定向级别。当所有这些都不起作用时，例如对于“flower_pot”类，我们分配了一个相当于丢弃定向信息的定向类。

9 Analysis

为了分析定向增强网络的行为，我们将其与相应的基线网络进行了比较。我们想知道这两个网络中相应滤波器的区别。为了找到这种对应，我们首先训练一个基线网络，没有方向输出，足够长的时间，使它达到一个稳定的状态。然后，我们使用这个经过训练的网络初始化ORION网络的权重，并以较低的学习率继续训练。这样，我们就可以监视学习到的特征在从基线到定向感知网络的转换中是如何变化的。
在图6中，描述了单个样本滤波器的转换，并举例说明了它对输入对象的不同旋转的响应。结果表明，滤波器对输入对象的方向特性更加敏感。此外，对象的某些部分，如桌子腿，显示了对定向感知网络中的滤波器的更强响应。

图6-图说明了第一层的一个节点的激活，而网络从基线网络过渡到Orion。输入始终是相同的对象，在每一步(行)可能的离散旋转(列)中输入到网络。我们通过先训练基线网络，然后在学习权重的基础上微调我们的定向感知架构来模拟这一转变。为了能够描绘3D特征图，我们必须在一个特定的阈值以下删除值。可以看到，编码滤波器检测到物体更多的方向-特定的方面，因为它在学习方向中前进。此外，滤波器似乎对一个桌子变得更加敏感，而不仅仅是一个水平的表面–注意下面几行中出现的桌子腿。

通过这样的观察，我们尝试为具有不同方向的特定对象类分析网络的总体行为。为此，我们介绍了网络的“主导信号流通路”（dominant signal-flow path）。该思想是，尽管网络的所有节点和连接都有助于形成输出，但是在某些情况下可能存在一组节点，这在该过程中对于特定类型的对象/方向具有明显较高的效果。为了测试这一点，我们采取了一步一步的方法：首先在向前传递时，找到对象的类c。然后，我们寻找最后一个隐藏层的最高贡献节点：

n是层数，akn-1 表示n-1层的激活，w是第n层连接akn-1到第c个节点的权重。这种方式我们天真地认为贡献中存在显著的最大值并将其索引分配给ln-1。后来我们将看到这一假设在我们的许多观察中证明是正确的。我们继续“回溯”信号，到前几层。将上式（4）扩展到卷积层是很简单的，因为我们只想在每个层中找到节点/滤波器的索引。最后，让l的n次方ln=c给出长度等于网络层数的向量l，其中保留了最佳贡献者的索引。现在，为了描述一组对象的“主导信号-流路径”，我们只需获得组中每个成员的l，并将l的i次方的直方图绘制为一列。图7(a)显示了对象的特定类旋转的这样一个例子。可以清楚地看到，对于这个组中的许多对象，特定的节点已经占据主导地位。
在图7(b)中，演示了Modelnet 10数据集中某些示例对象类别的基线和ORION网络的主要路径。可以看出，在基线网络中，类的各种旋转之间的主导路径大多共享一组特定的节点。这主要是可见于卷积层-例如，见红色方框。相反，Orion网络中的主导路径很少遵循这一规则，并且具有更多的分布路径节点。我们将此解释为定向增强的结果之一，也是提高网络分类能力的一个帮助因素。

图7-(a)显示网络的“主导信号-流路径”，用于示例对象类别-方向。每个列包含一个层的节点的激活。显然，这些列具有不同的尺寸。较高的强度显示了特定对象组的主导节点。在文本中说明了形成这种图示所采取的步骤的细节。在(b)中，行表示对象类，而在不同的列中，我们显示物体的旋转。因此每个单元是特定对象类别的特定旋转。可以看出，在基线网络中，类的许多旋转，在其主导路径中共享节点(例如，参见红色框)，而在Orion网络中，路径更分布在所有节点上。

10 Extended Architecture

表3-正文中表1和表2中介绍的扩展体系结构的详细信息。在不同的实验中，用于定向输出的节点数目不同。

11 Orientation Estimation Results

虽然方位估计仅仅用作辅助任务，但是在表4中，我们报告了所估计的定向类的精度。注意到通过强调这一任务可能获得更好的定向估计结果，例如参见正文中的检测实验。

表4-不同数据集的方向估计精度。第二行的扩展体系结构是正文中引入的，并在本文档的表3中详述。