VoxelNet：End-to-End Learning for Point Cloud Based 3D Object Detection阅读笔记

前言

本文首发于公众号【3D视觉工坊】，原文请见VoxelNet阅读笔记

主要思想和创新点

三维点云中目标的精确检测是许多应用中的核心问题，如自主导航、管家机器人和增强/虚拟现实等。为了将高度稀疏的激光雷达点云与区域建议网络（RPN）连接，大多数现有的工作都集中在手工制作的特征表示上，例如，鸟瞰图投影。
这项工作消除了人工特征工程对三维点云的需求，提出了VoxelNet，一种将特征提取和box预测统一为一个单阶段、端到端可训练的深度通用三维检测网络。具体来说：
1、提出了VoxelNet，一种通用的三维检测框架，它可以从点云中同时学习区分特征表示，并以端到端的方式预测精确的三维边界框。
2、设计了一种新的体素特征编码（VFE）层，通过将点特征与局部聚集特征相结合，实现了体素内部的点间交互，通过叠加多个VFE层可以学习复杂特征来表征局部3D形状信息。
3、 VoxelNet将点云划分为等间距的三维体素，通过叠加的VFE层对每个体素进行编码，然后三维卷积进一步聚集局部体素特征，将点云转化为高维体素表示。
4、 RPN使用体积表示并产生检测结果。这种有效的算法既有稀疏点结构的优点，又有体素网格上高效并行处理的优点。
5、本网络主要面向RPN+点云操作，并没有建立类别级的分类，作为一个通用的面向激光雷达点云操作的RPN框架使用。

在KITTI汽车检测基准上的实验表明，VoxelNet在很大程度上优于最新的基于激光雷达的三维检测方法。此外，网络能够学习到各种几何体的物体的有效区分表示，从而在仅基于激光雷达的行人和骑自行车者的三维检测中取得令人鼓舞的结果。

网络结构

如下图所示，网络主要包括三个模块：Feature Learning Network、Convolutional Middle Layers和Region Proposal Network。
居中的图片:

针对Feature Learning Network：首先对3D点云进行体积划分，然后进行特征提取，特征提取部分主要包括一系列的VFE模块进行处理，最终输出一个4D的tensor供下Convolutional Middle Layers进行处理。
其中VFE特征编码网络结构：

针对Convolutional Middle Layers：
每个卷积中间层依次应用3D卷积、BN层和ReLU层。卷积中间层在逐渐扩展的感受野中聚集体素特征，为形状描述添加更多的信息。

针对Region Proposal Network：RPN的输入是由卷积中间层提供的特征映射。这个网络的架构如下图所示。该网络有三个完全卷积层块，每个块的第一层通过步长为2的卷积将特征映射进行下采样，紧接着是步长为1的卷积操作。每个卷积层之后，应用BN和ReLU操作。然后，将每个块的输出数据提升到一个固定的大小并进行concatanate，以构建高分辨率的特征映射，最后的RPN在该特征图上进行操作，输出概率得分图和回归图。

损失函数：由于VoxelNet主要针对region proposal任务，并不做类别判断。Loss部分主要由3D box参数和前景背景判断组成如下所示：

box参数的定义，包括长宽高、角度以及中心坐标：

实验结果

主要针对KITTI数据集中的Car、Pedestrian和Cyclist进行测试，多模型效果对比如下所示：

将检测效果映射到RGB图像：