量化结果。使用LiDAR检测的3D BoundingBox被投影到RGB图像

1. 论文综述

3D点云中目标的精准检测是很多应用场景的核心问题，如自动驾驶，家居机器人，虚拟/增强现实。为了将高度稀疏的LiDAR点云与区域候选网络连接在一起，很多研究学者将关注带你放在手工设计的特征表达，例如鸟瞰投影a bird's eye view projection. 这份工作中作者放弃了人工设计特征，直接提出了端到端的VoxelNet进行3D目标检测。具体来说，VoxelNet将点云划分为等间距的三维体素，并通过新引入的体素特征编码(VFE)层将每个体素内的一组点转换为统一的特征表示。这样，点云可以被编码成可以描述的体积表征，进而他被量接到区域候选网络进行目标检测。在KITTI数据集上，作者的方法取得了最好的结果。

VoxelNet是一种基于点云的-可训练的-端到端的-3D目标识别框架，可以直接作用于系数的3D点云，避免了特征工程；
该框架融合了稀疏点云结构，并且充分利用了voxel grid的并行处理
该文也提出了一种有效的数据增强策略

在基于LiDAR的3D目标检测任务中，大多数方法均采用了特征工程的方法进行算法设计，最多的就是鸟瞰视觉投影。作者创新性的移除了人为的特征工程，并提出了有效的端到端的VoxelNet-3D detection框架。该方法最大的亮点在于可以直接操作3D点云数据并且捕捉到3D点云中的形状信息。

2. 主干和细节

将三维点云划分为一定数量的Voxel，经过点的随机采样以及归一化后，对每一个非空Voxel使用若干个VFE(Voxel Feature Encoding)层进行局部特征提取，得到Voxel-wise Feature，然后经过3D Convolutional Middle Layers进一步抽象特征（增大感受野并学习几何空间表示，也就是我们经常说的浅层网络学习到的是基础视觉特征，深层网络学习到的是高级视觉语义特征），最后使用RPN(Region Proposal Network)对物体进行分类检测与位置回归。VoxelNet整个pipeline如下图所示：

VoxelNet网络结构. 特征学习网络直接输入原始的3D点云数据，然后将整个3D空间划分成独立的小voxel，每个voxel都采用特征提取网络进行特征提取，最后将各个特征按照原来的几何结构拼接在一起[这就是我们之前经常说的Global=Multi-Parts]。这样做的目的应该是为了抵抗形变。Middle Layer的目标在于增大感受野，提取更加高级的语义特征。最后交给3D-RPN网络进行BoundingBox回归。

2.1 点云的多层次学习

VoxelNet是对PointNet以及PointNet++这两项工作的拓展与改进，粗浅地说，是对点云划分后的Voxel使用"PointNet"。我们可以仔细看一下某一层VFE，如下图所示，一块Voxel中的三个点经过FCN抽象Point-wise feature，并使用MaxPool得到Locally Aggregated Feature(局部聚合特征)，然后将这个局部特征concatenate到每一个Point-wise feature上。

针对每一个Voxel提取特征 [逐点特征+局部聚合特征]

2.2 点云的高效查询

此外，由于点云具有高度的稀疏性以及密度不均匀性，作者利用哈希表查询的方式，可以做到快速找到每一个Voxel中的点在三维点云中的具体位置，如下图所示。

3. 论文总结

3.1 思考

VoxelNet只使用激光雷达数据，在KITTI上取得了state-of-the-art的效果。目前，3D Object Detection(Car)榜单第一名VoxelNet++也仅仅是只使用了点云，相对于榜单中同时使用点云以及RGB图像并采用fusion操作的其他几种方法，VoxelNet能够领先有些耐人寻味。廖子对于这种异常信息融合的结果解释如下：

在3D场景中，RGB信息对3D Detection不是特别重要。因为汽车、自行车、人这三类物体仅仅通过外形轮廓就能够区分出来，如果网络能够很好地学习到这些几何空间特征，那么只需要点云就能得到很好的效果。但是如果是针对3D Instance Segmentation这类任务，比如区分黄车与黑车，LiDAR data与RGB data之间进行fusion就很有必要了。
直接将两种data（或者两者对应的feature map）进行fusion操作，这种数据处理方式可能会使得神经网络不容易去学习更好的特征。比如人具备颜色信息感知与空间位置感知，但是这两种感知并不是混为一谈的，两者应该是并行且存在交互的关系，这种交互关系可能比目前先concatenate再通过若干层全连接层的fusion机制要更加高级抽象。

3.2 论文金句总结

Compared to imagebased detection, LiDAR provides reliable depth information that can be used to accurately localize objects and characterize their shapes
We present VoxelNet, a generic 3D detection framework that simultaneously learns a discriminative feature representation from point clouds and predicts accurate 3D bounding boxes, in an end-to-end fashion. We design a novel voxel feature encoding (VFE) layer, which enables inter-point interaction within a voxel, by combining point-wise features with a locally aggregated feature
The convolutional middle layers aggregate voxel-wise features within a progressively expanding receptive field, adding more context to the shape description.介绍了卷积中间层的作用，是一种空间感受野增量式的学习过程，有利于学习高级语义特征，比如说数据分布结构等...

4. 参考文献

1. Zhou Y, Tuzel O. VoxelNet: End-to-End Learning for Point Cloud Based 3D Object Detection[J]. computer vision and pattern recognition, 2018.

2. https://zhuanlan.zhihu.com/p/40051716

VoxelNet: 基于点云的三维空间信息逐层次学习网络相关推荐

目标检测YOLO实战应用案例100讲-基于点云的三维多目标检测算法研究
目录基于点云的三维多目标追踪与目标检测算法研究三维多目标追踪技术
直播预告 | 基于层级超图匹配的图相似度学习网络
点击蓝字关注我们 AI TIME欢迎每一位AI爱好者的加入! 12月2日晚 7:30-8:30 AI TIME 特别邀请了新加坡国立大学博士后张震,给大家带来分享:<基于层级超图匹配的图相似度 ...
笔记：基于点云的语义分割的小样本学习
笔记:Few-shot learning for tackling open-set generalization: 基于点云的语义分割的应用:场景理解,给点云中每一个点赋予特点的语义标签.(如自动驾 ...
喜马拉雅基于阿里云机器学习平台PAI-HybridBackend的深度学习模型训练优化实践
喜马拉雅作者:李超.陶云.许晨昱.胡文俊.张争光.赵云鹏.张玉静喜马拉雅AI云借助阿里云提供的HybridBackend开源框架,实现了其推荐模型在 GPU 上的高效训练. 业务介绍推荐场景是喜马 ...
一文尽览 | 基于点云、多模态的3D目标检测算法综述！（Point/Voxel/Point-Voxel）
点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取点击进入→自动驾驶之心技术交流群后台回复[ECCV2022]获取ECCV2022所有自动驾驶方向论文! 目前 ...
三维点云体素滤波python_一种基于点云的Voxel（三维体素）特征的深度学习方法...
兰州大学在读硕士研究生,主要研究方向无人驾驶,深度学习:兰大未来计算研究院无人车团队负责人,自动驾驶全栈工程师. 之前我们提到使用SqueezeSeg进行了三维点云的分割,由于采用的是SqueezeN ...
包裹点云位姿估计_基于点云位姿平均的非合作目标三维重构
基于点云位姿平均的非合作目标三维重构李宜鹏 ; 解永春 [期刊名称] <空间控制技术与应用> [年 ( 卷 ), 期] 2020(046)001 [摘要] 针对在轨非合作目标 , 提出一 ...
目标检测YOLO实战应用案例100讲-基于激光雷达点云的三维目标检测算法研究
目录基于激光雷达点云的三维目标检测算法研究基于投影图的方法基于点云的多模态融合方法
广州大学计算机綦科简历,基于八叉树空间分割的三维点云模型密写(綦科,谢冬青,2011)...
介绍三维GIS应用中,八叉树原理.创建.优化的相关文章计算机工程第37卷第4期 Computer Engineering V ol.37 No.4 文章编号:1000-3428(2011 ...

VoxelNet: 基于点云的三维空间信息逐层次学习网络