点云的无序性_基于深度学习的激光雷达点云物体识别方法总结

0. 前言：

激光雷达作为自动驾驶不可或缺的传感器，随着价格不断下降，各种基于深度学习的模型也层出不穷（坐等马斯克打脸）;

激光雷达物体识别的任务:

输入: 激光点云(x, y, z, intensity)
输出: 3D Boundingbox(BB) 信息: 中心点左边(x, y, z); 3D BB尺寸 length width height, 三个方向的朝向角 yaw pitch roll, 但是考虑到自动驾驶车辆实际是行驶在二维世界,所以真正的输出常是(x, y, l, w, h, yaw)

激光雷达点云的特点:

点云无序性
相邻点相关性
旋转平移不变行

1. 正文

基于深度学习方法的物体识别路线，根据模型输入形式可以大体分为以下三类:

纯点云输入
将点云转化为体素格子
将点云投影到二维栅格图中，这又分为将投影到鸟瞰图(BEV)和前视图

下面基于上面的分类对当前的模型做一个总结：

基于纯点的输入：

这个最出名的就是 PointNet 系列了，具体可以参考我专栏对这几篇文章的解读: PointNet系列(1)-PointNet论文解读; PointNet系列(2)-PointNet++论文解读; PointNet系列(3)-Frustum-PointNet论文解读; PointNet 提出了将纯点作为网络输入的模型，解决了点云无序性和变换不变性; PointNet++ 增加了网络提取点与点之间局部特征的能力; F-Pointnet 其实是将图像识别的结果作为PointNet的输入，所以不算严格意义上的纯lidar做物体识别，以及商汤和香港中文大学的 PV-RCNN: Point-Voxel Feature Set Abstraction for 3D Object Detection, 基于纯点的网络有以下几个特点：

适合做室内小范围的
可以做Semantic Segmentation

2. 将点云转换为体素格子(Voxel):

VoxelNet 最先提出Voxel 这个概念， SECOND: Sparsely Embedded Convolutional Detection 将VoxelNet中的3d卷积替换为稀疏卷积从而大幅度曾快了识别速度; MVX-Net: Multimodal VoxelNet for 3D Object Detection 将VoxelNet 和RGB图像融合在了一起;

3d卷积花费的时间太多，很难达到实时性的要求

3. 将点云投影到二维栅格图上：

这个方法是应用最广的，FVNet: 3D Front-View Proposal Generation for Real-Time Object Detection from Point Cloud 是基于前视图(Front View)的, 更多的是基于鸟瞰图的模型：

Panzerfahrer：RT3D：自动驾驶中利用3D点云实时车辆识别

PIXOR: Real-time 3D Object Detection from Point Clouds

Panzerfahrer：PointPillars:点云物体识别的快速编码（2020.04.18更新）

PointPillars: Fast Encoders for Object Detection from Point Clouds

TANet: Robust 3D Object Detection from Point Clouds with Triple Attention

阿里的一篇新文章：PI-RCNN: An Efficient Multi-sensor 3D Object Detector with Point-based Attentive Cont-conv Fusion Module

2. 展望：

激光雷达未来每个点可能不止只有四个维度(x, y, z, intensity), 还可能拥有速度信息, 这为神经网络高维卷积提出了挑战;
对于模型的选择是速度和准确率的trade-off的过程，不过目前自动驾驶对实时性要求的优先级更高，所以投影到2d栅格图成为各大公司的主流方案;
基于时序的RNN网络也将是未来的发展方向;
激光雷达目前不能大规模应用到自动驾驶汽车的原因主要有两点：成本较高&车规要求较高，当这两个问题都解决的时候，特斯拉也逃不过真香定律叭

最后欢迎关注我的激光雷达专栏啊，也欢迎和我交流～

激光雷达乱炖zhuanlan.zhihu.com

推荐几篇另外总结的很好的文章：

美团无人配送：万字长文教你读懂自动驾驶中的激光雷达目标检测（上）

美团无人配送：万字长文教你读懂自动驾驶中的激光雷达目标检测（下）

黄浴：基于激光雷达数据深度学习做目标检测（上）

黄浴：基于激光雷达数据深度学习做目标检测（下）