Waymo研发经理：《自动驾驶感知前沿技术介绍》

Waymo研发经理|自动驾驶感知前沿技术介绍

这是Waymo研发经理（VoxelNet作者）的一个最新分享报告：《自动驾驶感知前沿技术介绍》。在这份报告里，介绍了Waymo在自动驾驶感知中五个研究方向的最新成果。

1. Overview of the autonomous driving system

报告首先是无人驾驶系统的介绍，作者以Waymo第四代无人车系统为例。输入为各种感知系统（视觉、激光雷达、毫米波雷达系统及提前收集好的地图等），通过模块化或端到端处理（如深度神经网络），输出为无人车控制命令（方向盘转角和汽车加速度）。

下图为主流的无人车模块化设计。输入模块为采集好的地图和各种传感器信号；定位模块根据地图和传感器信号给出当前无人车所在位置；感知模块对定位模块输出、传感器信号和地图信息做感知处理，然后将感知结果发送给行为预测（BP）模块，最后规划模块根据感知、行为预测以及定位结果给出汽车的控制命令，控制模块执行控制命令。

2. Introduction to perception

下图是感知模块介绍，感知模块输入为传感器数据（摄像头、激光雷达、毫米波雷达）和高精地图，输出为环境表示。

下图是自动驾驶环境感知中六个主要研究方向：目标检测和追踪（根据激光雷达点云数据估计目标的位置、大小和方向）；语义分割（给图像中每个像素分配一个类别）；Flow（估计图像中的像素和点云中的每个点下一时刻的运动）；深度估计（判断图像中每个像素的深度）；行人位置估计（估计行人运动，主要是行人关节运动估计）；高精度地图（根据各种传感器输入建立高精度地图）。

3. New frontiers in scalable perception

下图是感知中Scalability的五个方向：模型泛化能力（模型在不同天气、城市和长尾问题的泛化能力）；Quality（模型的检测性能）；模型的计算效率（内存和计算速度）；自动标注（替代人工标注）；仿真数据生成或数据压缩。其中Generalization，Quality，Computational Efficency属于线上模型，而Data Flexibility，Labeling Automation属于线下模型。

下面作者将根据以上五个方向介绍Waymo的最新研究成果。

3.1 Generalization

这是一篇通过语义点云生成的进行无监督域自适应3D物体检测论文。论文中作者设计了一个SPG模块，可以根据物体的原始点云（即使在遮挡或雨天环境下）生成语义点云，复原物体形状；然后将原始点云与生成的语义点云融合得到增强点云，最后通过一个流行的3D物体检测器进行物体检测。无论是在target domain 还是 source domain，作者设计的SPG模块都极大的提高了3D物体检测器的检测性能。

下面是论文想要解决的问题，在雨天或遮挡情况下，点云质量下降很厉害，从而影响最终的检测结果。

本文的核心思想是：在3D物体检测之前，还原物体形状。

SPG模块主要做两件事：3D分割和前景形状还原。首先将点云数据划分为一个个voxel，判断每个voxel是否属于前景voxel，然后则在每个前景voxel中生成语义点云，还原物体形状。

SPG的pipeline如下图所示，实验发现，只要多增加5%的原始点云，就能多获得500%的前景点云。

下面是在Waymo Domain Adaptation Dataset和KITTI数据集上的检测结果。

下面是是在遮挡，远距离物体或大物体上的可视化检测结果。

3.2 Quality

这是一篇通过使用注意力网络融合多帧点云信息进行物体检测的方法，与SPG在输入端提高点云质量不同，3D-MAN是在输出端将当前帧与历史帧proposals feature相结合来提高检测结果。

本文的核心思想是使用同一个主干网（如Pointpillars）对当前帧和历史帧提取Proposal特征，然后使用注意力模块来优化Proposal，最终得到一个更好的检测结果。

论文处理框架如下图所示：

在第一阶段，使用一个高效的检测器对当前帧输入生成proposal和feature，同时将当前帧与历史帧的proposal和feature存储起来。
在第二阶段，注意力模块首先对当前帧和历史帧的proposal进行alignment操作，然后对不同帧的feature进行aggregation，最终得到检测结果。

下面是在Waymo Open Dataset数据集上的检测结果。

3.3 Computational Efficency

这篇论文通过在waymo数据range images上首先使用2D卷积选取物体的前景点，然后对被选取的前景点云进行稀疏卷积操作。通过结合range images上提取的特征，不仅提高了3D物体检测性能，而且还达到了60帧每秒的检测效率。

由于点云的稀疏性，之前的检测方法（PointPillar和PV-RCNN）只考虑Occupancy Sparsity，判断划分的Voxel是否为空；而本文则是最大化算法的检测效率，内存使用，考虑的是Semantic Sparsity，即判断划分的Voxel是否为前景Voxel。

算法结构如下，输入为range images，这是将点云转换成图像形式；通过分割模块分割出前景点，同时提取前景点feature；然后进行Sparse Feature Extraxction，最后是Box回归得到proposal。

下面是在Waymo Open Dataset数据集上的检测结果。

3.4 Labeling Automation

作者首先介绍了线上模型和线下模型开发的区别。

这是一篇用于自动标注的3D物体检测方法，检测效果达到了人类标注的性能，作者首先解释了自动标注的重要性。

论文核心思想是：在不同时刻会看到物体不同视角的形状，将不同时刻物体的点汇集起来能够更准确地估计物体的形状和尺寸。

下面是一辆mini-van的不同帧数物体点汇集起来的样子，帧数越多，估计出来的形状更完整。

下面是算法的pipeline，首先是对点云序列每一帧进行检测，接着是多物体追踪，然后是同一追踪物体的点云数据提取，这里将物体分为静态和动态来进行标注。

下面是在Waymo Open Dataset数据集上的检测结果。需要说明的是，IoU=0.8为人工标注时的标准。

3.5 Data Flexibility

在这篇论文中，通过收集来的传感器数据来生成逼真的图像数据，重建3D World；同时生成的数据也可以用于仿真测试。

下面是具体的实际应用：不同视角和不同场景合成。