Nuscenes SOTA！LOPR: 使用生成模型进行潜在occupancy预测

作者 | 王汝嘉编辑 | 汽车人

原文链接：https://zhuanlan.zhihu.com/p/572294360

后台回复【OccupanyNetwork】获取Occupany Network相关论文干货资料！

论文：https://arxiv.org/pdf/2210.01249v1.pdf

代码：https:/http://github.com/sisl/LOPR

作者单位：斯坦福大学

论文思路

环境预测框架对于自动驾驶车辆在动态环境中促进安全操纵至关重要。以前的方法已将占用网格图用作场景的鸟瞰图表示，并直接在像素空间中优化了预测架构。尽管这些方法在时空预测方面取得了一些成功，但有时会受到不切实际和不正确的预测的阻碍。本文假设使用生成模型可以提高预测占用网格的质量和真实性。本文提出了一个框架，该框架将占用网格预测分解为与任务无关的低维表示学习和潜在空间中的任务相关的预测。本文证明了其提出的方法在真实世界的自动驾驶数据集NuScenes上实现了最先进的性能。

主要贡献：

本文提出了一个称为潜在占用预测 (LOPR) 的框架，其中本文在生成体系结构的潜在空间中执行OGM预测。本文的方法包括两个连续的阶段: 1) 编码器和生成器神经网络的独立于任务的无监督训练，以及2) 在生成模型提供的可学习的潜在空间中运行的网络的依赖任务的监督训练。本文证明了所学习的潜在空间的可控性和可解释性。在自动驾驶数据集NuScenes [28] 上的实验表明，LOPR在定性和定量上都优于SOTA OGM预测方法。

论文设计：

潜在占用预测 (LOPR)。本文将OGM预测任务分为两个阶段: 独立于任务的表示学习和依赖于任务的预测。

插图展示了LOPR框架，该框架由 (a) 独立于任务的表示学习阶段和 (b) 依赖于任务的监督学习阶段组成。在表示学习阶段，本文以无监督的方式训练编码器和生成器。在监督学习阶段，本文将OGM数据集转换为低维表示，并完全在预先训练的生成模型的潜在空间中进行训练。

OGM预测的先前工作经历了预测帧的明显模糊。在本节中，本文介绍使用生成模型来解决这些问题的潜在占用预测 (LOPR)。LOPR解耦环境表示学习和预测任务，并在生成体系结构的潜在空间中执行预测。受世界模型 [21] 的启发，LOPR在两个连续阶段进行训练。在无监督表示学习阶段，本文训练编码器和生成器以获取预先训练的潜在空间。编码器学习OGM的低维表示，以后可以用于预测，并且生成器将潜在空间解码为OGM空间。随后，在监督学习阶段，本文在预先训练的潜在空间中训练本文的预测网络。它的任务是确保生成的ogm在时间和语义上是一致的。对于环境表示，本文使用按照Itkina等人描述的过程，从激光雷达测量生成的ogm。[1]。

实验结果：

NuScenes测试集上重建性能的可视化。从顶部开始: 地面真相，使用VAE-GAN重建的ogm，以及使用VAE重建的ogm。尽管质量相似，但VAE-GAN的重建似乎更清晰。

可视化prior的采样内容和样式潜在向量对NuScenes测试集的重建性能的影响。(左) OGM (右) 在行驶中的车辆上裁剪了OGM。内容潜在向量会影响场景中代理的存在和位置，而样式潜在向量会改变代理的外观。

潜空间的插值。本文在同一场景序列中的两个ogm之间进行插值。插值OGMs准确地捕获了环境的时空运动。正确插值了主体在自我车辆前面的水平运动。

在NuScenes测试集上比较基于占用的不同预测方法 (越低越好)。就IS而言，本文的方法明显优于基准方法。本文报告结果的标准误差。

训练时间的比较：