英伟达冠军！FB-OCC：CVPR23 3D占用预测冠军方案解读

作者 | 自动驾驶我睡觉编辑 | 汽车人

原文链接：https://zhuanlan.zhihu.com/p/638759432

点击下方卡片，关注“自动驾驶之心”公众号

ADAS巨卷干货，即可获取

点击进入→自动驾驶之心【占用网络】技术交流群

论文链接：https://opendrivelab.com/e2ead/AD23Challenge/Track_3_NVOCC.pdf?=&linkId=100000205404832

github地址：
https://github.com/NVlabs/FB-BEV

一：模型机构设计：

1.基于3D检测方法（FB-BEV）; 2.Forward Projection(参考LSS)+ Backward Projection(参考BEVFormer)

Forward Projection：1）使用前向投影来生成3D体素表示 2）将 3D 体素表⽰压缩为扁平化的BEV特征图 3）最后将 3D 体素表⽰和优化的 BEV 表⽰的融合特征输⼊到后续任务头中

前向投影总结：相对原来的LSS是投影到BEV空间中，这里是投影到3D体素空间中

Backward Projection：

1）3D体素表⽰压缩为BEV表示，从⽽结合更强的语义 2）利⽤了投影阶段的深度分布，能够更精确地建模投影关系

后向投影总结：灵感来源于BEVFormer， 1.与使⽤随机初始化参数作为 BEV 查询的 BEVFormer 不同，采用1)；2.在推理阶段使用了深度分布，从而保证了更加精确的

最后获得3D体素表示和优化后的BEV表示后，通过扩展BEV特征的过程将他们组合起来，从而产生最终的3D体素表示图一图二中展示了体素编码器和占用预测头

二：损失函数：

Lfl ：距离感知焦距损失函数

Ldl：语义分割深度分析损失函数

Lgeo scal/Lsem scal：来自MonoScene的亲和力损失函数

Lls：lovasz-softmax损失函数

Ld：深度监督损失

Ls ：2D语义损失

三：扩大模型和预训练：

作者花了大段时间介绍大模型的过拟合的劣势还有计算复杂度的问题，综合评比下来，选用了1B参数的backbone，interimage-H；
此模型用于nuScenes中直接应用会有严重的过度拟合，利用比赛提供的public data做与训练
在Object365数据集上进行2D检测任务的与训练，用于增强模型的语义感知能力
为了增加深度感知，和减轻模型过度偏向深度信息的风险，导致语义丢失，在nuScenes数据集上进行深度估计的预训练，用来增强模型的几何感知能力
考虑到nuScenes数据集不提供2D图像语义标签，使用SAM模型生成

四：实验结果：

（一）视频课程来了！

自动驾驶之心为大家汇集了毫米波雷达视觉融合、高精地图、BEV感知、多传感器标定、传感器部署、自动驾驶协同感知、语义分割、自动驾驶仿真、L4感知、决策规划、轨迹预测等多个方向学习视频，欢迎大家自取（扫码进入学习）

（扫码学习最新视频）

视频官网：www.zdjszx.com

（二）国内首个自动驾驶学习社区

近1000人的交流社区，和20+自动驾驶技术栈学习路线，想要了解更多自动驾驶感知（分类、检测、分割、关键点、车道线、3D目标检测、Occpuancy、多传感器融合、目标跟踪、光流估计、轨迹预测）、自动驾驶定位建图（SLAM、高精地图）、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布，欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频，期待交流！

（三）【自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区，聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、多传感器融合、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向；

添加汽车人助理微信邀请入群

备注：学校/公司+方向+昵称