BEVSegFormer：一个来自任意摄像头的BEV语义分割方法

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

作者丨黄浴@知乎

来源丨计算机视觉深度学习和自动驾驶

2022年3月arXiv论文“BEVSegFormer: Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs“，作者主要来自上海的自动驾驶创业公司Nullmax。

BEV的语义分割是自动驾驶的一项重要任务。尽管这项任务已经吸引了大量的研究工作，但灵活处理自动驾驶车辆上安装的任意（单个或多个）摄像头传感器仍然是一个挑战。本文提出一种基于Transformer的BEV语义分割方法，BEVSegFormer。具体来说，该方法首先使用共享主干对来自任意相机的图像特征进行编码。然后，这些图像特征通过基于变形Transformer的编码器进行增强。此外，引入BEV transformer解码模块来解析BEV语义分割结果。设计了一种高效的多摄像机变形注意单元，实现了从BEV到图像视图的转换。最后，根据BEV中网格的布局对查询（queries）进行重塑，并进行上采样，以有监督的方式生成语义分割结果。

在自动驾驶或机器人导航系统中，感知信息BEV表示非常关键，因为它便于规划和控制任务。例如，在无地图导航解决方案中，构建本地BEV地图提供了HD地图的替代方案，对于感知系统的下行任务（包括智体行为预测和运动规划）非常重要。摄像头的BEV语义分割通常被视为构建局部BEV地图的第一步。

为了从摄像机中获得BEV语义分割，传统方法通常在图像空间中生成分割结果，然后通过IPM（inverse perspective mapping）函数将其转换为BEV空间。虽然IPM是连接图像空间和BEV空间的一种简单而直接的方法，但它需要精确的摄像机内外参数或实时的摄像机姿态估计。因此，它很可能会产生较差视图转换。以车道分割为例，如图所示，使用IPM的传统方法在存在遮挡或距离较远的情况下会产生不准确的结果：（a）图像空间的车道分割，（b）通过IPM，对（a）做视图变换进行BEV分割，（c）BEV车道分割。

如图显示BevSefFormer方法的概述。它由三部分组成：（1）一个用于处理任意相机和输出特征地图的共享主干网；（2）使用Transformer编码器增强特征表示；（3）BEV Transformer解码器通过交叉注意机制处理BEV查询，然后把输出查询解析为BEV语义分割。

对于单个输入图像，主干接收输入并输出多尺度特征图。对于多个摄像头配置，这些多个图像共享同一主干，并输出相应的特征图。实验中以ResNet为骨干。

在transformer编码器中，首先在共享主干的c3、c4、c5级特征上应用1×1 卷积运算符，以获得多尺度特征。在每个摄像头生成的特征地图上分别应用Deformable Attention模块。它不需要计算致密注意图，只关注参考点附近的一组采样点。transformer编码器为每个摄像头输出增强的多尺度特征。

BEV transformer解码器包括一个transformer解码器，用于计算BEV查询和多摄像头特征图之间的cross attention，以及一个语义解码器，用于将查询解析为BEV分割结果。

在transformer解码器中，在2D BEV空间上构造查询，然后将这些BEV查询视为在cross attention模块的常规查询。只使用多尺度特征图的最小分辨率（原始输入分辨率的1/32）作为transformer解码器的输入。

将可变形DETR中的Deformable Cross-Attention 模块调整为多摄像头Deformable Cross-Attention 模块，该模块能够将多摄像头的特征图转换为BEV查询，不需要摄像头的内外参数。

如图是BEV Transformer解码器中的多摄像头Deformable Cross-Attention 模块：

在语义解码器中，对BEV查询特征进行了重塑，即从transformer解码器转换为二维空间特征。二维空间特征由BEV Upsample模块（一个标准语义Upsample模块）处理，计算语义分割结果。BEV Upsample模块的每一级由3×3卷积、1×1卷积和2×双线性插值运算组成。

Nullmax除了nuScenes数据集之外，从上海高速公路收集了一个数据集，其中配备前置摄像头。该数据集包括各种场景，如人群交通、进出匝道、阴影、换道和切入。该数据集分为3905张训练图像和976张验证图像。对车道线进行标注进行评估。

在nuScenes数据集上使用相同的HDMapNet设置进行实验。利用高清地图自车定位来确定BEV的区域。在周视摄像头，将BEV设置为车辆周围[-30m，30m]×[-15m，15m]区域。只有前视摄像头的情况下，BEV区域才会设置为[0m，60m]×[-15m，15m]。道路结构表示为5像素宽的线段。真实数据掩码设置为400×200。按照STSU（“Structured bird’s-eye-view traffic scene understanding from onboard images, ICCV‘2021）做法，采用448×800大小图像作为网络的输入。同样，Nullmax前置摄像头数据集中的BEV区域设置为[0m，80m]×[-10m，10m]。真实数据掩码为512×128，而车道宽度为3像素。Nullmax数据集上的输入图像大小为384×640。

遵循可变形DETR的方法做网络设计。实验中使用了[1,15,15,15]的加权交叉熵损失。M=8和K=16是为BEV transformer解码器的多摄像头deformable attention所设置。所有transformer模块中的嵌入尺寸设置为256，FFN模块的特征尺寸设置为512。

应用数据增强方法，包括随机水平翻转、随机亮度、随机对比度、随机色调和随机交换通道。网络由AdamW优化器优化，权重衰减为10e−4。主干和transformer的初始学习率设置为10e−5, 10e−4，在第100 epoch减少到10e−6和10e−5。在4个RTX 3090 GPU上训练模型，每个GPUbatch size为1。所有模型都从零开始训练，共有120 epochs。

实验结果如下：

备注：作者也是我们「3D视觉从入门到精通」特邀嘉宾：一个超干货的3D视觉学习社区

本文仅做学术分享，如有侵权，请联系删文。

3D视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼）

13.重磅！四旋翼飞行器：算法与实战

14.ROS2从入门到精通：理论与实战

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

BEVSegFormer：一个来自任意摄像头的BEV语义分割方法相关推荐

LaRa：用于多摄像头BEV语义分割的潜表征和光线嵌入
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨黄浴来源丨计算机视觉深度学习和自动驾驶 arXiv上传于2022年6月27日的论文" ...
来自CCNet的一种创新：语义分割中的十字交叉视觉注意力
来自CCNet的一种创新:语义分割中的十字交叉视觉注意力写在文章开头看个大概引入 CCNet之道整体架构十字交叉注意力循环--RCCA 优化类别一致性损失 CCNet效果一览写在文章末尾 ...
ICCV 2021 | PMF: 基于视觉感知的多传感器融合点云语义分割方法
作者丨月明星稀风萧萧@知乎来源丨https://zhuanlan.zhihu.com/p/419187044 编辑丨3D视觉工坊今天,我将分享一个 ICCV 2021 中的工作,基于视觉感知的多传 ...
PMF: 基于视觉感知的多传感器融合点云语义分割方法（ICCV2021）
作者丨月明星稀风萧萧来源丨https://zhuanlan.zhihu.com/p/419187044 编辑丨3D视觉工坊今天,我将分享一个 ICCV 2021 中的工作,基于视觉感知的多传感器融 ...
图像语义分割方法研究进展
全监督学习的图像语义分割方法研究进展简介 1 全监督学习的图像语义分割方法 1.1 基于全卷积的图像语义分割方法 1.2 基于编码器解码器结构的图像语义分割方法 1.3 基于注意力机制的图像语义分割 ...
自动驾驶领域：一种实时高精度的城市道路场景语义分割方法
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达论文下载:https://arxiv.org/pdf/2003.08736.pdf 简介: 近年来,深 ...
毕业设计-基于卷积神经网络的遥感图像语义分割方法
目录前言课题背景和意义实现技术思路一.相关技术理论二.基于残差融合和多尺度上下文信息的遥感图像语义分割方法三.基于注意力机制和边缘检测的遥感图像语义分割方法实现效果图样例最后前言
使用多尺度空间注意力的语义分割方法
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达作者:Abhinav Sagar 编译:ronghuaiyang ...
三种基于自监督深度估计的语义分割方法（arXiv 2021）
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨泡泡机器人来源丨泡泡机器人SLAM 标题: Three Ways to Improve Sem ...

BEVSegFormer：一个来自任意摄像头的BEV语义分割方法

BEVSegFormer：一个来自任意摄像头的BEV语义分割方法相关推荐

最新文章

热门文章