点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

作者丨黄浴@知乎

来源丨计算机视觉深度学习和自动驾驶

2022年3月arXiv论文“BEVSegFormer: Bird’s Eye View Semantic Segmentation From Arbitrary Camera Rigs“,作者主要来自上海的自动驾驶创业公司Nullmax。

BEV的语义分割是自动驾驶的一项重要任务。尽管这项任务已经吸引了大量的研究工作,但灵活处理自动驾驶车辆上安装的任意(单个或多个)摄像头传感器仍然是一个挑战。本文提出一种基于Transformer的BEV语义分割方法,BEVSegFormer。具体来说,该方法首先使用共享主干对来自任意相机的图像特征进行编码。然后,这些图像特征通过基于变形Transformer的编码器进行增强。此外,引入BEV transformer解码模块来解析BEV语义分割结果。设计了一种高效的多摄像机变形注意单元,实现了从BEV到图像视图的转换。最后,根据BEV中网格的布局对查询(queries)进行重塑,并进行上采样,以有监督的方式生成语义分割结果。


在自动驾驶或机器人导航系统中,感知信息BEV表示非常关键,因为它便于规划和控制任务。例如,在无地图导航解决方案中,构建本地BEV地图提供了HD地图的替代方案,对于感知系统的下行任务(包括智体行为预测和运动规划)非常重要。摄像头的BEV语义分割通常被视为构建局部BEV地图的第一步。

为了从摄像机中获得BEV语义分割,传统方法通常在图像空间中生成分割结果,然后通过IPM(inverse perspective mapping)函数将其转换为BEV空间。虽然IPM是连接图像空间和BEV空间的一种简单而直接的方法,但它需要精确的摄像机内外参数或实时的摄像机姿态估计。因此,它很可能会产生较差视图转换。以车道分割为例,如图所示,使用IPM的传统方法在存在遮挡或距离较远的情况下会产生不准确的结果:(a) 图像空间的车道分割,(b)通过IPM,对(a)做视图变换进行BEV分割,(c)BEV车道分割。

如图显示BevSefFormer方法的概述。它由三部分组成:(1)一个用于处理任意相机和输出特征地图的共享主干网;(2) 使用Transformer编码器增强特征表示;(3)BEV Transformer解码器通过交叉注意机制处理BEV查询,然后把输出查询解析为BEV语义分割。

对于单个输入图像,主干接收输入并输出多尺度特征图。对于多个摄像头配置,这些多个图像共享同一主干,并输出相应的特征图。实验中以ResNet为骨干。

在transformer编码器中,首先在共享主干的c3、c4、c5级特征上应用1×1 卷积运算符,以获得多尺度特征。在每个摄像头生成的特征地图上分别应用Deformable Attention模块。它不需要计算致密注意图,只关注参考点附近的一组采样点。transformer编码器为每个摄像头输出增强的多尺度特征。

BEV transformer解码器包括一个transformer解码器,用于计算BEV查询和多摄像头特征图之间的cross attention,以及一个语义解码器,用于将查询解析为BEV分割结果。

在transformer解码器中,在2D BEV空间上构造查询,然后将这些BEV查询视为在cross attention模块的常规查询。只使用多尺度特征图的最小分辨率(原始输入分辨率的1/32)作为transformer解码器的输入。

将可变形DETR中的Deformable Cross-Attention 模块调整为多摄像头Deformable Cross-Attention 模块,该模块能够将多摄像头的特征图转换为BEV查询,不需要摄像头的内外参数。

如图是BEV Transformer解码器中的多摄像头Deformable Cross-Attention 模块:

在语义解码器中,对BEV查询特征进行了重塑,即从transformer解码器转换为二维空间特征。二维空间特征由BEV Upsample模块(一个标准语义Upsample模块)处理,计算语义分割结果。BEV Upsample模块的每一级由3×3卷积、1×1卷积和2×双线性插值运算组成。


Nullmax除了nuScenes数据集之外,从上海高速公路收集了一个数据集,其中配备前置摄像头。该数据集包括各种场景,如人群交通、进出匝道、阴影、换道和切入。该数据集分为3905张训练图像和976张验证图像。对车道线进行标注进行评估。

在nuScenes数据集上使用相同的HDMapNet设置进行实验。利用高清地图自车定位来确定BEV的区域。在周视摄像头,将BEV设置为车辆周围[-30m,30m]×[-15m,15m]区域。只有前视摄像头的情况下,BEV区域才会设置为[0m,60m]×[-15m,15m]。道路结构表示为5像素宽的线段。真实数据掩码设置为400×200。按照STSU(“Structured bird’s-eye-view traffic scene understanding from onboard images, ICCV‘2021)做法,采用448×800大小图像作为网络的输入。同样,Nullmax前置摄像头数据集中的BEV区域设置为[0m,80m]×[-10m,10m]。真实数据掩码为512×128,而车道宽度为3像素。Nullmax数据集上的输入图像大小为384×640。

遵循可变形DETR的方法做网络设计。实验中使用了[1,15,15,15]的加权交叉熵损失。M=8和K=16是为BEV transformer解码器的多摄像头deformable attention所设置。所有transformer模块中的嵌入尺寸设置为256,FFN模块的特征尺寸设置为512。

应用数据增强方法,包括随机水平翻转、随机亮度、随机对比度、随机色调和随机交换通道。网络由AdamW优化器优化,权重衰减为10e−4。主干和transformer的初始学习率设置为10e−5, 10e−4,在第100 epoch减少到10e−6和10e−5。在4个RTX 3090 GPU上训练模型,每个GPUbatch size为1。所有模型都从零开始训练,共有120 epochs。

实验结果如下:

备注:作者也是我们「3D视觉从入门到精通」特邀嘉宾:一个超干货的3D视觉学习社区

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊精品课程官网:3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

BEVSegFormer:一个来自任意摄像头的BEV语义分割方法相关推荐

  1. LaRa:用于多摄像头BEV语义分割的潜表征和光线嵌入

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨黄浴 来源丨 计算机视觉深度学习和自动驾驶 arXiv上传于2022年6月27日的论文" ...

  2. 来自CCNet的一种创新:语义分割中的十字交叉视觉注意力

    来自CCNet的一种创新:语义分割中的十字交叉视觉注意力 写在文章开头 看个大概 引入 CCNet之道 整体架构 十字交叉注意力 循环--RCCA 优化类别一致性损失 CCNet效果一览 写在文章末尾 ...

  3. ICCV 2021 | PMF: 基于视觉感知的多传感器融合点云语义分割方法

    作者丨月明星稀风萧萧@知乎 来源丨https://zhuanlan.zhihu.com/p/419187044 编辑丨3D视觉工坊 今天,我将分享一个 ICCV 2021 中的工作,基于视觉感知的多传 ...

  4. PMF: 基于视觉感知的多传感器融合点云语义分割方法(ICCV2021)

    作者丨月明星稀风萧萧 来源丨https://zhuanlan.zhihu.com/p/419187044 编辑丨3D视觉工坊 今天,我将分享一个 ICCV 2021 中的工作,基于视觉感知的多传感器融 ...

  5. 图像语义分割方法研究进展

    全监督学习的图像语义分割方法研究进展 简介 1 全监督学习的图像语义分割方法 1.1 基于全卷积的图像语义分割方法 1.2 基于编码器解码器结构的图像语义分割方法 1.3 基于注意力机制的图像语义分割 ...

  6. 自动驾驶领域:一种实时高精度的城市道路场景语义分割方法

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 论文下载:https://arxiv.org/pdf/2003.08736.pdf 简介: 近年来,深 ...

  7. 毕业设计-基于卷积神经网络的遥感图像语义分割方法

    目录 前言 课题背景和意义 实现技术思路 一.相关技术理论 二.基于残差融合和多尺度上下文信息的遥感图像语义分割方法 三.基于注意力机制和边缘检测的遥感图像语义分割方法 实现效果图样例 最后 前言

  8. 使用多尺度空间注意力的语义分割方法

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 作者:Abhinav Sagar 编译:ronghuaiyang ...

  9. 三种基于自监督深度估计的语义分割方法(arXiv 2021)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨泡泡机器人 来源丨泡泡机器人SLAM 标题: Three Ways to Improve Sem ...

最新文章

  1. 华为:憧憬6G,共同定义6G
  2. iOS 完美解决 interactivePopGestureRecognizer 卡住的问题
  3. hdu3035 最小割转换成最短路
  4. HighNewTech:重磅!来自深度学习的三位大牛Yoshua、Hinton、LeCun荣获2018年图灵奖
  5. 深度解析数据分析、大数据工程师和数据科学家的区别
  6. C++ 自定义调试信息的输出
  7. Typecho评论邮件提醒插件美化版CommentToMail
  8. 草稿 图片盒子定时器模式窗口
  9. scorm课件学习状态
  10. KDD Cup2020 正式开赛,天池诚邀各路豪杰来挑战!!
  11. Golang结构体与面向对象
  12. 2019-06-03 Java学习日记之多线程下GUI
  13. ORM sqlachemy学习
  14. 数据结构上机实践第11周项目1 - 图基本算法库
  15. 关于PWM脉冲宽度调制的点滴总结
  16. 关于疫情,你想到什么?
  17. 显卡内存和计算机内存,512M和1GB显卡显示内存大小有什么区别
  18. 电动牙刷也有国产黑马,竟然比千元大牌还厉害 | 钛空实测
  19. nyoj71独木舟上的旅行
  20. SCAU高级语言程序设计OJ

热门文章

  1. VS2010自定义背景设置
  2. 金融数学笔记Chapter01
  3. ORACLE DG概念及切换
  4. gpb编码 c语言,ARM学习笔记--GPIO接口
  5. AntV G6流程图节点控制显示和隐藏
  6. php的CURL模块实现在线代理
  7. iOS学习:调用相机,选择图片上传,带预览功能
  8. 基于51单片机的水箱水位监测控制系统proteus仿真原理图PCB
  9. PPTP和L2TP两种连接有什么区别?
  10. crc16(crc16算法)