IROS2020 | 面向城市自动驾驶应用的概率语义建图

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

摘要

统计学习和计算能力的最新进展使自动驾驶技术以更快的速度发展.虽然以前引入的许多体系结构能够在高度动态的环境下运行,但其中许多局限于较小规模的部署,由于高精(HD)地图的相关可扩展性成本而需要持续维护,并且涉及繁琐的手动标记.为了解决这个问题,我们建议融合图像和预先构建的点云地图信息,对静态地标(如道路、人行道、人行横道和车道)进行自动和准确的标记.该方法对2D图像进行语义分割,将语义标签与点云地图相关联以准确定位它们,并从语义点云构建鸟瞰概率语义地图.从在城市环境中收集的数据进行的实验表明,该模型能够预测大多数道路特征,并且可以扩展为将道路特征自动结合到具有潜在未来工作方向的高精地图中.

介绍

场景的厘米级语义标签的检索是一项非常重要的任务.以前的工作如[2]，[3]采用条件随机场(CRF)来分配语义标签。深度学习的进步也在从图像中检索语义信息方面提供了有希望的结果。最先进的语义分割算法，如[4]，[5]，[6]，可以更准确地生成像素级语义标签。研究人员还探索了创建环境语义地图的方法:例子在[7]、[8]、[9]中给出。多传感器融合被用来提高这些算法的鲁棒性；然而，这些方法要么使用航空影像提取道路信息，要么不明确地图车道和人行横道信息，这是高清地图所必需的。因此，一个详细的城市自主汽车应用语义地图仍然是一个有趣的探索。

为了解决这些差距，我们的工作重点是利用由16通道激光雷达构建的稠密点地图和来自深度神经网络的最先进的语义标记图像，仅在公共数据集上进行训练，以在城市驾驶环境中自动生成稠密的概率语义地图，为道路、车道标志、人行横道和人行道提供鲁棒的标签。通过用混淆矩阵公式对语义分割网络的不确定性建模，我们创建了环境的鸟瞰语义图。此外，激光雷达强度的融合略微提高了道路上车道标志分割的准确性。通过与地面真实高清地图的比较，表明该模型能够识别道路上的语义特征并准确定位。

实验

我们的实验数据是由我们的一辆实验自动汽车收集的[28]。这辆车配备了一个16通道激光雷达和六个摄像头。摄像机设置为两个在前面，一个在两边，两个在后面，如图2所示。通过在加州大学圣地亚哥分校的多个区域行驶，记录左前摄像头、激光雷达和车辆位置的数据，用于实验。摄像机数据以大约13赫兹的频率传输，激光雷达以大约10赫兹的频率扫描。我们开车穿过校园，收集城市驾驶场景的数据——包括沿着陡峭的山丘、十字路口和建筑工地驾驶等具有挑战性的场景。

1 图像语义分割

1)训练数据集:我们有18000个训练图像和2000个来自Mappipe数据集的验证图像。我们将地形融入植被，将不同类型的骑手融入人类，将交通标志后退和交通标志前进融入交通标志，将桥梁融入建筑，将不同类型的人行横道融入单一的人行横道类别。训练数据集通过概率为0.5的随机水平翻转、比例范围为0.5至2的随机调整大小以及随机裁剪来扩充。这些图像还被归一化为平均值为(0.485，0.456，0.406)且标准偏差为(0.229，0.224，0.225)的分布。由于Mappipe数据集和我们驾驶场景的相似性，以及训练过程中密集的数据增强，我们在加州大学圣地亚哥分校测试时没有观察到严重的性能下降。

2)超参数:我们使用16的批处理大小和同步的批处理规范化[5]在8个2080Ti GPUs上为200个时期训练我们的网络，输入图像大小为640x640。网络的输出步幅为8。我们使用SGD优化器，并采用多项式学习速率策略[6]，[30]，

3)度量:mIoU用于评估网络的性能。验证集中ResNeXt50的mIoU为68.32%。与ResNet101相比，ResNeXt50的性能略有下降，但所需内存更少(从367MB到210MB)，这对于内存有限的板载硬件来说是更好的选择。推论网络时间约为每幅图像0.2s

2 语义建图

我们选择了一个横跨加州大学圣地亚哥分校1.1公里的区域来评估我们的地图生成结果。一张高清地图已经在这个区域手工标注。它包含道路信息，如人行横道、人行道和道路中心车道定义，并已在现实环境中进行了测试。基于这些标签，我们生成了五个通道的语义地图:道路、人行横道、车道标志、植被和分辨率为0.2米的人行道。高清地图的标注不是一件小事。然而，它恰恰展示了能够自动化整个过程的价值。

mIoU和像素精度用作我们评估的指标。虽然mIoU反映了我们模型的分割召回率和精度，但值得注意的是，这些指标受到激光雷达点云稀疏性的影响:模型输出可能非常准确，但可能包含许多未分类的单元(孔)。我们通过使用平滑内核来插值地图上丢失的标签来解决这个问题。

对于表二中的所有实验，随着语义分割性能在更长的范围内显著下降，我们截取了沿车辆纵轴提取的高达15米和沿车辆横轴提取的10至10米的局部密集点图。

1)观测不确定性建模:我们首先验证矩阵M的设计，该矩阵对语义标签ztgiven St的观测不确定性进行建模。出于数值稳定性的原因，我们对M的元素进行对数表示。我们研究了两种方法:一种是由(I + λ1)定义的，其中λ是一个超参数，是一个归一化因子:我们称这个模型为V anilla。另一种方法是映射验证数据集中语义分割网络的混淆矩阵:我们将其定义为CFN。在推理时间内，我们将每个单元格分配给概率最高的标签。定量结果见表二。与Vanilla相比，CFN在人行横道和车道标志的IoU和像素精度方面有显著提高。这表明了利用网络的混淆矩阵来对语义分割中的预测误差建模的优点，从而提供了更好的地图生成结果。

2)与激光雷达强度的集成:为了利用道路上不同材料具有不同反射率的事实，我们首先移除所有小于k = 14的强度数据(例如图6)；这个标准化阈值是人工校准的VLP-16激光雷达。然后，在语义建图步骤中，如果一个标签被预测为车道标志，我们将它的对数概率增加一个常数因子γ。这实质上抑制了我们对其他类别的预测，并增加了我们对车道标志的预测置信度。包含强度积分的模型在表二中有一个“+1”。对于Vanilla+I，我们观察到香草在车道标志的准确性和IoU方面有更好的结果，但对于道路和人行横道略有下降，这表明强度积分对车道标志预测的好处。然而，CFN+1在CFN问题上没有出现这种趋势。为了实现进一步的改进，可能需要更复杂的函数来对激光雷达强度进行建模

由我们的CFN+1模型为整个测试区域生成的全局地图示例如图7所示。图中放大了地图的一个区域，表明我们的模型可以清晰地捕捉道路上的静态元素。

3 与稀疏激光雷达扫描的比较

将语义图像与深度信息相关联的一种可能的替代方法是使用由激光雷达实时生成的点云数据. 通过遵循类似的映射方法, 我们将点云投影到语义图像框架上并构建语义地图. 图4显示了这种方法的实时性能, 然而对于使用的16通道激光雷达, 点云扫描太稀疏, 无法在更远的距离构建语义地图, 当汽车开得更快时. 情况会变得更糟, 因此预先构建的稠密点云地图允许我们构建更长范围的语义地图.

4 与平面假设的比较

我们探索的另一种方法是使用单应性将2D语义图像反投影到3D空间，假设地面是平的。反向投影方法不会留下黑洞。然而，在图5所示的城市驾驶场景中，沿着陡峭的山坡或道路交叉口的平面假设是失败的:这导致在更长的距离上相当大的失真。

结论

通过融合来自图像帧上语义标签的丰富信息，我们与人工标注地图的比较表明，这项工作有效地引入了一种统计方法来识别道路特征并在鸟瞰图中定位它们。这种方法可以扩展到自动为人行横道、车道标志、可驾驶表面和人行道进行高清地图标注。这些功能可以独立于预定义的高清地图格式，通过中心车道标识的附加扩展来生成高清地图，中心车道标识通常用于路径跟踪算法。

通过考虑道路网络的交叉点和岔口，未来的工作包括道路网络标注的完全自动化，这可以利用图形方法。虽然所提出的技术组合可以潜在地解决高清地图的可扩展性缺点，但是它们也提出了高级动态规划的新研究领域。目前，许多自动驾驶架构需要稠密的点云地图来进行定位，并以类似于高清地图的方式来实现可扩展性和维护成本。通过动态估计可驾驶表面、车道、车道标记和其他道路特征，只要能从高级规划者那里提取即时动作，使用厘米级定位的概念就可以去除。在未来的工作中，我们计划寻找解决方案来实现高清地图制作过程的完全自动化，同时探索在没有详细的稠密点云地图的情况下进行动态规划的想法。

- END -

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

IROS2020 | 面向城市自动驾驶应用的概率语义建图相关推荐

【论文速读】城市自动驾驶应用的概率语义地图
点云PCL免费知识星球,点云论文速读. 标题:Probabilistic Semantic Mapping for Urban Autonomous Driving Applications 作者:D ...
从零搭建一台基于ROS的自动驾驶车-----3.激光Slam建图
系列文章目录北科天绘 16线3维激光雷达开发教程基于Rplidar二维雷达使用Hector_SLAM算法在ROS中建图 Nvidia Jetson Nano学习笔记–串口通信 Nvidia Jet ...
低速自动驾驶车辆的定位与建图
MFNet——向具有多光谱场景的自动驾驶汽车的实时语义分割
Overview Title:MFNet: Towards real-time semantic segmentation for autonomous vehicles with multi-spe ...
＜Notes＞城市复杂环境的视觉定位与建图(报告人：上交邹丹平教授)
城市复杂环境的视觉定位与建图出处:2022-05-19鹏城实验室线上分享报告人:上交邹丹平教授 Google scholar 整理人:高斯球其他资料:2018年邹丹平老师在北京大学题目为&quo ...
自动驾驶任务|基于概率的3D多模态多目标跟踪（ICRA2021）
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达标题:Probabilistic 3D MultiModal,MultiObject Tracki ...
RTFNet：基于可见光/红外图像的城市自动驾驶道路场景语义分割
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达论文下载:https://yuxiangsun.github.io/pub/RAL2019_rtfne ...
城市自动驾驶中利用停车标志的自动标定方法
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨paopaoslam 来源丨泡泡机器人SLAM 点击进入->3D视觉工坊学习交流群标题: ...
大数据24小时：百度设立BI实验室和机器人与自动驾驶实验室，腾讯优图引入医疗AI科学家郑冶枫
[数据猿导读] 腾讯优图实验室引入医疗人工智能科学家郑冶枫:百度宣布设立BI实验室和机器人与自动驾驶实验室:大数据解决方案提供商"数联铭品"获1.2亿元融资--以下为您奉上更多大数 ...

IROS2020 | 面向城市自动驾驶应用的概率语义建图

摘要

介绍

实验

结论

IROS2020 | 面向城市自动驾驶应用的概率语义建图相关推荐

最新文章

热门文章