本文总结于Waymo研发经理周寅于2021年8月29日在深蓝学院的讲座。讲座内容主要包括自动驾驶系统的总览,自动驾驶感知的介绍,以及感知的前沿动态和总结。

1.自动驾驶系统总览

关于自动驾驶系统,目前主流的L4级别自动驾驶系统通常包括预先提供的地图以及众多传感器,具体传感器系统包括激光雷达系统,雷达系统以及视觉系统。 无人驾驶的目的是通过这些输入来控制汽车的行驶。近些年,由于深度学习的兴起,我们在更多的模块部署了深度学习的模块,不过虽然端对端的深度学习有很美好的前景,但是与目前工业界模块化的设计方式相比,依然有不少差距。

图一:无人车系统主流的模块化设计

关于如今无人车系统的模块,输入通常包括高精地图以及各种传感器, 然后基于传感器和地图,我们就可以知道当前车辆的位置信息 (比如汽车位于哪个车道,前方是否有斑马线等), 接下来,我们就可以进行感知,了解周围的环境信息(比如车辆、行人、信号灯、施工障碍物等) 并规划路径进行驾驶。

其中,感知通常是基于地图,因为地图能为我们提供很多的先验信息,比如红绿灯的位置,十字路口的位置等,基于定位和感知的结果,我们可以进行更准确的行为预测,目的是为了判断周围的物体未来可能会有怎样的行为或者运动。在这样的预测的基础下,我们接下来就可以实时地规划出车辆的最优路径。

2.自动驾驶感知的介绍

本次讲座,我们将主要关注感知的环节。关于感知,我们的输入就是各个传感器采集到的数据以及地图,输出则是对于周围环境的各种表征。关于自动驾驶感知的路线,目前比较主流的包括Waymo为代表的多传感器感知路线,以及Tesla的纯视觉感知路线。

就个人观点,从无人驾驶的角度,我们希望达到最安全的驾驶等级, 然而不管哪种传感器,都存在一定的感知”盲区”。因此,我们需要传感器弥补其他传感器在特定场合的不足。比如激光雷达在雨天和雾天通常效果不佳,因此我们装配上摄像头和雷达来弥补激光雷达的这一不足。

关于感知,学术界和工业界主要关注的包括六个问题:

  1. 目标检测和跟踪。包括目标的大小朝向位姿;
  2. 物体分割。在图像上我们需要对每个像素点标定类别,对于点云,我们需要对每个点标定类别;
  3. 流估。我们想了解物体运动的趋势;
  4. 深度估计。我们需要得到每个点的深度信息,这对于视觉感知非常重要;
  5. 对于行人的姿态估计, 我们希望清晰的了解到行人的意图和行为;
  6. 高精地图的实时生成

在这些问题中, 目标检测是学术界和工业界共同关注的重点。关于目标检测的讨论,我们可以分为五个维度进行讨论:

  1. 普适性,也就是它是否能在各个场景下(比如极端天气,不同城市场景等)实现满意的检测识别效果;
  2. 识别的质量和效果,我们希望识别的效果尽可能的准确;
  3. 运算效率,我们希望模型不仅效果好,并且跑的快、占用的内存资源较少;
  4. 数据标注的自动化,我们希望用更低的人力和金钱和时间成本获得更有效的数据进行模型训练;
  5. 数据的灵活性,我们希望模型能够适应各种数据类型,比如仿真的模拟数据,经过压缩的数据等。

3.感知前沿介绍

在感知的五个维度中,检测质量,普适性,计算效率是和自动驾驶汽车的实时性能(onboard)息息相关的, 而其他的两个维度——数据灵活性和标注自动化通常可以线下(offboard)优化,也同样得到了越来越多的关注了。接下来我们也将就这几个维度分别介绍我们的工作。

图二:自动驾驶感知的五个维度

关于模型普适性,我们不久前发布在ICCV的论文Unsupervised Domain Adaptation for 3D Object Detection via Semantic Point Generation(简称SPG)就是关于这个主题的。 它实现了有效率少参数的模型,能够通过恢复激光雷达的扫描盲区而提高点云质量。同时,它可以在不需要任何额外训练数据的情况下,显著提高检测器在遮挡情况下和在雨天的性能。

图三:雨天激光雷达的点云显示更加分散

我们这篇文章的核心思想就是在有限或者不完整的点云输入的情况下,让模型自己去猜测点云的一些细节部分, 所以SPG可以被视作一个联合学习(joint learning)的框架。具体来说,它包括两个部分:分别是3D分割和前景形状恢复。3D分割意味着我们要分类每个前景点云的栅格,看它属于希望被检测的物体还是背景。对于物体的形状,我们会生成新的点来对它进行复原。

所以,这个模型的流程包括以原始点云作为输入,通过前景点的生成,和原始点云进行叠加,再把增强的点云进行输入,用于目标检测。我们把点云恢复后的数据提供给Pointpilars, PV-RCNN等模型,这些模型的总体检测效果也得到了有效提升,并且在很多困难的检测场景中,模型的检测效果得到了更为显著的提升。对PV-RCNN而言,SPG带来的时耗增长在10%左右,还有进一步优化的空间。

图四:SPG通过稀疏点云恢复物体形状

第二个工作是关于如何提高模型的性能。在3D-MAN: 3D Multi-frame Attention Network for Object Detection这个工作中,我们提出了用注意力机制来学习和融合多帧信息。我们用了一个有效的主干网络来提取潜在特征,再用注意力机制通过参考当前帧的信息和历史帧信息来调整特征。

图五:3D-MAN结构框架

在Waymo数据集中,我们对于方法进行了测试。我们看到此方法让检测效果有了大幅度提升。

第三个工作是关于如何提高模型的效率——RSN: Range Sparse Net for Efficient, Accurate LIDAR 3D Object Detection。这个工作的出发点是希望在提高检测效果的同时,保证运行速度和内存效率。

这个工作的核心思想是利用点云的稀疏性,最大化的提高运行效率,节省运行时间,而方式是去除去背景部分的点云,从而最大程度的提高效率。这个方法的实现是把点云以Range Image的形式呈现,然后利用网络进行分割,把属于前景点云的特征提取出来。接下来,通过进一步的稀疏特征提取以及Box regression, 我们就可以得到检测结果。

我们也把效果在Waymo数据集中进行了测试,发现相比于PV-RCNN,它在提高了精度的基础上,还非常显著地减少了延时。

刚才讨论的三个话题都是关于线上改进模型的工作,而线上的效果提升非常依赖于车上的计算资源,并且只有很有限的实时信息。而对于线下的效果提升,我们可以拥有更多的计算资源,并且有多种传感器的全局信息,因此在这个大方向,也有很多的工作值得尝试。

针对标注自动化,在Offboard 3D Object Detection from Point Cloud Sequences中,我们提出了一种自动数据标注的方法,它可以使用结构化的信息来提高自动标注和跟踪的效果,并且,我们把算法效果和人工标注的效果进行对比,两者已经非常接近。

这一工作的动机在于人工标注通常非常的耗时耗力,20秒的数据可能需要一个专业标注员数天的时间标注。因此我们的思路是让机器处理绝大多数场景,只把很难处理的场景交给人工标注员去处理或者修饰。

算法流程如下,对于每一帧我们都得到通过检测得到检测框的大小类别,并且进行跟踪,对于静态和动态物体,我们根据运动状态进行分类。接着基于PointNet进行处理,从而得到物体更精确的状态。

结果证明,我们的自动标注结果相比于PointPillars和PV-RCNN,检测精度有了很大的提升。

图六:自动标注和PointPillars,PV-RCNN检测效果的对比

关于数据的灵活性这一主题,我们在工作SurfelGAN: Synthesizing Realistic Sensor Data for Autonomous Driving中,目标是根据已有的相机和激光雷达数据,让车辆在一个全新的位姿情况下,也能得到接近真实的感知信息。为了实现这个目标,第一步是利用LiDAR和图片信息进行3D重建,然后利用对抗生成网络,我们可以实现效果的增强,包括前景和背景效果的提高。这个工作的应用包括:得到新的视角的图片信息以及实现对于场景中物体的挪动和方向调整。

图七:利用SurfelGAN实现物体的调整

4.总结

我们接下来来总结一下今天的课程内容,在今天的课程中,我们了解了一个完整的自动驾驶车辆的系统架构和功能:包括定位,感知和行为预测以及规划。接下来,我们在感知模块展开更详细的介绍,并介绍了比较经典的研究方向。从五个方面,我们介绍了Waymo的五篇经典论文,包括线上和线下的感知,关于这两者的关系,我认为具有强耦合的联系,通过共同推进这两方面的进步,我们可以实现自动驾驶感知能力的进一步提高。

感谢深蓝学员何常鑫同学的整理,非常感谢周寅博士对本文章的审核与修改。

自动驾驶的重要一环:谈谈感知前沿技术相关推荐

  1. 自动驾驶软件开发人才现状_浅析自动驾驶的重要一环:感知系统发展现状与方向...

    在自动驾驶控制系统的架构当中,自动驾驶车辆的感知系统和定位系统作为车辆路径规划的依据,是至关重要的两个环节.最近的两篇文章将详细介绍自动驾驶车辆的感知系统和定位系统的基本结构.发展现状和未来发展方向. ...

  2. Waymo研发经理:《自动驾驶感知前沿技术介绍》

    Waymo研发经理|自动驾驶感知前沿技术介绍 这是Waymo研发经理(VoxelNet作者)的一个最新分享报告:<自动驾驶感知前沿技术介绍>.在这份报告里,介绍了Waymo在自动驾驶感知中 ...

  3. 自动驾驶创业方向有变化?如何突破技术瓶颈?

    自动驾驶无疑是截至目前,今年最受投资青睐的一个细分领域.据业内人士介绍,这是继 2014.2015 年以来,自动驾驶领域的又一次投资热潮.有专业人士认为,这次投资热潮中有明显的投资趋势转变特征出现.具 ...

  4. 自动驾驶在挑战中进化的感知能力

    桔妹导读:滴滴感知大量使用机器学习和深度学习来解决问题,但要解决L4自动驾驶的感知问题,并非只是引入最先进的深度学习模型即可解决.本文归纳出感知能力逐步进化的三个阶段.并分析了以下几大难题给感知带来的 ...

  5. Apollo自动驾驶入门-地图、定位、感知、预测、规划、控制

    目录 高精地图 定位 GNSS RTK定位 惯性导航定位 激光雷达定位 视觉定位 感知 检测与分类 跟踪 分割 预测 规划 路径规划 轨迹生成 Frenet坐标 路径速度解耦规划 ST 图 生成路径的 ...

  6. 特斯拉自动驾驶算法和模型解读(感知/规划/矢量地图/自动标注等)

    编辑 | 焉知汽车 点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心[全栈算法]技术交流群 特斯拉是一个典型的AI公司,过去一年训练了7 ...

  7. 自动驾驶公交车第 1 部分:车辆运营技术要求

    1 范围 本文件规定了自动驾驶公交车的车辆基本要求.车辆运营要求和信息安全要求. 本文件适用于具备4级及以上驾驶自动化能力,提供载客运营服务的小型.中型和大型公共汽车. 其他车型参照执行. 注:小型. ...

  8. 揭秘特斯拉自动驾驶雄心:最大优势非算法或技术而是海量数据

    来源:腾讯科技  审校:金鹿 腾讯科技讯 9月20日消息,对于电动汽车制造商特斯拉来说,实现全自动驾驶始终是其优先议程之一.与其他竞争对手相比,该公司的最大优势并非技术或算法,而是目前上路的40多万辆 ...

  9. 美国公布自动驾驶政策 高通推出aptX Voice音频技术

    2020.1.09 周四 #今日要闻# 1.美国公布自动驾驶重大发展政策AV 4.0 1月9日消息,据外媒报道,周三,美国交通部部长公布了美国联邦政府对无人驾驶汽车的最新政策体系--被称为" ...

最新文章

  1. 深度学习在视觉搜索和匹配中的应用
  2. 从URL输入到页面展现,过程中发生了什么?
  3. 用命令行编译java并生成可执行的jar包
  4. VS 2008 .NET Framework 3.5 Training Kit
  5. 【安全实战】红队攻防技术
  6. php验证密码后跳转_php-laravel框架用户验证(Auth)模块解析(四)忘记密码
  7. 用java实现etcd分布式锁_etcd分布式锁及事务
  8. python中assert是什么意思,python中assert断言的用法
  9. java quartz xml_java 使用quartz 定时xml 配置 与注解 以及注意事项
  10. 【微软之--起源】(转载自腾讯科技)
  11. vi编辑器使用技巧篇1
  12. nginx的location优先级
  13. DEA博弈交叉效率matlab,基于博弈交叉效率DEA模型的服务模块化创新绩效测量—以江西省文化创意产业为例...
  14. 如何在计算机设置鼠标宏,游戏鼠标宏设置是什么?怎么设置游戏鼠标宏?
  15. Android 获取SN号
  16. chrome浏览器inspect打不开解决方案
  17. 老李分享:六度分隔理论 1
  18. python因数之和等于数字本身,完全数,盈数,亏数到底是什么鬼?python实现给你看...
  19. flex布局小案例——制作骰子
  20. 《项目管理知识体系指南》(PMBOK®指南)第3 版

热门文章

  1. python之判断类型
  2. Ant Design Pro v5 正式版从零开始实战 Refresh Token 视频教程(13 个视频)
  3. 如何用python画一条蟒蛇_Python之绘制蟒蛇
  4. 深度学习——感知机(perceptron)图文详解
  5. Android background背景图片平铺
  6. css小记(rotate3d)
  7. PPOCR 检测器配置文件参数详解
  8. 基于java的数据交换ETL工具及可视化平台源码
  9. 广告投放算法:受众行为分析与人群定向
  10. 32位机器和64位机器数据类型