作者 | 黄浴,奇点首席科学家兼总裁

来源 | 转载自知乎专栏自动驾驶与视觉感知

导读:近日,吴恩达的 Drive.ai 被苹果收购的消息给了自动驾驶领域一记警钟,但这个领域的进展和成果犹在。本文将介绍一些端到端的自动驾驶研发系统,让读者可以从系统层面对自动驾驶有更加深刻的认识。

虽然不赞成,但有必要列出来这种研究和demo工作。

英伟达驾驶员模拟器

Nvidia是比较早做端到端控制车辆工作的公司,其方法训练CNN模型完成从单个前向摄像头的图像像素到车辆控制的映射。 其系统自动学习一些处理步骤的内部表示,比如只用转向角作为训练信号去检测道路特征。

下图是其CNN模型训练的流程图,采用BP算法。而下下图是模型推理的框图,这时候只用一个中间的摄像头。



下图给出其数据收集系统的框架,包括3个摄像头(左,右,中)输入,输出控制方向盘。


PilotNet如图CNN模型架构细节,有2700万个连结,25万个参数。



驾驶仿真器




可以看出,这个模型不学习速度调整模型,如自适应巡航控制(ACC)那样。当年,该系统曾在旧金山的著名观景九曲花街做过演示,的确不需要控制速度,但是障碍物造成刹车也会造成人为接管。


Comma.ai 与 OpenPilot 驾驶模拟器

Comma.ai作为向特斯拉和Mobileye的视觉方法挑战的黑客,的确在端到端的自动驾驶开发是最早的探索者。

其思想就是克隆驾驶员的驾驶行为,并模拟今后道路的操作规划。采用的深度学习模型是基于GAN (generative adversarial networks)框架下的VAE(variational autoencoders)。利用一个行动(action)条件RNN模型通过15帧的视频数据来学习一个过渡模型(transition model)。下图给出了这个模拟器模型的架构,其中基于RNN的过渡模型和GAN结合在一起。



曾经在网上销售其系统:





该方法没有考虑感知模块的单独训练,安全性较差,比如缺乏障碍物检测,车道线检测,红绿灯检测等等。

从大规模视频中学习 E2E 驾驶模型

目的是学习一种通用的车辆运动模型,而这个端到端的训练架构学会从单目相机数据预测今后车辆运动的分布。如图应用一个FCN-LSTM 结构做到这种运动轨迹预测。



这种通用模型,输入像素,还有车辆的历史状态和当今状态,预测未来运动的似然函数,其定义为一组车辆动作或者运动粒度(离散和连续)。图将这种方法和其他两个做比较: “中介感知(Mediated Perception)“ 方法依赖于语义类别标签;“运动反射(Motion Reflex)” 方法完全基于像素直接学习表示; 而 FCN-LSTM ,称为“特权训练(Privileged Training)“ 方法,仍然从像素学习,但允许基于语义分割的附加训练。



基于逆向强化学习的人类自主驾驶开放框架

基于一个开放平台,包括了定位和地图的车道线检测模块,运动目标检测和跟踪模块(DATMO),可以读取车辆的里程计和发动机状态。采用逆增强学习(IRL)建立的行为学习规划模块(BEhavior Learning LibrarY,Belly) ,其中特征右横向偏移,绝对速度,相对车速限制的速度和障碍物的碰撞距离,输出规划的轨迹。图是其系统框图。


模拟学习有缺陷,无法在测试时候控制,比如在交叉路口打U-turn。

提出条件模拟学习(Condition imitation learning),有以下特点:

  • 训练时候,输入的不仅是感知和控制,还有专家的意图。

  • 测试时候,直接输入命令,解决了感知电机(perceptuomotor)的多义性(ambiguity),同时可以直接被乘客或者拓扑规划器控制,就像驾驶员的一步一步操作。

  • 无需规划,只需考虑驾驶的表达问题。

  • 复杂环境下的视觉导航成为可能。

下面是实现条件模拟学习的两个NN架构:

第一个:命令输入。命令和图像等测试数据一起作为输入,可以用指向任务的向量取代命令构成任务条件的模拟学习。



第二个:分支。命令作为一个开关在专用的子模块之间的切换。



物理系统:



虚拟和实际环境:



自动驾驶的失败预测

驾驶模型在交通繁忙的地区、复杂的路口、糟糕的天气和照明条件下很可能失败。而这里就想给出一个方法能够学习如何预测这些失败出现,意识是估价某个场景对一个驾驶模型来说有多困难,这样可以提前让驾驶员当心。

这个方法是通过真实驾驶数据开发一个基于摄像头的驾驶模型,模型预测和真实操作之间的误差就称为错误度。 这样就定义了“场景可驾驶度(Scene Drivability),其量化的分数即安全和危险(Safe and Hazardous),图给出整个架构图。



图是失败预测模型训练和测试的流程图。预测失败其实是对驾驶模型的考

验,能及时发现不安全的因素。



结果如下



Note:past path (red),Lidar-IMU-INT’s future path prediction (blue).

这是一个机器学习方法,通过集成激光雷达点云,GPS-IMU数据和Google地图导航信息而产生驾驶通路。还有一个FCN模型一起学习从真实世界的驾驶序列得到感知和驾驶通路。产生与车辆控制相接近并可理解的输出,有助于填补低层的景物分解和端到端“行为反射”方法之间的间距。图给出其输入-输出的张量信号,如速度,角速度,意图,反射图等等。




下面图每列中,顶图是过去/今后(红/蓝)通路预测,底图是驾驶意图近域(左)和驾驶意图方向(右)。A列是驾驶意图(右转)和直路无出口的分歧,B–D列是存在多个可能方向 。



Note:driving intention proximity (left),driving

intention direction (right).



上图是FCN模型参数。

LiDAR视频驾驶数据集:有效学习驾驶政策

离散动作预测,预测所有可能动作的概率分布。但离散预测的局限是,只能在有限的定义好的动作进行预测。连续预测是把预测车辆的现行状态作为一个回归任务,如果准确预测在实际状态的驾驶策略,那么被训练的模型可以成功驾驶车辆。所以,把驾驶过程看成一个连续的预测任务,训练一个模型在输入多个感知信息(包括视频和点云)后能预测正确的方向盘转角和车辆速度。


如图是其系统框图,其中深度学习模型是DNN加LSTM,激光雷达点云通过PointNet提取特征送入深度学习模型。



如图给出传感器数据在进入NN模型之前的预处理流水线框图,需要时间同步,空间对齐。



下面图是深度学习模型DNN和DNN+LSTM的架构图




使用环视摄像机和路线规划器进行驾驶模型的端到端学习


ETH的工作,采用一个环视视觉系统,一个路径规划器,还有一个CAN总线阅读器。 采集的驾驶数据包括分散的驾驶场景和天气/照明条件。集成环视视觉系统和路径规划器(以OpenStreetMap为地图格式的GPS坐标或者TomTom导航仪)的信息,学习基于CNN,LSTM和FCN的驾驶模型,如图所示。


实验中,与采用单前向摄像头训练的模型还有人工操作比较(蓝/黄/红),如图所示:其中(1)-(3)对应三种不同的模型训练结果,即(1)只用TomTom路径规划器训练,(2)只用环视视觉系统训练, (3)用环视视觉和TomTom路径规划器一起训练。



深度学习的模型架构,包括路径规划器和环视系统5个输入通道,输出到方向

盘和加速踏板。


下面结果是左右拐弯时候的三种方法比较:人,前向摄像头和环视视觉加TomTom导航仪。



目前,该还没有加入目标检测和跟踪的模块(当然还有红绿灯识别,车道线检测之类的附加模块),但附加的这些模型能够改进整个系统的性能。

佐治亚理工学院端到端学习自动驾驶

还是模拟学习:采用DNN直接映射感知器数据到控制信号。下面系统框图:


下面是DNN 控制策略:



TRI自动驾驶端到端控制

端到端DNN训练,提出一种自监督学习方法去处理训练不足的场景。下图是自监督端到端控制的框架:NN编码器训练学习监督控制命令,还有量化图像内容的各种非监督输出。


提出新的VAE架构,如下图,做端到端控制: 编码器卷积层之后的图像特征,进入一个监督学习方向盘控制的潜在变量(latent variables )的可变空间。最后潜在向量进入解码器自监督学习重建原始图像。



特斯拉 SW 2.0 

特斯拉的2.0软件思想,2018年8月提出。


自动雨刷:




(*本文为 AI科技大本营转载文章,转载请微信联系原作者

精彩推荐

推荐阅读

  • 不写一行代码,也能玩转Kaggle竞赛?

  • 一文读懂基于神经网络的图片风格转移

  • 50行Python代码,获取公众号全部文章

  • 收藏 | 49个Python学习资源

  • 库克回应乔纳森离职;微信新版本取消“语音转文字”功能;Mac Pro生产迁至中国 | 极客头条

  • 三十四载Windows崛起之路: 苹果、可视做过微软“铺路石”

  • 3大维度告诉你,为什么说比特币并非避险资产?

  • 黑客亲述: “倾家荡产,是你们的事! ”

  • 面试官:你简历中写用过docker,能说说容器和镜像的区别吗?

你点的每个“在看”,我都认真当成了喜欢

从特斯拉到英伟达,那些端到端自动驾驶研发系统有何不同?相关推荐

  1. 英伟达、AMD 高端芯片断供,国产芯片如何迅速崛起

    来源:大数据文摘转载自AI科技大本营 整理:苏宓 出品:CSDN 8 月 31 日,据外媒 Protocol.路透社等多家报道,美国开始对出口人工智能相关应用所需的先进芯片施加新的限制,其中 AMD. ...

  2. 借力英伟达打造车规L3智能驾驶大脑,揭开德赛西威量产的“秘密”

    从Tier 1到Tier 0.5,汽车电子供应商德赛西威在自动驾驶技术浪潮的演变中完成转型. 11月20日-22日,在英伟达GPU技术大上,德赛西威研究院院长黄力发表了"智能驾驶,决胜未来- ...

  3. 软硬件解耦太难!英伟达竟“越来越像Mobileye”

    尽管Mobileye已经愿意推行"软硬件解耦",但由于车企自己目前还没有能力搞定算法,Mobileye便"不得不"又回到软硬一体化的老路上. 随着软件能力越来越 ...

  4. 英伟达自动驾驶技术:用于自动驾驶汽车的端到端深度学习

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:机器之心 AI博士笔记系列推荐 周志华<机器学习> ...

  5. 2002年3月英伟达发布核弹GPU与大算力自动驾驶芯片

    2002年3月英伟达发布核弹GPU与大算力自动驾驶芯片 英伟达核弹级GPU:800亿晶体管,20块承载全球互联网流量 2022年3 月 22 日,在英伟达 GTC2022 上,英伟达介绍了 Hoppe ...

  6. 英伟达开大会,每秒下载1.4万部小电影的GPU来啦

    硅谷Live / 实地探访 / 热点探秘 / 深度探讨 美国时间3月27日早上,英伟达 GTC 大会最重磅环节--英伟达创始人黄仁勋的主题演讲在圣何塞举行. 要知道,GTC大会向来都是以AI和深度学习 ...

  7. 英伟达的DPU,是想在数据中心奇袭英特尔?

    最近几年,经常关注科技圈的朋友们总会发现,每次遇到厂商有重大发布,就总能看到"颠覆"."极致"."革命性"等概念出现在发布会上. 前几天,i ...

  8. 定义为“AI计算公司”,业绩大幅下滑的英伟达新变量在哪?

     关注ITValue,查看企业级市场最新鲜.最具价值的报道! 1999年,英伟达发明了 GPU,20年后今天,GPU让英伟达攀至行业顶峰. 然而,急速膨胀后潜藏的危机,也增加了这家明星公司的焦虑感. ...

  9. 英伟达TX2烧录系统_英伟达的DPU,是想在数据中心奇袭英特尔?

    热点追踪 / 深度探讨 / 实地探访 / 商务合作 最近几年,经常关注科技圈的朋友们总会发现,每次遇到厂商有重大发布,就总能看到"颠覆"."极致"." ...

最新文章

  1. pytorch 多GPU训练总结(DataParallel的使用)
  2. Vue 组件库 HeyUI@1.16.0 更新日志
  3. node-mongo封装
  4. JS,中文,未结束的字符常量
  5. pku3176--Cow Bowling
  6. linux 压缩为多个文件,在Linux中,如何将输入流压缩为多个输出文件?
  7. arduino使用oled代码_如何做一个Arduino无线气象站
  8. html中输出 u263c,二级C语言笔试必过399题
  9. jQuery Mobile中面板panel的data-*选项
  10. Java开源企业协同办公项目:O2OA如何集成WPS
  11. 删除下拉框只找23火星软件_下拉框软件联系23火星软件
  12. 广播、组播、单播区别与联系
  13. html5快捷键保存,保存的快捷键是什么?有了快捷键保存太方便了
  14. 基于easyui的 增 删 改 查
  15. QtAndroid详解 6 集成信鸽推送
  16. 计算机发展史评课议课稿,历史课评课稿
  17. 操作ocx控件和注册反注册ocx
  18. 计算机更名无法登陆用友u8,用友T6软件修改了计算机名称后,系统管理提示不能连接服务器-用友T6...
  19. Unity 基于LineRenderer组件实现连线功能
  20. 十大算法展辉煌历史,十大问题引锦绣前程

热门文章

  1. 参与2011年7月13日举行的Azure国际猜拳锦标赛,赢取5,000美元大奖
  2. ESX上ORACLE 10.2RAC(4.在REHAT4.7中安装ORACLE RAC)
  3. -16 | 12 等于多少
  4. 反转链表JAVA算法_链表反转算法
  5. vi 环境,跳转函数定义
  6. git之reset图解
  7. Java线程安全 关于原子性与volatile的试验
  8. 2_Selenium对象识别
  9. Gradle系列教程之依赖管理
  10. [转]Windows与VC命名规则