前情回顾

特斯拉的辅助驾驶一直贯彻纯视觉方案,环绕车身共配有 8 个摄像头,视野范围达 360 度,对周围环境的监测距离最远可达 250 米。12 个新版超声波传感器作为整套视觉系统的补充,可探测到柔软或坚硬的物体,增强版前置雷达通过发射冗余波长的雷达波,能够穿越雨、雾、灰尘,甚至前车的下方空间进行探测,为视觉系统提供更丰富的数据。

  • 车头6个、车尾6个,共12个超声波传感器;
  • 前挡风玻璃下内后视镜上端长焦、标准、短焦共3个前视摄像头;
  • 外后视镜前端翼子板后端两侧2个后侧视摄像头;
  • 前后门中柱靠上端两侧共2个侧视摄像头;
  • 后窗上部中间1个后视摄像头;
  • 后车牌位置上一个倒车摄像头;
  • 前保险杠中部1个毫米波雷达。

下图是AP2.5版本的传感器配置图:

细心的小伙伴会发现不是说纯视觉方案嘛,怎么还有一颗前雷达?

不得不说特斯拉早期的纯视觉路线还是应用了毫米波雷达的,只是当它们的视觉感知越来越成熟以后才对纯视觉路线进行一次“提纯”,彻底舍弃掉毫米波雷达。

而在今年五月份,特斯拉又宣布在北美市场售卖的 Model 3/Y将不再配超声波雷达,仅标配摄像头。再次将纯视觉方案提纯到极致。用Andrej的理念来说,人类依赖视觉开车,通过大脑理解周围环境。那么摄像头+深度网络也行~~~

不过小编不敢苟同,有点过于激进,是否最终完美性能的达成将踩在多少次事故的积累之上。毕竟相比人脑的学习模式,深度学习技术还是有其天然硬伤。

本篇主要是来说说在这次的Tesla AI Day中从FSD视觉感知的角度给我们带来了哪些可以学习的方向。还是回归正题,不diss马斯克的纯视觉之路了。

感知源泉

小编接触过不少做视觉算法的小伙伴,不管是在给图像打标签,还是在设计算法模块,或者在评估某张图片中的物体是否应该被检测到。这其中都带有一定的主观成分,经常会去类比:

  • 人眼去看这个物体是否能识别它是什么?
  • 人眼是如何测量物体到我之间的距离?
  • 人类是如何加深对场景的认知能力?
  • 人类是如何应对特殊场景的突发状况?

在Andrej介绍Tesla视觉感知部分的开篇为我们引入了仿生学的理念,将人眼视网膜对应摄像头,复杂的视觉皮层对深度神经网络的关系。如下图所示:

静下来想想我们会察觉到许多视觉算法模块和生活周遭惊人的相似,举几个不恰当的例子:

当你王者荣耀打多了,眼睛近视看东西模糊了怎么办?去眼镜店会给你检查度数配一个眼镜。标定:摄像头安装在车上时间久了发生偏移了怎么办?我们会设计静态和动态标定算法,得到摄像头的内外参,最后通过参数的矩阵变换来调整畸变的图像。

当你在路上开车遇到这个图标的车cut in到你前面了。这时候别人会告诉你,离它远点暂时还碰不起~~~,这就是一个学习的过程。识别:当摄像头第一次看到躺在地上的人时可能也不认识,这时候就要多采集几张图片打个标签告诉计算机它是什么。

当你在打羽毛球时,看到对面打算跳起扣杀时,你是否要预判球的飞行轨迹以及落球点在哪里,以便能接住。跟踪:自动驾驶车辆行驶在道路上,当检测前方路口处有行人时,往往需要通过滤波等算法预测出行人的运动轨迹,从而判断是否需要停靠等待或者减速通过。

丹炉设计

模型设计这个话题,在这次分享中抛出了几个方向:

  • 如何从低层级特征图中提炼出比较好的特征信息
  • 如何通过网络实现感知算法中多种任务
  • 如何解决图像感知中缺乏的信息连贯性

在特征提取部分给出的理念还算比较大众化,毕竟炼丹是项技术活,纵使同一个丹炉不同火候练出来丹药也会乘次不齐,原则上就是:

  • 主干网络的特征共享机制
  • 残差模块权衡延迟和准确性
  • 顶层和底层上下文特征融合
  • 多尺度信息的相互补充

感知模块的多任务算是一个常态:通用检测,信号灯检测,车道线检测,可行驶区域分割,深度估计等等,所以在设计网络模型时都会分出不同的任务头。为了避免共享特征层中的权重在训练时收到多任务竞争而造成的不可控因素,小编猜测在后期的迭代过程中可能需要冻结共享阶段的权重,可训练参数只针对当前任务。

针对单帧图像无法包含物体运动的速度,加速度,轨迹等信息,Tesla指出它们将单帧的输入替换成了视频片段的形式:

众所周知对连续帧的处理通常采用3D卷积或者循环卷积等方式,另外加上今年很火的Transformer(本质就是注意力+循环卷积)。

但其实有很大一部分研究人员还是用的单帧+跟踪的方式解决上述问题,将时间维度加入神经网络中一来增大了运算开销,二来硬件对这些算子的支持程度不太友好。

数据形式

Andrej这次着重介绍的还有数据的空间形式,虽然业内都知道Tesla的感知是投影到鸟瞰图视角做的,但是对于为什么这么做?以及如何做?这么做有什么好处等方面听了主讲人的介绍还是颇有启发。下图是会议展示的Demo中提到的从左侧多相机视角的图像空间转换到右侧仪表盘上的向量空间:

Tesla为什么坚定的在鸟瞰图空间搞事情,主要还是因为多相机感知结果的融合太困难,当一个大货车出现在3个甚至4个视角中,即使每个视角的相机都检测到目标,但是当根据相机内外参、地面方程等外部约束转换到空间坐标后,很难在多个图像空间同一目标的结果统一到矢量空间中,更糟糕的是距离越近的物体朝向角就越发抖动。

同时Tesla给出的图像空间——>矢量空间的转换方式,也并非简单的像素投影,因为逐像素投影的做法对参数依赖过于强烈,实际场景很难达到精度要求。

Tesla将这一块空间转换的过程集成到了神经网络中,构建栅格并利用上下文、位置编码、键值查表等信息通过Tranformer模块实现:

基于官方提供的对比图,确实这种模型操作(右下)得到的矢量空间优于逐点投影出(左下)的效果。

虚拟相机

这里主要是将多个相机得到的图像空间进行投影视角的统一,至于为什么要怎么做?小编猜测和神经网络的学习能力有关,如果每个相机的透视投影程度不同,是否网络在融合不同相机得到的图像过程中就需要多一层矩阵转换,更有甚者可能难以收敛。比如我们在做数据处理时会对不同维度的数据进行参数归一化统一量纲,就是为了避免不同维度数据范围差距较大而引发梯度震荡。

下图给出了由不同相机统一到虚拟相机的三个过程:

  • 畸变校正
  • 旋转变换
  • 畸变还原

总的来说,当涉及多个相机数据,需要输入到同一个神经网络做黑盒训练时,类似虚拟相机等Tricks还是为了得到更好更一致的数据空间,来提升模型预测的效果。

最终形态

最后献上官方的整体结构图:

我们从下往上看,先将多个相机的图像数据统一到虚拟相机,然后输入残差模块提取基础特征,再将高层级和低层级特征进行上下文融合,输入Transformer模块转换到矢量空间,将中间层压入队列,用于构建后续的连续视频特征,最后就是输到不同的子任务做各自的训练处理。


欢迎关注小编公众号,每周分享关于计算机视觉或无人驾驶感知方面的内容。

http://weixin.qq.com/r/GR1udl-EvQLCrRsV90gL (二维码自动识别)

特斯拉AI日的感知之旅相关推荐

  1. 特斯拉AI日点不燃仿人机器人的市场热情

    来源:科技智谷 编辑:Light " 仿人机器人的巨大市场蓝海能否兑现,核心还要看产品量产和成本控制. 近期,沉寂已久的仿人机器人市场终于迎来了它的"春晚"--特斯拉AI ...

  2. 万众瞩目的特斯拉AI日,会有哪些惊喜?

    来源:华尔街见闻 作者:方凌 8月19日,特斯拉AI日即将举行.马斯克此前曾表示,此次AI日将展示特斯拉在人工智能方面硬件和软件开发的进展,并且招募顶级人才. 活动的日子日渐临近,对于特斯拉究竟将在放 ...

  3. 特斯拉AI日放大招!发布自研超算Dojo芯片,每秒可执行1024亿次计算

    作者 | 凌敏.李冬梅 来源:AI前线 特斯拉发布 Dojo D1 芯片 北美时间 8 月 19 日,特斯拉 AI Day 正式举行.在发布会上,马斯克介绍了特斯拉在人工智能领域的软件和硬件进展.其中 ...

  4. 特斯拉AI总监的MNIST训练之旅

    1. 引言 今天我们来重点介绍一下特斯拉AI总监的一篇博客<Deep Neural Nets: 33 years ago and 33 years from now>,这篇文章深入浅出地介 ...

  5. 特斯拉AI团队招兵买马:“英雄不问出处”

    2月3日,特斯拉创始人兼CEO埃隆•马斯克发布推特,贴出了Autopilot AI团队招聘人才的信息. 马斯克在推特中表示,特斯拉AI团队将直接向马斯克回报,他几乎每天都会与团队保持沟通和交流,并透露 ...

  6. 这个模型,让前特斯拉AI总监Andrej Karpathy沉迷了整整3天!

    来源:新智元 最近,一个叫Xander Steenbrugge的AI研究员兼数码艺术家,上传了一段非常震撼的视频<跨越时间之旅>. 地球上的生物大进化,从原始海洋起始,到远古蜥蜴.恐龙.哺 ...

  7. 一周AI回顾 | 特斯拉AI负责人说神经网络正在改变编程,机器学习大神Bengio新论文专注RNN优化

    本期一周AI看点包括行业热点.投融资.业界观点.技术前沿以及应用等方面. 行业 英特尔将同AMD合作PC芯片 共同对抗英伟达 <华尔街日报>援引知情人士的消息称,英特尔将发布一款移动处理器 ...

  8. Apollo进阶课程⑳丨Apollo感知之旅——机器学习与感知的未来

    目录 1机器学习 可解释性是否需要 其它算法 2感知的未来 Sensor迭代 深度学习+仿真数据+AI芯片 智能交通设施 3思考 原文链接:进阶课程⑳丨Apollo感知之旅--机器学习与感知的未来 自 ...

  9. 特斯拉AI Day:车企能造好机器人吗?

    作者 | 洪泽鑫 编辑 | 德新 很多人肯定都看过上面这个对比视频. 不少吃瓜群众感慨,小米比特斯拉领先整整60年. 左边的特斯拉机器人像20岁,右边的小米机器人看起来像80岁. 但事实上,特斯拉的这 ...

最新文章

  1. 【Python基础】Python 100 例带你入门
  2. for(;;)是什么,for(;;)的作用
  3. 学习Python最好的途径——激发自己的学习兴趣!
  4. web性能測試工具-沒還有實驗-URL收集_无需整理
  5. 四叶草引导windows和linux,Windows环境下使用Clover四叶草引导双硬盘安装OSX 10.11.5原版镜像...
  6. JavaScript中奇妙的replace
  7. LGD:涨点神器!旷视孙剑、张祥雨团队提出标签引导的自蒸馏技术,助力目标检测!...
  8. 教你使用 IDEA 配置和运行vue项目
  9. python性能测试台_性能测试平台效率优化的一次经验(python版)
  10. docker 实践(十二)k8s 初体验
  11. 计算机网络中的www服务,计算机网络基础练习题01
  12. 转神经网络压缩提升方法
  13. 法国 计算机金融 大学,法国金融专业大学排名(2020年上交大)_快飞留学
  14. 【泛微系统】OA系统集成echart插件,自定义图表demo实例
  15. 什么是适用于iPhone和iPad的iOS最新版本?
  16. 友价商城2019.2月最新版
  17. 错误提示——0x0FE1E63C (ucrtbased.dll)处(位于 liaoabiao _2019.12.21.exe 中)引发的异常: 0xC0000005: 写入位置 0x005FA000
  18. Android 平台下的原生 Markdown 解析器
  19. EV2200 使用教程
  20. 依据机械特性选取合适的电机系统

热门文章

  1. void类型指针 指针的各种组合
  2. bzoj 1616: [Usaco2008 Mar]Cow Travelling游荡的奶牛(BFS)
  3. 利用k-means算法解决简单的无监督图像识别任务
  4. 看了这篇c语言结构体精讲解,你难道还怕你不会吗?
  5. 安卓短信功能全解:调用系统短信功能发送短信、彩信,使用SmsManager发送短信,并监听发送短信的投递情况,使用广播接收器监听接收的短信。
  6. python批量更改图片尺寸(保持长度和高度的长短关系)
  7. OO第四次总结学期总结
  8. 关于python全局变量
  9. 【Flask】ORM关系以及一对多
  10. HDU--1054--Strategic Game【最小点覆盖】