1.1感知领域目前研究热点:

动作识别、行人手势识别、人体姿态估计(骨架提取)

复杂道路场景语义理解与场景识别(模式识别)(城市道路路口、郊区直行路段……)

动态场景理解和多目标跟踪(MOT):目标外观模型、目标运动估计、目标检测、数据关联

高精度语义分割(人、车、广告牌与标志牌、车尾灯与红绿灯、可行驶区域、树木、天空……)

可行驶区域检测方法类别:

基于直接特征的可行驶区域检测

基于直接特征的可行驶区域检测:基于颜色、基于纹理、基于边缘

基于间接特征的可行驶区域检测:消失点(灭点)法,在透视变换中,视场中的平行线都会都会相交于一点,即灭点,是平行透视变换的一个交点

基于深度学习的可行驶区域检测:

语义分割(像素级分类任务)

基于FCN(全卷积网络)的可行驶区域分割(编码器-解码器架构来完成可行驶区域的模型-kittiseg)。

FCN(全卷积网络):全卷积网络采用端到端训练方法建立深度模型,完成语义分割任务。

FCN与CNN差异:传统的CNN是将传统的特征提取过程和分类器合并在一起,一般在卷积层最后有全连接层,最后一个全连接层充当分类器,输出一堆向量,对应可能的输出。而在 FCN中,用1✖️1的卷积代替卷积神经网络中的全连接层。FCN中上采样是采用反卷积的方式实现的,为了保证上采样的优化效果,用双线性插值对其初始化。

场景流(scene flow)、光流与事件相机

场景流:空间中每一点的位置信息和其相对于摄像头的运动,采用光流估计与深度估计的结合,只关注深度变化量,不关注深度绝对值

场景流应用方向:补充和改进视觉测距和SLAM算法,用于人机交互、虚拟现实和增强现实

光流估计:一种二维运动场,是空间中每一点沿摄像头平面的运动状态

光流估计方法:LK(Lucus-Kanade)算法(一种稀疏光流算法)、Flownet方法(一种基于深度学习的光流计算方法)

深度估计:表达的是空间中每一点到摄像头中的距离,其变化量是物体沿垂直摄像头方向的变化

深度估计方法:基于激光雷达的深度估计,基于光学图像的深度估计(双目深度估计、单目深度估计)

立体视觉(三维障碍物检测:识别目标物体的长宽高,空间信息、朝向信息偏转角等)

多模态与多传感器融合感知

新型数据集采集(数据处理、调节参数、训练及测试;事故集训练,汽车零部件集训练,常见货物集训练)

基于V2X的道路环境感知技术(路侧感知技术、车路协同技术)

优点:覆盖面更广、有效避免盲区、对隐私信息的安全性保护更好

包括:V2V,V2I(infrastructure),V2P,V2N(Network)

方法演变:视觉双阶段到单阶段处理,有锚框到无锚框,点云分割处理精细化

整体趋势:感知精度提升,处理速度加快,对边缘场景的处理更周全

1.2 感知领域常用方法与发展趋势

1.2.1计算机视觉领域:

趋势1:应用场景增多:

使用双目视觉获取场景中深度信息

检测点云数据对应物体种类

车身运动估计:在视频中估计每个像素的运动方向和运动速度

物体检测、识别、追踪:行人、车辆、交通标志、信号灯;车门开闭、尾灯亮灭、红绿灯识别

场景分割:车道线检测、道路边缘检测、可行驶区域检测;语义分割(场景上加标签):路面、栏杆、行人、车辆、树木

同步地图构建与自身定位(SLAM)

趋势2:图像分割方法不断迭代与融合:

基于阈值的分割方法

概念:通过设定不同特征阈值,把图像像素点分为不同灰度级的目标区域;特点:传统方法,实现简单、计算量小、性能较稳定

基于区域的分割方法

区域生长法:从单个像素出发逐步合并;区域分裂合并法:从全局出发,逐步分割至所需区域

基于边缘检测的分割方法

原理:通常不同区域之间的边缘上像素灰度值的变化往往比较剧烈

一阶导数算子:Robert算子、Prewitt算子、Sobel算子

二阶导数算子:拉普拉斯算子

基于深度模型的分割方法

趋势3:基于图像的障碍物检测精度与速度提升:

基于图像的障碍物检测方法分类:

一阶段检测算法:YOLO、SSD(Single Shot Multibox Detector)

优点:算法速度快,输入图像经过一次推理,便能得到图像中所有物体的位置和所属类别及相应的置信概率

YOLO核心思想:

YOLO检测网络包括24个卷积层和2个全连接层。卷积层用来提取图像特征,全连接层用来预测图像位置和类别概率值。

原理:YOLO将输入图像分成S✖️S个格子,每个格子负责监测落入该格子的物体。若某个物体的中心位置的坐标落入某个格子,那么这个格子就负责检测出这个物体。每个格子输出B个标注框(包含物体的矩形区域),以及C个属于某种类别的概率信息。最终只选择IOU(Intersection Over Union, 预测标注框与物体真实区域的交集面积(以像素为单位,用真实区域的像素面积归一化到[0,1]区间)最高的标注框作为物体的检测输出,即每个格子最多只预测出一个物体。

缺陷:当每个格子包含多个物体时,例如牲畜群和鸟群,也仅能检测出一个。

SSD:直接在图像中不同位置进行边界框的采样,然后使用卷积层进行特征提取后直接进行分类和回归,极大提升了检测速度。

二阶段检测算法:RCNN、Fast RCNN、Faster RCNN(2016年最初提出)

优点:准确度高;当前文献大多在Faster RCNN基础上改进

检测结果分为两部分求解:物体类别(分类问题)、物体位置(即标注框,bounding box)

RCNN、Fast RCNN:采用分离的选择性搜索模块(独立于网络之外的选择性搜索方法)求取候选框(可能会包含物体的矩形区域),训练过程分成多个模块进行。先产生候选框后进行分类和回归

Faster RCNN:使用RPN(Region Proposal Network)卷积网络替代了之前的选择性搜索模块。

1.2激光雷达感知领域:

1.2.1基于激光雷达的障碍物检测方法进展:

基于几何特征和网格

几何特征法:采用聚类算法将数据聚类并与障碍物的几何特征(直线、矩形、圆等)进行对比,对障碍物进行检测和分类

基于网格的方法:将激光雷达的数据投影到网格地图中,然后利用无向图相关方法对点云进行处理,适用于障碍物形状复杂的非结构化道路。网格的大小和结构可以自定义,用网格分布图像来表示障碍物,分辨率越高的网格,表示的障碍物越复杂,但同时需要较高的计算复杂度和内存。

VoxelNet障碍物检测

改进点:将原始点云作为输入,消除了对点云进行手动提取特征的过程,提出了统一的端到端三维检测网络。

组成模块:特征学习网络、中间卷积层、区域建议网络

特征学习网络:将点云划分为体素Voxel形式,通过VFE层提取特征,得到体素级的特征向量,步骤包括:体素划分、分组、随机抽样、堆叠体素特征编码、稀疏张量表示

1.2.2基于PointNet的点云分割和语义分割:

常用方法:

基于三维点云数据的深度学习:

体素(volumetric)法、多视角投影、点云网络(PointNet)、融合使用二维图像与三维点云数据的方法(如:F-PointNet)

PointNet++法:主要完成三维检测和分割任务,此方法直接在点云数据上应用深度学习模型,主要应用了点云数据的无序性和空间不变性

缺陷:局部特征提取表现不好

无序性:点云数据是由可任意排列组合的数据组成的集合。使用深度学习模型的一个前提是需要保证不论点云的顺序如何,都应该提取到相同的特征。(PointNet方法中使用最大池化对称函数来提取特征,即在每一维的特征都选取N个点中对应的最大特征值)

空间不变性:点云数据所表示的目标经过一定的空间变换(旋转、平移等)后应该保持不变,在坐标系中即为点云数据坐标发生变化后,不论其用何种坐标系表示,网络都能正确的识别目标。

PointNet++方法:提出了一种分层网络结构(包括采样层(sampling layer)、组合层(grouping layer)和特征提取层(PointNet layer)),在不同尺度下提取特征作为局部特征,并通过多层网络结构得到深层特征。

感知领域待解决瓶颈:

2.1棘手复杂场景瓶颈 :

人车混流的问题(如何应对行人与人类司机驾驶强随机性)

可解释的AI-如何打开黑箱

腾讯研究院-可解释AI发展报告 2022

https://docs.qq.com/pdf/DSmVSRHhBeFd0b3Zu

无地图路段的自动驾驶决策规划(无车道路段的车道拟合,下雪遮盖路段车道线还原)

异形障碍物和未训练障碍物识别(异形路锥、台湾特斯拉撞上白色卡车顶)

(深度学习(有监督学习)本身的局限就是识别给它的东西,没给过的无法识别。人类本身可以通过猜测,联想等方式预估道路上的障碍物,因果与此结合的新可能性)

(Idea:自动联想,拼接归类;对于路上未知障碍物,任意组合交通因素的一部分,e.g.车轮:各方向各角度,牲畜,感知到的实体障碍物等)未知障碍物聚类

故意攻击的标示牌遮挡(物理遮挡,噪音图叠加)

小面积重叠压线感知不到造成的剐蹭(理想one高速碰撞)

对于“鬼探头”场景的解决方案尚无好的解决方案(Idea:根据场景预判,结合V2X)

对世界各地不同交通状况的泛化能力

其他瓶颈:

感知硬件限制:

定位和物体识别技术还不成熟,无论是激光雷达还是摄像技术都有一定的技术局限性。

突发情况的不可预测性造成的不确定性:

大城市车流量庞大,计算机要计算的数据量庞大,现有的人工智能技术很难做到面面俱到。车辆拥堵的大型城市,每天要处理的突发状况非常多,而且由于路况复杂,车流密集,给予人工智能的反应时间非常短。千奇百怪的突发情况面前,人工智能的大数据优势很多时候派不上用场,每一场事故都有可能以闻所未闻的姿态出现。

【自动驾驶感知领域目前研究热点】相关推荐

  1. 深度学习在自动驾驶感知领域的应用

    程序员转行学什么语言? https://edu.csdn.net/topic/ai30?utm_source=csdn_bw 本次直播课程是由深度学习资深研究者-杨阳博士从百度Apollo自动驾驶感知 ...

  2. 代季峰对话张祥雨 | 自动驾驶感知新时代!新一代环视感知算法BEVFormer有哪些优势...

    导读:Elon Musk说过,"人类不是超人,也不是蝙蝠侠,不能够眼放激光,也不装有雷达,但是通过眼睛捕捉到的图像,人类依旧可以构建出对周围世界的3D空间理解能力,从而很好地掌握驾驶这项能力 ...

  3. 新加坡内推 | Motional新加坡分部招聘自动驾驶感知算法实习生

    合适的工作难找?最新的招聘信息也不知道? AI 求职为大家精选人工智能领域最新鲜的招聘信息,助你先人一步投递,快人一步入职! Motional 美国自动驾驶独角兽 Motional 新加坡分部.团队代 ...

  4. 自动驾驶3D目标检测研究综述

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 作者:我写论文养你 |  已授权转载(源:知乎)编辑:CV_Autobot https://zhuanlan. ...

  5. 数字孪生技术在自动驾驶测试领域的应用研究概述

    来源:汽车测试网 作者:王庆涛 周正等 摘 要: 研究数字孪生技术在自动驾驶测试领域的应用.旨在构建高度开放的数字孪生自动驾驶测试平台,结合仿真测试工具.通信设备.真实测试车辆等功能单元,形成丰富的测 ...

  6. 面向自动驾驶的边缘计算技术研究综述

    本文由吕品,许嘉,李陶深,徐文彪联合创作 摘要 边缘计算在自动驾驶的环境感知和数据处理方面有着极其重要的应用.自动驾驶汽车可以通过从边缘节点获得环境信息来扩大自身的感知范围,也可以向边缘节点卸载计算任 ...

  7. 地平线:上帝视角与想象力——自动驾驶感知的新范式

    导读 3月28日,在「地平线自动驾驶技术专场」上,地平线自动驾驶系统架构师刘景初博士围绕<上帝视角与想象力--自动驾驶感知的新范式 >这一主题进行了直播讲解. 本次课程主要分为以下4个部分 ...

  8. 论文阅读综述:自动驾驶感知的多模态传感器融合Multi-modal Sensor Fusion for Auto Driving Perception: A Survey

    题目:Multi-modal Sensor Fusion for Auto Driving Perception: A Survey 用于自动驾驶感知的多模态传感器融合:综述 链接:https://a ...

  9. OR Paper Weekly (2)| 深度强化学习在库存管理、自动驾驶等领域的应用;MS主编看管理科学发展历史与展望

    作者:徐思坤,姜凯雯 精选论文(一) 论文题目:  Can Deep Reinforcement Learning Improve Inventory Management? Performance ...

最新文章

  1. 学了那么久的计算机视觉,竟然还不懂YOLO?!
  2. 使用Java HttpURLConnection抓取网页内容(一)限制返回的网页大小
  3. overflow与min-width
  4. Windows Phone 7的启动器和选择器
  5. Qt 静态编译后的exe太大, 可以这样压缩.
  6. nagios利用pyfetion报警最新
  7. initramfs下启动linux_和菜鸟一起学linux之initramfs方式启动
  8. mybatis和ehcache整合
  9. 使用Flying-Saucer生成PDF中的条形码
  10. 人工智障学习笔记——深度学习(2)卷积神经网络
  11. python跟java适用专业_javaweb中java和python混合使用
  12. 一文速览EMNLP 2020中的Transformer量化论文
  13. Python:计算器(代码全+解析+实现结果)
  14. PHP生成excel表格文件并下载
  15. AccessibilityService辅助功能的研究及实现自动抢红包功能
  16. 分屏 投影显示 PPT
  17. Apache与Nginx虚拟机的三种访问+非简单请求+跨域知识点整理
  18. 基站三角定位法 java_什么是三角定位法?
  19. 如何做好笔记以及记好笔记的好处
  20. 20210327Java网络编程

热门文章

  1. SE 例题recap
  2. 微分几何与广义相对论教程
  3. STM32 RTOS创建消息队列的两种方式(解决数据类型问题)
  4. LINUX入门——Linux是什么?
  5. Android 框架MVP
  6. 《腾云点菜宝》项目总结
  7. NLP学习笔记14-语言模型(下)
  8. mac 10.13.6 升级至10.14.6再升级至12.4
  9. Django - installing mysqlclient error: mysqlclient 1.4.0 or newer is required; you have 0.9.3
  10. MySQL中的统计数据