阿里巴巴达摩院在自动驾驶3D物体检测领域取得了新突破!达摩院近期一篇论文入选计算机视觉顶会CVPR 2020,该论文提出了一个通用、高性能的自动驾驶检测器,首次实现3D物体检测精度与速度的兼得,有效提升自动驾驶系统安全性能。目前,该检测器在自动驾驶领域权威数据集KITTI BEV排行榜上排名第一。

3D目标检测需输出物体类别及在三维空间中的长宽高、旋转角等信息

和普通2D图像识别应用不同,自动驾驶系统对精度和速度的要求更高,检测器不仅需要快速识别周围环境的物体,还要对物体在三维空间中的位置做精准定位。然而,目前主流的单阶段检测器和两阶段检测器均无法平衡检测精度和速度,这极大地限制了自动驾驶安全性能。

此次,达摩院在论文中提出了全新的思路,即将两阶段检测器中对特征进行细粒度刻画的方法集成到单阶段检测器。具体来说,达摩院在训练中利用一个辅助网络将单阶段检测器中的体素特征转化为点级特征,并施加一定的监督信号,同时在模型推理过程中辅助网络无需参与计算,因此,在保障速度的同时又提高了检测精度。

KITTI BEV排行榜,达摩院位居第一

研究结果显示,在自动驾驶领域权威数据集KITTI BEV排行榜上,该检测器排名第一,精度远超其他的单阶段检测器,同时检测速度达到25FPS ,是目前3D排名第一方案的两倍多。

该论文作者均来自阿里巴巴达摩院,第一作者为达摩院研究实习生Chenhang He,其他作者分别分别为达摩院高级研究员、IEEE Fellow华先胜,达摩院高级研究员、香港理工大学电子计算学系讲座教授、IEEE Fellow张磊,达摩院资深算法专家黄建强及达摩院研究实习生Hui Zeng。

以下是Chenhang He对该论文做出的解读:

1.背景

目标检测是计算机视觉领域的传统任务,与图像识别不同,目标检测不仅需要识别出图像上存在的物体,给出对应的类别,还需要将该物体通过Bounding box进行定位。根据目标检测需要输出结果的不同,一般将使用RGB图像进行目标检测,输出物体类别和在图像上2D bounding box的方式称为2D目标检测。而将使用RGB图像、RGB-D深度图像和激光点云,输出物体类别及在三维空间中的长宽高、旋转角等信息的检测称为3D目标检测。

从点云数据进行3D目标检测是自动驾驶(AV)系统中的的关键组件。与仅从图像平面估计2D边界框的普通2D目标检测不同,AV需要从现实世界估计更具信息量的3D边界框,以完成诸如路径规划和避免碰撞之类的高级任务。这激发了最近出现的3D目标检测方法,该方法应用卷积神经网络(CNN)处理来自高端LiDAR传感器的点云数据。

目前基于点云的3D物体检测主要有两种架构: 
1)单阶段检测器 (single-stage): 将点云编码成体素特征 (voxel feature), 并用3D CNN直接预测物体框, 速度快但是由于点云在CNN中被解构, 对物体的结构感知能力差, 所以精度略低。

2)两阶段检测器 (two-stage): 首先用PointNet提取点级特征, 并利用候选区域池化点云 (Pooling from point cloud) 以获得精细特征. 通常能达到很高的精度但速度很慢。

2.方法

目前业界主要以单阶段检测器为主,这样能保证检测器能高效地在实时系统上进行。 我们提出的方案将两阶段检测器中对特征进行细粒度刻画的思想移植到单阶段检测中,通过在训练中利用一个辅助网络将单阶段检测器中的体素特征转化为点级特征,并施加一定的监督信号,从而使得卷积特征也具有结构感知能力,进而提高检测精度。而在做模型推断时,辅助网络并不参与计算(detached),进而保证了单阶段检测器的检测效率。另外我们提出一个工程上的改进,Part-sensitive Warping (PSWarp), 用于处理单阶段检测器中存在的 “框-置信度-不匹配” 问题。

主体网络

用于部署的检测器, 即推断网络, 由一个骨干网络和检测头组成。骨干网络用3D的稀疏网络实现,用于提取含有高语义的体素特征。检测头将体素特征压缩成鸟瞰图表示,并在上面运行2D全卷积网络来预测3D物体框。

辅助网络

在训练阶段,我们提出一个辅助网络来抽取骨干网络中间层的卷积特征,并将这些特征转化成点级特征(point-wise feature)。在实现上,我们将卷积特征中的非零信号映射到原始的点云空间中, 然后在每个点上进行插值,这样我们就能获取卷积特征的点级表示。 令为卷积特征在空间中的表示,为原始点云, 则卷积特征在原始点上的表示等于

辅助任务

我们提出两种基于点级特征的监督策略来帮助卷积特征获得很好的结构感知力, 一个前景分割任务, 一个中心点回归任务。

具体来说,相比于PointNet特征提取器(a), 卷积网络中的卷积操作和下采样会造成点云结构的破坏 (b)使得特征对物体的边界与内部结构不敏感。我们利用分割任务来保证部分卷积特征在下采样时不会被背景特征影响 (c),从而加强对边界的感知。我们利用中心点回归任务来加强卷积特征对物体内部结构的感知能力(d),使得在少量点的情况下也能合理的推断出物体的潜在大小,形状。我们使用focal loss 和smooth-l1 对分割任务与中心回归任务分辨进行优化。

3.工程上的改进

在单阶段检测中, feature map和anchor的对齐问题是普遍存在的问题, 这样会导致预测出来的边界框的定位质量与置信度不匹配,这会影响在后处理阶段(NMS)时, 高置信度但低定位质量的框被保留, 而定位质量高却置信度低的框被丢弃。在two-stage的目标检测算法中,RPN提取proposal,然后会在feature map上对应的的位置提取特征(roi-pooling或者roi-align),这个时候新的特征和对应的proposal是对齐的。我们提出了一个基于PSRoIAlign 的改进,Part-sensitive Warping (PSWarp), 用来对预测框进行重打分。

如上图, 我们首先修改最后的分类层以生成K个部分敏感的特征图,用{X_k:k = 1,2,...,K}表示,每个图都编码对象的特定部分的信息。例如,在K = 4的情况下,会生成 {左上,右上,左下,右下} 四个局部敏感的特征图。同时,我们将每个预测边界框划分为K个子窗口,然后选择每个子窗口的中心位置作为采样点。这样,我们可以生成K个采样网格{S^k:k = 1,2,...,K},每个采样网格都与该局部对应的特征图相关联。如图所示,我们利用采样器, 用生成的采样网格在对应的局部敏感特征图上进行采样,生成对齐好的特征图。最终能反映置信度的特征图则是K个对齐好特征图的平均。

4.效果

我们提出的方法(黑色) 在KITTI数据库上的PR Curve, 其中实线为两阶段方法, 虚线为单阶段方法。 可以看到我们作为单阶段方法能够达到两阶段方法才能达到的精度

在KITTI 鸟瞰(BEV) 和 3D 测试集的效果。优点是在保持精度的同时,不增加额外的计算量,能达到25FPS 的检测速度。

达摩院实现自动驾驶核心技术突破,达摩院首次实现3D物体检测精度与速度的兼得相关推荐

  1. 达摩院实现自动驾驶核心技术突破,首次实现3D物体检测精度与速度的兼得

    阿里巴巴达摩院在自动驾驶领域取得了新突破!3月19日,据记者了解,达摩院近期一篇论文入选计算机视觉顶会CVPR 2020,该论文提出了一个通用.高性能的自动驾驶检测器,首次实现3D物体检测精度与速度的 ...

  2. 阿里达摩院新研究:实习生一作突破自动驾驶技术难题,首次实现3D物体检测精度与速度兼得...

    本文经AI新媒体量子位(ID:QbitAI)授权转载,转载请联系出处 乾明 发自 凹非寺 最新消息,阿里达摩院又有新的研究进展,这次在自动驾驶3D物体检测领域. 达摩院的研究人员提出一个通用.高性能的 ...

  3. 阿里自动驾驶新突破!达摩院自研ISP图像处理器大幅提升安全性

    阿里巴巴达摩院在自动驾驶领域取得新突破!4月8日,据记者了解,达摩院已经自主研发出用于车载摄像头的ISP处理器,保障自动驾驶车辆在夜间拥有更好的"视力","看" ...

  4. 特斯拉自动驾驶核心技术高管离职;华为海思芯片开始招聘博士;谷歌云宣布采用ARM芯片 | 每日大事件...

    数据智能产业创新服务媒体 --聚焦数智 · 改变商业 01.特斯拉人工智能和自动驾驶部门负责人将离职 7月14日,据外媒报道,特斯拉人工智能和自动驾驶业务负责人安德烈·卡帕斯(AndrejKarpat ...

  5. 干货分享:自动驾驶核心技术进展之车用毫米波雷达

    来源:智车科技 摘要:电动化.智能化.网联化.共享化是汽车未来发展的大势.伴随着这一趋势,自动驾驶汽车应用而生,且国内很多自动驾驶研发企业快速成长. "自动驾驶"等相关热词也一直是 ...

  6. 解析自动驾驶核心技术产业链未来市场布局

    源:智车科技 自动驾驶L3商业化技术已经成熟,L4/5加速发展进入验证试点阶段.纵观全球主流科技公司和整车厂的自动驾驶技术商业化进展,除了个别领跑者如整车厂(奥迪已经量产 L3级别 的自动驾驶车辆). ...

  7. 【智能驾驶】自动驾驶深度感知技术对车和行人的检测

    来源:小马智行第二场技术沙龙 今天我主要想分享自动驾驶感知技术在探索的过程中,采用的传统方法和深度学习方法.传统方法不代表多传统,深度学习也不代表多深度.它们有各自的优点,也都能解决各自的问题,最终希 ...

  8. 达摩院研发自动驾驶高精定位系统,无GPS信号也可实现厘米级定位

    阿里自动驾驶又有新突破.记者今天获悉,达摩院自研高精定位系统完成最新一次迭代,基于多传感器融合的紧耦合算法,实现了不依赖GPS信号的厘米级定位.该系统已部署于达摩院无人物流车队,通过软硬件一体化设计, ...

  9. 博世投资张翠波:自动驾驶需要突破芯片、传感器、深度学习算法等关键技术

    来源:36氪 概要:基于博世的很多发现,整个无人驾驶的时间表可能如下:Level3级别的自动驾驶可能会在2020年后:Level4量产的时间是2020到2023年. 全球智能驾驶行业风起云涌,大量资本 ...

最新文章

  1. Springboot+mybatisplus搭建新闻管理系统
  2. 我是如何学会爱上 Vim 的
  3. 《第一行代码》学习笔记16-碎片Fragment(1)
  4. omnicppcomplete - a Vim plugin [转载]
  5. 栏目图片 栏目描述_网站描述怎么写?对网站优化有什么作用?
  6. linux字体栅格化,响应式开发---网页的布局方式、媒体查询、栅格化布局、less语言...
  7. svn merger的时候 报远程主机强迫_SVN与Git比较的优缺点差异
  8. SQL查询数据并插入新表
  9. 缓存通用管理类 + 缓存 HttpContext.Current.Cache 和 HttpRuntime.Cache 的区别
  10. 【VB.NET】VB.NET基本数据类型
  11. F5-yumnfsftp
  12. 软件设计原则(二) 接口隔离原则
  13. 3D屏保:魔方2.0版本
  14. html表格基础及案例示图代码。
  15. 通达信自编的选股公式如何使用
  16. 计算机主机有异响,电脑主机有异响怎么办?电脑主板有异响的原因和解决方法...
  17. mysql上线脚本规范_专业规范的mysql启停脚本
  18. U8文件服务器备份,u8备份缓存文件在哪
  19. HTML Purifier解决XSS问题
  20. 交换机工作原理/模式

热门文章

  1. C#:将另一个应用程序的主窗口移至屏幕最前
  2. Mybatis遍历查询 ——foreach
  3. 深入Jetty源码之HTTP协议
  4. 关于产品体验以及产品会被抄袭的思考
  5. Open×××以及其它IP层×××的完全链路层处理的实现
  6. 函数的重载 - C++快速入门06
  7. 你的微笑,拂过我的心海
  8. javascript用感
  9. C#使用WIN32API来高效率的遍历文件和目录(转)
  10. 使用CSS制作圆角效果