本文选自Google Blog,作者:AJ Piergiovanni 等

转自机器之心

编辑:陈萍、杜伟

来自谷歌的研究者提出了一种利用 3D 点云和 RGB 感知信息的 3D 物体检测方法:4D-Net。4D-Net 能够更好地使用运动线索和密集图像信息,成功地检测遥远的目标。

如今自动驾驶汽车和机器人能够通过激光雷达、摄像头等各种传感捕获信息。作为一种传感器,LiDAR 使用光脉冲测量场景中目标的 3D 坐标,但是其存在稀疏、范围有限等缺点——离传感器越远,返回的点就越少。

这意味着远处的目标可能只得到少数几个点,或者根本没有,而且可能无法单独被 LiDAR 采集到。同时,来自车载摄像头的图像输入非常密集,这有利于检测、目标分割等语义理解任务。凭借高分辨率,摄像头可以非常有效地检测远处目标,但在测量距离方面不太准确。

自动驾驶汽车从 LiDAR 和车载摄像头传感器收集数据。每个传感器测量值都会被定期记录,提供 4D 世界的准确表示。然而,很少有研究算法将这两者结合使用。当同时使用两种传感模式时会面临两个挑战

1) 难以保持计算效率

2) 将一个传感器的信息与另一个传感器配对会进一步增加系统复杂性,因为 LiDAR 点和车载摄像头 RGB 图像输入之间并不总是直接对应。

在发表于 ICCV 2021 的论文《 4D-Net for Learned Multi-Modal Alignment 》中,来自谷歌、Waymo 的研究者提出了一个可以处理 4D 数据(3D 点云和车载摄像头图像数据)的神经网络:4D-Net。

这是首次将 3D LiDAR 点云和车载摄像头 RGB 图像进行结合的研究。此外,谷歌还介绍了一种动态连接学习方法。最后,谷歌证明 4D-Net 可以更好地使用运动线索(motion cues)和密集图像信息来检测远处目标,同时保持计算效率。

论文地址:https://openaccess.thecvf.com/content/ICCV2021/papers/Piergiovanni_4D-Net_for_Learned_Multi-Modal_Alignment_ICCV_2021_paper.pdf

 4D-Net

谷歌使用 4D 输入进行目标 3D 边框检测。4D-Net 有效地将 3D LiDAR 点云与 RGB 图像及时结合,学习不同传感器之间的连接及其特征表示。

谷歌使用轻量级神经架构搜索来学习两种类型的传感器输入及其特征表示之间的联系,以获得最准确的 3D 框检测。在自动驾驶领域,可靠地检测高度可变距离的目标尤为重要。

现代 LiDAR 传感器的检测范围可达数百米,这意味着更远的目标在图像中会显得更小,并且它们最有价值的特征将在网络的早期层中,与后面的层表示的近距离目标相比,它们可以更好地捕捉精细尺度的特征。

基于这一观察,谷歌将连接修改为动态的,并使用自注意力机制在所有层的特征中进行选择。谷歌应用了一个可学习的线性层,它能够将注意力加权应用于所有其他层的权重,并学习当前任务的最佳组合。

连接学习方法示意图。

 结果

谷歌在 Waymo Open Dataset 基准中进行了测试,之前的模型只使用了 3D 点云,或单个点云和相机图像数据的组合。4D-Net 有效地使用了两种传感器输入,在 164 毫秒内处理 32 个点云和 16 个 RGB 帧,与其他方法相比性能良好。相比之下,性能次优的方法效率和准确性较低,因为它的神经网络计算需要 300 毫秒,而且比 4D-Net 使用更少的传感器输入。

3D 场景的结果。上图:与检测到的车辆相对应的 3D 框以不同颜色显示;虚线框代表丢失的目标。底部:出于可视化目的,这些框显示在相应的摄像机图像中。

检测远处的目标

4D-Net 的另一个优点是,它既利用了 RGB 提供的高分辨率,可以准确地检测到图像上的目标,又利用了点云数据提供的精确深度。因此,点云方法无法探测到的远距离目标可以被 4D-Net 探测到。这是由于相机数据的融合,能够探测到遥远的目标,并有效地将这一信息传播到网络的 3D 部分,以产生准确的探测。

为了了解 4D-Net 带来的优势,谷歌进行了一系列消融研究。实验发现,如果至少有一个传感器输入是及时流的,则可以显着提高检测准确率。及时考虑两个传感器输入可以最大程度地提高性能。

使用点云 (PC)、时间点云 (PC + T)、RGB 图像输入 (RGB) 和时间 RGB 图像 (RGB + T) 时,以平均精度 (AP) 测量 3D 目标检测的 4D-Net 性能。

 多流 4D-Net

由于 4D-Net 动态连接学习机制是通用的,因此谷歌并没有局限于仅将点云流与 RGB 视频流结合起来。实际上,谷歌发现提供一个高分辨率单图像流以及一个与 3D 点云流输入结合的低分辨率视频流非常划算。因此,谷歌在下图中展示了四流(four-stream)架构的示例,该架构比具有实时点云和图像的两流架构性能更好。

动态连接学习选择特定的特征输入以连接在一起。依托多个输入流,4D-Net 必须学习多个目标特征表示之间的连接,这一点很好理解,因为算法没有改变并且只需要从输入中选择特定的特征。这是一个使用可微架构搜索的轻量级过程,可以发现模型架构内部新的连接,并进而高效地找到新的 4D-Net 模型。

多流 4D-Net 架构包含一个实时 3D 点云流以及多个图像流(高分辨率单图像流、中分辨率单图像流和更低分辨率视频流图像)。

谷歌展示了 4D-Net 是一种高效的目标检测方法,尤其适合检测远距离目标。研究者希望这项工作为未来的 4D 数据研究提供珍贵的资源。

原文链接:

https://ai.googleblog.com/

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

成功检测远距离目标,将点云与RGB图像结合,谷歌Waymo提出新算法:4D-Net相关推荐

  1. 谷歌WayMo提出R4D:采用参考目标做远程距离估计

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨黄浴 来源丨计算机视觉深度学习和自动驾驶 arXiv上传于6月10日论文"R4D: U ...

  2. 重磅!谷歌刚刚发布Objectron新数据集,可完美检测3D目标,超过4百万幅图像和15K视频剪辑!...

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 本文转载自:新智元  |  编辑:QJP [导读]谷歌人工智能实验室近日发布 Objectron 数据 ...

  3. PCL点云与深度图像

    PCL点云与深度图像 1 RangeImage概念及相关算法 1.1 深度图像简介 1.2 PCL中RangeImage的相关类 2 从一个点云创建一个深度图像 3 从深度图像中提取边界 4 点云到深 ...

  4. 加州大学新算法:让智能汽车更精准检测行人

    加州大学新算法:让智能汽车更精准检测行人 2016-02-16 00:01:00  [ Leiphone 转载 ] 作者:雷锋网 收藏文章 分享到 暂无评论 「目前国内 ADAS (高级驾驶辅助系统) ...

  5. 多传感器融合——激光雷达点云投影到图像(kitti数据集)

    从csdn上下载了激光雷达点云投影到图像的matlab程序,连接见下方. KITTI雷达点云与图像数据融合matlab源码_点云与rgb图像融合-机器学习代码类资源-CSDN下载KITTI数据集中雷达 ...

  6. [自动驾驶-目标检测] C++ PCL 连通域点云聚类

    文章目录 引言 标签连通域聚类原理 Octree + LCC 代码实现 Octree + LCC 测试结果 Octree + LCC 的优缺点 改进思路 参考文献 引言 在实际实现3D目标检测时,在不 ...

  7. 人车目标检测、交通标志识别…云测数据喊你参加第九届CCF大数据与计算智能大赛啦

    2021年大数据与AI领域年度盛事--第九届CCF大数据与计算智能大赛已全面开赛! 云测数据携手OneFlow一流科技,发布基于自动驾驶场景下的"人车目标检测.交通标志分类识别.交通灯识别. ...

  8. David P.Williams论文系列 合成孔径声纳图像快速目标检测:一种新算法及大规模性能分析

    摘要 本文提出了一种新的无监督合成孔径声纳(SAS)水下目标探测算法.该方法利用高分辨率的高质量SAS图像,这些图像上的目标有很多像素.该方法的一个特别新颖的组成部分还可以检测沙波纹并估计它们的方向. ...

  9. 利用红外-可见光图像数据集OTCBVS打通图像融合、目标检测和目标跟踪

    文章目录 前言 一.任务概述 二.常见红外-可见光图像数据集 2.1 OTCBVS 2.2 TNO image fusion dataset 2.3 INO image fusion dataset ...

最新文章

  1. TPS(薄板样条) 2D 插值
  2. 批量处理文件,除了 Python,不妨试试 VIM!
  3. GC(垃圾处理机制)面试加薪必备
  4. python中序列类型和数组之间的区别_「Python」序列构成的数组
  5. 2015-03-19 create php alternative for myslq_result in mysqli(PHP)--PDO Tutorial for Mysql Developers
  6. 剖析Caffe源码之Net---Net构造函数
  7. shared_ptr使用场景、陷阱、性能分析,使用建议
  8. java 最佳主键_最佳Java 8书籍
  9. IT小天博客APP版本
  10. paip.提升用户体验----- 密码控件的使用
  11. Android游戏编程之从零开始pdf
  12. MATLAB 入门之旅【官方基础教程】
  13. windows清理_10款欧美流行的Windows清理软件
  14. 对两个等长升序的序列查找中位数
  15. oracle11g64位怎么用sql,PLSQL连接Oracle11g64位
  16. 微信web开发工具 移动设备调试
  17. eNSP 路由器配置-静态路由和缺省路由
  18. windows清理8080端口
  19. 【性能优化】PHP - 优化手段 - 学习/实践
  20. http statusCode(状态码) 200、300、400、500序列

热门文章

  1. HDU4920 Matrix multiplication 矩阵
  2. sharepoint 2007 将%complete作为条件判断时,工作流无法正常工作
  3. [C]计算某一天是该年中的第几天
  4. windows平台下vlc编译之十三:vlc1.1.0编译
  5. 如何保证MySQL和Redis的数据一致性?10张图带你搞定!
  6. 25张图解Redis连环面试!击溃面试官!
  7. 一个技术总监的忠告:精通那么多技术有毛用啊,你还不是不被重用?
  8. 快手上市,蚂蚁酸了!不含主管人均收益1500万,蚂蚁不能比
  9. 计算机网络原理超详解说
  10. 扒中台的“祖坟”!对不起,Supercell的“中台”,你学不会