端到端基于图像的伪激光雷达3D目标检测

点击上方“3D视觉工坊”，选择“星标”

干货第一时间送达

标题：End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection

作者: Rui Qian， Divyansh Garg，Yan Wang，Yurong You， Serge Belongie， Bharath Hariharan， Mark Campbell， Kilian Q. Weinberger， Wei-Lun Chao

来源：CVPR 2020

编译 : Cirstan

审核：wyc

摘要

大家好，今天为大家带来的文章是End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection

可靠、准确的三维物体检测是安全自主驾驶的必要条件。尽管激光雷达传感器可以提供精确的三维点云环境估计值，但在许多情况下，它们的成本也高得让人望而却步。最近，伪激光雷达（PL）的引入使得基于LiDAR传感器的方法与基于廉价立体相机的方法之间的精度差距大大缩小。PL通过将二维深度图输出转换为三维点云输入，将用于三维深度估计的最新深度神经网络与用于三维目标检测的深度神经网络相结合。然而，到目前为止，这两个网络必须分开训练。在本文中，我们介绍了一个新的框架，它基于可微的表示变化（CoR）模块，允许对整个PL管道进行端到端的训练。该框架与大多数最先进的网络兼容，适用于这两项任务，并与PointRCNN相结合，在所有基准测试中始终优于PL，在基于KITTI图像的3D目标检测排行榜上获得了最高的排名。

贡献

本文提出的框架可以适用于三维目标探测器，主要有以下贡献：

1. 它可以是直接点云输入，也可以是量化结构输入。由此产生的模型在基于图像的三维物体检测方面开创了新的技术水平，并进一步缩小了立体和基于激光雷达的传感器之间剩余的精度差距。 2.考虑到KITTI基准，立体图像的分辨率相对较低，只有少数图像包含（标记）远处的物体。这是相当合理的，更高分辨率的图像和更高比例的遥远的汽车将导致进一步的检测改进，特别是在硬（远和严重堵塞）类别

算法流程

1.问题

基于激光雷达的方法存在问题：

1）目标检测严重依赖与3D point的准确性，位置和检测需要近似object surfaces

2）不能够检测到远处的目标，由于车和人在图像中只占10%(kitti)，受激光范围限制，训练的时候会忽略远处的物体当前伪激光雷达存在的问题

3）没有实现端到端的深度预测和目标检测联合训练

图1 像素分布：90%的像素对应于背景。与汽车和人相关的10%像素（<1%的人）主要在20米的深度内。

2. 方法

本文提出的端到端框架解决不能够联合训练的缺点。其中，错误检测或错误定位对象的错误信号可以“softly attend ”影响预测最大的像素（可能是2D中对象上或周围的像素），引导深度估计器为后续检测器改进提供依据。为了使来自最终检测损失的误差信号反向传播，深度估计器和目标检测器之间的表示变化（CoR）必须相对于估计的深度是可微的。

图2 我们引入了一个表示层的变化来连接深度估计网络的输出作为三维目标检测网络的输入。其结果是一个端到端的框架，直接从立体图像生成对象边界框，并允许在所有层进行反向传播。黑色实心箭头表示向前通过；蓝色和红色虚线箭头分别表示目标检测损失和深度损失的反向过程。*表示我们的CoR层能够反推不同表示之间的梯度。

2.1 传统输出表示方法{0,1}占用

三维点的位置被离散成一个固定的网格，在得到的张量1中只记录占用（即{0，1}）或密度（即[0，1]）。这种方法的优点是可以直接应用二维和三维卷积从张量中提取特征。然而，这种离散化过程使得反向传播变得困难。

2.本文提出的表示方法能反向求导可微

本文引入了一个 radial basis function（RBF）在给定的面元m的中心ˆpm附近，而不是二进制占用，这样保持了一个“Softly”计数的点，由RBF加权。进一步地，允许任何给定的m受到close bins Nm的影响。然后我们相应地修改了T的定义。让Pm表示落入bin m的点集：

图3 ：我们使用软量化或硬量化对输入伪激光雷达（PL）点云进行体素化。绿色体素是那些受PL点影响的体素。具有检测损失Ldet正梯度的蓝色体素施加力将点从其中心推到其他体素，而具有负梯度的红色体素施加力将其他体素的点拉到其中心。只有当PL点影响这些体素时，红、蓝体轴上的这些力才能影响PL点。软量化增加PL点的影响区域，从而增加力，允许其他体素的点被推开或拉向。因此，更新后的PL点可以变得更接近地面真实激光雷达点云。

2.3 采样

首先，我们去除所有高于激光雷达信号可以覆盖的正常高度的3D点，例如天空的像素点。此外，我们还可以通过亚抽样来稀疏化剩余的点。第二步是可选的，但在[45]中建议使用，因为深度图生成的点数量比激光雷达大得多：伪激光雷达信号中平均有300000个点，而激光雷达信号中有18000个点（在汽车的正面视图中）。虽然密集的表示在精确度方面是有利的，但它们确实减慢了目标检测网络的速度。我们采用了一种基于角度的稀疏化方法。我们通过将球坐标（r，θ，φ）离散化来定义三维空间中的多个料仓。具体来说，我们离散θ（极角）和φ（方位角）来模拟激光雷达光束。然后我们保持一个单一的三维点（x，y，z）的球坐标落在同一个箱子里。因此，生成的点云模拟真实的激光雷达点。

主要结果

1.轨迹评估

图4 KITTI评估结果

图5 P-RCNN方法在框架学习

图 5 深度估计的定性结果。PL++（仅限图像）的顶部有许多估计错误的像素。通过端到端的训练，提高了对车辆周围深度的估计，得到的伪激光雷达点云具有更好的质量。（请放大以获得更好的视野。）

图4 轨迹精度

Abstract

Reliable and accurate 3D object detection is a necessity for safe autonomous driving. Although LiDAR sensorscan provide accurate 3D point cloud estimates of the environment, they are also prohibitively expensive for manysettings. Recently, the introduction of pseudo-LiDAR (PL)has led to a drastic reduction in the accuracy gap betweenmethods based on LiDAR sensors and those based on cheapstereo cameras. PL combines state-of-the-art deep neural networks for 3D depth estimation with those for 3Dobject detection by converting 2D depth map outputs to3D point cloud inputs. However, so far these two networks have to be trained separately. In this paper, we introduce a new framework based on differentiable Changeof Representation (CoR) modules that allow the entire PLpipeline to be trained end-to-end. The resulting frameworkis compatible with most state-of-the-art networks for bothtasks and in combination with PointRCNN improves overPL consistently across all benchmarks — yielding the highest entry on the KITTI image-based 3D object detectionleaderboard at the time of submission.

点击阅读原文，即可获取本文下载链接。

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近3000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

端到端基于图像的伪激光雷达3D目标检测相关推荐

【论文速读】基于图像的伪激光雷达三维目标检测
点云PCL免费知识星球,点云论文速读. 标题:End-to-End Pseudo-LiDAR for Image-Based 3D Object Detection 作者:Rui Qian, Divy ...
A Survey of Robust LiDAR-based 3D Object Detection Methods for Autonomous Driving（激光雷达3D目标检测方法）论文笔记
原文链接:https://arxiv.org/pdf/2204.00106.pdf III. SotA 将基于点云的3D目标检测分为4类,即基于点的.基于体素的.基于前视图的和基于多视图的方法. A. ...
CLOCs：一种相机-激光雷达3D目标检测后融合方法
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨paopaoslam 来源丨泡泡机器人SLAM 标题: CLOCs: Camera-LiDAR ...
DeepFusion：基于激光雷达和相机深度融合的多模态3D目标检测
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨安全与性能研究室来源丨同济智能汽车研究所点击进入->3D视觉工坊学习交流群编者按: ...
CVPR 2022 3月7日论文速递（17 篇打包下载）涵盖 3D 目标检测、医学影像、图像去模糊、车道线检测等方向
CVPR2022论文速递系列: CVPR 2022 3月3日论文速递(22 篇打包下载)涵盖网络架构设计.姿态估计.三维视觉.动作检测.语义分割等方向 CVPR 2022 3月4日论文速递(29 篇打 ...
双目立体视觉建立深度图_从单幅图像到双目立体视觉的3D目标检测算法
原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的. 其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明 ...
端到端伪激光图像3D目标检测
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文由博主:流浪机器人授权转载,二次转载请联系原作者原文地址: ...
ICCV2021|单目3D目标检测真的需要伪激光雷达吗？
作者丨agent@知乎来源丨https://zhuanlan.zhihu.com/p/406918022 编辑丨3D视觉工坊 Paper: arxiv.org/pdf/2108.0641 Code: ...
基于激光雷达点云的3D目标检测算法—端到端多视图融合
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者丨Rubicon007@知乎来源丨https://zhuanlan.zhihu.com/p/44 ...

端到端基于图像的伪激光雷达3D目标检测

端到端基于图像的伪激光雷达3D目标检测相关推荐

最新文章

热门文章