CVPR 2021 | 论文大盘点：3D目标检测

作者丨我爱计算机视觉@知乎

来源丨https://zhuanlan.zhihu.com/p/389319123

编辑丨3D视觉工坊

本篇汇总 3D 目标检测相关论文，包含基于单目、基于深度图、基于激光雷达点云、半监督、无监督、跨模式、跨数据集等方向。共计 25 篇。

大家可以在：https://openaccess.thecvf.com/CVPR2021?day=all

按照题目下载这些论文。

基于单目的3D目标检测

1.Categorical Depth Distribution Network for Monocular 3D Object Detection

CaDDN 在已发表的单目方法中排名第一。还在新发布的 Waymo 开放数据集上提供了第一个单目 3D 检测结果。

作者 | Cody Reading, Ali Harakeh, Julia Chae, Steven L. Waslander

单位 | University of Toronto Robotics Institute

论文 | https://arxiv.org/abs/2103.01100

代码 | https://link.zhihu.com/?target=https%3A//github.com/TRAILab/CaDDN

备注 | CVPR 2021 Oral

2.Depth-conditioned Dynamic Message Propagation for Monocular 3D Object Detection

学习上下文和深度感知的特征表示，来解决单目3D目标检测的问题。2020年11月16日提交日在 KITTI 单目 3D 目标检测赛道中排名第一。

作者 | Li Wang, Liang Du, Xiaoqing Ye, Yanwei Fu, Guodong Guo, Xiangyang Xue, Jianfeng Feng, Li Zhang

单位 | 复旦；百度

论文 | arxiv.org/abs/2103.1647

代码 | https://github.com/fudan-zvg/DDMP

3.MonoRUn: Monocular 3D Object Detection by Reconstruction and Uncertainty Propagation

6DoF 姿态估计的最新进展表明，预测图像和物体 3D 模型之间密集 2D-3D 对应图，通过 Perspective-n-Point（PnP）算法估计物体的姿态，可以实现显著的定位精度。但由于这些方法依赖于对物体几何形状 ground truth 训练，且在真实的户外场景中很难获得，成为本次研究的重要问题。

作者提出一个全新的检测框架，MonoRUn，具有最先进性能和高实用性。

通过自监督重建克服几何监督的缺陷、以实现在实际驾驶场景中采用密集对应法进行 3D 检测。同时，通过提出 Robust KL 损失，使不确定性意识的深度回归网络更容易优化。最后一点，作者表示这是首个通过 PnP 的误差传递来探索概率性 3D 目标定位的工作，可能为下游任务（如鲁棒跟踪和运动预测）开辟了新的可能性。

实验结果表明，在 KITTI 基准上优于 SOTA。

作者 | Hansheng Chen, Yuyao Huang, Wei Tian, Zhong Gao, Lu Xiong

单位 | 同济大学

论文 | arxiv.org/abs/2103.1260

代码 | https://github.com/tjiiv-cprg/MonoRUn

4.M3DSSD: Monocular 3D Single Stage Object Detector

作者 | Shujie Luo, Hang Dai, Ling Shao, Yong Ding

单位 | 浙江大学等

论文 | arxiv.org/abs/2103.1316

代码 | https://github.com/mumianyuxin/M3DSSD

5.GrooMeD-NMS: Grouped Mathematically Differentiable NMS for Monocular 3D Object Detection

提出并集成 GrooMeD-NMS，用于单目3D目标检测。解决了训练和推理管道之间的不匹配问题，在 KITTI 基准数据集上实现最先进的单目3D目标检测结果，表现与基于单目视频的方法相当。

作者 | Abhinav Kumar, Garrick Brazil, Xiaoming Liu

单位 | 密歇根州立大学

论文 | arxiv.org/abs/2103.1720

代码 | https://github.com/abhi1kumar/groomed_nms

6.Delving into Localization Errors for Monocular 3D Object Detection

作者 | Xinzhu Ma, Yinmin Zhang, Dan Xu, Dongzhan Zhou, Shuai Yi, Haojie Li, Wanli Ouyang

单位 | 悉尼大学；香港科技大学；商汤；大连理工大学

论文 | arxiv.org/abs/2103.1623

代码 | https://github.com/xinzhuma/monodle

7.Objects are Different: Flexible Monocular 3D Object Detection

文中提出一个灵活的单目 3D 目标检测框架，明确地对被截断的目标进行解耦，并自适应地结合多种方法进行目标深度估计。在 KITTI 基准的测试集中，所提出方法在保持实时效率的同时，在中等水平上比最先进的方法高出27%，在困难水平上高出 30%。

作者 | Yunpeng Zhang, Jiwen Lu, Jie Zhou

单位 | 北京信息科学与技术国家研究中心；清华

论文 | arxiv.org/abs/2104.0232

代码 | https://github.com/zhangyp15/MonoFlex

8.Monocular 3D Object Detection: An Extrinsic Parameter Free Approach

单目 3D 目标检测在工业应用中，由于当前的一些开放数据集的方法忽略了摄像机的姿势信息，使得检测器容易受到摄像机外在参数的影响，也影响其性能表现。

本次工作中，作者就提出一种新方法来捕捉摄像机姿势，以制定不受外在扰动的检测器。具体来说，所提出框架通过检测 vanishing 点和 horizon 变化来预测相机的外在参数，设计一个转换器来纠正隐空间中的扰动特征。以此 3D 检测器的工作不受外在参数变化的影响，并在现实情况下产生准确的结果，例如，坑洼不平的道路，在之前几乎所有现有的单目检测器都无法处理。

实验表明，在使用单目相机的 KITTI3D 目标检测基准上取得了最先进的性能，并在 KITTI 里程表和 nuScenes 数据集上证明了其效率。

作者 | Yunsong Zhou、Yuan He、Hongzi Zhu、Cheng Wang、Hongyang Li 、Qinhong Jiang

单位 | 上交；商汤；上海AI实验室

论文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Zhou_Monocular_3D_Object_Detection_An_Extrinsic_Parameter_Free_Approach_CVPR_2021_paper.pdf

半监督3D目标检测

9.3DIoUMatch: Leveraging IoU Prediction for Semi-Supervised 3D Object Detection

作者 | He Wang, Yezhen Cong, Or Litany, Yue Gao, Leonidas J. Guibas

单位 | 斯坦福；清华；英伟达

论文 | arxiv.org/abs/2012.0435

代码 | https://github.com/thu17cyz/3DIoUMatch

主页 | https://thu17cyz.github.io/3DIoUMatch/

解读 | https://zhuanlan.zhihu.com/p/354618636

视频 | https://youtu.be/nuARjhkQN2U

无监督3D 目标检测

10.ST3D: Self-training for Unsupervised Domain Adaptation on 3D ObjectDetection

文中提出一个新的域适应自训练方法，ST3D，用于对点云 3D 目标检测进行无监督的域适应。

通过随机 object scaling、质量感知的 triplet 存储库和 curriculum 数据增强来解决源于 3D 目标检测自训练的基本挑战。

实验表明，ST3D 大大推动了技术水平的提高。并表示未来工作将会把此方法扩展到图像和视频数据的其他 UDA 任务。

作者 | Jihan Yang, Shaoshuai Shi, Zhe Wang, Hongsheng Li, Xiaojuan Qi

单位 | 港大；港中文；商汤；上海人工智能实验室；西电

论文 | arxiv.org/abs/2103.0534

代码 | https://github.com/CVMI-Lab/ST3D

11.SRDAN: Scale-aware and Range-aware Domain Adaptation Network for Cross-dataset 3D Object Detection

文中提出一种无监督域适应 3D 目标检测方法：Scale-aware and Range-aware Domain Adaptation Network（SRDAN）。利用三维数据的几何特征（即尺寸和距离），提出 scale-aware domain alignment（尺度感知域对齐）和 range-aware domain alignment（范围感知域对齐）策略，用来指导两个域之间的分布对齐。

对于前者，作者设计一个基于三维体素的特征金字塔网络来提取多尺度语义体素特征，并在两个域之间对齐具有相似尺度的特征和实例。

对于后者，作者引入一个范围引导的域对齐模块，根据物体与捕获设备的距离来对齐物体的特征。

作者在三种不同情况下的实验证明了 SRDAN 方法的有效性，全面的消融研究也验证了几何特征对于跨数据集 3D 目标检测的重要性。

作者 | Weichen Zhang、Wen Li、Dong Xu

单位 | 悉尼大学；电子科技大学

论文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Zhang_SRDAN_Scale-Aware_and_Range-Aware_Domain_Adaptation_Network_for_Cross-Dataset_3D_CVPR_2021_paper.pdf

二阶段3D目标检测

12.LiDAR R-CNN: An Efficient and Universal 3D Object Detector

作者 | Zhichao Li, Feng Wang, Naiyan Wang

单位 | 图森未来

论文 | arxiv.org/abs/2103.1529

代码 | https://github.com/tusimple/LiDAR_RCNN

解读 | https://zhuanlan.zhihu.com/p/359800738

单阶段3D目标检测

13.HVPR: Hybrid Voxel-Point Representation for Single-stage 3D Object Detection

介绍一个单阶段框架，用于使用混合三维表示的三维目标检测。提出使用一个内存模块来增强基于点的特征，保持单阶段方法的效率。AMFM，明确考虑点云的稀疏和不规则模式，提供尺度感知的特征，允许在三维目标检测中考虑复杂的物体尺度变化。与目前的技术水平相比，所提出方法在速度和准确性方面给出了更好的折衷方案。该模型以 36.1fps 的速度运行，同时在 KITTI 数据集上取得了有竞争力的性能。

作者 | Jongyoun Noh, Sanghoon Lee, Bumsub Ham

单位 | 韩国延世大学

论文 | arxiv.org/abs/2104.0090

主页 | https://cvlab.yonsei.ac.kr/projects/HVPR/

14.SE-SSD: Self-Ensembling Single-Stage Object Detector From Point Cloud

提出 Self-Ensembling Single-Stage object Detector（SE-SSD），用于在室外点云中进行准确和有效的三维目标检测。重点是利用 soft 和 hard targets 与所制定的约束条件来共同优化模型，而不在推理中引入额外的计算。与以往发表的所有作品相比，SE-SSD 达到了顶级性能。此外，在 KITTI基准中的汽车检测中获得了最高的精度（分别在 BEV 和 3D 排行榜上排名第一和第二），并具有超高的推理速度。

作者 | Wu Zheng, Weiliang Tang, Li Jiang, Chi-Wing Fu

单位 | 港中文

论文 | arxiv.org/abs/2104.0980

代码 | https://github.com/Vegeta2020/SE-SSD

15.PVGNet: A Bottom-Up One-Stage 3D Object Detector with Integrated Multi-Level Features

基于量化的方法因其在提取上下文信息方面的效率而被广泛用于 LiDAR 点的3D 物体检测。不同于图像中上下文信息均匀地分布在物体上，大多数 LiDAR点是沿着物体边界分布的，这也就意味着边界特征在 LiDAR 点 3D 检测中更为关键。但在训练和推理阶段，量化不可避免地带来模糊性。

为此，作者提出一种基于投票的单阶 3D 检测器，Point-Voxel-Grid Network（PVGNet）。PVGNet 在一个统一的主干结构中提取 point, voxel 和grid-level 特征，并产生 point-wise 融合特征。将 LiDAR 点分为前景和背景，为每个前景点预测一个 3D 边界框，并进行分组投票以获得最终的检测结果。另外，作者发现由于遮挡和观察距离造成的实例级点的不平衡也会降低检测性能。因此提出一种新 instance-aware focal 损失来缓解这一问题并进一步提高检测能力。

在 KITTI 和 Waymo 数据集实验结果表明，PVGNet 优于以前的最先进方法，并在 KITTI 3D/BEV 检测排行榜上名列前茅。

作者 | Zhenwei Miao, Jikai Chen, Hongyu Pan, Ruiwen Zhang, Kaixuan Liu, Peihan Hao, Jun Zhu, Yang Wang, Xin Zhan

单位 | 阿里；清华

论文 |https://openaccess.thecvf.com/content/CVPR2021/papers/Miao_PVGNet_A_Bottom-Up_One-Stage_3D_Object_Detector_With_Integrated_Multi-Level_CVPR_2021_paper.pdf

voting-based 3D 目标检测

16.Back-tracing Representative Points for Voting-based 3D Object Detection in Point Clouds

BRNet简单而有效，在两个大规模的点云数据集ScanNet V2（以mAP@0.50，+7.5%）和 SUN RGB-D（以mAP@0.50，+4.7%）上明显优于最先进的方法，同时又是轻量级和高效的。

作者 | Bowen Cheng, Lu Sheng, Shaoshuai Shi, Ming Yang, Dong Xu

单位 | 北航；港中文；悉尼大学

论文 | arxiv.org/abs/2104.0611

代码 | https://github.com/cheng052/BRNet

跨模式三维目标检测

17.PointAugmenting: Cross-Modal Augmentation for 3D Object Detection

PointAugmenting，是一种全新的跨模式三维目标检测算法。在nuScenes和Waymo数据集上证明了 PointAugmenting 的有效性和效率。另外，PointAugmenting 比纯 LiDAR 基线检测器的性能高出 6.5% mAP，并在 nuScenes 排行榜上取得了迄今为止最先进的结果。

作者 | Chunwei Wang, Chao Ma, Ming Zhu, Xiaokang Yang

单位 | 上海交通大学

论文 | https://vision.sjtu.edu.cn/files/cvpr21_pointaugmenting.pdf

Center-based三维目标检测‍‍‍‍‍‍‍‍‍‍‍

18.Center-based 3D Object Detection and Tracking

CenterPoint，首先使用关键点检测器检测物体的中心，并回归到其他属性，包括三维尺寸、三维方向和速度。在第二阶段，利用物体上额外的点特征来完善这些估计。在 CenterPoint 中，三维物体跟踪简化为 greedy closest-point 匹配。由此产生的检测和跟踪算法是简单、高效和有效的。

在 nuScenes 基准测试中，CenterPoint 在三维检测和跟踪方面都取得了最先进的性能，单个模型的 NDS 为 65.5，AMOTA 为 63.8。在 Waymo开放数据集上，CenterPoint 以很大的优势超过了以前所有的单模型方法，并在所有仅有激光雷达的方案中排名第一。

作者 | Tianwei Yin, Xingyi Zhou, Philipp Krähenbühl

单位 | 得克萨斯大学奥斯汀分校

论文 | arxiv.org/abs/2006.1127

代码 | https://github.com/tianweiy/CenterPoint

备注：感谢微信公众号「3D视觉工坊」整理。

基于深度图的3D目标检测

19.To the Point: Efficient 3D Object Detection in the Range Image

with Graph Convolution Kernels

本文提出一种基于深度图的新三维表示法，利用了近期在图卷积方面的进展，既高效又强大。例如在 Waymo 开放数据集上的表现具有竞争力，并将最先进的行人检测 AP 从69.7% 提高到 75.5%。它的效率还在于，用最小的模型，在质量上仍然优于流行的 PointPillars，所需的 FLOPS 和模型参数减少了 180 倍。

作者 | Yuning Chai、Pei Sun、Jiquan Ngiam、Weiyue Wang、Benjamin Caine、Vijay Vasudevan、Xiao Zhang、Dragomir Anguelov

单位 | Waymo；谷歌文| https://openaccess.thecvf.com/content/CVPR2021/papers/Chai_To_the_Point_Efficient_3D_Object_Detection_in_the_Range_CVPR_2021_paper.pdf

20.RangeIoUDet: Range Image based Real-Time 3D Object Detector Optimized by Intersection over Union

RangeIoUDet，基于深度图的高效、准确的单阶段3D目标检测器。通过分别对基于点的 IoU 和基于盒的 IoU 进行优化，使基于深度图的单阶段模型的潜力得到很好的发挥。因为深度图的紧凑表示和二维卷积的效率，可以实现实时帧率运行。

在 KITTI 数据集和实际操作数据集上的实验表明对不同激光雷达传感器和物体类别的有效性和通用性。另外 RangeIoUDet 构造简单，可以利用成熟的基于图像的网络结构的大量设计经验，易于应用与改进。

作者 | Zhidong Liang 、Zehan Zhang、 Ming Zhang 、Xian Zhao 、Shiliang Pu

单位 | 海康威视研究院

基于激光雷达点云的3D目标检测

21.RSN: Range Sparse Net for Efficient, Accurate LiDAR 3D Object Detection

Range Sparse Net（RSN），是一种简单、高效、准确的 3D 目标检测器，用于解决这个扩展检测系统中的实时 3D 目标检测。RSN 从 range images （深度图）中预测前景点，并在选定的前景点上应用稀疏卷积来检测目标。在密集的深度图上进行轻量级的二维卷积，使所选的前景点明显减少，从而使 RSN 中的后期稀疏卷积能够有效地运行。结合深度图的特征，进一步提高检测精度。

RSN 在 Waymo开放数据集（WOD）的 150 米× 150 米检测区域上以每秒60 多帧的速度运行，同时比以前公布的检测器更准确。

截至 2020 年 11 月，根据基于 LiDAR 的行人和车辆检测的 APH/LEVEL 1 指标，RSN 在 WOD 排行榜上排名第一，同时速度更快。

作者 | Pei Sun、Weiyue Wang、Yuning Chai、Gamaleldin Elsayed、 Alex Bewley、Xiao Zhang、Cristian Sminchisescu、Dragomir Anguelov

单位 | Waymo；谷歌

论文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Sun_RSN_Range_Sparse_Net_for_Efficient_Accurate_LiDAR_3D_Object_CVPR_2021_paper.pdf

22.3D Object Detection with Pointformer

由于三维点云数据的不规则性，从点云中进行三维物体检测的特征学习非常具有挑战性。

在本文中，作者提出 Pointformer，一个为三维点云设计的 Transformer 骨干，可以有效地学习特征。

具体来说，Local Transformer 模块用来模拟局部区域内各点之间的相互作用，在 object level 上学习与环境相关的区域特征。全局转化器被设计用来学习场景层面上的上下文感知表征。Global Transformer 用来学习 scene level 上的上下文感知表征。提出 Local-Global Transformer 将局部特征与更高分辨率的全局特征相结合，以进一步捕捉多尺度表征之间的依赖关系。还引入一个高效的 coordinate refinement 模块，使下采样点更接近物体中心点，从而改善 object proposal 的生成。

作者用 Pointformer 作为三个最先进的 3D 目标检测器的骨干进行了广泛实验，在包括室内和室外数据集在内的几个基准上得到显著的性能提升。

作者 | Xuran Pan, Zhuofan Xia, Shiji Song, Li Erran Li, Gao Huang

单位 | 清华；哥伦比亚大学

论文 | arxiv.org/abs/2012.1140

代码 | https://github.com/Vladimir2506/Pointformer

23.Offboard 3D Object Detection from Point Cloud Sequences

本篇文章是对 3D 目标检测在 offboard 用途的研究。引入 3D 自动标签，这是一个最先进的使用点云序列作为输入的 offboard 3D 目标检测解决方案，它利用了三维场景中物体的 long-term temporal 数据。成功的关键在于关键以 object-centric 方式、强大的 offboard 多帧检测器和全新的目标自动标记模型。

在 Waymo 开放数据集上进行的评估，所提出方法与最先进的车载检测器和offboard 基线相比，有明显改善，其性能甚至与通过人类标签研究验证的人类标签相当。

作者 | Charles R. Qi, Yin Zhou, Mahyar Najibi, Pei Sun, Khoa Vo, Boyang Deng, Dragomir Anguelov

单位 | Waymo

论文 | arxiv.org/abs/2103.0507

24.LiDAR-Aug: A General Rendering-based Augmentation Framework for 3D Object Detection

本文所提出的 LiDAR-Aug，是一个简单且有效的 LiDAR 数据增强框架，由两个模块组成：一个是带有 ValidMap 的姿势生成器，另一个是将真实LiDAR 点云背景与合成前景相结合的渲染模块。整个框架是自洽的，没有任何冗余。另外，LiDAR-Aug是一个轻量级的框架，没有任何学习程序。ValidMap可以提前进行离线计算，射线距离的更新可以并行处理。

与传统的增强方法相比，LiDAR-Aug 更加实际和有效。最后，作者用不同的3D 目标检测器在公共 KITTI 数据集上验证了所提出的框架。结果表明，与其他数据增强策略相比，LiDAR-Aug 具有优越性。

作者称会公开数据和代码。

作者 | Jin Fang, Xinxin Zuo, Dingfu Zhou, Shengze Jin, Sen Wang 、Liangjun Zhang

单位 | 百度；阿尔伯塔大学；圭尔夫大学；苏黎世联邦理工学院

论文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Fang_LiDAR-Aug_A_General_Rendering-Based_Augmentation_Framework_for_3D_Object_Detection_CVPR_2021_paper.pdf

其它

25.3D-MAN: 3D Multi-frame Attention Network for Object Detection

文中提出一种新的 3D 目标检测方法，3D-MAN，利用注意力网络来提取和聚集多帧的特征。引入一个快速的单帧检测器，它利用 Hungarian 匹配策略，将目标性评分与最佳的定位框对齐。所提出方法在很长的时间范围内都是有效的，并在一个具有挑战性的大规模数据集上取得了最先进的性能。

作者 | Zetong Yang、Yin Zhou、Zhifeng Chen、Jiquan Ngiam

单位 | 港中文；Waymo；谷歌

论文 | https://openaccess.thecvf.com/content/CVPR2021/papers/Yang_3D-MAN_3D_Multi-Frame_Attention_Network_for_Object_Detection_CVPR_2021_paper.pdf

本文仅做学术分享，如有侵权，请联系删文。

3D视觉精品课程推荐：

1.面向自动驾驶领域的多传感器数据融合技术
2.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
3.国内首个面向工业级实战的点云处理课程
4.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
5.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
6.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
7.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

干货领取：

1. 在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

2. 在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

3. 在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列三维点云系列结构光系列、手眼标定、相机标定、orb-slam3知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~