作者丨柒柒@知乎

来源丨https://zhuanlan.zhihu.com/p/458068647

编辑丨3D视觉工坊

这篇文章主要是梳理一下近期3D Detection的进展,分类列举出一些我认为的比较重要的、有代表性的工作。主要讲解基于视角特征提取的3D检测方法,欢迎补充指正。

一、论文分类汇总

1. 基于激光雷达点云的3D检测方法(LiDAR only)

n方法名称 方法类别 发表年份 代码是否开源
Part-A^2 LiDAR only TPAMI 2020
PointRCNN LiDAR only CVPR 2019
STD LiDAR only ICCV 2019
PV-RCNN++ LiDAR only CVPR 2020
PointPillar LiDAR only CVPR 2019
MVP LiDAR only NIPS 2021
SE-SSD LiDAR only CVPR 2021
SA-SSD LiDAR only CVPR 2020
HVPR LiDAR only CVPR 2021
LiDAR RCNN LiDAR only CVPR 2021
SECOND LiDAR only Sensors 2018
3DIoUMatch LiDAR only CVPR 2021
CenterPoint LiDAR only CVPR 2021
3DSSD LiDAR only CVPR 2021
CIA-SSD LiDAR only AAAI 2021

2. 基于多模态融合的3D检测方法(LiDAR+RGB)

方法名称 方法类别 发表年份 代码是否开源
AVOD-FPN LiDAR+RGB IROS 2018
F-PointNet LiDAR+RGB CVPR 2018
F-ConvNet LiDAR+RGB IROS 2019
4D-Net LiDAR+RGB ICCV 2021
MV3D LiDAR+RGB CVPR 2017
CM3D LiDAR+RGB WACV 2021
H^2 3D RCNN LiDAR+RGB TCSVT 2021

3. 基于单目图像的3D检测方法(Monocular)

方法名称 方法类别 发表年份 代码是否开源
AutoShape Monocular ICCV 2021
CaDDN Monocular CVPR 2021
MonoDLE Monocular CVPR 2021
DDMP Monocular CVPR 2021
GUPNet Monocular ICCV 2021
FCOS3D Monocular ICCVW 2021
PGD Monocular CoRL 2021
MonoGRNet Monocular TPAMI 2021

4. 基于双目图像的3D检测方法(Stereo)

方法名称 方法类别 发表年份 代码是否开源
SIDE Stereo WACV 2022
LIGA-Stereo Stereo ICCV 2021
E2E-PL Stereo CVPR 2020

5. 基于视角特征提取的3D检测方法

方法名称 方法类别 发表年份 代码是否开源
H^2 3D RCNN Front & Bird view TCSVT 2021
PointPillar Bird view CVPR 2019
F-PointNet Frustum CVPR 2018
F-ConvNet Frustum IROS 2019
TANet Bird view AAAI 2020

6. 基于特征补充/伪点云生成的3D检测方法(pseudo augment)

方法名称 方法类别 发表年份 代码是否开源
PointPainting pseudo augment CVPR 2020
PointAugmenting pseudo augment CVPR 2021
E2E-PL pseudo augment CVPR 2020
Pseudo-LiDAR pseudo augment CVPR 2019
Pseudo-LiDAR++ pseudo augment ICLR 2020
MVP pseudo augment NIPS 2021

7. 基于transformer的3D检测方法 (Transformer)

方法名称 方法类别 发表年份 代码是否开源
VoTr Transformer ICCV 2021
CT3D Transformer ICCV 2021
M3DETR Transformer Arxiv
DETR3D Transformer CoRL 2021
PoinTr Transformer ICCV 2021

8. 基于半监督学习的3D检测方法(Semi supervised)

方法名称 方法类别 发表年份 代码是否开源
3DAL Semi supervised Arxiv
3DIoUMatch Semi supervised CVPR 2021
WS3D Semi supervised TPAMI 2021

二、论文分类解读

1. H^2 3D RCNN (TCSVT 2021)

论文地址:https://arxiv.org/pdf/2107.14391.pdf
作者单位:University of Science and Technology of China
代码地址:https://github.com/djiajunustc/H-23D_R-CNN
一句话读论文:结合不同投影视角下的特征特性构成空间结构信息更丰富的3D feature。

stone:2021TCSVT-From Multi-View to Hollow-3D: Hallucinated Hollow-3D R-CNN for 3D Object Detection地址:https://zhuanlan.zhihu.com/p/396436677

网络框架图

KITTI testset 实验结果

整体网络依然属于two-stage范畴,the first stage提取proposals,the second stage进一步预测。

主要有两点需要注意:

其一,在第一级也就是proposal生成部分,作者将点云数据分别投影到正视图和俯视图。在正视图利用圆柱/圆筒提取特征,也就是文中的Cylindrical Coordinates 。在俯视图利用类似pillar的方式提取特征,也就是文中的Cartesian Coordinates。

Given the input point clouds, we sequentially project the points into the perspective view and the bird-eye view, and leverage 2D backbone networks for feature extraction.

其二,在第二级也就是微调阶段,作者设计了HV RoI Pooling模块。作者认为voxel RoI Pooling存在的问题是,对于同一个grid point,根据不同的query radius进行 group(不同半径的同心圆可能会包括相同voxel feature),可能导致非空体素被重复采样。此外,随着网格数G和query radius r的增长,计算量成三次方增加。

the non-empty voxels within a small and a large query range centered on the same grid point can be highly reduplicate, which may incur the significance of multi-scale grouping.Besides, the computational cost of grouping neighbor voxels grows cubically with the partition grid number G and the query range r.

2. PointPillar(CVPR 2019)

论文地址:https://arxiv.org/pdf/1812.05784.pdf
作者单位:Oscar Beijbom and nuTonomy: an APTIV company
一句话读论文:A novel encoder which utilizes PointNets to learn a representation of point clouds organized in vertical columns (pillars).

柒柒:Arxiv | 3D Detection | PointPillars地址:https://zhuanlan.zhihu.com/p/389034609

网络框架

KITTI testset 实验结果

这篇文章的核心内容是Pillar Feature Network (Pillar点云提取)。主要作用是将点云数据处理为常见的三维数据,也就是point clouds → C×H×W。具体流程为:point clouds → D×P×N → C×P×N → C×P → C×H×W,其中:

D=9,包括每个点坐标(x, y, z),对应的pillar中心点坐标(x_c, y_c, z_c),该点到中心点的偏移(x_p, y_p),以及反射值r。P=12000,表示单场景中的pillar数目。N=100,表示每个pillar中采样的point数目。

The points in each pillar are then augmented with xc, yc, zc, xp and yp where the c subscript denotes distance to the arithmetic mean of all points in the pillar and the p subscript denotes the offset from the pillar x; y center.

2. D×P×N → C×P×N 通过卷积运算实现。

Next, we use a simplified version of PointNet where, for each point, a linear layer is applied followed by Batch- Norm and ReLU to generate a C×P×N sized tensor.

3. C×P×N → C×P是对N维度做max运算,类似max pooling。

This is followed by a max operation over the channels to create an output tensor of size C×P.

4. C×P → C×H×W是对P维度的展开,因为P=12000,表示该场景中的pillar数目,因此作者认为可以一定程度上描述完整场景,所以将P维度直接展开,可以得到我们熟悉的C×H×W三维数据。

Once encoded, the features are scattered back to the original pillar locations to create a pseudo-imageof size C×H×W where H and W indicate the height and width of the canvas.

至此,其实核心部分已经处理完毕,接下来可以用我们熟知的检测方法处理此点云数据。

3. F-PointNet (CVPR 2018)

论文地址:https://arxiv.org/pdf/1711.08488.pdf
作者单位:Stanford University
代码地址:https://github.com/charlesq34/frustum-pointnets
一句话读论文:利用2D detector构造视锥区域约束3D检测。

网络框架图

KITTI testset 实验结果

从网络框图上看,显然本文属于LiDAR+RGB fusion,不同于上文提到的AVOD-FPN基于feature层面的融合,F-PointNet的融合属于results层面的。换句话说就是,LiDAR数据并没有直接fuse2D图像特征,而仅仅是采用了2D图像检测映射出的视锥区域。

具体地,整体网络框架流程可以描述为:输入RGB图像得到2D检测结果,将其映射为3D视锥区域,在视锥区域内进行前背景点及3D box预测。

As shown in the Figure, our system for 3D object detection consists of three modules: frustum proposal, 3D instance segmentation, and 3D amodal bounding box estimation.

主要有两点需要强调:

其一,为什么视锥是有效的 (具体可以参考论文4.1节 Frustum Proposal)?首先,目前的2D检测器在通用场景下的检测相对成熟;其次,利用2D检测结果约束3D box极大地缩减了点云搜索空间。

The resolution of data produced by most 3D sensors, especially real-time depth sensors, is still lower than RGB images from commodity cameras. Therefore, we leverage mature 2D object detector to propose 2D object regions in RGB images as well as to classify objects.

其二,一个视锥区域仅检测一个物体。作者的解释是:一个视锥对应一个2D bounding box,而一个2D bounding box有且预测一个object。

Note that each frustum contains exactly one object of interest. Here those "other" points could be points of non-relevant areas (such as ground, vegetation) or other instances that occlude or are behind the object of interest.

4. F-ConvNet (IROS 2019)

论文地址:https://arxiv.org/abs/1903.01864
作者单位:South China University of Technology
代码地址:https://github.com/zhixinwang/frustum-convnet
一句话读论文:利用视锥组而非单一视锥特征进行3D box预测。

网络框架图

KITTI testset 实验结果

从网络框架图也能看出来,文章核心思路和上文中的F-PointNet类似,均是利用2D detector构造视锥区域约束3D检测。不同点在于:F-PointNet使用的是point segmentation feature,也就是point-level feature,F-ConvNet使用的是Frustum feature,也就是frustum-level的。

Given 2D region proposals in an RGB image, our method first generates a sequence of frustums for each region proposal, and uses the obtained frustums to group local points. F-ConvNet aggregates point-wise features as frustumlevel feature vectors, and arrays these feature vectors as a feature map for use of its subsequent component of fully convolutional network (FCN), which spatially fuses frustum-level features and supports an end-to-end and continuous estimation of oriented boxes in the 3D space.

那么相比point-level,frustum level有哪些优势呢?

其一,F-PointNet并非为end-to-end的方式;

it is not of end-to-end learning to estimate oriented boxes.

其二,视锥当中前景点往往很少,因此难以支撑准确的3D检测。

Final estimation relies on too few foreground points which themselves are possibly segmented wrongly.

其三,(这点是个人理解,大家见仁见智),point-level往往是local的也就是局部的,而frustum则更能表征object structure。

5. TANet (AAAI2020)

论文地址:https://arxiv.org/abs/1912.05163
作者单位:Huazhong University of Science and Technology
代码地址:https://github.com/happinesslz/TANet

stone:2020AAAI——TANet: Robust 3D Object Detection from Point Clouds with Triple Attentionhttps://zhuanlan.zhihu.com/p/372725085

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

基于视角特征提取的3D检测方法汇总相关推荐

  1. 基于激光雷达点云的3D检测方法汇总(LiDAR only)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨柒柒@知乎 来源丨https://zhuanlan.zhihu.com/p/436452723 ...

  2. 超全 | 基于纯视觉Multi-Camera的3D感知方法汇总!

    近两年,基于纯视觉BEV方案的3D目标检测备受关注,all in one方式,确实能将基于camera的3D检测算法性能提升一大截,甚至直逼激光雷达方案,这次整理了领域中一些备受关注的multi-ca ...

  3. 3D成像方法汇总(原理解析):双目视觉、激光三角、结构光、ToF、光场、全息...

    作者丨路人甲ing..@CSDN 来源丨https://blog.csdn.net/tyfwin/article/details/89110067 编辑丨3D视觉工坊 3D成像方法汇总介绍: 这里要介 ...

  4. 3D成像方法 汇总(原理解析)— 双目视觉、激光三角、结构光、ToF、光场、全息...

    3D成像方法汇总介绍: 这里要介绍的是真正的3D成像,得到物体三维的图形,是立体的图像.而不是利用人眼视觉差异的特点,错误感知到的假三维信息.  原理上分类:主要常用有: 1.双目立体视觉法(Ster ...

  5. 基于摄像头的车道线检测方法一览

    首发于 自动驾驶的挑战和发展 写文章 基于摄像头的车道线检测方法一览 黄浴 ​ 自动驾驶话题下的优秀答主 174 人 赞同了该文章 车道线,重要的路上语义信息,检测车道线对L2-L3-L4级别的自动驾 ...

  6. 3D成像方法 汇总(原理解析)--- 双目视觉、激光三角、结构光、ToF、光场、全息...

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 3D成像方法汇总介绍: 这里要介绍的是真正的3D成像,得到物体三维 ...

  7. 3D成像方法 汇总(原理解析)--- 双目视觉、激光三角、结构光、ToF、光场、全息

    3D成像方法汇总介绍: 这里要介绍的是真正的3D成像,得到物体三维的图形,是立体的图像. 而不是利用人眼视觉差异的特点,错误感知到的假三维信息. 原理上分类:主要常用有: 1.双目立体视觉法(Ster ...

  8. 行为检测论文笔记【综述】基于深度学习的行为检测方法综述

    摘 要: 行为检测在自动驾驶.视频监控等领域的广阔应用前景使其成为了视频分析的研究热点.近年来,基于深度学习的方法在行为检测领域取得了巨大的进展,引起了国内外研究者的关注,对这些方法进行了全面的梳理和 ...

  9. 基于深度学习的目标检测方法综述

    引言 现有的深度学习的目标检测方法,可以大致分为两类:一.基于候选区域的目标检测方法:二.基于回归的目标检测方法.依据方法的提出时间,可以构建出如下时间线: 2014 CVPR R-CNN[1] 20 ...

最新文章

  1. 完整恢复模式下的备份/恢复
  2. 小猿圈web前端之移动端Vue+Vant实现上传压缩旋转图片功能
  3. 5G UE — 手机的基带芯片
  4. php 表单录入,PHP 表单和用户输入
  5. java catch getm_Java------异常处理机制
  6. 计算机的主存储器可以分为哪两类,2017年计算机应用基础模拟试题「答案」(2)...
  7. oracle某用户历史sql语句,查看oracle 用户执行的sql语句历史记录
  8. 疯子的算法总结(二) STL Ⅰ 算法 ( algorithm )
  9. 传百度无人车计划分拆,百度回复:不实信息,目前未有分拆计划
  10. 判断用户 小程序_解读微信小程序用户运营四部曲
  11. mysql常量求和_Mysql之:count(*)、count(常量)、count(字段)的区别
  12. 进销存管理系统是什么?能给企业带来哪些好处?
  13. 解决:元素内容必须由格式正确的字符数据或标记组成。
  14. Maya:解决丢失的贴图和引用
  15. 3-19日 游戏工坊博客
  16. gpg生成秘钥时卡死
  17. 韩松手机摄影笔记第八课--手机人物摄影
  18. 以太坊--Uniswap分享
  19. Javaweb后端开发必学(HTML、CSS、JS、Vue)
  20. 简单好玩经典有趣的微信小游戏

热门文章

  1. playbook核心元素之 -- 角色role(9)
  2. TOMCAT6中一个警告“Parameters:Invalid chunk ignored ”
  3. 第十二课:小信号分析 (二)
  4. 转: GridView:当鼠标滑过,行的背景颜色发生变化
  5. 我!90后!重庆女孩!在淘宝给别人改简历,年入百万!
  6. 浅析「扣减库存」的方案设计
  7. 【高并发、高性能、高可用】系统设计经验分享!
  8. 只需两步,Tomcat JVM 参数性能迅速调到最优!
  9. 高并发场景下更新数据库报错,记录一次 MySQL 死锁问题的解决
  10. 废掉一个程序员最好的方法,让他忙碌着,忙碌到没时间思考