点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

本文由知乎作者不一样的子湘授权转载,不得擅自二次转载。原文链接:https://zhuanlan.zhihu.com/p/127160788

Brief

第一次在知乎上进行自己的创作,研究方向是3D目标检测,之后也有空也会不时更新知乎的文章,目前将自己的学习都记录在CSDN博客上,已经有一些如voxel-based的方法的深入研究和代码阅读以及自己的一些想法和实验,有时间的话也会陆续把博客迁到知乎平台共同学习交流。今天这一篇是19年12月30日放到arxiv上的,其实在CVPR2020截止后就一直在关注这一篇文章何时会放出来,毕竟在KITTI的3D检测上高居榜首,并且远远的超过了第二名。如下:

是很有必要研读一下,这篇文章出自港中文和商汤的工作。目前已经开源代码。该组的工作还有19年的Part^A.也是十分值得阅读的工作。

paper:https://arxiv.org/pdf/1912.13192.pdf

代码:https://github.com/sshaoshuai/PCDet

先看题目猜测一下,是结合了目前基于点和基于voxel的方法进行特征提取。

Abstract

  • 本文的特征提取方式充分利用的3D voxel卷积和基于点的pointnet卷积方式。其中作者给出的解释是3D voxel卷积高效,而point-based的方法感受野可变,因此结合了这两种检测方法的优点。

  • 该方法是一个两阶段的方法, 第一阶段提proposals,第二阶段为refine

  • 该方法远远好于KITTI其他的方法,在精度的表现上看。

一个简单的过程如下,盲猜为多尺度特征融合到key-point上的一个创新工作。

1. Introduction

  • 3D检测应用

  • 本文是一个将point_based的方法和voxel_based方法的结合的新型网络结构(在文章作者称voxel_based为grid_based的方法,实则同一种方法)

  • 一些point_based和grid_based方法的简单介绍。并且提取存在的问题。这也是作者的论文出发点,结合这两种方法的优点。(高效+可变感受野)

the grid-based methods are more computationally efficient but the inevitable information loss degrades the finegrained localization accuracy, while the point-based methods have higher computation cost but could easily achieve larger receptive field by the point set abstraction

  • PV-RCNN为结合这两种方法的算法,采用multi-scale的方法获得由voxel_based方法得到的高质量的proposals,然后再利用Point_based的方法获得精细的局部信息。

The principle of PV-RCNN lies in the fact that the voxel-based operation efficiently encodes multi-scale feature representations and can generate high-quality 3D proposals.

  • 核心也就是如何将上述的两种方法有效的结合起来,这里作者的做法是:在每一个3D proposals内平均的采样一些Grid-point,然后再通过P2的FPS最远点采样的方法得到该Grid_point周围的点,再通过结合去进一步refine最后的proposals

  • 因此,作者采用两阶段的方法去更好的结合上述的两种算法的优点。

(1) 第一阶段为:“voxel-to-keypoint scene encoding step ”,这一步是提出proposals,作者首先对整个场景采用voxel的方法进行特征提取,同时采取一支分支对场景采用point的FPS采样,然后检索得到多尺度的voxel的特征,如下的表示。这样实际上仅仅是采用了voxel的特征,但是表示在key-point身上。

(2)第二阶段为‘keypoint-to-grid RoI feature abstraction’:这一步骤,作者提出了一个新的RoI-grid pooling module,该模块将上一步骤的keypoints的特征和RoI-grid points特特征融合(keypoints和RoI-grid points是什么内容后续会讲到)

  • contributions

2. Related Work

这一部分不细讲,基本上的文章都大差不差。如下内容

  • 3D Object Detection with Grid-based Methods.

  • 3D Object Detection with Point-based Methods.

  • Representation Learning on Point Clouds.

3. PV-RCNN for Point Cloud Object Detection

3.1. 3D Voxel CNN for Efficient Feature Encoding and Proposal Generation

  • 3D voxel CNN

  • 3D proposal generation

上面的两点内容大都和其他目前流行的基于voxel的方法一样,不多赘述。

  • Discussions

(1)目前大多精度高的工作都采用了refine优化的工作,这里作者提出两个问题,如果采用类似roi_pooling的方式去做,那么由于8倍的下采样会使得分辨率很低,此外如果采样得到的是较高的分辨率图片又会得到稀疏的表示(Fast-PointRCNN)。第二个问题是传统的ROI-POOLING和ROI-ALIGN实际上得到仅能在一个小的区域内进差值,因此如果在3D稀疏的表达上可能得到几乎都是0的特征表示。
(2)进一步的,P2提出的set-abstruction的操作很好的编码“可变”领域的特征,后续考虑到去voxel上差值的内存占用,作者提出了先提出关键点,然后再利用关键点编码voxel卷积过程的多尺度特征。

3.2. Voxel-to-keypoint Scene Encoding via Voxel Set Abstraction

  • Keypoints Sampling

采用FPS,对KITTI数据集的关键点个数为2048,对waymo数据集为4096个点。用于代表整个场景的特征信息。

  • Voxel Set Abstraction Module

作者自行设计了Voxel Set Abstraction (VSA) module这样的一个模块,这个模块的作用是将keypoint周围非空的voxel特征采集出来结合在一起,原文用了很多数学表达,含义大致如此。

  • Extended VSA Module

进一步的在二维上,采用的是双线性插值得到关键点投影到BEV上的特征。最终的特征将有三部分组成,分别是来自voxel语义信息fipv, 来自原始点云的特征信息firaw(作者说这一部分信息是为了弥补之前在voxel化时丢失的信息),来自BEV的高级信息fibev.

  • Predicted Keypoint Weighting.

(1)上述的特征融合实际上都是为了进一步的refine做准备,第一阶段的proposals实际上是由voxel-based的方法提出来的,这一步 Keypoint Weighting的工作是为了给来自背景和前景的关键点一个不一样的权重,使得前景对refine的贡献更大。
(2)为了做这样的一个工作,作者设计了如下的额为的网络结构。这里面的Label对应的是是否在gt内,采用fcoal_loss。

3.3 Keypoint-to-grid RoI Feature Abstraction for Proposal Refinement

这就是作者提出的第二阶段,refinement,前文提到通过3D稀疏卷积处理voxel已经得到了比较好的精度的proposals,但是多尺度的keypoint的特征是为了进一步refine结果。因此作者在这个阶段提出了keypoint-to-grid RoI feature abstraction模块。如下:

(1)从该模块名称和图就可以看得出来,作者是想通过将key-point的特征整合到grid-point中去,并且也采用了multi-scale的策略。作者在每个proposals中都采样6×6×6个grid points.
(2)首先确定每一个grid-point的一个半径下的近邻,然后再用一个pointnet模块将特征整合为grid_point的特征,这里会采用多个scale的特征融合手段。
(3)得到了所有的grid-point的点特征后,作者采用两层的MLP得到256维度的proposals的特征。

  • 3D Proposal Refinement and Confidence Prediction
    作者在confidence prediction branche 这一分支上采用了前人提出的 3D Interp-over-Union (IoU),对于第k个ROI的置信度的目标是如下公式:

该公式中IoUk表示第k个ROI对应的GT,因此confidence prediction branche的LOSS函数采用的是交叉熵loss:

是预测的置信度的分数,如下的实验表明采用这种置信度是能提高算法的精度的。3.4. Training losses

  • RPN loss

  • keypoint seg loss也就是前背景关键点的权重loss。

  • refinement loss 定义如下:

这里的两部分loss第一个置信度LOSS也就是前文提出的LOSS,后面的SmoothL1 LOSS和以前的一样。

4. Experiments

有一些参数设置和实验的实现细节,博主就不写下来了。原文很详尽。列出实验效果吧。在test的数据集上:几乎都好比第二名好几个点,真的牛。

在waymo上如下:

上述内容,如有侵犯版权,请联系作者,会自行删文。

推荐阅读:

吐血整理|3D视觉系统化学习路线

那些精贵的3D视觉系统学习资源总结(附书籍、网址与视频教程)

超全的3D视觉数据集汇总

大盘点|6D姿态估计算法汇总(上)

大盘点|6D姿态估计算法汇总(下)

机器人抓取汇总|涉及目标检测、分割、姿态识别、抓取点检测、路径规划

汇总|3D点云目标检测算法

汇总|3D人脸重建算法

那些年,我们一起刷过的计算机视觉比赛

总结|深度学习实现缺陷检测

深度学习在3-D环境重建中的应用

汇总|医学图像分析领域论文

大盘点|OCR算法汇总

重磅!3DCVer-知识星球和学术交流群已成立

3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导,830+的星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

欢迎加入我们公众号读者群一起和同行交流,目前有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加群或投稿

CVPR2020 3D目标检测 PV-RCNN相关推荐

  1. 汇总|3D目标检测文章(CVPR2020)

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 前言 今年CVPR20-paper-list前几天已经出了,所以这里做一点大致的综述介绍在CVPR20 ...

  2. 室内环境下的3D 目标检测调研

    任务: 调研室内场景下基于单帧图像的3D目标检测的研究情况. 思路: 首先了解相关数据集,benchmark,在数据集的基础上比较不同算法. 1. 室内场景的3D数据集 sunrgbd:室内场景,3D ...

  3. CVPR2020论文介绍: 3D 目标检测高效算法

    CVPR2020论文介绍: 3D 目标检测高效算法 CVPR 2020: Structure Aware Single-Stage 3D Object Detection from Point Clo ...

  4. 地平线机器人提出Anchor free、NMS free的3D目标检测算法 | CVPR2020 Workshop

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 这是一篇由地平线机器人发表在CVPR2020 Workshop的文章,主要是将Anchor Free的 ...

  5. CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 作者:不一样的子湘 知乎链接:https://zhuanlan.zhihu.com ...

  6. 3D目标检测 CVPR2020 总结

    本文盘点CVPR 2020 所有目标检测相关论文,总计64篇论文,感觉最大的特点是3D目标检测研究工作很多有21篇,尤其是工业界单位,可能是自动驾驶热带来的.2D目标检测依然很热,神经架构搜索也开始在 ...

  7. 详解两阶段3D目标检测网络 Voxel R-CNN:Towards High Performance Voxel-based 3D Object Detection

    本文介绍一篇两阶段的3D目标检测网络:Voxel R-CNN,论文已收录于AAAI 2021. 这里重点是理解本文提出的 Voxel RoI pooling. 论文链接为:https://arxiv. ...

  8. 【CVPR2020】3D目标检测论文汇总

    文章目录 1. 3D目标检测--室外 1. Associate-3Ddet: Perceptual-to-Conceptual Association for 3D Point Cloud Objec ...

  9. 通过形状先验引导的3D目标检测方法(Disp R-CNN解读)

    来源丨AI 修炼之路 问题,我们提出在不需要雷达点云的情况下,使用统计形状模型生成密集视差伪真值,这使得我们的系统具有更广泛的适用性.在KITTI数据集上进行的实验表明,即使在训练时不使用雷达数据,D ...

最新文章

  1. Map.putAll()用法
  2. 科学计算机撤销,云计算环境下基于属性的撤销方案-计算机科学.PDF
  3. XT711(大陆行货)刷机与优化指南
  4. Asp.Net Core Mvc Razor之RazorPage
  5. 【BIM入门实战】建筑墙体知识全攻略
  6. 04_传智播客iOS视频教程_类是以Class对象存储在代码段
  7. 机器学习算法总结--K均值算法
  8. 究竟哪种取数据的方式最快?
  9. mongodb使用指南
  10. springcloud 图片和数据一起提交_SpringCloud网上商城系统(附源码及教程)
  11. java 查找链表中间元素,如何找到链表的中间节点?
  12. 面向对象编程实例——句柄类的使用
  13. typora主题配置:公众号一键排版
  14. Android简易天气App
  15. 漫漫长路——微信十年历程
  16. Excel批量调整图片大小适应单元格且整齐排列
  17. python语言画成圆相切_三个相切圆的公切圆
  18. Python项目之制作交易收盘价走势图内的知识点总结
  19. 三国志战略版:萌新手册系列_总结
  20. 基于IP-PBX的VoIP系统解决方案

热门文章

  1. JS 处理鼠标滚轮事件
  2. linux之pid文件
  3. Javascript--键盘事件的组合使用
  4. 1995年,比尔·盖茨解释什么是互联网
  5. 阿里老员工吐槽:新员工水平差!不服管理!还不加班!我要汇报经理让对方无法转正!...
  6. 浓缩精华的架构演进过程,我连看了六遍!
  7. 【基础巩固篇】Java 8中对CAS的优化
  8. 支持百亿请求的微博广告运维技术实践
  9. Docker 最初的2小时(Docker从入门到入门)
  10. 推荐7款Mac上能极大提高效率的软件,建议收藏!