点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

作者丨paopaoslam

来源丨 泡泡机器人SLAM

标 题:AFDetV2: Rethinking the Necessity of the Second Stage for Object Detection from Point Clouds

作 者:Yihan Hu, Zhuangzhuang Ding, Runzhou Ge, Wenxin Shao, Li Huang, Kun Li, Qiang Liu

来 源:CVPR2021 Waymo挑战赛

编 译:单佳瑶

审 核:lionheart,志勇

摘要

现阶段,使用点云数据进行 3D 检测有两个流派:单阶段方法和两阶段方法。虽然前者的计算效率更高,但后者通常提供更好的检测精度。通过仔细检查两阶段方法,我们发现如果设计得当,第一阶段就可以产生准确的检测结果。在这种情况下,第二阶段主要对框进行重新评分,以便选择具有更好定位的框。

根据这个现象,我们设计了一个可以满足这些要求的单阶段的无锚框的网络,名为 AFDetV2 。该方法是CVPR2020年Waymo挑战赛所提出方法AFDet[1]的扩展,主要包括在主干网络中加入了自校准卷积块、训练时使用关键点损失以及在多任务头中添加了 IoU 预测分支。我们将预测的 IoU 分数与分类热图进行简单的乘积,以形成最终的分类置信度。经过自校准卷积模块的增强,主干网络拥有更强的回归目标框的能力。而基于IOU的重新评分方法有效地结合了对象存在置信度和框回归精度。结果显示,我们的单阶段检测器超过了两阶段检测器的精度。为了评估我们的方法,我们在 Waymo 开放数据集和 nuScenes 数据集上进行了广泛的实验。我们观察到我们的 AFDetV2 在这两个数据集上实现了最先进的结果,优于所有现有技术,包括单阶段和两阶段 3D 检测器。AFDetV2 在 2021 年 Waymo 开放数据集挑战赛的实时 3D 检测中获得第一名。此外,我们的模型 AFDetV2-Base 的变体被挑战赛赞助商命名为“最高效模型”,展示了优越的计算效率。为了证明这种单阶段方法的通用性,我们还将其应用于两阶段网络的第一阶段。结果无一例外地表明,通过加强骨干和重新评分方法,不再需要第二阶段的细化。

引言讨论

为什么需要两阶段来完成检测的任务?

主流观点有两个:

  1. 基于点的检测器(如Point RCNN[2]等)均表示使用原始点云的信息可以弥补体素化等操作带来的精度损失或者感受野缺失,所以两阶段的检测器依靠两阶段实现了较高的精度。

  2. 另外一点从分类和回归的差异性出发。由于分类和回归一般都是两个单独的分支,所以分类最高的预测并不一定与回归最准确的预测相匹配。

针对观点1,目前很多方法,都是基于体素化的方式,转换成BEV视角使用二维卷积实现的。他们都实现了与原始点云方案的同等精度,比如CenterPoint[3]。

针对观点2,本工作做了对比试验,在一阶段检测器后面单独加上分类或者单独加上回归,以探究第二阶段究竟是哪里在起作用。结果表明分类的部分对一阶段的分类结果做了二次优化,并引起了显著的精度提升,而回归网络则是无显著作用。

主要贡献

  1. 论述了两阶段检测器中第二阶段的必要性,并做了对比实验验证其发挥作用的根本原因

  2. 在之前工作AFDet的基础上做了改进,引入了自标定卷积以及训练阶段的辅助loss,还使用IOU来约束分类头产生的分类得分,最终实现了超过两阶段检测器的精度

  3. 做了大量的实验,并使用了模型ensemble以及融合时序多帧信息等技巧,最终结果取得了挑战赛的第一名

方法流程

网络总览

网络结构主要分为三部分,分别是输入点云体素化、BEV主干网络提取特征以及多个负责预测目标信息的网络头。

1. 点云体素化

首先对输入的点云数据进行体素化,通过划分体素网络,将离散的点云连续化。在每个体素中,计算所有点的平均值并将其用作代表值。因此,所有具有坐标的点都被量化为固定的体素。

体素化之后,使用三维稀疏卷积学习点云体素的特征,并且设置z轴的卷积核滑动步长为8,以保证效率。经过特征提取后,将三维的体素网格转化为二维的BEV视图(鸟瞰视图)。

2. BEV特征提取

这里使用了一个多尺度的主干网络来提取,值得注意的是,本工作还使用了一个自标定卷积模块Self-Calibrated Convolutions[4]来增强主干网络的特征提取能力。网络结构如下:

3. 多个目标预测的Heads

相比于AFDet中的五个head,本工作为了实现一阶段检测器对类别的优化,额外引入了一个head进行IOU的预测,实现IoU-aware confidence score prediction。然后将IOU的score与heatmap的score进行相乘,以抑制那些与回归不匹配的分数。

此外,还在训练阶段引入了一个辅助的head,用来计算keypoint,包括中心点以及周围四个点。这部分在测试阶段会被禁止掉,只是起到训练时辅助约束模型的作用。

实验结果

定量实验

下面是分别在NuScenes 和 Waymo数据集上的定量结果。分为两部分,第一部分是不加多帧以及不加模型Ensemble的结果,如下

第二部分是使用多帧时序融合以及模型Ensemble的结果对比,如下

定性实验

下图是Waymo数据集上做的可视化定性分析。

消融实验

相比于AFDet,本工作的主要改进可以概括为三部分,分别是SC-Conv增强主干网络、关键点损失辅助训练以及IOU损失约束分类得分,对应地,作者也做了消融实验。结果显示IOU损失带来的提升较为显著。

Reference

[1] N. Liu, T. Celik, T. Zhao, C. Zhang and H. -C. Li, "AFDet: Toward More Accurate and Faster Object Detection in Remote Sensing Images," in IEEE Journal of Selected Topics in Applied Earth Observations and Remote Sensing, vol. 14, pp. 12557-12568, 2021, doi: 10.1109/JSTARS.2021.3128566.

[2] Shi, Shaoshuai et al. “PointRCNN: 3D Object Proposal Generation and Detection From Point Cloud.” 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2019): 770-779.

[3] Yin, Tianwei et al. “Center-based 3D Object Detection and Tracking.” 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2021): 11779-11788.

[4] Liu, Jiangjiang et al. “Improving Convolutional Networks With Self-Calibrated Convolutions.” 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2020): 10093-10102.

Abstract

There have been two streams in the 3D detection from pointclouds: single-stage methods and two-stage methods. Whilethe former is more computationally efficient, the latter usually provides better detection accuracy. By carefully examining the two-stage approaches, we have found that if appropriately designed, the first stage can produce accurate box regression. In this scenario, the second stage mainly rescoresthe boxes such that the boxes with better localization get selected. From this observation, we have devised a single-stageanchor-free network that can fulfill these requirements. Thisnetwork, named AFDetV2, extends the previous work by incorporating a self-calibrated convolution block in the backbone, a keypoint auxiliary supervision, and an IoU predictionbranch in the multi-task head. We take a simple product of thepredicted IoU score with the classification heatmap to formthe final classification confidence. The enhanced backbonestrengthens the box localization capability, and the rescoring approach effectively joins the object presence confidenceand the box regression accuracy. As a result, the detectionaccuracy is drastically boosted in the single-stage. To evaluate our approach, we have conducted extensive experimentson the Waymo Open Dataset and the nuScenes Dataset. Wehave observed that our AFDetV2 achieves the state-of-the-art results on these two datasets, superior to all the prior arts,including both the single-stage and the two-stage 3D detectors. AFDetV2 won the 1st place in the Real-Time 3D Detection of the Waymo Open Dataset Challenge 2021. In addition, a variant of our model AFDetV2-Base was entitled the“Most Efficient Model” by the Challenge Sponsor, showinga superior computational efficiency. To demonstrate the generality of this single-stage method, we have also applied it tothe first stage of the two-stage networks. Without exception,the results show that with the strengthened backbone and therescoring approach, the second stage refinement is no longerneeded.

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

13.重磅!四旋翼飞行器:算法与实战

14.ROS2从入门到精通:理论与实战

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

AFDetV2:重新思考点云检测方法中第二阶段检测器的必要性(CVPR2021)相关推荐

  1. 一文览尽LiDAR点云目标检测方法

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 转载于 :计算机视觉之路,作者:山涧一壶酒 / 导读 / 自动驾驶中的激光雷达点云如何做特征表达,将基 ...

  2. 一文览尽基于激光雷达点云(lidar)的目标检测方法

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 本文来源:计算机视觉之路,作者:山涧一壶酒,编辑:智车科技 / 导读 / 上周文章:自动驾驶中的激光雷 ...

  3. TGRS2020/云检测:Deep Matting for Cloud Detection in Remote Sensing Images深度抠图在遥感图像云检测中的应用

    TGRS2020/云检测:Deep Matting for Cloud Detection in Remote Sensing Images深度抠图在遥感图像云检测中的应用 0.摘要 1.概述 2.云 ...

  4. ISPRS2021/遥感影像云检测:一种地理信息驱动的方法和一种新的大规模遥感云/雪检测数据集

    ISPRS2021/云检测:A geographic information-driven method and a new large scale dataset for remote sensin ...

  5. 深度学习中的单阶段小目标检测方法综述

    随着深度学习的不断发展,目标检测技术逐步从基于传统的手工检测方法向基于深度神经网络的检测方法转变.在众多基于深度学习的目标检测方法中,基于深度学习的单阶段目标检测方法因其网络结构较简单.运行速度较快以 ...

  6. SECOND点云检测代码详解

    1.前言 SECOND也是一片基于Voxel按anchor-based的点云检测方法,网络的整体结构和实现大部分与原先VoxelNet相近,同时在VoxelNet的基础上改进了中间层的3D卷积,采用稀 ...

  7. 值得收藏!基于激光雷达数据的深度学习目标检测方法大合集(下)

    作者 | 黄浴 来源 | 转载自知乎专栏自动驾驶的挑战和发展 [导读]在近日发布的<值得收藏!基于激光雷达数据的深度学习目标检测方法大合集(上)>一文中,作者介绍了一部分各大公司和机构基于 ...

  8. 检测到目标服务器启用了trace方法_CVPR2019目标检测方法进展综述

    原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的. 其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明 ...

  9. RSE2021/云检测:基于小波变换和连续多尺度空间注意的上下块深度网络云检测

    RSE2021/云检测Deep network based on up and down blocks using wavelet transform and successive multi-sca ...

最新文章

  1. util类中非静态方法中注入serivce,在controller层是使用util。
  2. 《作业控制系列》-“linux命令五分钟系列”之十
  3. 使用 Oracle Datapump API 实现数据导出
  4. web计算机导论读书报告,计算机导论 读书报告.doc
  5. 编程范式,程序员的编程世界观(转)
  6. iOS当中的设计模式
  7. c语言错误解析-变量声明
  8. C语言bound函数,C/C++-STL中lower_bound与upper_bound的用法以及cmp函数
  9. 英特尔携手百度全方位深化合作 共筑智能生态
  10. 实现非父子之间通信,兄弟组件之间的数据传递--eventBus
  11. 优雅的对 list 遍历进行 add 或者 remove 操作
  12. Mac翻译系列软件推荐二:人人译视界 for Mac
  13. AD7606系列ADC的相关内容
  14. 前端需要知道的CSS函数大全
  15. 在Unity 2018中充分使用TextMesh Pro
  16. 彻底搞懂内存屏障(上)
  17. TanDEM-X 90m数字高程模型(下载)
  18. 上网部署(锐捷交换机)
  19. ST-FOC-02-测量无刷电机参数
  20. 无法加载您的Firefox配置文件。它可能已经丢失,或是无法访问

热门文章

  1. 设计模式六大原则(5):迪米特法则
  2. leetCode 46. Permutations 回溯问题 | Medium
  3. 刘宇与小白健康:一个理想主义者的互联网“众包”实践
  4. UITableView学习笔记
  5. 构建根文件系统启动(1)
  6. 【技术分享总结】—设计模式
  7. Horizon Is Easy, Horizon Is Complex
  8. c# 解析JSON的几种办法(转载)
  9. datagrid加checkbox实现分页不丢失选择的记录 (转)
  10. git push origin与git push -u origin master的区别