MV-3D: 多视图的3D目标检测网络

  • 一、前言
  • 二、整体思路
  • 三、算法分析
    • 1、3D Proposal Network
      • 鸟瞰图表示
      • 前视图表示
    • 2、Rregion-based Fusion Network
    • 3、3D边界框回归
    • 4、网络正则化
    • 结果

一、前言

目前主流的空间点云检测主要有两种。一种是直接以三维点云作为输入,直接送入卷积网络或者转化为体素送入。另一种是将3D点云映射到2D,主要为鸟瞰图或者前视图。一般来说第一种方法目标的检测信息比较丰富,但相应的计算量也大;第二种处理得当的话计算量相对较小,但会导致信息的丢失。
MV-3D论文采用的是第二种方法,但考虑到信息的丢失,还采用前视图和图片进行融合矫正。

论文: https://arxiv.org/abs/1611.07759

二、整体思路

如下图所示:

区域提案网络(PPN)已经成为高精度目标检测的重要组成部分。MV-3D也是基于RPN进行架构,可以看出整个主要分为两个主要部分:3D Proposal Network 和 Rregion-based Fusion Network。网络的输入有三种:俯视图(BV)、前视图(FV)和图像(RGB),经卷积网络输出后和3D Proposal进行 ROI pooling融合,再精选出3D边界框。

三、算法分析

1、3D Proposal Network


网络的输入有三种:俯视图(BV)、前视图(FV)和图像(RGB)。主要思路为:

  1. 论文中的卷积层采用的是VGG-16,去掉了最后一层池层,因此卷积的部分进行了8次下采样。
  2. 3D提案是由俯视图产生的,因为投影到鸟瞰图可以更多的保持物体的尺寸,而且垂直方向上的差异较小可以更精准的获取3D边界框。
  3. 另外为了处理超小的对象,我们使用特征近似来获得高分辨率的特征图。特别地,我们在输入最后一个卷积特征之前插入了一个2倍的双线性上采样层映射到3D提案网络。类似地,我们在BV/FV/RGB分支的ROI池化层之前插入了一个4x/4x/2x的上采样层。
  4. 将生成的3D Proposal投影到各个视图中和卷积后的网络一起进中ROI pooling。由于来自不同视图/模态的特征通常具有不同的分辨率,因此对每个视图使用ROI池化来获得相同长度的特征向量。

鸟瞰图表示

鸟瞰图的表示是由高度、强度和密度编码的,将投影的点云离散为分辨率为0.1m的二维网格。

  1. 对于每个网格单元,高度特征被计算为单元中点的最大高度,为了对更详细的高度信息进行编码,点云被等分为m个切片,计算出每片的高度图,得到m个高度图。
  2. 强度特征是每个单元中具有最大高度的点的反射值,作用于整个点云。
  3. 点云密度表示每个单元中的点的数量,也是作用于整个点云。

总的来说鸟瞰图被编码为(m+2)个通道特征。

前视图表示

前视图表示为鸟瞰图表示提供补充信息。由于激光雷达点云非常稀疏,将其投影到图像平面会产生稀疏的二维点地图。相反,我们将其投影到一个柱面,以生成一个密集的前视图地图。
令点云中一个点的坐标为 P = (x,y,z),在前视图的相应坐标为pfv=(r,c)p_{fv} = (r,c)pfv​=(r,c)。两者之间的相互转化关系为:

  • C = [arctan⁡(y,x)Δθ][ \frac{\arctan(y,x)}{\Delta \theta }][Δθarctan(y,x)​]
  • r = [arctan⁡(z,x2+y2)Δϕ][ \frac{\arctan(z,\sqrt{x^2+y^2} )}{\Delta\phi }][Δϕarctan(z,x2+y2​)​]

其中其中,Δθ\Delta \thetaΔθ和DeltaϕDelta\phiDeltaϕ分别为激光束的水平和垂直分辨率。

效果图如下:

2、Rregion-based Fusion Network

设计了一个基于区域的融合网络,有效地结合多个视角的特征,共同对目标建议进行分类和进行面向方向的三维边框回归。

为了结合来自不同特征的信息,采用了深度融合方法,融合多视图特征。另外论文还将深度融合网络和早期/晚期融合网络的架构比较。

对于具有L层的网络,早期融合结合了来自输入阶段的多个视图的特征fv{fv}fv:

Hl,l=1,⋅⋅⋅,L{H_{l},l=1,···,L}Hl​,l=1,⋅⋅⋅,L是特征变换函数,而⊕是一个连接操作(例如,连接、求和)。
相比之下,后期融合使用独立的子网来独立地学习特征转换,并在预测阶段结合它们的输出:

论文中设计的深度融合过程如下:

M代表元素级均值来进行深度融合的连接操作,因为它与跳跃训练结合时更灵活。

3、3D边界框回归

考虑到多视图网络的融合特性,我们从三维提案回归到定向的三维边界框。特别是,回归目标是3D边界框的8个角:t=(∆x0,⋅⋅⋅,∆x7,∆y0,⋅⋅⋅,∆y7,∆z0,⋅⋅⋅,∆z7)t=(∆x_0,···,∆x_7,∆y_0, · · · , ∆y_7, ∆z_0, · · · , ∆z_7)t=(∆x0​,⋅⋅⋅,∆x7​,∆y0​,⋅⋅⋅,∆y7​,∆z0​,⋅⋅⋅,∆z7​).它们被编码为由建议框的对角线长度归一化的拐角偏移量。尽管有这样的24d向量表示是多余的,但发现这种编码方法比中心和尺寸编码方法效果更好。

另外论文中提及在模型中,物体的方向可以从预测的三维框角中计算出来。(这个没有给出计算的过程)

使用多任务损失来联合预测对象类别和面向三维盒子。在生成提案网络中,类别损失使用交叉熵,而3D box损失使用平滑的L1_loss。

在训练期间,正/负roi是基于鸟瞰图的IoU重叠来确定的。如果鸟瞰图的IoU重叠度大于0.5,则3D提案被认为是正的。在推理过程中,在三维边界box回归后的三维box上应用NMS。我们将3D盒子投射到鸟瞰图中,以计算它们的IoU重叠。我们使用IoU阈值为0.05为了删除多余的box,以确保物体在鸟瞰视图中不能占据相同的空间。

4、网络正则化

对比于二维网络,正则化可以有效避免网络的过拟合,使整个网络有效的进行下去。论文中我们采用两种方法来正则化基于区域的融合网络:drop-path trainingauxiliary losses

对于每次迭代,我们随机选择做全局下降路径或局部下降路径它的概率为50%。如果选择全局下降路径,我们从三个视图中选择单个视图。如果选择了局部下降路径,则每个连接节点的路径是随机的下降的概率为50%。我们确保对于每个连接节点,至少保留一个输入路径。(这个是翻译过来的,总感觉不太准确)

为了进一步加强每个视图的表示能力,论文在网络中添加了辅助路径和损耗。

在训练过程中,增加底部的三条路径和损耗,使网络正则化。辅助层与主网络中相应的层共享权重。

注意: 在检验过程中,这些辅助路径会被删除。

结果

参考:
自动驾驶|3D目标检测:MV3D-Net(一)
【论文解读】MV3D-Net 用于自动驾驶的多视图3D目标检测网络

【MV-3D】----多视图的3D目标检测网络相关推荐

  1. 两阶段3D目标检测网络 SIENet: Spatial Information Enhancement Network for 3D Object Detection from Point Cloud

    本文介绍一篇两阶段的3D目标检测网络:SIENet. 这里重点是理解本文提出的 Hybrid-Paradigm Region Proposal Network 和 Spatial Informatio ...

  2. 详解两阶段3D目标检测网络 Voxel R-CNN:Towards High Performance Voxel-based 3D Object Detection

    本文介绍一篇两阶段的3D目标检测网络:Voxel R-CNN,论文已收录于AAAI 2021. 这里重点是理解本文提出的 Voxel RoI pooling. 论文链接为:https://arxiv. ...

  3. 详解两阶段3D目标检测网络PVRCNN:Point-Voxel Feature Set Abstraction for 3D Object Detection

    在<动手学无人驾驶(4):基于激光雷达点云数据3D目标检测>一文中介绍了3D目标检测网络PointRCNN.今天介绍该作者新提出的3D检测模型:PVRCNN,论文已收录于CVPR2020. ...

  4. 让M3D-RPN的3D目标检测网络初步跑起来!

    让M3D-RPN的3D目标检测网络初步跑起来! @写在前面碎碎念@ 最近被安排研究一下M3D-RPN的目标检测网络,说是<研究>感觉贬低了<研究>这个词语,说成碰运气可能会更好 ...

  5. 3D目标检测(二)—— 直接处理点云的3D目标检测网络VoteNet、H3DNet

    前言 上次介绍了基于Point-Based方法处理点云的模块,3D目标检测(一)-- 基于Point-Based方法的PointNet点云处理系列,其中相关的模块则是构成本次要介绍的,直接在点云的基础 ...

  6. 一种投影法的点云目标检测网络

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 文章导读 本文来源于早期的一篇基于投影法的三维目标检测文章<An Euler-Region-Pr ...

  7. 丢弃Transformer!旷视和西安交大提出基于FCN的端到端目标检测网络

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 本文作者:王剑锋  | 编辑:Amusi https://zhuanlan.zhihu.com ...

  8. 计算机视觉算法——基于Anchor Free的目标检测网络总结

    计算机视觉算法--基于Anchor Free的目标检测网络总结 计算机视觉算法--基于Anchor Free的目标检测网络总结 1. CornerNet 1.1 关键知识点--网络结构及特点 1.2 ...

  9. PointPillars:基于点云的快速目标检测网络

    1 PointPillars简介 PointPillars是一个基于点云的快速目标检测网络,在配置为Intel i7 CPU和1080ti GPU上的预测速度为62Hz,在无人驾驶领域中常常能够使用上 ...

  10. 计算机视觉算法——目标检测网络总结

    计算机视觉算法--目标检测网络总结 计算机视觉算法--目标检测网络总结 1. RCNN系列 1.1 RCNN 1.1.1 关键知识点--网络结构及特点 1.1.2 关键知识点--RCNN存在的问题 1 ...

最新文章

  1. LTE Paging消息的接收
  2. 【天命奇御】成就进度62/71的通关攻略(1·开篇前言)
  3. MinGW 与MSVC的区别
  4. CNN的卷积运算为何使用互相关而不是卷积
  5. oracle undo
  6. LOADRUNNER连接ORACLE数据库的方法
  7. spark集群访问mysql_spark连接数据源以及在spark集群上跑
  8. object byte java_Object转byte[];byte[]转Object
  9. 百练 2972 确定进制 解题报告
  10. Java面试题:Java设计模式11道常见面试题
  11. java6不支持tlsv1.2_解决 JDK1.7 不支持 VCenter 6.7 的问题(涉及到Https TLS1.2协议)
  12. svn版本备份和恢复注意事项
  13. css中如何将a标签设置居中,cssa标签设置成block后,怎么让文字垂直居中_html/css_WEB-ITnose...
  14. 优先队列 priority_queue 用法 (struct,非cmp)
  15. STM32单片机课程自学知识点整理 - 指南版
  16. 转:大前研一:“质问力”是解决问题最重要的能力
  17. 一种结构和纹理感知 Retinex 模型 (2020 TIP) (1 of 2)
  18. 如何提高抗压能力和适应能力
  19. postman + node-red 发送e-mail(附件、抄送、密送)
  20. 01、第一个简单的BUCK电路的计算与仿真

热门文章

  1. 【现代密码学】大作业-RSA大礼包
  2. java代码下划线是啥意思_java类名加下划线
  3. 单片机 cror crol
  4. 卫星互联网若干关键技术研究
  5. log4j2日志配置颜色
  6. 自动驾驶传感器---毫米波雷达原理(测距、测速、角速度测量),毫米波雷达系统构成
  7. 路飞学城Python-Day13
  8. C 修改内存制作外挂
  9. WebP是什么格式?如何免费批量转换JPEG
  10. 一些常用网站的总结与分享