3D-CVF论文解读

  • 1.背景
  • 2.网络架构
    • 2.1 LiDAR pipeline
    • 2.2 RGB Pipeline
    • 2.3 Cross-View Feature Mapping
    • 2.4 Gated Camera-LiDAR Feature Fusion
    • 2.5 3D ROI Fusion-based Refinement
  • 3.损失函数
  • 4.数据增强
  • 5.实验结果

论文链接:[2004.12636] 3D-CVF: Generating Joint Camera and LiDAR Features Using Cross-View Spatial Feature Fusion for 3D Object Detection (arxiv.org)

1.背景

​采用单一模态的数据进行目标检测性能有限,因此多模态感知融合技术开始出现。例如使用相机与激光雷达进行3D物体检测,由于这两种传感器具有不同的特征和分布,融合这两种模态的信息有望提高3D物体检测的准确性和鲁棒性。

​由于相机与激光雷达获得的空间特征图存在视角差异,因此对这两种异构数据进行融合存在丢失信息的问题,为了解决这个问题,该论文提出了3D-CVF

2.网络架构

​首先,该方法采用自动校准投影,将2D相机特征转换为与鸟瞰图(BEV)中的LiDAR特征具有最高对应关系的平滑空间特征图。然后应用门控特征融合网络以使用空间注意力图根据区域适当地混合相机和LiDAR特征。接下来,相机-LiDAR特征融合也在随后的提议细化阶段实现。低级 LiDAR 特征和相机特征使用基于感兴趣区域 (RoI) 的特征池分别池化,并与联合相机LiDAR特征融合以增强提议细化。

​其实就是分别对相机数据与激光雷达数据进行特征提取以及融合相机特征与激光雷达特征,然后将相机的特征以及激光雷达的特征进行编码,对融合特征进行池化,接着将三种处理过的数据送入3D ROI Fusion-based Refinement,最后进行3D物体检测。

​该网络的总体架构由五个模块组成,包括 1) LiDAR pipeline,2) camera pipeline,3) cross-view spatial feature mapping,4) gated camera-LiDAR feature fusion network, 5)proposal generation and refinement network。

2.1 LiDAR pipeline

​对激光雷达点进行体素化,每个体素内最多保留max个点,少的点由零补,多的点去掉,生成固定长度的向量,然后送入六个步幅为2的3D稀疏卷积层处理,生成 BEV 域中128个通道的 LiDAR 特征图,生成的 LiDAR 特征图的特征图减少了八分之一,这一部分结构应该取自SECOND中的类似,相比于进行3D卷积,3D稀疏卷积减少了内存消耗。

2.2 RGB Pipeline

​相机RGB图像由CNN主干网络处理,使用预训练的ResNet18和特征金字塔网络 (FPN)来生成相机视图中表示的256个通道的相机特征图,相机特征图的宽度和高度减少了八分之一。


​ ResNet18网络结构

2.3 Cross-View Feature Mapping

​交叉视图特征(CVF)映射生成投影在BEV中的相机特征图。自动校准投影将相机视图中的相机特征图转换为BEV中的特征图。然后,投影的特征图通过额外的卷积层得到增强,并传送到门控相机-LiDAR特征融合块。

(1) 密集像素结构:构建相机体素结构以生成空间密集特征,在x和y轴上是LiDAR体素结构的两倍,总体素量是LiDAR的4倍。

(2) 自动校准投影方法:将相机视图特征转换为BEV特征,找到它们之间的最佳对应关系以最大化信息融合的效果。具体方法为,首先使用world-to-camera-view投影矩阵将每个体素的中心投影到相机视图平面中,其中voxel的投影点为

每个投影点

通过偏移量(Δx,Δy)调整,得到camera-view中的投影位置

,其相邻的四个像素通过线性插值方法得到各自权重,然后分配给各自的区域。

组合像素

集合{fm,n}表示相邻像素,wm,n表示权重,一般的插值方法由双线性插值,使用的是欧氏距离,


上图就是双线性插值的图例,x方向单线性插值
f(R1)=x2−xx2−x1f(Q11)+x−x1x2−x1f(Q21)f({R_1})=\frac{{x_2}-x}{{x_2}-{x_1}}f(Q_{11})+\frac{x-{x_1}}{{x_2}-{x_1}}f(Q_{21}) f(R1​)=x2​−x1​x2​−x​f(Q11​)+x2​−x1​x−x1​​f(Q21​)

f(R2)=x2−xx2−x1f(Q12)+x−x1x2−x1f(Q22)f({R_2})=\frac{{x_2}-x}{{x_2}-{x_1}}f(Q_{12})+\frac{x-{x_1}}{{x_2}-{x_1}}f(Q_{22}) f(R2​)=x2​−x1​x2​−x​f(Q12​)+x2​−x1​x−x1​​f(Q22​)

y方向单线性插值
f(P)=y2−yy2−y1f(R1)+y−y1y2−y1f(R2)f({P})=\frac{{y_2}-y}{{y_2}-{y_1}}f(R_{1})+\frac{y-{y_1}}{{y_2}-{y_1}}f(R_{2}) f(P)=y2​−y1​y2​−y​f(R1​)+y2​−y1​y−y1​​f(R2​)
自动校准投影的效果对比

(a)和(b)表示自动校准投影前后的效果,如果没有自动校准投影,则无法得到密集且平滑的变换特征图,但是还需要通过自适应门控融合网络才能定位物体的位置,得到(c)中的效果。

​对于自动校准投影中的偏移量(Δx,Δy)的介绍没有详细说明。

2.4 Gated Camera-LiDAR Feature Fusion

​自适应门控融合网络用于组合相机特征图和激光雷达特征图。空间注意力图被应用于两个特征图,以根据它们的重要性调整每个模态的贡献。自适应门控融合网络生成联合相机-LiDAR特征图,传递给3D ROI Fusion-based Refinement。


2.5 3D ROI Fusion-based Refinement

​在基于joint camera-LiDAR feature map生成区域建议后,应用RoI pooling进行建议细化。由于joint camera-LiDAR feature map不包含足够的空间信息,因此使用3D ROI-based pooling提取多尺度LiDAR特征和相机特征。这些特征由PointNet编码器单独编码,并通过3D ROI-based fusion network与joint camera-LiDAR feature map融合。融合后的特征用于产生最终的检测结果。

Region Proposal Generation

​将joint camera-LiDAR feature通过RPN得到初步的检测结果:候选区域。

3D ROI-based Feature Fusion

​joint camera-LiDAR feature的经过RPN后得到的预测框使用旋转的3D ROI转为全局坐标,同时将经过池化与编码的low-level LIDAR和camera feature与joint camera-LiDAR feature进行结合,得到更加详细的信息。

​ 多视角相机特征被转换为1*1的特征向量。

​由于camera-view的特征与proposals的3D boxes位于不同的视角,因此设计了ROI grid-based pooling,首先对每个候选的3D box的每条边等距取点,得到r * r * r个点,然后将这些点投影到camera-view下,获取对应的图像像素特征,然后由PointNet编码器编码。这些编码的多视图相机特征的串联形成一个1×1特征向量

​用于提议细化的最终特征是通过将这两个1×1特征向量(相机与激光雷达的特征向量)与RoI aligned的joint camera-LiDAR feature连接起来获得的。

3.损失函数

Lrpn=β1Lcls+β2(Lreg∣θ+Lreg∣loc)L_{rpn}=\beta_1L_{cls}+\beta_2(L_{reg|\theta}+L_{reg|loc}) Lrpn​=β1​Lcls​+β2​(Lreg∣θ​+Lreg∣loc​)

​第一阶段,RPN损失训练,β1 和 β2 设置为 1.0 和 2.0。Lreg|θ和Lreg|loc的损失函数分别是Smoothed-L1和改进后的smooth-L1(SECOND论文中的)。

分类损失回归


细化损失


新增的Liou引用自论文《Gs3d: An efficient 3d object detection framework for autonomous driving》。


其中ov表示目标框与真实框之间的重合度。

4.数据增强

​采用SECOND中的copy-to-paste的方法,随机抽样点云将其插入到当前训练的样本中进行数据增强,可以加速收敛。但是图像不能用这种方法,一般图像进行数据增强的方法为旋转、缩放、遮挡、光线明暗等。

5.实验结果

3D-CVF论文解读相关推荐

  1. 论文解读:基于深度相机的3D建模 2020最新综述

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨安如夏@知乎 来源丨https://zhuanlan.zhihu.com/p/299489800 ...

  2. CVPR2020论文解读:3D Object Detection三维目标检测

    CVPR2020论文解读:3D Object Detection三维目标检测 PV-RCNN:Point-Voxel Feature Se tAbstraction for 3D Object Det ...

  3. CVPR2020论文解读:三维语义分割3D Semantic Segmentation

    CVPR2020论文解读:三维语义分割3D Semantic Segmentation xMUDA: Cross-Modal Unsupervised Domain Adaptation for 3D ...

  4. Face Super-Resolution Guided by 3D Facial Priors(ECCV2020)论文解读

    Face Super-Resolution Guided by 3D Facial Priors(ECCV2020)论文解读 论文地址:https://arxiv.org/pdf/2007.09454 ...

  5. 3D激光SLAM:LeGO-LOAM论文解读---激光雷达里程计与建图

    3D激光SLAM:LeGO-LOAM论文解读---激光雷达里程计与建图 激光雷达里程计 针对LOAM的改进 激光雷达建图 原文 激光雷达里程计 激光雷达里程计模块的功能就是:估计相邻帧之间的位姿变换. ...

  6. 从单一图像中提取文档图像:ICCV2019论文解读

    从单一图像中提取文档图像:ICCV2019论文解读 DewarpNet: Single-Image Document Unwarping With Stacked 3D and 2D Regressi ...

  7. 点云配准的端到端深度神经网络:ICCV2019论文解读

    点云配准的端到端深度神经网络:ICCV2019论文解读 DeepVCP: An End-to-End Deep Neural Network for Point Cloud Registration ...

  8. CVPR2020论文解读:手绘草图卷积网络语义分割

    CVPR2020论文解读:手绘草图卷积网络语义分割 Sketch GCN: Semantic Sketch Segmentation with Graph Convolutional Networks ...

  9. CVPR2019论文解读:单眼提升2D检测到6D姿势和度量形状

    CVPR2019论文解读:单眼提升2D检测到6D姿势和度量形状 ROI-10D: Monocular Lifting of 2D Detection to 6D Pose and Metric Sha ...

最新文章

  1. LeetCode 140. 单词拆分 II
  2. 用结点实现链表LinkedList,用数组和结点实现栈Stack,用数组和结点链表实现队列Queue
  3. 以下表示中 不能用作c语言常量的是0UL,C语言笔试卷.doc
  4. tensorflow支持python3.7吗_前端开发行业真的会被AI取代吗?
  5. pycharm使用总结
  6. 转的一个itoa实现(效率很高,并且能够正确处理INT_MIN)
  7. .net ajax 保存文件,.net ajax式上传文件
  8. java命令执行的三种方式
  9. [Android ] 进度条组件ProgressBar
  10. 大地测量学笔记 : 高斯克吕格投影
  11. 计算机基础知识经典问答题,计算机基础知识问答题及答案一
  12. 高精度三维扫描仪用于运动鞋逆向建模
  13. Linux grep命令详解:查找文件内容
  14. paly 获取数据库的第一条数据
  15. Openstack中给windows虚拟机加载virtion驱动
  16. NANK南卡A2主动降噪耳机测评:长续航40dB深度降噪
  17. 12 图浅析人口分布对经济趋势的影响
  18. Translation插件
  19. HTML页面、CSS样式的以及js学习与介绍
  20. 盛志凡:智能电视操作系统TVOS2.0-广电终端智能化的主引擎

热门文章

  1. Drcom下如何优雅地使用路由器上网
  2. 元宇宙011 | 元宇宙的沉浸式体验会成瘾吗?
  3. jdk1.8换成11,启动项目报错java.net.MalformedURLException: unknown protocol: jrt
  4. 小丁带你走进git的世界三-撤销修改
  5. 百度推广怎么调整计算机优先,百度推广oCPC的优化技巧是什么?oCPC常见问题汇总...
  6. 毫米波雷达传感器,无人机避障安全应用,雷达感应技术发展
  7. replace() 替换的整理
  8. 如何用无监督模型,防范信用卡欺诈?
  9. pubwinol免刷_Pubwin万象OL实名一键自动处理程序
  10. mail企业邮箱登录入口有哪些?