IEEE Transactions on Intelligent Transportation Systems  智能交通系统领域top期刊 一区 IF=9.55

摘要

Camera-LiDAR三维目标检测由于其在许多现实应用中的重要意义而被广泛研究。然而,如何解决两种模式之间的内在数据差异以及如何进行准确的特征融合仍然面临着巨大的挑战。为此,我们提出了一种称为CL3D的双流体系结构,它集成了点增强模块、点引导融合模块和欠条感知头,用于跨模态3D对象检测。首先从RGB图像生成伪激光雷达,然后设计点增强模块(PEM)对原始激光雷达进行伪点增强。此外,还开发了点导向融合模块(PFM),以寻找不同分辨率下的图像点对应关系,并以点的方式将语义与几何特征结合起来。我们还研究了三维检测中定位置信度与分类评分之间的不一致性,并引入IoU感知预测头(IoU head)用于精确盒回归。在公开的KITTI数据集上进行了综合实验,CL3D报告了与单模态和多模态3D检测器相比突出的检测性能,证明了其有效性和竞争力。

三维物体检测,相机-激光雷达融合,深度学习,自动驾驶,智能交通系统。

第一章

介绍目标识别近几年的各种方法。

图1所示。三维物体检测中存在的问题。(a)激光雷达的稀疏性。激光雷达点太稀疏,远处的汽车无法分辨。(b)通信不完全。大多数融合方法无法找到完美的像点对应,从而导致误检或漏检。(c)物体检测不一致。三维目标检测中普遍存在定位精度与分类置信度不一致的问题。最好用彩色观看。

为了解决这些问题,我们提出了一种名为CL3D的摄像机-激光雷达三维目标探测器,它是一个包含点增强模块(PEM)、点引导融合模块(PFM)和IoU感知头(IoU head)的双流结构。一方面,点增强模块将RGB图像生成的伪表示与原始激光雷达相结合,进行点特征增强;另一方面,点导向融合模块利用图像-点对应,聚合具有几何特征的多层次语义,在不同分辨率下获得更具有代表性的跨模态特征。进一步,我们研究了如图1所示的定位置信度与分类评分之间的不一致性,并开发了一种简单有效的IoU感知预测头(IoU head),用于精确的3D盒回归。在公开的KITTI数据集[25]上进行了大量的实验,我们提出的CL3D在单模态和多模态3D检测方法上呈现出具有竞争力的检测精度和显著的性能提升。

总的来说,本工作的贡献可以总结为:

1)我们直接从RGB图像中生成伪点,并通过点增强模块(PEM)将其与原始激光雷达融合,有效地增强了点特征的表示。

2)提出点导向融合模块(PFM),寻找图像与点之间的完美对应关系,并进行点向特征聚合,在不同分辨率下产生更具识别力的多模态特征。

3)研究了定位置信度与分类评分之间的偏差,设计了IoU感知预测头(IoU head)用于计算每个地真值与预测框之间的IoU。

4)我们将PEM、PFM和IoU Head集成到一个双流架构中,用于相机-激光雷达3D物体检测,称为CL3D。在KITTI数据集上的大量实验结果证明了CL3D的有效性和竞争力,具有良好的检测性能和显著的改进。

本文的其余部分组织如下:我们回顾了第二节的相关工作,并在第三节介绍了所提出的方法CL3D;第四节和第五节分别给出了实验分析和结论。

第二章

部分将简要回顾三维目标检测的发展以及目标检测中定位与分类不一致的问题。

A.基于摄像头的三维物体检测

B.基于激光雷达的三维物体检测

C.摄像头-激光雷达三维物体检测

第三章

CL3D的整体架构主要包括点增强模块、图像与点骨干网、点引导融合模块和细化网络。现将详细资料介绍如下。

CL3D体系结构概述。

(1)图像骨干(Image Backbone):采用四层卷积分层学习语义特征图,同时通过去卷积恢复特征图的大小,实现多尺度语义特征融合。

(2)点增强模块(PEM):将RGB图像生成的伪点与原始激光雷达信号相结合,缓解激光雷达的稀疏性,增强点云特征。

(3)点骨干(Point Backbone):包含4个集合抽象层,聚合邻近区域的点特征,再包含4个特征传播层,将点云投影回原始空间。

(4)点导向融合模块(Point-guided Fusion Module, PFM):寻找不同分辨率下的图像点对应关系,并以点为单位融合语义和几何特征。

(5)精化网络:利用对集合抽象层和特征传播层进行建议精化。多任务头引入IoU-aware head (IoU head)来计算每个地真值和预测框之间的IoU。最好用彩色观看。

A图像骨干(Image Backbone)

用四层卷积分层学习语义特征图,同时通过Deformable Convolution恢复特征图的大小,实现多尺度语义特征融合。

Deformable Convolution

deformable convolution可变形卷积(4uiiurz1-pytorch版)源码分析如图2所示,我们提出了一种双流架构,分别对图像和点特征进行编码。图像主干有4个卷积块,每个卷积块包含2个残留连接的3 × 3卷积,其次是批处理归一化(BN)和ReLU激活函数。在每个块中,第二次卷积以步幅2进行,以降低特征图的分辨率,同时扩大接受野。进一步利用4个去卷积层恢复目标细节,生成语义密集的多尺度图像特征图

B.图像和点骨干

对于点骨干网,我们采用了pointnet++[11]架构,该架构包含4个规模为4096、1024、256和64的集合抽象,用于在不断增加的上下文规模下进行自适应点特征聚合。之后,四个特征传播层将子采样点投影回原始空间。这样可以探索局部点和全局点之间的几何相关性,在不同分辨率下进行多模态特征融合。

点增强模块(PEM)原理图。首先,根据三维坐标对伪激光雷达进行次采样,并与原始激光雷达进行组合。然后我们输入两个N × 6的向量(N代表点的数量),即Q P和P Q,分别得到全局特征响应QW和PW。通过softmax函数,得到激活概率σ来表示特征通道的重要性。最后,我们通过元素积运算对两个特征分支进行加权,并将它们连接起来,得到点增强结果。

C.点导向融合模块

点导向融合模块(PFM)原理图。通过标定矩阵和双线性插值找到点向图像对应后,分别将激光雷达和点向图像特征输入到两个完全连通的层中。我们采用sigmoid函数将特征向量压缩到[0,1]中,将点与更新后的图像特征按元素的方式拼接得到联合特征图。

标定矩阵的作用是将图像转换为伪点云数据,利用双线性插值来获取每个点的局部语义特征,为了考虑相邻像素的影响。

我们在不同分辨率的双流架构中总共引入了5个PFMs:在点与图像骨干之间设置4个PFMs,构建每对点抽象与卷积特征映射的关系;另一种PFM用于融合最终图像和点特征表示。

实现思路:先将图片进行特征提取,并将图片转换为深度图(PSMNet),由深度图转换为伪点云数据,将伪点云数据与真实点云数据输入pointnet++提取特征,在这中间将图片的各个分辨率上的特征与点云特征进行融合通过PFM模块,最终生成Proposal Generation,再送入Pointnet++中生成最终检测结果。

CL3D: Camera-LiDAR 3D Object Detection With Point Feature Enhancement and Point-Guided Fusion 阅读笔记相关推荐

  1. Object Detection in 20 Years A Survey-论文翻译(阅读笔记)

    Object Detection in 20 Years A Survey论文翻译(阅读笔记) 原文地址:[1905.05055] Object Detection in 20 Years: A Su ...

  2. 【3D目标检测】PDV(Point Density-Aware Voxels for LiDAR 3D Object Detection)

    目录 概述 细节 点密度问题 网络结构 3D体素特征提取网络 体素点质心定位 密度感知的RoI Grid Pooling 密度置信度预测 loss 概述 首先,本文是基于点云,并且将点云处理成体素的3 ...

  3. Point Density-Aware Voxels for LiDAR 3D Object Detection 论文笔记

    原文链接:https://arxiv.org/abs/2203.05662 1 引言 激光雷达的一个问题是产生的点云随距离变远而变得稀疏. 基于体素的方法忽略了点的密度,使用体素中心特征(左图):但对 ...

  4. 《You Only Look Once: Unified, Real-Time Object Detection》YOLO一种实时目标检测方法 阅读笔记(未完成版)

    文章目录 1. one-stage与two-stage检测算法 1. 模型过程 1.1 grid cell 1.2 bounding box与confidence score 1.3 类别预测 1.4 ...

  5. Introduction to 3D Object Detection with Lidar

    深度学习的开始 人类的大脑是一个神秘的器官,它由无数的神经细胞组成,神经细胞又有突触,轴突,树突等组成,至今我们还未对大脑如何工作研究的十分清楚.1943年,美国数学家沃尔特·皮茨(W.Pitts)和 ...

  6. 「3D Object Detection」Lidar Part : First Taste

    Lidar Point Clouds KITTI dataset KITTI是一个自动驾驶感知模块的作为标准基准的多模态数据集,涉及的感知任务包括基于图像的单眼和立体深度估计,光流(optical f ...

  7. LiDAR Snowfall Simulation for Robust 3D Object Detection

    LiDAR Snowfall Simulation for Robust 3D Object Detection 物理模拟的创新(关注)点: 考虑激光束反射受到角度遮挡的影响 考虑雪天的路面反射影响 ...

  8. 论文阅读 End-to-End Multi-View Fusion for 3D Object Detection in Lidar Point Clouds

    [论文阅读] End-to-End Multi-View Fusion for 3D Object Detection in Lidar Point Clouds 原文链接:https://arxiv ...

  9. 【论文阅读】【三维目标检测】BirdNet: a 3D Object Detection Framework from LiDAR Information

    文章目录 BirdNet 数据预处理 处理网络 后处理 实验 评价 BirdNet: a 3D Object Detection Framework from LiDAR Information 西班 ...

最新文章

  1. View_01_LayoutInflater的原理、使用方法
  2. 使用 NumPy 的标准化技巧
  3. 企业名片小程序时代,打破纸质名片局限!
  4. VS2019使用说明
  5. hadoop中的jps是什么,Jps命令—使用详解【笔记自用】
  6. java jdbc dbcp连接SQL Server
  7. onnx模型推理(python)
  8. Entity Framework 4 in Action读书笔记——第三章:查询对象模型基础(1)
  9. AJAX,只是一种过渡技术吗?
  10. 困扰多年的PCB散热问题终于可以解决了!
  11. c 语言str.size,C/C++ strlen(str)和str.length()和str.size()的区别
  12. 图论算法(六)-- 二分图的最大分配问题(JAVA)
  13. Redis学习---(3)Redis 配置
  14. python生成应用程序错误_py2app:运行生成的应用程序时出现语法错误
  15. 枚举工具类 EnumUtils.java
  16. Codeforces348B Apple Tree DFS
  17. 30行JS代码带你手写自动回复语音聊天机器人
  18. 开放式激光振镜运动控制器:C++振镜矫正方法与实现
  19. linux的sssd服务,使用FreeIPA为SS信任用户在SSSD上设置默认登录Shell
  20. 【每日一读】Self-Paced Network Embedding

热门文章

  1. 通信系统原理[郭宇春]——二元数字频带传输——课后习题答案
  2. 西门子触摸屏数据历史数据记录_西门子触摸屏mp277历史数据丢失(免费技术支持)...
  3. 对CentOS服务器上正使用MRTG进行移机操作
  4. TensorFlow实践(16)——tf.enable_eager_execution方法
  5. idea突然打不开了
  6. 计算机高逼格术语,你能看懂这些高逼格专业词汇吗?
  7. PSD文件误删了怎么恢复?教你三招
  8. 【转】网站流量UV是什么意思?什么是流量UV?
  9. 360无线网卡linux驱动下载,如何在Linux下写无线网卡的驱动
  10. Win7自动关机重启指令