ECCV 2020|3D-CVF多模态融合（LIDAR+CAMERA）

3D-CVF: Generating Joint Camera and LiDARFeatures Using Cross-View Spatial FeatureFusion for 3D Object Detection
（point-wise）

1.摘要+intro
作者提出的问题是从相机图像和LiDAR点云获得的特征是以不同的视角(即相机视角和3D世界视角)来表示的。当相机特征被投影到3D世界坐标时，可能会丢失关于目标的一些有用的空间信息（本身应该是1 to 1，1 to 多，例如应该是相机手对点云的手，脚对脚，那么1to多时排列顺序就乱了），因为该转换是一对多的映射。作者提出了一个称为3D-CVF的网络来解决这个问题。信息融合分成了两个阶段。
第一个阶段 首先为了生成强的相机-LIDAR联合特征，提出自动校准特征投影，使用能够校正空间偏移的插值投影将相机视图特征映射到平滑和密集的BEV特征地图。作者又发现了个坑，由于相机特征映射是一对多映射，所以不能在投影后的相机特征图上定位对象，使用了自适应门限融合网络解析出BEV域中的目标区域。
在第二个阶段，基于第一阶段的相机-LiDAR联合特征图找到ROI后，采用基于三维感兴趣区域(ROI)的池化方法，将低层LiDAR和相机特征与相机-LiDAR联合特征图进行融合。其中对应于3DROI框的LiDAR和照相机特征是由PointNet编码器pooling和编码。编码特征与相机-LiDAR联合特征的聚合来实现proposal的refinement（求精）

2.method
网络结构overview：

2.1 LIRDAR pipeline
LIDAR点云在每个voxel通过voxelNet网络进行编码，这些经过编码的LIDAR voxel经过了6个步长为2的3d稀疏卷积层，最后得到了在BEV空间128通道的LIDAR特征图。稀疏卷积让特征图高宽缩小了8倍。

2.2 RGB pipeline
与LIDAR的pipeline是并行的，RGB图像由Resnet-18+FPN作为backbone处理，最后产生256通道数的在图像域的特征图，高宽也缩小了8倍。

2.3 交叉视图特征映射
首先交叉视图特征(CVF)映射是为了生成在BEV中投影的相机特征图。自动校准投影将相机视图中的相机特征图转换为BEV中的特征地图。然后，通过附加的卷积层对投影的特征图进行增强，并将其传送到门控相机-LiDAR特征融合模块。
首先作者构造了一个摄像头体素结构用于特征映射。为了生成空间密集的特征，构造的相机体素结构的体素数量是LiDAR体素结构的四倍，其宽度和高度在(x，y)轴上比LiDAR体素结构长两倍。这使得体素结构具有更高的空间分辨率。
然后利用自动校准投影法，具体做法如下：为了在BEV中表示相机特征，将每个体素（就是指的上面构造的摄像头体素结构）的中心坐标投影到相机视图平面中(x+∆x，y+∆y)的点上，(x,y)就是一个像素点的坐标。使用线性插值组合其相邻的四个特征像素，并将组合后的特征像素分配给相应的体素。为什么有效？作者认为自动校准的投影提供了空间平滑的相机特征图，这些特征地图与BEV域中的LiDAR特征地图能形成非常好的匹配。

2.4 门控摄像机-LiDAR特征融合：
这个模块叫做自适应门控融合网络，它是将摄像机特征图与LiDAR特征图相结合，并且用了空间注意力图根据两个特征图的重要性来选择性的融合特征，最后生成了联合的相机-LiDAR特征图，并传给3D ROI融合refinement模块。
具体的操作如下：自适应门控融合网络先把两个输入concatenate起来，然后应用3×3卷积层，使用Sigmoid函数来生成注意图。这些注意图通过基于元素的乘积操作分别乘以相机特征(这时候的相机特征是经过交叉视图特征映射后的）和LiDAR特征。分别得到经过注意力图后的相机特征和雷达特征，最后的联合特征是将生成的这两个再concatenate起来得到的。

2.5 基于3D-ROI融合的精化(refinement)
在得到联合Camera-LiDAR特征后，由于联合的特征没有包含足够的空间信息，于是采用基于3D ROI pooling的方法提取多尺度LiDAR特征和相机特征（这些特征是由PointNet编码）和联合特征进行再次融合。最后利用融合后的特征产生最终的检测结果。
具体操作如下，将联合Camera-LiDAR特征扔进RPN网络回归坐标和置信度，最后得到对应的ROI。然后将ROI通过坐标转换为全局坐标并和浅层的LiDAR和相机特征进行融合。作者认为这些浅层的特征图保留了目标详细的空间信息（特别是z轴的），所以对proposals提供了很有用的信息。对于每一个LiDAR或者相机特征，将一个ROI分为R×R×R等间距坐标，使用RoI grid-based pooling，每个格子被单独得用PointNet编码，每个LiDAR或者相机特征最后把每个网格的特征向量进行组合生成一个1乘1的特征向量。最后将LiDAR和相机特征这两个1×1的特征于ROI对齐的联合特征concatenate起来，得到用于proposal refinement的最终特征。

3.实验结果

ECCV 2020|3D-CVF多模态融合（LIDAR+CAMERA）相关推荐

ECCV 2020 3D点云 Point Cloud 文章汇总
一.点云文章资源近年来,对于点云处理的研究越来越火热.Github上面有一个工程,汇总了从2017年以来各大会议上点云论文,awesome-point-cloud-analysis ,本文作者之前整 ...
ECCV 2020 论文大盘点-3D人体姿态估计篇
本文盘点ECCV 2020 中所有与3D姿态估计(3D Human Pose Estimation)相关的论文,总计 14 篇,其中一篇Oral 论文,7 篇已经或者将开源代码. 下载包含这些论文的 ...
ECCV 2020 谷歌论文盘点—Poster 篇
前文已经盘点了谷歌ECCV 2020 中Oral 和 Spotlight的论文: ECCV 2020 Oral 中谷歌论文盘点,点云与3D方向工作居多 ECCV 2020 Spotlight 谷歌论文 ...
ECCV 2020 论文大盘点-图像与视频分割篇
分割是ECCV 2020 中的热门关键词,前文已经总结了: ECCV 2020 论文大盘点-语义分割篇 ECCV 2020 论文大盘点-实例分割篇但"分割"本身的内涵很丰富,还包 ...
ECCV 2020 论文大盘点-人体形状与姿态估计篇
本文盘点ECCV 2020 中所有与人体形状和姿态估计(Human Shape and Pose Estimation)相关的论文,总计 4 篇. 人体感知(Human Sensing)是计算机视觉的 ...
最新！3D目标检测论文汇总（多模态融合）
作者丨柒柒@知乎来源丨https://zhuanlan.zhihu.com/p/447555827 编辑丨3D视觉工坊这篇文章主要是梳理一下近期3D Detection的进展,分类列举出一些我认为 ...
ECCV 2020论文大盘点-3D目标检测篇
随着自动驾驶的火热,3D目标检测在计算机视觉领域持续升温,学术和工业界都有众多研究学者,这其中基于点云数据的3D目标检测是主流,近年来基于单目RGB数据的也越来越多了.本部分总计 21 篇,1篇spo ...
3D目标检测多模态融合算法综述
0前言本篇文章主要想对目前处于探索阶段的3D目标检测中多模态融合的方法做一个简单的综述,主要内容为对目前几篇几篇研究工作的总结和对这个研究方面的一些思考. 在前面的一些文章中,笔者已经介绍到了多模态 ...
综述：3D目标检测多模态融合算法
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达导读本文是一篇关于3D目标检测中多模态融合方法的综述,总结了多模 ...
海康威视 | AI算法实习生招聘（3D检测/分割/多模态融合）
3D视觉工坊致力于推荐最棒的工作机会,精准地为其找到最佳求职者,做连接优质企业和优质人才的桥梁.如果你需要我们帮助你发布实习或全职岗位,请添加微信号「CV_LAB」. 公司介绍: 海康威视研究院专注于 ...

ECCV 2020|3D-CVF多模态融合（LIDAR+CAMERA）

ECCV 2020|3D-CVF多模态融合（LIDAR+CAMERA）相关推荐

最新文章

热门文章