更快更精准的感知，元戎启行提出基于LiDAR的3D物体检测新框架

近日，L4级自动驾驶解决方案提供商元戎启行的一篇关于3D物体检测的论文被CVPR2020收录，论文题为“HVNet: Hybrid Voxel Network for LiDAR Based 3D Object Detection”。

CVPR（Conference on Computer Vision and Pattern Recognition，即 IEEE 国际计算机视觉与模式识别会议）是全球计算机视觉顶级学术会议。今年，CVPR共收到6656篇投稿，只有1470篇论文被接收，接受率仅有22%，创下了CVPR十年来的最低接收率。本届CVPR 的评审阵容包括198位领域主席和3664位审稿人。

元戎启行也将亮相于2020年6月16-18日在美国西雅图举办的CVPR，与全球学者共同探讨CV议题，展位号：Island in Booth 645。在盛会召开前，元戎启行也针对该论文进行了解读。

简介

3D目标检测是当前自动驾驶感知模块重要的一个环节，如何平衡3D物体检测的精度以及速度更是非常重要的一个研究话题。本文提出了一种新的基于点云的三维物体检测的统一网络：混合体素网络(HVNet)，通过在点级别上混合尺度体素特征编码器(VFE)得到更好的体素特征编码方法，从而在速度和精度上得到提升。

与多种方法相比，HVNet在检测速度上有明显的提高。在KITTI 数据集自行车检测的中等难度级别（moderate）中，HVNet 的准确率比PointPillars方法高出了8.44%。

图 1 3D物体检测

在KITTI数据集上，HVNet网络在KITTI数据集上提交结果的所有已有方法中获得了最好的mAP，并且实时推理速度可以达到31 Hz。

图 2 KITTI测试集上的速度-精度对比图，其中O为HVNet

研究背景

在当前点云检测模块，格网化(voxelization)是一个重要的方式。许多已有的方式都是通过格网化，然后进行离散的卷积操作。但是，在应对大规模的场景下，一个关键参数是格网voxel的大小：较小的voxel scale捕获更精细的几何体特征，并更好地定位对象，但需要较长的推理时间。较大的voxel scale导致较小的特征图和较快的推理速度，但性能较差，特别是对于较小的物体。

图 3 常见的体素特征提取网络（VFE）

为了应对上面问题带来的挑战，我们通过多尺度的点云信息，利用注意力机制(attention)，提取更加细粒度的点云特征，然后映射到更大格网粒度上，从而保证速度跟精度的平衡。

传统体素特征提取网络（VFE）方法通常包含三个步骤：1.体素化：将点云指定给二维体素网格。2.体素特征提取：为每个点计算依赖于网格的逐点特征，并将其送入PointNet风格的特征编码器。3.投影：将逐点特征聚合到体素级特征，并投影回其原始网格，形成伪图像特征图。HVNet中提出的HVFE方法则将混合比例尺度下的点级别的特征聚合到全局上下文中，然后投影到动态目标尺度中的特征图上。

图 4 本文提出的HVFE方法

算法设计

整个HVNET包括：HVFE特征提取模块；2D卷积模块；以及检测的head模块，用来输出最后的预测结果。下图中第一行是HVNet的整个结构。第二行是混合体素特征提取器的结构，由四部分组成：a) x-y平面多尺度预体素化；b) 并行多流的注意力机制体素特征编码层（AVFE）编码多尺度点云特征；c) 编码特征聚合；d) 注意力机制体素特征编码输出层（AVFEO）层结合聚合特征和目标尺度信息进行动态特征投影。

图 5 网络框架图

1. HVFE layer方面，我们提取了不同尺度的voxel下点云的特征，为了融合不同尺度下的点云的特征，我们提出了attentive layer，利用原始的geometry信息，对不同尺度的点云进行特征映射以及融合，形成最终的2.5D上的特征图。在整个过程，我们提出了index-based的高效操作，使得整个聚集（scatter），以及分散（gather）的操作能够充分利用GPU并行，相比与之前方法的操作，我们的方式可以有效减少信息的损失以及GPU显存的使用。

图 6 AVFE和AVFEO层。索引张量用于索引操作：聚集（Gather）和分散（Scatter）

2. 2D 卷积部分，我们利用HVFE layer提出的多尺度的feature map，在特征图上面也进行多尺度的融合。由于点云的稀疏性和伪特征图的低分辨率性，我们提出了尺度融合金字塔网络（FFPN）来进行进一步的特征融合。多尺度特征首先在主干网络中浅层融合，然后在提出的FFPN网络中进行深度融合。

图 7 主干网络

3. detection head部分，我们利用不同层的feature map感受野不同的特性，对不同的层设计相应的anchor box进行预测。具体来说，对于不同层的feature map，在detection head部分只会对相对应的尺度的类别进行预测，这样的方式可以有效减少类别间的混淆。

结果

KITTI数据集是自动驾驶是目前自动驾驶领域最重要的测试集之一，我们在KITTI上进行了实验验证。实验结果证明了我们方法的有效性，我们的算法在KITTI上做到了Cyclist当时的最好成绩，并且在当时的leaderboard上超越了第二名2个点，同时在Car上面我们做到了第六名。

图8 HVNet 在KITTI 测试上的BEV成绩（自行车，2019年11月）

图9 HVNet 在KITTI 测试上的BEV成绩（汽车，2019年11月）

值得注意的是，很多方法在处理多类别物体检测中训练多个模型来检测不同的类别，我们仅通过单一的网络完成输出。在KITTI的多类别检测任务中，我们取得了当时最好的mAP（平均精度），同时保证了实时的效率。相比于PointPillars、Second等算法，HVNet在效率也有很大的突破。

图 10 KITTI test上的BEV成绩

相比于PointPillars、Second等算法，我们调整了Voxel的尺度，对比了和这些方法在相似的Voxel尺度下的效率和准确率。结果表明我们的方法在性能和效率方面都超过了现有方法。

图 11 KITTI val数据集中BEV上的不同Voxel设置下结果对比

思考总结

在这项工作中，我们提出了一种新型的单级三维目标探测网络HVNet。HVNet将混合尺度体素聚合成统一的逐点特征，然后在注意力特征的引导下将其投影成不同尺度的伪图像特征。HVNet的关键是对特征提取尺度和伪图像投影尺度进行解耦。此外，特征融合金字塔网络的主干获取伪图像并融合特征，以生成不同类别的紧凑表达。实验研究表明，该方法取得了目前最先进的效果，并且具有较高的实时性。

论文地址：

https://arxiv.org/abs/2003.00186

END

备注：目标检测

目标检测交流群

2D、3D目标检测等最新资讯，若已为CV君其他账号好友请直接私信。

我爱计算机视觉

微信号:aicvml

QQ群:805388940

微博知乎:@我爱计算机视觉

投稿:amos@52cv.net

网站:www.52cv.net

在看，让更多人看到

更快更精准的感知，元戎启行提出基于LiDAR的3D物体检测新框架｜CVPR 2020相关推荐

CVPR 2020 | 港中文提出3D目标检测新框架DSGN
©PaperWeekly 原创 · 作者|张承灏学校|中科院自动化所硕士生研究方向|双目深度估计本文介绍的是香港中文大学贾佳亚团队在 CVPR 2020 上提出的 3D 目标检测新框架--深度立 ...
围棋人机大战一周年：如何让AlphaGo更快更轻盈
感谢PaperWeekly公众号(paperweekly)授权CSDN发布. 原文:特邀 | 围棋人机大战一周年:如何让AlphaGo更快更轻盈欢迎人工智能领域技术投稿.约稿.给文章纠错,请发送邮件 ...
IEEE ICIP 2019 | 更快更好的联邦学习：一种特征融合方法
目录前言 Abstract 1.Introduction 2.Related Work 3.Methods 3.1 Feature Fusion Modules 3.1.1 Conv operato ...
YOLOv5全面解析教程③：更快更好的边界框回归损失
作者|Fengwen.BBuf 边界框回归是目标检测的关键步骤,在现有方法中,虽然被广泛用于边界框回归,但它不是针对评估指标量身定制的,即 Intersection over Union (IoU). ...
网吧无盘服务器为什么玩地下城和穿越火线卡其它游戏不卡,为什么网吧的电脑配置更低，玩游戏却更快更爽？...
原标题:为什么网吧的电脑配置更低,玩游戏却更快更爽? 随着互联网时代的到来,现在家家户户都有一台或几台电脑几乎成为常态,有人认为网吧行业可能会因此受到冲击,但是相反我国的营业性网吧不仅没有减少,还继续 ...
极智Paper | YOLOv7 更高更快更强
欢迎关注我的公众号 [极智视界],获取我的更多笔记分享大家好,我是极智视界,本文解读一下更高.更快.更强的 YOLOv7:Trainable bag-of-freebies sets ne ...
与阿里云整个生态体系共同成长，更快更好的为房地产行业客户提供高价值的服务。...
免费开通大数据服务:https://www.aliyun.com/product/odps "最早是新业务要做,但是买服务器来不及,管理员没到位,而且新业务的成本很高,是否能成功也是未知,因 ...
与阿里云整个生态体系共同成长，更快更好的为房地产行业客户提供高价值的服务。
免费开通大数据服务:https://www.aliyun.com/product/odpsyu "最早是新业务要做,但是买服务器来不及,管理员没到位,而且新业务的成本很高,是否能成功也是未知 ...
MesaLink v0.7.0发布 | 迎接TLS 1.3时代更快更安全
MesaLink是百度安全实验室研发的一个内存安全并且兼容OpenSSL C API的传输层安全(TransportLayer Security, TLS)协议栈.近年来TLS漏洞频发,以2014年的 ...

更快更精准的感知，元戎启行提出基于LiDAR的3D物体检测新框架｜CVPR 2020

更快更精准的感知，元戎启行提出基于LiDAR的3D物体检测新框架｜CVPR 2020相关推荐

最新文章

热门文章