voxelnet_苹果最新机器学习论文：使用VoxelNet进行3D物体检测

原标题：苹果最新机器学习论文：使用VoxelNet进行3D物体检测

原文来源：arXiv

作者：Yin Zhou、OncelTuzel

「雷克世界」编译：嗯~阿童木呀多啦A亮

现如今，3D点云(3D point clouds)中的精确目标检测是许多应用中的核心问题，例如自主导航(autonomous navigation)、家用机器人以及增强/虚拟现实等。为了将一个高度稀疏的激光点云(LiDAR point cloud)与候选区域生成网络(RPN)联系起来，当下的大多数努力都是专注于手动的特征表示，例如鸟瞰图投影。在这项研究中，我们消除了对3D点云进行手动特征工程的需求，并提出了一个通用的3D检测网络——VoxelNet，它能够将特征提取和边界框预测统一到一个单一阶段的、端到端的可训练深度网络中。特定情况下，VoxelNet将点云划分为等间隔的三维像素(即体素)，并通过新引入的体素特征编码(voxel feature encoding，VFE)层将每个体素内的一组点转换为一个统一的特征表示。通过这种方式，点云被编码为描述性的体积表示，然后连接到RPN以生成检测。基于KITTI汽车检测基准的实验结果表明，在很大程度上，VoxelNet远远超过了当前最先进的基于激光雷达的3D检测方法。此外，我们的网络还学习一种有效的对不同几何形状目标的区别性表示方法，从而，相较于仅基于激光雷达的检测，我们的3D检测方面在对行人和骑自行车人的检测重取得了令人振奋的结果。

图1 使用一个单一的端到端的可训练的网络，VoxelNet能够直接运行在原始点云上(不需要特性工程)，并生成3D检测结果。

基于点云的3D目标检测是各种实用应用的重要组成部分，例如自主导航、家用机器人和增强/虚拟现实。相较于基于图像的检测，激光雷达能够提供可靠的深度信息，可用于精确定位目标并表征其形状。不过，与图像不同的是，由于诸如3D空间的非均匀采样、传感器的有效范围、遮挡以及相对姿态等因素，激光雷达点云稀疏且具有高度可变的点密度。为了应对这些挑战，许多方法都是手动制作针对3D目标检测的点云的特性表示。其他方法则是将点云栅格化为3D体素网格，并使用手动特征对每个体素进行编码。然而，这些手动设计选择引入了一个信息瓶颈，阻止这些方法有效地利用3D形状信息和检测任务所需的不变量。而在图像识别和检测任务上所取得的一个重大突破在于从手动制作的特征转换到机器学习的特征。

最近，Qi等人提出了PointNet，它是一个端到端的深度神经网络，可以直接从点云中学习点对点的特征。这种方法在3D目标识别、3D目标部分分割和逐点语义分割任务上取得了瞩目的成果。在《Pointnet++：度量空间点集上的深度层次特征学习》(arXiv preprint arXiv:1706.02413, 2017)中，引入了改进版的PointNet，使网络能够学习不同规模的局部结构。为了取得令人满意的结果，这两种方法在所有输入点(约1000个点)上训练特征转换网络。由于使用激光雷达获得的典型点云包含了大约100000个点，因此如《Pointnet：深入学习三维分类和分割的点集》和《Pointnet：度量空间点集上的深度层次特征学习》中所述的对结构进行训练会导致高计算和内存要求，将3D特征学习网络扩展到更多的点中以及3D检测任务中则是我们在这篇论文中所面临的主要挑战。

图2. VoxelNet架构：特征学习网络将原始点云作为输入，将空间划分为体素，并且将每个体素内的点变换为表征形状信息的矢量表示。该空间被表示为稀疏4D张量。卷积中间层处理4D张量以聚合空间上下文。最后，RPN生成3D检测。

候选区域生成网络(RPN)是一种高效的目标检测算法。然而，这种方法要求数据密集并以张量结构(例如图像、视频)组织，而典型的LiDAR点云并非如此。在本文中，我们缩小了三维检测任务中点集特征学习和RPN之间的差距。

我们提出了一个通用的3D检测框架VoxelNet，它可以从点云中同时学习一个有区别的特征表示，并以端到端的方式预测精确的三维边界框，如图2所示。我们设计一个新的体素特征编码(VFE)层，通过将点式特征与本地聚合特征相结合，实现了体素内的点间交互。堆叠多个VFE层允许学习复杂的特征来表征局部3D形状信息。具体来说，VoxelNet将点云划分为等间隔的三维像素，通过堆叠的VFE层对每个体素进行编码，然后三维卷积进一步聚合局部体素特征，将点云转化为高维体积表示。最后，RPN消耗体积表示并产生检测结果。这种有效的算法既有稀疏点结构的优点，又有利于体素网格的并行处理。

我们评估VoxelNet的鸟瞰图检测和完整的3D检测任务，使用KITTI检测基准。实验结果表明，VoxelNet大大超越了先进的基于LiDAR的三维检测方法。我们还证明，VoxelNet在LiDAR点云中检测行人和骑车者方面取得了令人鼓舞的成果。

基于LiDAR的3D检测中大多数现有的方法依赖于手工特征表示，例如鸟瞰图投影。在本文中，我们消除了手工特征操作的瓶颈，并提出了VoxelNet，这是一种新颖的基于点云的端到端可训练深度架构的3D检测。我们的方法可以直接在稀疏3D点上操作，并有效地捕捉3D形状信息。我们还介绍了VoxelNet的一个高效实现，它可以从点云稀疏性和体素网格上的并行处理中受益。我们在对KITTI汽车检测任务上的实验表明，VoxelNet大大超越了先进的基于LiDAR的3D检测方法。在更具挑战性的任务中，例如对行人和骑自行车人的3D检测，VoxelNet也展示了令人鼓舞的结果，结果表明它能提供更好的3D表示。未来的工作包括将VoxelNet扩展到联合LiDAR和基于图像的端到端3D检测，以进一步提高检测和定位精度。

论文下载：https://arxiv.org/pdf/1711.06396.pdf返回搜狐，查看更多

责任编辑：

voxelnet_苹果最新机器学习论文：使用VoxelNet进行3D物体检测相关推荐

激光雷达：最新趋势之基于RangeView的3D物体检测算法
作者丨巫婆塔里的工程师@知乎来源丨https://zhuanlan.zhihu.com/p/406674156 编辑丨3D视觉工坊之前在LiDAR点云物体检测算法的综述中提到了四个发展阶段.在最开 ...
CVPR 2021 | 论文大盘点：3D目标检测
作者丨我爱计算机视觉@知乎来源丨https://zhuanlan.zhihu.com/p/389319123 编辑丨3D视觉工坊本篇汇总 3D 目标检测相关论文,包含基于单目.基于深度图.基于激光 ...
华科计算机博导刘云生论文,AAAI 2020线上分享 | 华科Oral论文：点云中3D目标检测的鲁棒性...
原标题:AAAI 2020线上分享 | 华科Oral论文:点云中3D目标检测的鲁棒性在 2020 年第一场人工智能学术顶会 AAAI 开幕之前,机器之心将策划多期线下分享.这是机器之心 AAAI 2 ...
最新发布！SMOKE 单目3D目标检测，代码开源！
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达作者| 黎国溥编辑| 3D视觉开发者社区 SMOKE是一个one-stage的单目视觉障碍物检测模型 ...
【论文解读】Confluence：物体检测中不依赖IoU的NMS替代算法论文解析
导读基于IoU的NMS实际上是一种贪心算法,这种方法得到的结果往往不是最优的,Confluence给出了另一种选择. 论文地址:https://arxiv.org/abs/2012.00257 摘要 ...
论文翻译基于R-FCN的物体检测
本文转载自: http://www.jianshu.com/p/db1b74770e52 题目:基于R-FCN的物体检测文章地址:arXiv:1605.06409. <R-FCN: Objec ...
【论文阅读】【3d目标检测】Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion
论文题目:Sparse Fuse Dense: Towards High Quality 3D Detection with Depth Completion 飞步科技 cvpr2022 kitti ...
【论文阅读】【3d目标检测】Embracing Single Stride 3D Object Detector with Sparse Transformer
论文标题:Embracing Single Stride 3D Object Detector with Sparse Transformer 源码地址:https://github.com/TuSi ...
【论文阅读】【3d目标检测】Group-Free 3D Object Detection via Transformers
论文标题:Group-Free 3D Object Detection via Transformers iccv2021 本文主要是针对votenet等网络中采用手工group的问题提出的改进我们 ...

voxelnet_苹果最新机器学习论文：使用VoxelNet进行3D物体检测

voxelnet_苹果最新机器学习论文：使用VoxelNet进行3D物体检测相关推荐

最新文章

热门文章