Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks
下图Vote3Deep在KITTI上不可见点云的检测效果。
本文方法:在原生的3D特征(native 3D representation)上执行一个稀疏卷积,接着是一个ReLU非线性,它返回一个新的稀疏3D特征。这个过程可以像传统CNN一样重复和叠加,输出层预测检测分数。用NMS对重复检测进行剪枝(3D中的NMS能够更好地处理彼此背后的对象,因为3D包围框的重叠小于它们的2D投影)。
本文为每个类假设一个固定大小的边界框,这消除了回归边界框大小的需要。我们根据训练集上的百分之95的地面真实边界框大小为每个类别选择3D边界框尺寸。
———————————————————————————————————————————————
在2D稀疏上投票过程(没有偏置):投票权重是通过在每个维度上翻转卷积权重得到的。投票过程只需要在每个非零的位置应用来计算相同的结果。Vote3Deep将投票过程应用于带有多个特征图的3D输入,而不是单一特征的2D网格。
该算法的基本思想是让每个非零输入特征向量根据滤波器的权值向其在输出层的周围格子投一组选票,这些选票由滤波器的感受野定义。投票权重是卷积核沿每个空间维度翻转获得的。最后的卷积结果是通过对每个输出单元的投票进行累加得到的
稀疏卷积需要grid中的值不为0
中心点对称卷积
———————————————————————————————————————————————
此图表明,多层次堆叠比baseline要高,并且很重要的一点,增加了模型的复杂性,对精准性提高很大。这些较大的模型可能没有得到充分的正则化。另一种可能的解释是,3D数据的易用性使得即使是相对较小的模型也能捕捉到输入特征中的大部分变化,从而为解决任务提供信息。
由上图可知,kernel-size大小和filter个数并不会很大地提高精度,所以本文选择8个3x3x3的kernel。因为汽车的大小和行人在真是世界中大小不一样,所以汽车需要一个大的kernel去获得大的感受野,但是因为是并行部署的,所以检测速度最好一样,所以汽车用的model-b,别的用的model-d,精度如图所示。
Vote3Deep是最好的,相较于其他两个模型
我们还将Vote3Deep与表中同时使用点云和图像数据的方法进行了比较。自行车精度提升最大,原因可能是因为与行人和汽车相比,骑自行车的人在3D中拥有更独特的形状,而行人和汽车更容易被认为是与杆或垂直面混淆
我们逐帧检测,200帧取均值和标准差,l1能有效的提升检测速度,但是数值太大,训练直接None了。car的速度提升最快,本文预测,中间层数量的减少和更大的感受野都有助于模型学习更稀疏但仍然具有高信息量。
Vote3Deep: Fast Object Detection in 3D Point Clouds Using Efficient Convolutional Neural Networks相关推荐
- FAST AND HIGH-QUALITY SINGING VOICE SYNTHESIS SYSTEM BASED ON CONVOLUTIONAL NEURAL NETWORKS
摘要 本文介绍了基于卷积神经网络(CNN)的歌声合成.当前提出的基于深度神经网络(DNN)的唱歌声音合成系统,并且改善合成唱歌声音的自然性.由于歌声代表着丰富的表达形式,因此需要一种强大的技术来准确地 ...
- 论文阅读 End-to-End Multi-View Fusion for 3D Object Detection in Lidar Point Clouds
[论文阅读] End-to-End Multi-View Fusion for 3D Object Detection in Lidar Point Clouds 原文链接:https://arxiv ...
- 目标检测--A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection
A Unified Multi-scale Deep Convolutional Neural Network for Fast Object Detection ECCV2016 https://g ...
- Receptive Field Block Net for Accurate and Fast Object Detection(RFB)
Receptive Field Block Net for Accurate and Fast Object Detection(RFB) paper code Abstract 受人类视觉系统感受野 ...
- Receptive Field Block Net for Accurate and Fast Object Detection
Receptive Field Block Net for Accurate and Fast Object Detection 作者:Songtao Liu, Di Huang*, and Yunh ...
- 论文解读 Receptive Field Block Net for Accurate and Fast Object Detection
其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明著,由SIGAI公众号作者倾力打造. 书的购买链接 书的勘误,优化,源代码资源 PDF全 ...
- 论文阅读:Multi-view Convolutional Neural Networks for 3D Shape Recognition
Preface 今天阅读一篇ICCV2015的论文:<Multi-view Convolutional Neural Networks for 3D Shape Recognition>, ...
- 基于CNN的动态手势识别:Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks
Real-time Hand Gesture Detection and Classification Using Convolutional Neural Networks论文解读 1. 概述 2. ...
- Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering论文解读( and code)
<Convolutional Neural Networks on Graphs with Fast Localized Spectral Filtering> 提供了已实现的GCN,并且 ...
最新文章
- How to use tcpdump with examples
- 第十六届全国大学智能车竞赛东北赛区报名信息统计
- POJ 3522 Slim Span (Kruskal枚举最小边)
- jwt token注销_辩证的眼光搞懂 JWT 这个知识点
- python语句join_详解Python中的join()函数的用法
- 华为5G折叠屏手机Mate X 重新入网,即将上市!
- C# 数据类型转换
- C语言函数二维数组传递方法
- Linux 动态链接和静态链接简析(库名与库文件名)
- python pow函数用法_Python代码中pow()函数具有哪些功能呢?
- html表格怎样传入数据类型,Echarts图表中pie类型tooltip中formatter函数传递的参数从哪里来?...
- pandas 筛选出满足条件的行并赋值
- Win7系统中unity web player是什么程序
- 光遇自动弹琴脚本代码_光遇自动弹琴脚本
- 爬虫或日常使用过程中解决ip被封锁IP限制的几种方法
- android mp3 lrc歌词文件utf-8歌词显示为乱码,Android访问Tomcat错误以及mp3player项目乱码问题解决...
- Linux基础学习记录
- YOLOv5目标检测算法——通俗易懂的解析
- 计算机 复制文件格式,电脑u盘文件无法复制的解决方法
- CAD教程:CAD联动模式的使用技巧