原文链接:https://arxiv.org/pdf/2204.00106.pdf

III. SotA

将基于点云的3D目标检测分为4类,即基于点的基于体素的基于前视图的基于多视图的方法。

A. 结构

结构上可分为单阶段检测(PointPillars,3DSSD,SA-SSD,CIA-SSD和SE-SSD)和两阶段检测(PV-RCNN,PV-RCNN++和CenterPoint)。

  • PointPillars:将平面离散化得到pillar,再用PointNet抓取每个pillar的特征。然后使用2D CNN回归边界框和预测类别。好处是比3D卷积高效,缺点是有时候行人和自行车会被错误分类。
  • 3DSSD:首先使用SA层提取特征,然后根据关键点特征获得原始点特征。采样关键点的策略是结合欧式距离和特征度量采样,以减小推断时间,同时提高召回率、平衡正负样本。由于网络不需要锚框,在回归前增加对候选点的移位,以获得更好的中心预测。真实分类分数被改变为与候选点到真实边界框表面距离相关的值,进一步提高AP。缺点是其单阶段检测性能有限。
  • SA-SSD:对体素使用3D卷积,然后使用2D卷积细化和回归边界框。辅助网络使用插值的激光雷达点,分割前景点和估计中心。前者增加对物体边界的敏感性,后者通过学习用点的特征估计物体中心增强点与物体的关系。还提出特征图warp模块,减轻定位和分类的不一致性。在推断时不使用辅助网络;性能可以达到两阶段检测的性能。

*注:锚框在比例模糊的输入检测(如图像)中是必不可少的;此外在需要检测不同尺寸的不同类别物体时也很重要。

  • CIA-SSD:提出轻量级的空间-语义特征聚合模块,自适应地融合高级语义特征和低级空间特征,以提高分类和边界框回归的精度;IoU-aware的置信度校正模块减轻了定位和分类的不一致性;与距离相关的IoU加权非最大抑制用于平滑回归,减少冗余预测。
  • PV-RCNN:整合了基于体素的网络和基于PointNet的网络。先采样关键点,同时体素化点云并使用体素编码关键点。使用体素SA层将多尺度体素特征整合到附近的关键点中,得到带有3D卷积信息的关键点特征向量。然后关键点特征输入到预测关键点加权(PKW)模块,因为考虑到前景点应比背景点更有利于细化提案。通过SA层实现的RoI网格池化用于分组关键点特征,关键点特征被聚合为RoI网格点。最后细化3D边界框。
  • PV-RCNN++:提出新的采样方法(提案中心策略)来获得有代表性的关键点。将关键点集中在3D提案附近,以编码更有效的特征。新的局部特征聚合模块(VectorPool聚合)通过聚合局部点云特征替换SA层,可以消耗更少的资源,处理更多的点。
  • CenterPoint:

第一阶段,不同的回归头估计出物体的中心、大小、朝向和速度。通过将3D物体考虑为具有旋转不变性的点云,在旋转物体的检测上比基于锚框的方法更灵活。

第二阶段,来自预测初始边界框表面中心的其他点特征被压缩为向量,输入MLP中获得置信分数、细化边界框。

检测头预测BEV热图,每个峰值对应一个物体的中心。点云提取特征后成为平面图,输入到2D CNN中,生成通道热图,每个通道对应一个类别。训练阶段,真实边界框中心被投影到BEV平面上,检测头可以使用focal损失来在这些投影处生成2D高斯。

  • SE-SSD:由教和学的模型组成,两个模型的结构相同,类似CIA-SSD的结构。“教”模型使用原始点云预测,然后转化为软性目标,用于训练“学”模型。“学”模型使用增广数据预测,使用一致性损失朝向角感知距离IoU损失(ODIoU,强调边界框的朝向和中心对准)训练软性和硬性目标。

还提出形状感知的数据增广方案,即随机丢弃、交换和稀疏化点,用于“学”模型。

继承了单阶段模型速度快的优点,因其推断时不引入额外计算。同时使用教与学的模型显著提升了检测精度。

B.数据增广

目标:提高泛化能力,使网络对点云的旋转、平移和自然变化有不变性。

物体级别的数据增广:对物体的边界框进行数据增广,包括绕轴旋转、关于平面或平面翻转、稀疏化、添加高斯噪声、frustum dropout等。

  • AutoAugment:将顺序离散决策问题建模为强化学习问题,用于生成增广数据。这种方法结果比随机数据增广效果好。
  • PointCutMix:寻找两个点云之间的最优分配,将一个点云中的点替换为其最优分配点,从而生成新的数据。

另外还有研究使用进化搜索算法自动设计数据增广策略。

C.采样策略

(1)最远点采样:保持了采样点的均匀分布,节省时间。但不是最优策略。

(2)提案中心关键点采样策略:将关键点集中在3D提案附近,以编码更有效的特征。高效、可以处理大量点。

D.激活函数

(1)swish:形状类似ReLU但在0点可导;性能略优,但计算略复杂。

(2)hard swish:使用ReLU6逼近swish,节省计算。

F.正则化策略

正则化以提高训练误差为代价减小测试误差。常用的正则化策略为Dropout。

DropBlock:是Dropout在正则化卷积网络中的结构化形式。特征图中的一个连续区域被drop掉,以避免网络过度关注特征图的某一个区域,可以减轻过拟合。

G.归一化方法

归一化可以泛化神经网络、加速训练。

Batch Normalization:解决内部协变量移位问题。每个batch放缩输出,使其服从均值为0、方差为1的分布。可以减小模型对参数初值的依赖性。

Filter Response Normalization:归一化和激活函数的组合。分别对每个batch的每个激活通道归一化,消除对其余batch的依赖性。

Attentive Normalization:将注意力机制引入归一化,对通道级仿射变换分量进行重新加权。

H.学习率调整策略

由于网络参数随机初始化,训练开始时使用大学习率可能不稳定。

Warmup:在训练开始时使用小学习率,然后在几轮后增大。

余弦退火:学习率以余弦方式变化。

Warm restart:每隔一段时间重启余弦退火。

I.损失函数

(1)分类损失:交叉熵,即真实类别的负对数似然值。主要困难是处理正负样本(即前景/背景样本)的不平衡性。解决方案有困难负样本挖掘和focal loss。

困难负样本挖掘:负边界框被子采样,使其数量多出3倍。

focal损失:自适应地调节每个分类样本的贡献权重。

(2)3D边界框损失:

也可写为定位损失和方向损失,其中定位损失见上篇文章最后(附录D-(2)-(a)),方向损失为

VI.挑战

多帧3D目标检测:目前的工作可以分为四类(有交叉):隐式多帧数据处理、场景级特征聚合、物体级别特征聚合、注意力机制聚合。

(a)隐式多帧数据处理:不显示使用学习方法聚合多帧特征。如CenterPoint估计相邻两帧中心点偏移(速度)。

(b)场景级别特征聚合:建立时间特征图来加强检测精度。如使用LSTM进行多帧特征融合。

(c)物体级别特征聚合:通过使用先前检测的物体特征,加强物体特征表达。如使用目标跟踪匹配物体,然后聚合物体特征。

多帧对齐方法有自我运动补偿、校正和基于跟踪的方法;也可以使用循环卷积网络来考虑连续帧之间的偏移。注意力机制和时序图表达也可用于解决对齐问题。

A Survey of Robust LiDAR-based 3D Object Detection Methods for Autonomous Driving(激光雷达3D目标检测方法)论文笔记相关推荐

  1. 【论文笔记】MV3D:Multi-View 3D Object Detection Network for Autonomous Driving

    摘要 本文针对自动驾驶场景中的高精度3D对象检测.我们提出了多视点三维网络(MV3D),这是一个以激光雷达点云和RGB图像为输入,预测定向三维边界框的传感器融合框架.我们用一个紧凑的多视图表示来编码稀 ...

  2. MV3D:Multi-View 3D Object Detection Network for Autonomous Driving(翻译)

    MV3D 摘要 1.介绍 2.相关工作 3.MV3D网络 3.1 3D点云表示 3.2 3D建议网络 3.3 基于区域的融合网络 3.4 实现 4.实验 5.结论 摘要 本文针对自动驾驶场景中的高精度 ...

  3. 【目标检测】论文笔记Arbitrary-Oriented Object Detection with Circular Smooth Label(2020)

    目录 前情提要: 解决方案 Regression-based Rotation Detection Method Boundary Problem of Regression Method Some ...

  4. 无人驾驶中的目标检测--MODNet: Moving Object Detection Network for Autonomous Driving

    MODNet: Moving Object Detection Network with Motion and Appearance for Autonomous Driving 这里讲视频动作识别中 ...

  5. 《You Only Look Once: Unified, Real-Time Object Detection》YOLO一种实时目标检测方法 阅读笔记(未完成版)

    文章目录 1. one-stage与two-stage检测算法 1. 模型过程 1.1 grid cell 1.2 bounding box与confidence score 1.3 类别预测 1.4 ...

  6. 论文笔记:Object Detection in 20 Years: A Surve(目标检测20年研究综述)

    文章目录 1.介绍 2.目标检测的20年发展历程 2.1.目标检测路线 2.1.1.里程碑:传统检测器 2.1.2.基于CNN的两阶段检测器 2.1.3.基于CNN的单阶段检测器 2.2.目标检测数据 ...

  7. Pillar-based Object Detection for Autonomous Driving(基于柱体的自动驾驶目标检测)论文笔记

    原文链接:https://arxiv.org/pdf/2007.10323.pdf 1 引言 许多工作使用基于锚框的方法进行目标检测.锚框能提供有用的位置和姿态先验,但导致算法存在许多超参数和潜在的训 ...

  8. 点云 3D 天气数据增强 - LiDAR Snowfall Simulation for Robust 3D Object Detection (CVPR 2022)

    点云 3D 天气数据增强 - LiDAR Snowfall Simulation for Robust 3D Object Detection - 用于鲁棒3D目标检测的激光雷达降雪模拟(CVPR 2 ...

  9. Introduction to 3D Object Detection with Lidar

    深度学习的开始 人类的大脑是一个神秘的器官,它由无数的神经细胞组成,神经细胞又有突触,轴突,树突等组成,至今我们还未对大脑如何工作研究的十分清楚.1943年,美国数学家沃尔特·皮茨(W.Pitts)和 ...

最新文章

  1. js图表控件:highcharts的应用(二)
  2. Samba 4.10 发布,完全支持 Python 3
  3. 剑指offer(19)顺时针打印矩阵
  4. 完美解决ALEXA工具条无法显示或显示白框
  5. oracle中有类似split的方法么,Oracle 实现拆分列数据的split()方法
  6. 有两个地方,用到了javabean对象和属性字符串值之间的转换
  7. 元类编程--property动态属性
  8. ssh不能连接 提示WARNING: POSSIBLE DNS SPOOFING DETECTED!处理方法
  9. url映射 路由urls.py的功能 django
  10. docker create_Docker镜像管理(一)
  11. 小帅小胖智能机器人如何使用_小帅智能教育机器人使用技巧篇(下篇)
  12. Python推箱子小游戏源代码
  13. springboot医疗管理系统毕业设计源码015221
  14. SSL证书问题SSL certificate problem: self signed certificate
  15. 用python绘制圆中圆
  16. 《Tomcat内核设计剖析》勘误表
  17. 行路难(SPFA+前驱记录)
  18. 传智播客开课的第二天
  19. 如何用Matlab画一个数学动态GIF
  20. 蜘蛛池到底有没有用?超级蜘蛛池

热门文章

  1. 用C++编写的垃圾文件清理程序,这下电脑速度快多了!
  2. icp光谱仪的工作原理_ICP工作原理
  3. 滋补新势力、新消费、新对接、新资源尽在2021上海燕博会
  4. Python实现用初等行变换将矩阵化为最简行形式
  5. 在python中、整数的十进制不能以0开头_Python关于int整数数据类型在使用介绍
  6. 北师范《计算机导论》在线作业,华师18秋《计算机导论》在线作业满分
  7. bilicav法求解高阶次勒让德函数
  8. python的dataframe的mul_python pandas DataFrame.mul用法及代码示例
  9. 金笛邮件系统功能清单
  10. 三坐标基础知识之气源