目录

  • 概述
  • 细节
    • 背景
    • 算法流程
    • 最终损失
    • 几何目标点云对齐损失
    • 射线追踪损失
    • 基于点密度的点级损失平衡
    • 边界框参数预测的解耦

概述

【2022】【WEAKM3D】
研究的问题:

  • 核心问题:如何以2D检测框对应的目标点云作为监督信号进行弱监督学习,训练一个单目3D目标检测网络
  • 模型产生预测框之后,如何设计损失衡量预测边界框与目标点云之间的距离。
  • 如何从点云中获取相关参数的监督信号

解决的方法:

  • 基于点密度的点级损失平衡,包括几何目标点云对齐损失以及射线追踪损失
  • 给出了位置、偏航角和尺寸的监督信号设计方案。

细节

背景

3D目标检测的标注就是3D边界框,它是从点云出发得到的,但是得到的过程非常耗时且昂贵。因此,如果能直接用点云进行单目3D目标检测网络的训练,会大大降低成本。
标注的变化:一个目标原先的标注是3D边界框,作者提出的弱监督学习方案中的标注是2D检测框对应的目标点云。
训练目标的变化: 原先训练的目标是模型预测的7个参数和标注3D边界框对应的7个参数尽可能的接近,产生的3D边界框和标注的3D边界框尽可能的一致作者方案下的训练目标是模型预测的7个参数和从点云中获取的7个参数尽可能的接近,产生的3D边界框尽可能的贴合目标点云。
最大的问题:

  • 模型产生预测框之后,如何设计损失衡量预测边界框与目标点云之间的距离。
  • 如何从点云中获取相关参数的监督信号

算法流程

推理阶段:

  • 一个3D特征提取器提取特征

  • 一个2D检测器检测2D边界框

  • 获取2D边界框对应的特征

  • 回归3D边界框的相关参数

    训练阶段:

  • 使用RANSAC算法去除原始点云中的接地点

  • 将点云投影到图像坐标系下,获取2D边界框中的点云(包含目标点云以及一些背景点云)

  • 用一个无监督的目标聚类算法得到目标点云

  • 计算预测边界框与目标点云之间的损失

最终损失

损失是在鸟瞰图上逐点计算的,主要包含三部分:一是平衡损失,二是位置预测损失,三是偏航角的损失,二是这样:计算目标点云的平均纵坐标Y作为目标的Y坐标监督信号(不需要x吗?),是为了进一步提高位置的预测。

后面是论文的主体,就是这个平衡损失怎么来,平衡损失其实描述了核心任务,就是3D边界框的位置和尺寸,第二个损失作者一句话带过,就是为了进一步提高位置的预测,第三个损失就是3D边界框的最后一部分:偏航角。

几何目标点云对齐损失

目标:预测的3D边界框应该包含目标点云并且与目标点云的边缘对齐
最朴素的想法就是最小化边界框中心点到每个点的欧式距离,但这并不合理,因为这会让网络将点云的中心作为3D边界框的中心,而点云是从目标的表面获取的,这样会让预测边界框的中心趋向于真实边界框的边缘。
具体例子如下:预测产生的边界框与真实边界框差距很大

作者的想法:发出一条从3D边界框的中心 P 3 d P_{3d} P3d​到目标点云 P P P的射线,交3D边界框的边缘 P I P_I PI​,然后最小化 P P P和 P I P_I PI​之间的距离


作者没有直接预测3D边界框的中心点坐标,而是预测其在图像坐标系下的投影以及对应的深度z,然后组合成中心点坐标。

射线追踪损失

对齐模糊问题:目标点云无法表示出目标的3D轮廓,难以对齐。例子就是:获得的目标点云只有一个表面的点,不知道该通过3D边界框的哪个表面去和他对齐。
具体例子如下:这两个边界框具有相同的几何对齐损失,但是3D位置大不相同,我们不确定到底哪个边界框是更好的预测

目标:上面一个损失只考虑了几何信息,这个损失考虑一些语义上的因素
作者考虑到遮挡约束,发出一条从相机光心 P c a r m P_{carm} Pcarm​到目标点云 P P P的射线,交3D边界框的边缘 P R P_R PR​,然后最小化 P P P和 P R P_R PR​之间的距离,如果 P R P_R PR​有多个,我们只取其中与相机光心最接近的一个点;若没有交点,则不计算损失。

基于点密度的点级损失平衡

背景:点云分布是不均匀的,也就是有些地方点密度大,有些地方点密度小,这就会导致点密度大的区域贡献更大的损失而点密度小的区域贡献更少损失,因此需要考虑点密度进行损失平衡。
具体做法:先计算点密度,然后基于点密度平衡损失

计算点密度:

基于点密度平衡损失

示意图

边界框参数预测的解耦

我的理解是以往采用3D边界框标注的时候,可以通过每组预测和相应的标签之间添加损失实现对边界框参数预测的解耦。
我理解的解耦指的是:各个部分参数预测对整个任务的贡献,比如位置预测提升是否能带来评价指标的提升,以及能提升多少。

方向:目标点云是目标的部分3D轮廓,隐式指出目标的方向。作者通过目标点对的方向获得目标的方向,具体做法就是计算每个目标点对的方向,然后绘制直方图,直方图中最主要的方向就是目标方向,也就是方向的监督信号。

【3D目标检测】WEAKM3D: TOWARDS WEAKLY SUPERVISEDMONOCULAR 3D OBJECT DETECTION相关推荐

  1. 一种新的无监督前景目标检测方法 A New Unsupervised Foreground Object Detection Method

    14.一种新的无监督前景目标检测方法 A New Unsupervised Foreground Object Detection Method 摘要:针对基于无监督特征提取的目标检测方法效率不高的问 ...

  2. 3d目标检测_CVPR 2020 |基用于3D目标检测的层级图网络

    论文:A Hierarchical Graph Network for 3D Object Detection on Point Clouds论文地址:https://www.aminer.cn/pu ...

  3. 【论文阅读】【3d目标检测】Embracing Single Stride 3D Object Detector with Sparse Transformer

    论文标题:Embracing Single Stride 3D Object Detector with Sparse Transformer 源码地址:https://github.com/TuSi ...

  4. 【3D目标检测】SMOKE: Single-Stage Monocular 3D Object Detection via Keypoint Estimation

    目录 前提 概述 细节 网络结构 特征提取网络 检测头1:关键点检测 检测头2:3D参数回归 损失函数 前提 需要先了解下CenterNet [目标检测]Objects as Points 概述 本文 ...

  5. CVPR2022 3D目标检测(GLENet )增强型3D目标检测网络

    图 1:(a) 给定一个不完整 LiDAR 观测的对象,可能存在多个具有不同大小和形状的潜在合理的真实边界框. (b) 当注释来自 2D 图像和部分点时,标签过程中的模糊和不准确是不可避免的.在给定的 ...

  6. 【论文阅读】【三维目标检测】StarNet: Targeted Computation for Object Detection in Point Clouds

    文章目录 StarNet Center selection Featurizing local point clouds After Constructing final predictions fr ...

  7. 视频目标检测--Flow-Guided Feature Aggregation for Video Object Detection

    Flow-Guided Feature Aggregation for Video Object Detection https://arxiv.org/abs/1703.10025 Our fram ...

  8. 目标检测--Rich feature hierarchies for accurate object detection and semantic segmentation(CVPR 2014)

    Rich feature hierarchies for accurate object detection and semantic segmentation 作者: Ross Girshick J ...

  9. 【2022 小目标检测综述】Towards Large-Scale Small Object Detection: Survey and Benchmarks

    Towards Large-Scale Small Object Detection: Survey and Benchmarks 论文简介: 论文动机: 小目标检测方法回顾: 问题定义: 主要挑战: ...

最新文章

  1. Ant学习总结5(配合Ant视频8,9)
  2. JS ===和==区别
  3. Spring Boot Actuator监控关闭
  4. SpringAOP Aspect注解实现简单日志功能
  5. 微信小程序之可滚动视图 scroll-view 的使用注意
  6. arcgis 投影坐标系转地理坐标系_空间坐标与投影系统系列(二):国内常用投影坐标系...
  7. 微信小程序的服务器有什么要求
  8. Android修改R文件包名程,以及批量修改导入R文件
  9. 数据仓库-Hive(一)
  10. 会议签到web_基于Web的网络签到系统设计与实现
  11. 乌镇、世博、上海游之西、东栅
  12. tomcat报错405
  13. Alpha 冲刺(10/10)
  14. ASP.NET网站实现中英文转换(本地化资源)
  15. RN ScrollView滑动不到底部问题
  16. STM32数据采集及上云实现——DHT11温湿度采集
  17. JAVA设计模式什么鬼(门面)——作者:凸凹里歐
  18. Eclipse 导入 epf 文件后还原默认配色
  19. 详解应用图标、启动图片和iPhone屏幕分辨率
  20. Gophers 如何准备面试?

热门文章

  1. RT,TPS,QPS性能测试的区别
  2. php图片base64解码---base_dcode
  3. 十年的成长历程!十年的回顾!
  4. Ciso 静态路由配置
  5. static_cast 和 reinterpret_cast区别
  6. K-java软件测试指南
  7. 阿里云无影云桌面(使用测评)
  8. 计算机二级题型介绍,计算机二级题型
  9. 如何使用Unity制作虚拟导览(二)
  10. 「津津乐道播客」#182. 日本电车文化初探