一、单目3D物体检测

(1)反变换

1.基本思路

1.3D图像反变换到3D世界世界坐标,在进行物体检测

2.病态问题:通过一些额外信息来辅助解决:

  • 几何假设:目标位于地面(Oy已知)

  • 深度估计:目标深度已知(Oz已知)

2.辅助信息1:目标位于地面

1.BEV-IPM:2D图像变换为BEV视图

  • 假设路面和车辆坐标系都与世界坐标系平行——路面高度已知
  • 在像素高度值已知的情况下,将图像转换到BEV视图
  • 采用YOLO网络在BEV视图下检测目标的下边框(与路面接触的部分)

3.辅助信息2:目标深度已知

1.Pseudo-LiDAR

  • 依据深度图将输入图像转换为3D点云数据
  • 不依赖于特定的方法:可以采用单目、双目、甚至低线数激光雷达
  • 采用点云和图像融合的算法来检测3D物体

(2)关键点和3D模型

1.基本思路

1.待检测的目标其大小和形状相对较固定

2.将3D模型与2D图像上检测的关键点进行匹配

2.DeepMANTA

1.2D图像上的检测输出

  • 2D边框B
  • 2D关键点集合S和可见度V
  • 与3D模型的相似度T

2.根据T选择相似度最高的3D模型

3.匹配3D模型和2D输出的关键点,得到3D关键点S3dS^{3d}S3d和边框B3dB^{3d}B3d

  • 每一对(S3dS^{3d}S3d,S2dS^{2d}S2d)可以得到一个匹配度

(3)2D/3D几何约束

1.基本思路

1.2D物体框的表示

  • 四维变量:2D的中心点和大小

2.3D物体框的表示

  • 9维变量:3D的中心点、大小和朝向
  • 无法直接通过2D物体框求解
  • 大小和朝向与视觉特征相关性强
  • 中心点3D位置很难通过视觉特征预测

3.两个步骤

  • 采用2D物体框内的图像特征来估计物体大小和朝向
  • 通过2D/3D的几何约束来求解物体3D中心点的位置

2.Deep3DBox

1.约束条件:2D物体框的每条边上都至少能找到一个3D物体框的角点

2.超约束问题:约束数量(4个)大于未知参数(3个)数量

3.这个超约束问题的求解过程可以建模成一个网络层,进行端到端训练

(4)直接预测3D信息

1.基本思路

1.两阶段检测,Anchor-based

  • 根据先验知识生成稠密的3D物体候选
  • 通过2D图像上的特征对所有的候选框进行评分
  • 评分高的候选框作为最终的输出

2.单阶段检测,Anchor-free

  • 直接从图像回归3D信息
  • 根据先验知识设定物体3D参数的初始值
  • 神经网络只需要回归与实际值的偏差即可

2.两阶段检测

1.Mono3D

  • 基于目标先验位置(z坐标位于地面)和大小来生成稠密的3D候选框
  • 3D候选框投影到图像坐标后,通过2D图像上特征进行评分
  • 特征来自于语义分割、实例分割、上下文、形状以及位置先验信息

2.TLNet

  • 稠密的Anchor带来巨大的计算量
  • 采用2D图像上的检测结果来降低Anchor数量
  • 2D检测结果形成的3D视锥可以过滤掉大量背景上的Anchor

1.单阶段检测,Anchor-free

1.FCOS3D

  • 整体网络结构与2D物体检测非常相似,只是增加了3D回归目标
  • 3D回归目标: 中心点位置;大小和朝向
  • Centerness的定义:

(5)总结

方法 主要思路 存在的问题
图像反变换 2D图像反变换到3D世界坐标,在3D坐标下进行物体检测 病态问题,需要额外的先验知识或者深度信息
关键点和3D模型 在2D图像上检测目标的关键点,与数据库中的3D模型进行匹配 受限于3D模型,不是所有目标都适用;受特征点检测精度影响较大
2D/3D几何约束 2D图像特征来估计目标大小和朝向,2D/3D几何约束求解目标3D中心点 需要非常精确的2D物体检测;几何约束求解过程非常耗时
直接预测3D信息 对3D候选进行评分:
直接由图像回归3D信息
大量的3D候选影响算法速度;
需要大量训练数据来学习3D线索

二、单目深度估计

  • 3D物体检测中经常需要深度估计的辅助
  • 3D场景语义分割需要估计稠密的深度图

1.基本思路

1.输入:单张图像

2.输出:单张图像,每个像素值对应输入图像的场景深度

3.常用方法

  • 传统方法:利用几何信息,运动信息等线索,通过手工设计的特征来预测像素深度
  • 深度学习:通过训练集数据学习到比手工设计更优越的特征

分割需要估计稠密的深度图

1.基本思路

1.输入:单张图像

2.输出:单张图像,每个像素值对应输入图像的场景深度

3.常用方法

  • 传统方法:利用几何信息,运动信息等线索,通过手工设计的特征来预测像素深度
  • 深度学习:通过训练集数据学习到比手工设计更优越的特征

监督学习算法

视觉3D感知(二):单目3D物体检测相关推荐

  1. AutoShape:实时形状感知的单目3D目标检测(ICCV2021)

    作者丨柒柒@知乎 来源丨https://zhuanlan.zhihu.com/p/404683961 编辑丨3D视觉工坊 论文标题:AutoShape: Real-Time Shape-Aware M ...

  2. 3D车道线单目检测方法ONCE-3DLanes

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨黄浴 来源丨计算机视觉深度学习和自动驾驶 3D车道线检测论文"ONCE-3DLanes ...

  3. 【单目3D】在自动驾驶中将 2D 物体检测提升到 3D

    Lifting 2D object detection to 3D in autonomous driving 单目 3D 目标检测使用 RGB 图像来预测目标 3D 边界框.由于 RGB 图像中缺少 ...

  4. CVPR2021|基于分类深度分布网络的单目3D物体检测

    1.要解决的问题 单目3D物体检测核心问题是如何准确估计物体的深度信息.已有方法尝试显式地或隐式地学习深度信息. 显式地学习存在的问题:1:深度估计的过度置信.一些方法[14,38,39,62]通过深 ...

  5. MonoDETR:用于单目3D检测的深度感知transformer(CVPR2022)

    作者丨zyrant@知乎 来源丨https://zhuanlan.zhihu.com/p/508682621 编辑丨3D视觉工坊 -- 2022.4.29 by 周报拓展. --CVPR还有一篇Mon ...

  6. DD3D:基于预训练的单目3D目标检测

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 来源丨CV研习社 作者丨元气满满的打工人 文章导读 导读:3D目标检测的主要应用场景就是自动驾驶,虽然 ...

  7. 探究位置误差对单目3D目标检测影响

    标题:Delving into Localization Errors for Monocular 3D Object Detection 作者:Xinzhu Ma1, Yinmin Zhang3, ...

  8. DID-M3D | 用于单目3D目标检测的解耦实例深度(ECCV2022)

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 后台回复[多模态综述]获取论文! 后台回复[ECCV2022]获取ECCV2022所有自动驾驶方向论文! 后台 ...

  9. 最新发布!SMOKE 单目3D目标检测,代码开源!

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者| 黎国溥 编辑| 3D视觉开发者社区 SMOKE是一个one-stage的单目视觉障碍物检测模型 ...

最新文章

  1. 碰撞检测碰撞Java简单游戏开发之碰撞检测
  2. IOS内存的一篇文章
  3. mysql编译innodb_源码编译MySQL5.1生成InnoDB存储引擎_MySQL
  4. Sum of Log(2020上海C)
  5. P1991-无线通讯网【最小生成树,瓶颈生成树】
  6. C排序算法:(二)冒泡排序
  7. 往事回忆记得刚写飞鸽传书的时候
  8. 用汇编的眼光看C++(之虚函数)
  9. 读写分离无效的大坑(新使用数据库读写分离的同学可以参考)
  10. 散粉在哪个步骤用_无限回购的散粉
  11. java股票公式源码_各种涨停公式源码
  12. 高级商务办公软件应用【3】
  13. Ubuntu中解决机箱前置耳机没声音
  14. cesium天气(晴、雨、雪、雾)
  15. 导致ImportError: No module named 'xxx'问题的两种原因以及解决方案
  16. OpenCV源码剖析之ImageDecoder
  17. tipask访问不到地址,appach和linux的引用头不一样
  18. Hibernate_9_Person和IdCard实例_一对一关系:基于主键
  19. 新绝代双骄3终极全攻略4
  20. win10玩cf不能全屏_神奇的工作室ghost 不能启动

热门文章

  1. MATLAB中resample函数使用
  2. txtv28pw河南某中学_河南省新乡市某中学2020届高三阶段性考试物理试卷
  3. fitbit手表中文说明书_入侵Fitbit-为Twitter DM模拟寻呼机!
  4. java汉字转拼音区别多音字_java中文转拼音,支持多音字词组,不支持音标
  5. 一篇文章教你如何写出【✨无法维护✨】的代码?
  6. C++的与/或/异或的详解
  7. 掌优刷脸支付刷出移动支付新热度
  8. 深拷贝deepClone
  9. 网站后台拿webshell
  10. 走进JavaWeb技术世界5:初探Tomcat的HTTP请求过程