点击我爱计算机视觉标星,更快获取CVML新技术


本文来自知乎,52CV获作者heryms授权转载。

https://zhuanlan.zhihu.com/p/58077936

CVPR 2019的文章出来了,今天聊聊双目的3D object detection。这是一篇来自DJI与港科大合作的文章《Stereo R-CNN based 3D Object Detection for Autonomous Driving》,作者分别是Peiliang Li,陈晓智(DJI,MV3D的作者)和港科大的Shaojie Shen老师。

论文链接:

https://arxiv.org/abs/1902.09738

文中称,代码将开源。

1. introduction

2018年在3D检测方面的文章层出不穷,也是各个公司无人驾驶或者机器人学部门关注的重点,包含了点云,点云图像融合,以及单目3D检测,但是在双目视觉方面的贡献还是比较少,自从3DOP之后。

总体来说,图像的检测距离,图像的density以及context信息,在3D检测中是不可或缺的一部分,因此作者在这篇文章中挖掘了双目视觉做3D检测的的潜力。

2. network structure

整个网络结构分为以下的几个部分。

1). RPN部分,作者将左右目的图像通过stereoRPN产生相应的proposal。具体来说stereo RPN是在FPN的基础上,将每个FPN的scale上的feature map的进行concat的结构。

2). Stereo Regression,在RPN之后,通过RoiAlign的操作,得到each FPN scale下的left and right Roi features,然后concat相应的特征,经过fc层得到object class, stereo bounding boxes dimension还有viewpoint angle(下图所示) 的值。这里解释一下viewpoint,根据Figure3.,假定物

3). keypoint的检测。这里采用的是类似于mask rcnn的结构进行关键点的预测。文章定义了4个3D semantic keypoint,即车辆底部的3D corner point,同时将这4个点投影到图像,得到4个perspective keypoint,这4个点在3D bbox regression起到一定的作用,我们在下一部分再介绍。

在keypoint检测任务中,作者利用RoiAlign得到的14*14feature map,经过conv,deconv最后得到6 * 28 * 28的feature map,注意到只有keypoint的u坐标会提供2D Box以外的信息,

因此,处于减少计算量的目的,作者aggregate每一列的feature,得到6 * 28的output,其中,前4个channel代表4个keypoint被投影到相应的u坐标的概率,后面两个channel代表是left or right boundary上的keypoint的概率。

3. 3D Box Estimation

通过网络回归得到的2D box的dimension,viewpoint,还有keypoint,我们可以通过一定的方式得到3D box的位置。定义3D box的状态x = [x, y, z, θ]。

Figure 5,给出了一些稀疏的约束。包含了特征点的映射过程。这里也体现了keypoint的用处。

上述公式即为约束方程,因此可以通过高斯牛顿的方法直接求解。具体可以参考论文的引文17。这里我们简单证明一下第一个公式。注意,这里的假设都是u,v坐标都已经经过相机内参的归一化了。

4. Dense 3D Box Alignment

这里就回到shenshaojie老师比较熟悉的BA的过程了,由于part 3仅仅只是一个object level的深度,这里文章利用最小化左右视图的RGB的值,得到一个更加refine的过程。定义如下的误差函数

求解可以利用G20或者ceres也可以完成。整个alignment过程其实相对于深度的直接预测是更加robust的,因为这种预测方法,避免了全局的depth estimation中的一些invalid的pixel引起的ill problem的问题。

5. experiment

作者在实验这块达到了双目视觉的state-of-the-art,同时对于各个module也做了很充足的实验(这块请查看原论文)。

下面是图a、b、c为处理结果示例,每幅图像内部上中下三部分,分别为左眼图像检测结果、右眼图像检测结果、鸟瞰视图检测结果。

图a

图b

图c

6. Insight

最后谈谈文章给我的一些insights,首先,整个文章将传统的detection的任务,结合了geometry constraint优化的方式,做到了3D位置的估计,想法其实在不少文章sfm-learner之类的文章已经有体现过了,不过用在3Ddetection上面还是比较新颖,避免了做双目匹配估计深度的过程。也属于slam跟深度学习结合的一篇文章,感兴趣的朋友可以继续看看arxiv.org/abs/1802.0552等相关文章

谈几点我个人意义上的不足吧,首先耗时过程0.28s的inference time,不过可能作者的重点也不在这个方面,特征的利用上可以更加有效率,在实现上。其次,能不能采用deep3dbox的方式预测dimension,然后添加入优化项呢...

总体来说,是一篇不错的值得一读的文章!

加群交流

关注目标检测技术,欢迎加入52CV-目标检测交流群一起学习,扫码添加52CV君拉你入群,

(请务必注明:目标检测)

习惯在QQ交流的童鞋,可以加52CV官方QQ群:928997753。

(不会时时在线,如果没能及时通过验证还请见谅)

更多CV技术干货请浏览:

"我爱计算机视觉"干货集锦分类汇总(2019年1月20日)


长按关注我爱计算机视觉

CVPR 2019 | Stereo R-CNN 3D 目标检测相关推荐

  1. CVPR 2020 | 港中文提出3D目标检测新框架DSGN

    ©PaperWeekly 原创 · 作者|张承灏 学校|中科院自动化所硕士生 研究方向|双目深度估计 本文介绍的是香港中文大学贾佳亚团队在 CVPR 2020 上提出的 3D 目标检测新框架--深度立 ...

  2. CVPR 2019 | 小样本域适应的目标检测

    作者丨文永亮 学校丨哈尔滨工业大学(深圳)硕士生 研究方向丨目标检测.GAN 引言 最近笔者也在寻找目标检测的其他方向,一般可以继续挖掘的方向是从目标检测的数据入手,困难样本的目标检测,如检测物体被遮 ...

  3. CVPR 2019 | 旷视提出新型目标检测损失函数:定位更精准

    点击我爱计算机视觉标星,更快获取CVML新技术 52CV曾经第一时间报道过Softer-NMS:CMU&旷视最新论文提出定位更加精确的目标检测算法,当时引起了不少读者对Softer-NMS的兴 ...

  4. 点云 3D 目标检测 - PointPillars(CVPR 2019)

    点云 3D 目标检测 - PointPillars(CVPR 2019) 摘要 1. 导言 1.1 相关工作 1.1.1 使用CNNs进行目标检测 1.1.2 激光雷达点云中的目标检测 1.2 贡献 ...

  5. 点云 3D 目标检测 - CenterPoint:Center-based 3D Object Detection and Tracking(CVPR 2021)

    点云 3D 目标检测 - CenterPoint: Center-based 3D Object Detection and Tracking - 基于中心的3D目标检测与跟踪(CVPR 2021) ...

  6. CVPR 2021 | 论文大盘点:3D目标检测

    作者丨我爱计算机视觉@知乎 来源丨https://zhuanlan.zhihu.com/p/389319123 编辑丨3D视觉工坊 本篇汇总 3D 目标检测相关论文,包含基于单目.基于深度图.基于激光 ...

  7. CVPR 2022 3月7日论文速递(17 篇打包下载)涵盖 3D 目标检测、医学影像、图像去模糊、车道线检测等方向

    CVPR2022论文速递系列: CVPR 2022 3月3日论文速递(22 篇打包下载)涵盖网络架构设计.姿态估计.三维视觉.动作检测.语义分割等方向 CVPR 2022 3月4日论文速递(29 篇打 ...

  8. 点云 3D 目标检测 - VoxelNet(CVPR 2018)

    点云 3D 目标检测 - VoxelNet(CVPR 2018) 摘要 1. 引言 1.1 相关工作 1.2 贡献 2. VoxelNet 2.1 VoxelNet架构 2.1.1 特征学习网络 2. ...

  9. CVPR 2022 | 华南理工提出VISTA:双跨视角空间注意力机制实现3D目标检测SOTA,即插即用...

    来源:机器之心 本文提出了 VISTA,一种新颖的即插即用多视角融合策略,用于准确的 3D 对象检测.为了使 VISTA 能够关注特定目标而不是一般点,研究者提出限制学习的注意力权重的方差.将分类和回 ...

  10. CVPR 2022 | 华南理工提出VISTA:双跨视角空间注意力机制实现3D目标检测SOTA

    ©作者 | 邓圣衡.梁智灏.孙林.贾奎 来源 | 机器之心 本文提出了 VISTA,一种新颖的即插即用多视角融合策略,用于准确的 3D 对象检测.为了使 VISTA 能够关注特定目标而不是一般点,研究 ...

最新文章

  1. python基础课程第12章,Python基础教程学习笔记 | 第12章 | 图形用户界面
  2. bzoj2243 [SDOI2011]染色
  3. linux snap 沙盒化软件包格式 简介
  4. docker Cannot start container [8] System error: exec format error
  5. Gym - 100625E Encoded Coordinates 矩阵快速幂
  6. iptables规则基本用法
  7. UNDO Retntion
  8. Android studio2.3.1 更新以后Error:Failed to open zip file. Gradle's dependency cache may be corrupt
  9. 基于jsp+mysql的JSP在线水果销售商城系统设计实现
  10. mysql连接池设计_数据库连接池(基于MySQL数据库)
  11. 几何画板自定义工具_几何画板sketchpad下载-几何画板sketchpad免费版下载v5.0.6.5
  12. 博客园修改页面显示样式
  13. HTML5 3D翻书效果(双面效应)
  14. java postgresql jdbc驱动 下载,PostgreSQL的JDBC驱动和URL
  15. 王守臣 | 文字不灭:“这边有个要饭的”
  16. Mysql支持的数据类型
  17. Php 实现在文档只读功能,如何将只读文档变成可编辑模式?
  18. 《商务周刊》 别了 摩托罗拉
  19. 软件版本命名规范详解
  20. Java 进制转换工具类

热门文章

  1. Linux学习笔记7
  2. 爬虫python 新闻,Python爬虫实例--爬取人民网新闻
  3. 内点惩罚函数法matlab_拉格朗日乘数法求解多元条件极值问题
  4. python两数相加取_两数相加(Python3)
  5. 中表名字必须大写吗_pi network改名字的重要性—非常之重要!!
  6. linux重定向到程序,技术|Linux I/O 重定向基础
  7. linux搭建nfs
  8. mysql主从搭建配置(mysql version5.7.22)
  9. android 9.0华为荣耀,华为9款旗舰尝鲜Android 9.0 还不快去升
  10. flask get 参数_Python web 用它5分钟以后,我放弃用了四年的 Flask