CVPR2019:无人驾驶3D目标检测论文点评

重读CVPR2019的文章,现在对以下文章进行点评。

Stereo R-CNN based 3D Object Detection for Autonomous
Driving

  1. introduction

本文提出了完全自动驾驶3D目标检测方法,包括3D图像检测疏密度,语义和几何信息。这个方法命名为Stereo R-CNN,将Faster R-CNN推广到3D图像输入信息,检测和关联左右两部分图像。通过在立体区域建议网络stereo Region Proposal Network (RPN)增加分支,预测稀疏点,透视点和目标维数,以便将2D左右boxes通过准确度2D透视投影来计算3D-BOX目标。然后,通过左右ROI线性成像来复原3D bounding-box。本方法不要求详细输入深度信息和3D位置,而且超过所以目前的3D目标检测方法。实验结果表示,这种方法在KITTI数据集上有大约30%AP,无论使3D目标检测,还是3D局部任务。本文实现开源代码链接在:https://github.com/HKUST-Aerial-Robotics/Stereo-RCNN

2018年在3D检测方面的文章层出不穷,也是各个公司无人驾驶或者机器人学部门关注的重点,包含了点云,点云图像融合,以及单目3D检测,但是在双目视觉方面的贡献还是比较少,自从3DOP之后。

总体来说,图像的检测距离,图像的density以及context信息,在3D检测中是不可或缺的一部分,因此作者在这篇文章中挖掘了双目视觉做3D检测的的潜力。

  1. network structure

整个网络结构分为以下的几个部分。

1). RPN部分,作者将左右目的图像通过stereoRPN产生相应的proposal。具体来说stereo RPN是在FPN的基础上,将每个FPN的scale上的feature map的进行concat的结构。

2)Stereo Regression,在RPN之后,通过ROIAlign的操作,得到each FPN scale下的左右ROI特征,然后concat相应的特征,经过fc层得到object class,stereo bounding boxes dimension,还有viewpoint angle的值。关于viewpoint,根据figure3,嘉定目标的朝向是θ,车中心和camera中心的方位角是β,那么viewpoint的角度是α=θ+β,为了避免角度的歧义性,回归量还是[sinα,cosα]。

3). keypoint的检测。这里采用的是类似于mask rcnn的结构进行关键点的预测。文章定义了4个3D semantic keypoint,即车辆底部的3D corner point,同时将这4个点投影到图像,得到4个perspective keypoint,这4个点在3D bbox regression起到一定的作用,在下一部分再介绍。

在keypoint检测任务中,作者利用RoiAlign得到的14*14feature map,经过conv,deconv最后得到6 * 28 * 28的feature map,注意到只有keypoint的u坐标会提供2D Box以外的信息,因此,处于减少计算量的目的,作者aggregate每一列的feature,得到6 * 28的output,其中,前4个channel代表4个keypoint被投影到相应的u坐标的概率,后面两个channel代表是left or right boundary上的keypoint的概率。

  1. 3D Box
    Estimation

通过网络回归得到的2D box的dimension,viewpoint,还有keypoint,可以通过一定的方式得到3D box的位置。定义3D box的状态x = [x, y, z, θ]。

Figure 5,给出了一些稀疏的约束。包含了特征点的映射过程。这里也体现了keypoint的用处。

上述公式即为约束方程,因此可以通过高斯牛顿的方法直接求解。

  1. Dense 3D Box
    Alignment

这里就回到shenshaojie老师比较熟悉的BA的过程了,由于part 3仅仅只是一个object level的深度,这里文章利用最小化左右视图的RGB的值,得到一个更加refine的过程。定义如下的误差函数

这里分别表示图像左右两部分部分3通道RGB向量;表示与3D-BOX中心像素值i的灰度差值;b表示线段长度。

而这一块的求解利用G20或者ceres也可以完成。整个alignment过程其实相对于深度的直接预测是更加robust的,因为这种预测方法,避免了全局的depth estimation中的一些invalid的pixel引起的ill problem的问题。

  1. experiment

在实验这块达到了双目视觉的state of art,同时对于各个module也做了很充足的实验。

  1. Insight

最后谈谈文章一些insights,首先,整个文章将传统的detection的任务,结合了geometry constraint优化的方式,做到了3D位置的估计,想法其实在不少文章sfm-learner之类的文章已经有体现过了,不过用在3Ddetection上面还是比较新颖,避免了做双目匹配估计深度的过程。也属于slam跟深度学习结合的一篇文章,感兴趣的朋友可以继续看看arxiv.org/abs/1802.0552等相关文章

谈几点不足吧,首先耗时过程0.28s的inference time,不过可能作者的重点也不在这个方面,特征的利用上可以更加有效率,在实现上。其次,能不能采用deep3dbox的方式预测dimension,然后添加入优化项呢…总体来说,是一篇不错的值得一读的文章!

CVPR2019:无人驾驶3D目标检测论文点评相关推荐

  1. 3D目标检测论文阅读摘要

    3D目标检测论文阅读摘要 2D Object Detection 的研究已经非常成熟了,代表作品有RPN系列的FasterRCNN,One Shot系列的YOLOv1-YOLOv3,这里推荐一个2D ...

  2. 3D目标检测论文阅读多角度解析

    3D目标检测论文阅读多角度解析 一.前言 CNN(convolutional neural network)在目标检测中大放异彩,R-CNN系列,YOLO,SSD各类优秀的方法层出不穷在2D图像的目标 ...

  3. 最新!3D目标检测论文汇总(多模态融合)

    作者丨柒柒@知乎 来源丨https://zhuanlan.zhihu.com/p/447555827 编辑丨3D视觉工坊 这篇文章主要是梳理一下近期3D Detection的进展,分类列举出一些我认为 ...

  4. 3d object是什么文件_[单目3D目标检测论文笔记] 3D Bounding Box Estimation

    本文是3D Bounding Box Estimation Using Deep Learning and Geometry的论文笔记及个人理解.这篇文章是单目图像3d目标检测的一个经典工作之一.其目 ...

  5. 【CVPR2020】3D目标检测论文汇总

    文章目录 1. 3D目标检测--室外 1. Associate-3Ddet: Perceptual-to-Conceptual Association for 3D Point Cloud Objec ...

  6. 3D目标检测论文方法汇总 【2022部分持续更新中~

    Automanous-3D-detection-methods 版权注释 该项目地址为:https://github.com/LittleYuanzi/awesome-Automanous-3D-de ...

  7. 【3D目标检测】学习过的论文整理

    目录 概述 整理结果 综述 3D视觉原理 学位论文 单目图像的3D目标检测方法研究 基于图像的 基于2D特征做的 SMOKE MonoDLE MonoPixel DD3D 基于3D特征做的 OFT-N ...

  8. 【单目3D目标检测】FCOS3D + PGD论文解析与代码复现

    文章目录 前言 FCOS3D 概述 主要创新点 主要框架结构 回归目标 损失函数 推理过程 2D引导的多层3D预测 2D高斯分布的3D中心度 实验设置 源码复现 PGD 概述 主要创新点 深度估计 主 ...

  9. 3D目标检测框架综述(OpenPCDet、mmdet3d、Det3D、Paddle3D)

    作者 | 双愚  编辑 | 汽车人 原文链接:https://zhuanlan.zhihu.com/p/569189196 点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干 ...

最新文章

  1. 解决外部工具链接CRM失败的问题
  2. js 字符串截取_【js】让你一次性搞清楚slice,substr,substring字符串截取函数
  3. 404页面自动跳转javascript
  4. 阿里云推出首个数据库云上跑分平台,背后是什么逻辑?
  5. 计算机作业有相似度,抄袭检测系统对计算机类电子作业的影响分析
  6. 如果你身边有这样的人,赶紧让他说点什么,然后反过来买彩票
  7. 职称计算机pscs4教程,2017年职称计算机photoshop测验练习(4)
  8. 频域卷积定理的证明 乘积的傅里叶变换等于分别做傅里叶变换的卷积乘1/2pi
  9. HFSS19 官方中文教程系列 L04
  10. 动态生成表格--JS案例
  11. Jspx.net Framework 6.38发布
  12. 这可能是目前最好用的p2p外网访问内网软件(免费内网穿透)
  13. 小米为何要死磕某国产手机企业?这是多年被压迫下的反击
  14. 英特尔处理器后缀字母的意思
  15. python 工资条_当财务部的人会编程,会发生什么?Python实现自动化群发工资条...
  16. multiple definition of `_start'
  17. 第十届中国云计算大会开幕,“云界十年”评选结果正式公布
  18. luogu 4084
  19. Win10使用自带工具屏幕录制
  20. Linux操作系统分析 | 深入理解系统调用

热门文章

  1. python3+ 解决写入中文乱码的问题
  2. 【Spring】银行转账案例
  3. 论文阅读工具ReadPaper
  4. 用python下载文件的若干种方法汇总
  5. LeetCode简单题之按奇偶排序数组 II
  6. NVIDIA GPU卷积网络的自动调谐
  7. 使用多个推理芯片需要仔细规划
  8. Mybatis获取参数值的方式
  9. 2021年大数据Flink(四十八):扩展阅读  Streaming File Sink
  10. 解决使用Dockerfile来build镜像时pip install遇到的BUG