©PaperWeekly 原创 · 作者|张承灏

学校|中科院自动化所硕士生

研究方向|双目深度估计

本文介绍的是香港中文大学贾佳亚团队在 CVPR 2020 上提出的 3D 目标检测新框架——深度立体几何网络(Deep Stereo Geometry Network,DSGN)。

通过构造一种可导的 3D 几何体来实现 3D 目标检测,从而减小了基于图像的方法和基于 LiDAR 的方法之间的鸿沟。这是第一个一阶段的,基于双目的 3D 目标检测器,在 KITTI 3D 目标检测榜单上超越以往基于双目的 3D 目标检测方法。

论文标题:DSGN: Deep Stereo Geometry Network for 3D Object Detection

论文地址:https://arxiv.org/abs/2001.03398

开源代码:https://github.com/chenyilun95/DSGN

背景

根据特征的表示方法不同,3D 目标检测器主要分为基于图像的 3D 检测器和基于 LiDAR 的 3D 检测器。

  • 基于 LiRAD 的 3D 检测器:主要分为基于体素的方法和基于点云的方法;

  • 基于图像的 3D 检测器:主要分为基于深度估计的方法和基于 3D 特征的方法;

由于 LiDAR 传感器能够捕捉准确的 3D 信息,因此基于 LiDAR 的 3D 检测器准确率较高。其不足之处在于 LiDAR 设备笨重且价格昂贵,得到是带有激光束的稀疏分辨率的数据。

相比之下,视频摄像机要便宜很多,并且能够产生更加稠密的分辨率。这种基于图像的方法通常依靠单目或者双目深度估计,但是准确率仍然无法与基于 LiDAR 的方法相媲美。

基于深度估计的方法将 3D 目标检测分为两步:深度估计和目标检测,这其中最大的挑战在于 2D 网络并不能提取到稳定的 3D 信息。

另一种方案是先利用深度估计产生中间伪点云,再利用基于 LiDAR 的 3D 目标检测方法。但是这种方法中的变换是不可导的,并且需要多个独立的网络,还容易出现失真现象。

DSGN 是一种基于双目深度估计的,端到端的 3D 目标检测框架,其核心在于通过空间变换将 2D 特征转换成有效的 3D 结构。论文的主要贡献如下:

  • 为了弥补 2D 图像和 3D 空间的鸿沟,作者利用立体匹配构建平面扫描体(plane-sweep volume,PSV),并将其转换成 3D 几何体(3D geometric volume,3DGV),以便能够编码 3D 几何形状和语义信息。

  • 作者设计了一个端到端的框架,以提取用于立体匹配的像素级特征和用于目标识别的高级特征。所提出的 DSGN 能同时估计场景深度并检测 3D 目标,从而实现多种实际应用。

  • 作者提出的简单且完全可导的网络在 KITTI 排行榜上超越所有其他基于双目深度估计的 3D 目标检测器(AP 高出 10 个点)。

方法

上图展示了 DSGN 的整体框架图。将双目图像对














作为输入,利用权重共享的孪生网络提取特征,并构建一个平面扫描体(PSV),它可以学习逐像素的对应关系。

接着通过可导的 warping 操作,将 PSV 转换为 3D 几何体(3DGV),从而构建 3D 世界坐标系的 3D 几何特征。最后利用 3D 卷积网络作用于 3DGV 进行 3D 目标检测。

2.1 特征提取

作者借鉴 PSMNet [1] 的特征提取器作为深度估计和 3D 目标检测的共享特征提取网络。为了提取更多的高层次特征,并且减少计算量,主要进行了以下改动:

  1. 将更多的计算从 conv_3 转到 conv_4 和 conv_5,比如从 conv_2 到 conv_5 的基本模块的通道数从 {3,16,3,3} 变成 {3,6,12,4}。

  2. PSMNet 中的 SPP 模块增加了 conv_4 和 conv_5。

  3. conv_1 的输出通道数和残差模块的输出通道数有所改变。

详细的网络结构可参考论文中的附录部分。

2.2 构建3DGV

论文的核心是如何构建带有 3D 几何特征的 3DGV,它是由 PSV 经过 warping 操作转换得到。3DGV 可以看做是 3D 世界坐标系的 3D 体素网格,它的大小是



















,分别沿摄像机视角的右方,下方和前方。每个体素的大小是



















2.3 Plane-Sweep Volume

在双目立体匹配中,一对左右图像














用来构造基于视差的匹配代价体(cost volume),它计算了左右图像的像素点在水平方向上的位移是视差




的匹配代价。

根据基于 cost volume 的立体匹配方法,连接左右图特征构造 PSV,它的坐标表示为










,其中








表示图像上在该位置的像素点,




表示垂直于图像平面的深度信息。那么










空间可以被称为相机坐标系

之后利用 3D Hourglass 网络进行代价聚合。对于视差/深度估计,利用可导的 soft argmin 操作来计算所有概率为  











的深度候选值的期望:

其中深度的候选值在间隔为







的预定义网格(即












,











)内均匀采样。再利用 softmax 函数使得模型为每个像素点只选择一个深度值,从而完成深度估计。

2.4 3D Geometric Volume

有了照相机坐标,在已知摄像机内参的情况下,可以利用相机投影矩阵




实现从世界坐标系到相机坐标系的转换。假设世界坐标系表示为










,而前面的相机坐标表示为










,经典的转换方法是从世界坐标系到相机坐标系:

而现在PSV的最后一层特征作为已知的相机坐标系,要想得到世界坐标系,因此需要使用相机投影矩阵的逆矩阵










其中















分别是水平方向和竖直方向的焦距,















是相机位姿参数。该操作是完全可导的,可以利用三线性差值的 warp 操作实现。

2.5 3D目标检测器

对于 3D 目标检测网络部分,作者借鉴 anchor-free 的方法 FCOS [2] 中的centerness思想,设计了一种基于距离的策略来分配目标,同时也继续保持anchor。

具体来说,令 3DGV 中的特征图大小为










,经过逐步下采样操作,得到用于鸟瞰视角的特征图




,其大小为






对于




中的每一个位置








,放置几个不同方向和大小的anchor。假设anchors用






表示,而GT目标框用






表示,那么它们的位置,预设大小和方向定义如下:

  • Anchors:

  • GT:

  • 预测值:

其中









是 anchor 方向的数量,





是每个参数学习的偏置。

沿用 FCOS 中的 centerness 思想,作者利用 anchor 和 GT 在 8 个角上的坐标距离作为目标分配的策略:

将与 GT 最近的 N 个样本作为正样本,其中













是 GT 中体素的个数,而




用来调整正样本的个数。最终的 centerness 定义如下:

其中的范数表示最小-最大归一化。

2.6 多任务训练

DSGN 的整个网络同时进行双目深度估计和 3D 目标检测,因此是一个多任务训练过程,整体 loss 如下:

对于深度估计,采用 smooth L1 loss,







是 GT 中的有效像素点,

对于 3D 目标检测的分类任务,采用 focal loss 避免样本不平衡的缺陷,











是正样本的个数,对于 centerness 采用 BCE loss。

对于 3D 目标检测的回归任务,采用 smooth L1 loss 进行回归,

实验

作者在 KITTI 3D 目标检测数据集上进行实验评测,该数据集包含 7481 张训练图像对和 7518 张测试图像对,分为 Car, Pedestrian 和 Cyclist 三种类型。下面是在测试集上的主要结果:

从表中可以看出,对于 3D 和 BEV(Bird's Eye View)目标检测,DSGN 超越了所有基于图像的 3D 目标检测器;在 2D 检测上,也仅仅比 3DOP 要差一点。

值得一提的是,DSGN 首次得到了与基于 LiDAR 的目标检测器 MV3D 相当的准确率,该结果证明至少在低速自动驾驶条件下是有应用前景的。这些都验证了 3DGV 的有效性,表明 3DGV 构建了 2D 图像和 3D 空间的桥梁。

作者将训练集分成一半训练集,一半验证集进行消融分析,下面是消融实验的结果:

从上表中可以得到以下几个结论:

  • 点云的监督是很重要的。有点云监督的结果要大大优于没有监督的情况。

  • 在有点云监督的情况下,基于双目的方法要远远优于基于单目的方法。再次证明仅仅有 3D 检测框的监督信息是不充分的,基于双目的深度信息对于 3D 检测相当重要。

  • PSV 对于 3D 结构是一种更合适的特征表示。PSCV 相比于 CV 的不同在于从相机坐标系到世界坐标系的转换,对于 3D 检测 AP 从 45.89 提升到 54.27。

  • PSV 作为一种中间编码方式能更有效地包含深度信息,因为它是深度估计网络的中间特征。

讨论和总结

Stereo RCNN [3] 是 CVPR 2019 的 3D 目标检测器,它是通过扩展 Faster RCNN,以双目图像作为输入的端到端 3D 检测器。我们可以通过比较 DSGN 和 Stereo RCNN 的不同之处来更好的理解 DSGN。

  • DSGN 是 one-stage 的目标检测器,而 Stereo RCNN 是 two-stage 的。

  • DSGN 利用了深度点云信息作为深度估计网络的监督,从而实现深度估计和3D目标检测的多任务学习,而 Stereo RCNN 仅有 3D 检测框的监督信息。这种点云监督信息使得DSGN中的 PSV 成为更好的特征表示,这可能是 DSGN 性能大大提升的根本所在。

  • 从目标检测的角度看,二者都采用了 anchor,不过 DSGN 借鉴了 anchor-free 的 centerness 思想,使得检测性能更优。

参考文献

[1] Jia-Ren Chang and Yong-Sheng Chen. Pyramid stereo matching network. In CVPR, pages 5410–5418, 2018.

[2] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. Fcos: Fully convolutional one-stage object detection. 2019.

[3] Peiliang Li, Xiaozhi Chen, and Shaojie Shen. Stereo r-cnn based 3d object detection for autonomous driving. In CVPR, pages 7644–7652, 2019.

点击以下标题查看更多往期内容:

  • 变分推断(Variational Inference)最新进展简述

  • 变分自编码器VAE:原来是这么一回事

  • 图神经网络三剑客:GCN、GAT与GraphSAGE

  • 如何快速理解马尔科夫链蒙特卡洛法?

  • 深度学习预训练模型可解释性概览

  • ICLR 2020:从去噪自编码器到生成模型

#投 稿 通 道#

 让你的论文被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。

???? 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志

???? 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site

• 所有文章配图,请单独在附件中发送

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通

????

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

关于PaperWeekly

PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。

CVPR 2020 | 港中文提出3D目标检测新框架DSGN相关推荐

  1. 何恺明团队最新研究:3D目标检测新框架VoteNet,两大数据集刷新最高精度

    [导读]FAIR何恺明等人团队提出3D目标检测新框架VoteNet,直接处理原始数据,不依赖任何2D检测器.该模型设计简单,模型紧凑,效率高,在两大真实3D扫描数据集上实现了最先进的3D检测精度. 当 ...

  2. ECCV20 3D目标检测新框架3D-CVF

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 前言 这一篇文章主要介绍一篇发表在ECCV20上的采用多模态融合的3D目标检测的文章,并总结一下目前多 ...

  3. anchor free 目标检测_CVPR 2020 | 商汤提出 Anchor-free 目标检测新网络

    2 动机 1.现有的基于关键点的目标检测网络(如CornerNet.CenterNet.ExtremeNet等)通过使用关联嵌入向量进行物体关键点的匹配,然而关联嵌入向量具有训练难度大且容易混淆同类物 ...

  4. CVPR2020 | 商汤-港中文等提出PV-RCNN:3D目标检测新网络

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 作者:不一样的子湘 知乎链接:https://zhuanlan.zhihu.com ...

  5. 更快更精准的感知,元戎启行提出基于LiDAR的3D物体检测新框架|CVPR 2020

    近日,L4级自动驾驶解决方案提供商元戎启行的一篇关于3D物体检测的论文被CVPR2020收录,论文题为"HVNet: Hybrid Voxel Network for LiDAR Based ...

  6. ECCV 2020论文大盘点-3D目标检测篇

    随着自动驾驶的火热,3D目标检测在计算机视觉领域持续升温,学术和工业界都有众多研究学者,这其中基于点云数据的3D目标检测是主流,近年来基于单目RGB数据的也越来越多了.本部分总计 21 篇,1篇spo ...

  7. CVPR 2020丨基于点云的3D物体检测新框架

    关注上方"深度学习技术前沿",选择"星标公众号", 资源干货,第一时间送达! 本文介绍的是CVPR2020入选论文<HVNet: Hybrid Voxel ...

  8. CVPR | 基于LiDAR的3D物体检测新框架

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :元戎启行 近日,L4级自动 ...

  9. 纯视觉3D目标检测新SOTA!STS:基于Camera的深度估计新方法

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心技术交流群 后台回复[领域综述]获取自动驾驶全栈近80篇综述论文! 论文链接:https ...

最新文章

  1. virtualbox不能识别u盘等移动设备
  2. ML之FE:基于load_mock_customer数据集(模拟客户,单个DataFrame)利用featuretools工具实现自动特征生成/特征衍生
  3. 搜索引擎学习(七)解析查询
  4. java中文乱码问题的原因是什么?怎么解决中文乱码问题?
  5. SAP Spartacus Org Unit明细页面的设计原理
  6. 莫比乌斯反演/容斥 +2020ICPC 江西省大学生程序设计竞赛 A Simple Math Problem
  7. 序列化加密字段_自动加密可序列化的类
  8. html实现websocket协议,HTML5实现WebSocket协议原理浅析
  9. Mac 上管理多个 java 版本
  10. fiddler4请求拒绝原因
  11. matlab的ism实现,ism模型的matlab实现
  12. ie浏览器打不开闪退_点开IE浏览器的时候总是闪退
  13. 自动驾驶中ROS操作系统的重要性
  14. 个人总结的Git操作
  15. 从技术新趋势到云原生应用开发,云计算下一个十年将走向何方
  16. 【Turtle合集】提前祝大家圣诞快乐,我为大家献歌一首,叮叮当,叮叮当,穷的响叮当——快开门,我送礼物来了哟~(圣诞树代码)
  17. THREE 使用Tween插件实现动画
  18. Bumped Map And Normal Map
  19. c++软件开发面试旋极面试题_北京旋极信息技术股份有限公司2015招聘
  20. 如何对比手机、买手机??

热门文章

  1. 叉叉助手停运有什么替代的_亚马逊全球开店助手将停止服务!卖家:终究是错付了...
  2. ASP.NET MVC 4 (九) 模型绑定
  3. namespace mismatch错误处理方法
  4. 微信公众平台帐号通过昵称无法搜索到怎么办
  5. www.javaei.com网站建设手记——(15)h2p被开源中国收录为开源项目
  6. linux ffmpeg 64下载,linux ffmpeg 怎么编64位
  7. zincrby redis python_【Redis数据结构 序】使用redispy操作Redis数据库
  8. p沟道mos管导通条件_通俗易懂:MOS管基本知识(快速入门)
  9. esxi 7.0 封装瑞昱网卡驱动_小科普 | 无线网卡怎么选?
  10. linux ftp 后台执行,Linux环境CENTOS下apache-ftpserver搭建配置及后台启动