任务感知单目深度估计的3D目标检测
标题:Task-Aware Monocular Depth Estimation for 3D Object Detection
作者:Xinlong Wang1∗, Wei Yin1, Tao Kong2, Yuning Jiang2, Lei Li2, Chunhua Shen1
机构:1The University of Adelaide, Australia 2Bytedance AI Lab
来源:CVPR 2019
编译:万应才
审核: Yiru
转载:泡泡机器人SLAM
摘要
大家好,今天为大家带来的文章是 Task-Aware Monocular Depth Estimation for 3D Object Detection
单目深度估计能够从单个二维图像中进行三维感知,因此多年来受到了广泛的研究关注。几乎所有的方法都平等地对待图像中的前景和背景区域(“东西”)。但是,并非所有像素都相等。前景物体的深度在三维物体识别和定位中起着至关重要的作用。迄今为止,如何提高前景物体的深度预测精度还很少被讨论。本文首先分析了前景和背景的数据分布和相互作用,然后提出了前景-背景分离的单目深度估计(prevent)方法,利用分离的优化目标和译码器来估计前景和背景的深度。该方法显著提高了前景物体的深度估计性能。将预见技术应用到三维目标检测中,获得了7.5ap增益,在其他单目方法中取得了新的进展。代码将在以下位置提供:
图1 :前景深度低精度预测实例。对于每一行,左边的图片是从地面真深度图和RGB图像转换的投影点云;右图为鸟瞰特写,将基线深度估计方法预测的深度(绿色)与地面真实值(白色)进行比较。目标位置和形状的不精确对三维识别、定位和方向估计提出了挑战。
作者对深度的分布进行了调查,前景和背景的区分得出一下的结论:
1.前景像素趋向于聚合,带来越来越大的深度变化,看起来像三维空间中的截锥,而不是像道路和建筑物这样的平面。 2.前景像素只占整个场景的一小部分。例如,在KITTI对象数据集中(Geiger et al.2013),90.6%的像素属于背景,而只有9.4%的像素属于前景。 3.并非所有像素都相等。
主要工作与贡献
我们对单目深度估计中前景和背景的差异和相互作用进行了开创性的讨论。我们发现不同的前景和背景深度模式会导致前景像素的次优结果。
我们建议预见,分别学习和预测前景和背景深度。具体地说,它包含了用于前景和背景区域的独立深度解码器、用于优化相应解码器的目标敏感损失函数以及简单而有效的前景-背景合并策略。
通过提出的预见,我们能够预测更优越的前景深度,而背景深度不受影响。此外,利用预测的深度图,我们的模型在三维目标检测任务中获得了7.5ap增益,有效地验证了我们的动机。
算法流程
1.KITTI数据集分析
•前景和背景深度具有不同的深度值分布、深度梯度分布和形状模式;
•前景和背景深度因其共同的相似性而相互加强;
•前景和背景深度估计的优化目标不匹配。
图3 前景和背景样本的相互作用。报告了前景和背景区域的深度估计结果(SILog)(越低越好)。前景物镜的重量在x轴上。
分割的目标
在密集预测任务中,通常损失函数可以表示为:
结果由CNN生成,CNN只有一个深度预测解码器,但目标函数是分离的。什么时候λ 设置为0,意味着只使用背景样本来监督训练,前景的结果变得很差。同样地,当出现以下情况时,在后台的性能会急剧下降:λ 设置为1.0。验证了前景深度和背景深度的分布是不同的。
2.ForeSeE
图4 整个管道的图示(a) 前景背景分离深度估计(b) 三维物体检测。
2.1 深度解码
我们在基线方法的基础上构造了一个额外的解码器(Wei等人,2019),因此有两个具有相同结构的并行解码器。其中一个解码器用于前景深度预测,而另一个解码器用于估计背景深度。具体来说,对于大小为H的图像× W型× 3,每个解码器输出一个大小为H的张量× W型× C、 其中C是深度范围类别的数量。
前景区域是从前景深度解码器的输出中裁剪出来的。背景深度范围的预测也是用同样的方法得到的。全局深度范围预测由前景和背景区域的无缝合并生成。然后使用软加权和策略将深度范围预测转换为最终深度图。
2.2 Foreground-background敏感损失函数
我们进一步加权前景和背景样本。无论是前景分支还是背景分支,损失函数都是前景样本和背景样本的加权平均,但偏差不同。这里,我们将监督前台分支的损失函数定义为:
2.3 Inference without Mask
在这里,我们提出了一种无掩模合并方法,使得一旦训练完成,就不再需要二进制掩模。在softmax操作之前,对前景和背景输出应用max池操作,该操作表示每个范围类别的置信度分数。对于每个像素的每个范围类别,保留前景和背景输出之间的最高置信分数,作为最终预测。
实验结果
1.实时细节
对于深度估计,我们遵循基线方法中的大多数设置(Wei等人,2019)。ImageNet预训练ResNeXt-101(Xie et al.2017)用作主干模型。我们对网络进行20个阶段的训练,批量大小为4,基本学习率设置为0.001。采用随机梯度下降(SGD)算法在单个GPU上对网络进行优化。λf和λb前台背景敏感损失函数设置为0.2。给定一个预测的深度图,基于针孔相机模型重建点云。我们将每个像素(UI,vi)与深度值di转换成左摄像机坐标中的3D点(xi,yi,zi)如下:
2.深度估计结果
3. 3D目标检测
点击阅读原文, 即可获取本文下载链接。
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「3D视觉工坊」公众号后台回复:3D视觉,即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。
下载2
在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总,即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。
下载3
在「3D视觉工坊」公众号后台回复:相机标定,即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配,即可下载独家立体匹配学习课件与视频网址。
重磅!3DCVer-学术论文写作投稿 交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。
一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
任务感知单目深度估计的3D目标检测相关推荐
- 【研究报告】从单目深度估计到单目三维场景重建-沈春华老师-VALSE Webinar 22-13(总第279期)
从单目深度估计到单目三维场景重建-沈春华老师-VALSE Webinar 22-13(总第279期) 报告总结 & 相关论文 论文代码 相关术语 前言 研究问题 单目深度估计 单目三维场景重建 ...
- 粒度语义感知表示增强的自监督单目深度估计 Fine-grained Semantics-aware Representation Enhancement
Fine-grained Semantics-aware Representation Enhancement for Self-supervised Monocular Depth Estimati ...
- 单目深度估计方法:现状与前瞻
今天为大家推荐的是<中国图象图形学报>2019年第12期论文<单目深度估计技术进展综述>,该文由中国图象图形学学会成像探测与感知专委会组织,北京理工大学刘越教授等学者撰写,对国 ...
- 2019CVPR单目深度估计综述
2019CVPR单目深度估计综述 Recurrent MVSNet for High-resolution Multi-view Stereo Depth Inference Geometry-Awa ...
- ECCV2022 | 基于整合IMU运动动力学的无监督单目深度估计
点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心技术交流群 0. 引言 虽然近年来无监督单目深度学习取得了很大的进展,但仍然存在一些基本 ...
- 基于深度学习的单目深度估计综述
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 文章:Monocular Depth Estimation Based On Deep Learnin ...
- 夜间奇异规范:夜间高效自监督单目深度估计(ICCV 2021)
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨泡泡机器人 来源丨 泡泡机器人SLAM 标题: Regularizing Nighttime W ...
- 基于高分辨率的单目深度估计网络(AAAI2021)
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 作者丨图灵智库 来源丨 泡泡机器人SLAM 标题: HR-Depth:High Resolution ...
- 单目深度估计方法综述
点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 一 相关概念介绍 1. 深度估计 深度估计,就是获取图像中场景里的每个点到相机的距离信息,这种距离信息 ...
最新文章
- 将 CentOS 8 操作系统迁移到 Oracle Linux
- Codeforces Round #515 (Div. 3)【未完结】
- PTA团体程序设计天梯赛篇(一)----模拟专题
- 基于JavaSpringboot+Vue实现前后端分离房屋租赁系统
- css 30 常用选择选择器
- 是否应该扔掉就代码,重写整个软件?
- 100内奇数之和流程图_JavaScript基础教程(六)流程控制之循环语句
- codeforce #165 div2
- python exec_Python exec()
- 计算机抓取整个屏幕的按键,技术员搞定电脑截全屏快捷键【搞定方法】
- 带图傻瓜式自己动手修改新浪微博各种尾巴
- OA项目实战学习(3)——实现岗位管理增删改查
- ipad协议8.34最新版本
- 什么是面向对象编程(OOP)?
- UVA1616 Caravan Robbers
- 5G通信系统中FBMC-OQAM吞吐量的matlab仿真
- 咸鱼Micropython—GPIO
- github push 出错:fatal: Authentication failed for 'https://github.com/ ..的解决
- free Code Camp Slasher Flick(截断数组)
- 数据建模-如何设计概念模型?