点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

文章导读

导读:随着计算机视觉技术的不断发展,特别是自动驾驶等一些前沿的研究中,图像的深度信息至关重要。而单目测距得益于低成本的特性,受到了研究者们的青睐。小编最近也在学习单目测距的知识,与大家分享一篇BTS的单目测距方法,让我们一起来学习一下。

Part 01

单目和双目测距原理的区别

单目和双目是二种不同形式的摄像头,他们都能够通过采集到的图像,经过计算,从而获得距离信息,但二者的测距原理截然不同。单目测距一般称为深度估计,精度相对较低。单目测距是通过图像匹配来实现目标识别,然后通过目标在图像中的大小来估计目标距离。而双目测距是通过二幅图像之间的视差图来实现距离的计算,该方法无需识别目标的类型,且精度相比单目测距要更准确。

Part 02

单双目测距的优缺点

单目测距的优势是成本较低,系统结构简单,且对计算量的需求不高。但其缺点在于需要更新和维护一个庞大的样本数据库,才能保证较高的识别率,整体的测距准确度较低。

双目测距的优势在于精度较高,其直接利用视差图的原理直接进行测距,无需维护样本数据库,且整理的测距精度较高。其缺点在于双目测距的成本要比单目高,同时双目系统对计算性能的要求非常高,通常需要配备专用的图像处理芯片。

Part 03

单目测距的难点

单目测距是一个不适定的问题,因为有无限多个3D场景可以投影到同一2D场景。为了从单幅图像中理解几何配置,人们不仅需要考虑局部线索,还需要考虑全局上下文。

注:适定问题(well-posed problem)和不适定问题(ill-posed problem)都是数学领域的术语。前者需满足三个条件,若有一个不满足则称为"ill-posed problem":

(1) a solution exists:解必须存在

(2) the solution is unique :解必须唯一

(3) the solution's behavior changes continuously with the initial conditions:解能根据初始条件连续变化,不会发生跳变,即解必须稳定

Part 04

 BTS方法的提出

卷积神经网络通常有2个部分组成,即用于密集特征提取的编码器和用于预测期望深度的解码器。在编解码器的方案中,重复的跨步卷积和空间池化层降低了过度输出的空间分辨率,并采用跳跃连接或多层反卷积网络技术将分辨率恢复到原始分辨率,从而实现有效的密集预测, 目前大部分网络恢复特征图到原始分辨率的方法都较为直接,会损失信息,这也是BTS论文中改进的核心内容。

BTS网络结构如下图所示:

BTS网络结构图

网络的结构包含:encoder结构、跳跃连接、多孔空间金字塔池化(ASPP)和LPG层。

BTS的创新点:提出了一种局部平面指导层的网络结构(local planar guidance layers),将解码阶段的不同尺度的特征与最终的深度预测关联起来。通常的编解码器都是在解码最终的输出中施加训练损失的约束以输出深度图,小编觉得,本文提出的LPG层网络结构有应该起到了在网络中施加约束的作用。

网络的性能表现:截至目前,BTS的方法在KITTI单目深度估计的榜单中排行第7,推理速度为60ms,实现了在精度和速度上的平衡。

Part 05

LPG层的具体实现

LPG网络层提出的核心思想: 区别于传统的方法简单的使用最近邻上采样和跳跃连接来恢复图像到原始的尺寸,BTS的方法以一种有效的方式(LPG layers)定义内部特征和最终输出之间直接和明确的关系,将特征引导到全局分辨率,并将他们结合起来得到最终的深度估计。

具体的做法: 给定一个空间分辨率为H/K的特征映射,所提出的LPG层对每个空间单元估计一个4D平面系数,平面的大小与特征分辨率对应。该系数适合全分辨率 H 上局部定义的 k × k patch,并且它们通过最后的卷积层连接在一起以进行最终预测。例如,输入特征分辨率是1/4时,每个位置输出的4D向量会拟合一个4*4的平面。简单来说,4D平面系数会拟合一个比输入特征分辨率更大的平面,这样,尽管输入的特征图分辨率不同,但最终都会输出大小相同的一张平面图。LPG层的示意图如下:

(1)   使用1×1的卷积进行通道数的降低,每进行一次1×1的卷积通道数减少2倍,直至channel=3,因为彩色图像的通道数为3,至此得到一个H/K×H/K×3的特征映射。

(2)   Channel1和channel2的代表了平面法向量的2个自由度,分别是polar(θ)和azimuthal angles(φ),接下来将特征图的前二个通道视为角度,并使用如下的公式将他们转换为单位法向量。

Channel3代表 plane和origin的垂直距离(perpendicular distance)。

(3)   经过变换,每一个像素都会对应一组4D向量(n1,n2,n3,n4)。

(4)   为了使用局部平面假设来指导特征,使用射线平面相交的方法来将每个估计的4D平面系数转换为K×K局部深度线索。转换公式如下图所示,其中(ui, vi) 是像素 i 的 k × k 逐块归一化坐标,c是最终的拟合结果。

Part 06

实验

评价指标:

实验结果:作者在2大公开的数据集:KITTI和NYU Depth V2上进行了实验,以下是具体的实验结果。

Part 07

总结

文中作者研究了enconde-decoder结构,分析了现有方法decoder部分进行暴力上采样的缺点。提出了LPG网络层的结构,通过将decoder阶段不同尺度的特征与最终的输出深度预测关联起来,实现了对特征的更充分和有效的利用,从而提升的网络的整体效果,小编觉得该模块可以迁移到其他的任务中进行使用,对网络的性能提升应该也有帮助。

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列、手眼标定、相机标定、orb-slam3知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~ 

低成本测距方案—单目深度估计相关推荐

  1. 【研究报告】从单目深度估计到单目三维场景重建-沈春华老师-VALSE Webinar 22-13(总第279期)

    从单目深度估计到单目三维场景重建-沈春华老师-VALSE Webinar 22-13(总第279期) 报告总结 & 相关论文 论文代码 相关术语 前言 研究问题 单目深度估计 单目三维场景重建 ...

  2. 【2022集创赛】飞腾杯二等奖作品:基于单目深度估计网络的全息显示终端

    本篇文章是2022年第六届全国大学生集成电路创新创业大赛飞腾杯二等奖作品分享,参加极术社区的**[有奖征集]分享你的2022集创赛作品,秀出作品风采**活动. 1.团队介绍 参赛单位:西安电子科技大学 ...

  3. 重磅!单目深度估计方法:算法梳理与代码实现

    应用背景介绍 在自动驾驶中,如何获取车辆行人等目标的深度信息,是当前很多研究中较为重要的技术点,如3D重建,障碍物检测,SLAM等等.传统上,获取高精度目标深度信息的方法,通常是利用激光雷达或结构光在 ...

  4. CVPR2021单目深度估计:腾讯光影研究室优势夺冠,成果落地应用

    计算机视觉研究院专栏 来源:机器之心,作者:Edison_G MAI(Mobile AI Workshop)是由 CVPR 主办的 Workshop 竞赛.MAI 2021 挑战赛赛已于 2021 年 ...

  5. CVPR单目深度估计竞赛结果出炉,腾讯光影研究室优势夺冠,成果落地应用

    作者丨Edison_G 来源丨机器之心 MAI(Mobile AI Workshop)是由 CVPR 主办的 Workshop 竞赛.MAI 2021 挑战赛赛已于 2021 年 2 月至 4 月线上 ...

  6. Adabins:Transformer+单目深度估计

    Adabins:Depth Estimation using Adaptive Bins 摘要 1.Introduction 2.Related Work 3.Methodology 3.1 Moti ...

  7. 单目深度估计 | Learning Depth from Monocular Videos using Direct Methods 学习笔记

    文章目录 摘要 1. 论文主要贡献: 2. 从视频中学习预测深度 2.1 尺度模糊 2.2 建模姿态估计预测器 3. 可微分直接视觉测距法 3.1 直接视觉测距法(DVO) 3.2 可微分的实现 4 ...

  8. ECCV2022 | 基于整合IMU运动动力学的无监督单目深度估计

    点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取 点击进入→自动驾驶之心技术交流群 0. 引言 虽然近年来无监督单目深度学习取得了很大的进展,但仍然存在一些基本 ...

  9. 粒度语义感知表示增强的自监督单目深度估计 Fine-grained Semantics-aware Representation Enhancement

    Fine-grained Semantics-aware Representation Enhancement for Self-supervised Monocular Depth Estimati ...

最新文章

  1. hbase 修改表名_HBase学习——2.HBase原理
  2. iOS病毒XcodeGhost批量检测工具,开源Github(检测ipa文件)
  3. Ubuntu 18.04 安装 redis入门使用
  4. java excel api xlsx_Java 解析Excel(xls、xlsx两种格式)
  5. Love:程序猿的方式~【情人节520—我爱你】~动画加音效 → 那些年最浪漫的表白(帮你得到你的她)
  6. 最优化学习笔记(十八)——拟牛顿法(4)DFP算法
  7. 一篇夯实一个知识点系列--python实现十大排序算法
  8. mysql 字段操作_Mysql:数据库操作、数据表操作、字段操作整理
  9. linux 安装vsftpd服务器,linux安装vsftpd和vsftpd配置步骤
  10. weblogic 替换默认错误页面_weblogic 部署后出现Error 404–Not Found
  11. spyder python调试查看类信息_使用Spyder进行Python调试
  12. WebApp列表:15个个性化礼物定制服务
  13. php发送exmail邮箱,php引入PHPMailer发送邮件
  14. python程序设计与案例教程王小银_《Python程序设计与案例教程》王小银著【摘要 书评 在线阅读】-苏宁易购图书...
  15. 全闪存存储、混合闪存存储
  16. 【只摘金句】Linux开发模式带给我们的思考
  17. 7-75 正方体表面积计算
  18. 小技能:监控器查看视频录像回放
  19. 爬取大众点评数据的血泪史
  20. 下载python包的三种方式

热门文章

  1. sqlserver 自增ID插入指定数据
  2. VMware的网卡设置模式
  3. DELL R710 服务器内存排错
  4. 还在为cximage编译问题而发愁吗?
  5. 万字长文从 0 详解 Istio
  6. 容器环境红队手法总结
  7. 实战!聊聊如何解决MySQL深分页问题
  8. Docker员工自述:我们为什么“输”给了Kubernetes?
  9. 去一家小公司从0到1搭建后端架构,做个总结!
  10. 谈谈近况,谈谈自由职业,谈谈金饭碗