目录

摘要:

1.介绍

2.背景

3.视差估计

3.1 Continuous disparity network (CDN)

3.2 Learning with Wasserstein distances【https://zhuanlan.zhihu.com/p/58506295】

3.3 Extension: learning with multi-modal ground truths

4. 实验

4.2 实施的详细信息

Stereo disparity.

The offset sub-network.

Multi-modal ground truths.


摘要:

问题:

现有的深度或视差估计方法输出一个在一组预定义的离散值上的分布。当真正的深度或视差与任何这些值都不匹配时,这会导致不准确的结果。这种分布通常是通过回归损失间接学习的,这在对象边界周围的模糊区域造成了进一步的问题。

1.介绍

现有的方法主要通过回归损失来学习分布:最小化平均值和地面真值[12,51]之间的距离。换句话说,没有直接的监督来教模型围绕真相深度分配更高的概率。

提出:

1.一种新的立体视差估计神经网络架构,它能够输出任意视差值上的分布,从中我们可以直接获取模式并绕过均值。与现有的工作一样,我们的模型预测了一个预定义的离散集中的每个离差值的概率。此外,它还预测了每个离散值的实值偏移量。这种简单的预测偏移量加法使我们能够在推理过程中使用该模式作为预测,而不是平均值,从而保证所预测的深度具有较高的估计概率。图2说明了我们的模型,连续视差网络(CDN)。

2.一种新的损失函数,它在训练过程中提供了一个更有信息性的目标。具体地说,我们允许单模态或多模态的地面真实深度分布(从附近的像素获得),并表示它们为Dirac delta functions的(混合)。然后,学习的目标是最小化预测的真实分布和地面真实分布之间的散度。注意到这两个分布可能没有共同的支持,我们应用Wasserstein distance[39]来测量散度。

我们提出的方法在数学上都有充分的基础,实际上也非常简单。它与大多数现有的立体深度或视差估计方法兼容——我们只需要添加一个额外的偏移分支,用Wasserstein distance取代常用的回归损失。我们使用多个现有的立体网络[4,51,54]在三个任务验证了我们的方法:立体视差估计[25]、立体深度估计[9]和三维目标检测[9]。最后一个是使用立体深度作为输入来检测三维对象的下游任务。我们进行了全面的实验,并表明我们的算法在这三个任务中都有了显著的改进。

2.背景

立体声深度估计技术通常首先估计像素单位的视差,然后利用倒数关系来近似深度。基本方法是将左图像Il中的像素(u、v)与右图像Ir中的像素(u、vd)进行比较,并找到最佳匹配。由于像素坐标被约束为整数,因此d也被约束为一个整数。因此,估计的视差是一个整数,迫使估计的深度是少数几个离散值之一。

3.视差估计

我们指出了取平均估计的两个缺点:

1.首先,当预测的分布为多模态时,平均值可能会偏离模式,并可能错误地预测低概率值(见图3)。这种多模态分布经常出现在对象边界周围的像素上。虽然它们总共只占图像像素的一小部分,但最近的研究表明了它们在三维对象检测[18,19,31]等下游任务中的特别重要性。

2.其次,平均值的物理意义绝不是与真正的差距:不确定性对应可能产生40%的机会差距为10像素和60%的机会差距为20像素,但这并不意味着差距应该是16像素。

图3.对象边界上一个像素的预测后视差。单模态假设可以分解,导致一个在低概率区域的平均估计。学习偏移量允许我们预测连续模式。(补偿在[0,1]中。)

3.1 Continuous disparity network (CDN)

我们的网络的输出仍然将是一组具有相应概率的离散值,但离散值将不限于整数。关键的想法是从integral disparity values开始,除了概率之外还预测偏移。

用D表示integral disparity values的集合。如上所述,视差估计技术会为每个d∈D产生一个成本Sdisp(u、v、d)。softmax可将此成本转换为概率分布:

我们建议添加一个子网络b(u、v、d),它可以预测每个像素(u、v)处的每个d∈D的一个偏移视差值。

我们使用它来将d∈D处的概率质量移为d'=db(u,v,d)。由此导致了以下概率分布:

这是在任意视差值d'上的Dirac delta functions的混合物。

在我们的实现中,子网络b(u、v、d)与Sdisp(u、v、d)共享其特征和计算,除了完全连接或卷积层的最后一个块。

3.2 Learning with Wasserstein distances【https://zhuanlan.zhihu.com/p/58506295】

分布之间有许多流行的散度测量方法,如KL散度、JS散度, total Variation, the Wasserstein distance等。在本文中,我们选择the Wasserstein distance是出于一个特殊的原因:p˜(d'|u,v)和p*(d'|u,v)可能没有任何共同的支持。

在一个度量空间(X、d)上的两个分布µ、ν之间的Wasserstein-p distance被定义为:

其中,Γ(µ,ν)表示所有联合分布γ(x,y)的集合,其边际分布γ(x)和γ(y)分别恰好为µ和ν。直观上,γ(x,y)表示为了将分布µ转换为ν,需要从x到y传输多少“质量”。估计瓦瑟斯坦的距离通常是非常平凡的,需要解决一个线性规划问题。一个特殊的例外是,当µ和ν都是一维变量的分布时,这就是我们在视差值上的分布的情况。具体来说,当ν是一个Dirac delta functions时,其支持点位于y*,Wasserstein-p distance可以简化为:

3.3 Extension: learning with multi-modal ground truths

学习匹配分布的一个特殊优点是,允许在单个像素位置使用多个地面真值(即多模态地面真值分布)。D*为一个像素(u、v)处的地面真值视差值集时,地面真值分布变为:

从p*(d'|u,v)不是一个Dirac delta functions,我们不能再应用方程8,而是应用下面的方程来比较两个一维分布[27,32,42]:

P˜和P*分别为p˜和p*的累积分布函数(CDFs)。对于案例p=1,我们可以将方程式11重写为[38]:

我们注意到,方程11和方程12都可以计算出系数。

虽然现有的数据集并没有直接提供多模态的地面真理,但我们研究了以下过程来构造它们。对于每个像素,我们考虑一个k×k邻域,并通过将中心像素视差设置权重α,其余的分别为(1−α)/(k×k−1)来创建一个多模态分布。我们在实验中设置了k=3和α=0.8。我们的实证研究表明,使用多模态的地面真值可以导致更快的模型收敛速度。

4. 实验

4.2 实施的详细信息

我们主要使用W1损失来训练我们的CDN模型。

Stereo disparity.

我们将我们的连续视差网络(CDN)体系结构应用于PSMNet[4]和GANet[54],即CDN-PSMNET和CDN-GANET。

The offset sub-network.

我们使用Conv3D-Relu-Conv3D块实现b(u、v、d)。它以Sdisp(u、v、d)的最后一个全连接或卷积块之前的4D成本体积作为输入。

Multi-modal ground truths.

略~

【菜鸟学习论文】2020_Wasserstein Distances for Stereo Disparity Estimation相关推荐

  1. 【菜鸟学习论文】2020_Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching

    目录 摘要 2 相关工作 立体匹配: 3 方法 3.1 构建成本体积 立体匹配中的三维成本体积 3.2 级联成本量 假设的范围 假设的平面时间间隔 假设平面数 空间分辨率 扭曲操作 3.3 特征金字塔 ...

  2. 论文阅读《Revisiting Stereo Depth Estimation From a Sequence-to-Sequence Perspective with Transformers》

    论文地址:https://ieeexplore.ieee.org/document/9711118 源码地址:https://github.com/mli0603/stereo-transformer ...

  3. 论文阅读《Learning for Disparity Estimation through Feature Constancy》

    网络结构:(主要是对CRL的改进) 主要贡献: 1 将立体匹配的所有步骤合并到一个网络来改善准确性和有效性 2 使用特征恒量的用于视差优化的子网络 三个阶段:特征提取-> 代价计算.聚合和视差估 ...

  4. 论文阅读:Disp R-CNN:Stereo 3D Object Detection via Shape Prior Guided Instance Disparity Estimation

    Disp R-CNN: Stereo 3D Object Detection via Shape Prior Guided Instance Disparity Estimation 摘要(理解) 作 ...

  5. 深度学习论文: Computer Vision for Road Imaging and Pothole Detection: A State-of-the-Art Review

    深度学习论文: Computer Vision for Road Imaging and Pothole Detection: A State-of-the-Art Review of Systems ...

  6. 【论文简述及翻译】Learning for Disparity Estimation through Feature Constancy(CVPR 2018)

    一.论文简述 1. 第一作者:Zhengfa Liang.Yiliu Feng 2. 发表年份:2018 3. 发表期刊:CVPR 4. 关键词:CNN.端到端训练.视差改进.特征恒量.视差估计 5. ...

  7. 自然语言菜鸟学习笔记(七):RNN(循环神经网络)及变体(LSTM、GRU)理解与实现(TensorFlow)

    目录 前言 RNN(循环神经网络) 为什么要用循环神经网络(RNN)? 循环神经网络(RNN)可以处理什么类型的任务? 多对一问题 一对多问题 多对多问题 循环神经网络结构 单层网络情况 正向传播 反 ...

  8. 【论文阅读】12-PatchMatch Stereo - Stereo Matching with Slanted Support Windows

    [论文阅读]12-PatchMatch Stereo - Stereo Matching with Slanted Support Windows 0 basic information 1 aims ...

  9. Spark菜鸟学习营Day5 分布式程序开发

    Spark菜鸟学习营Day5 分布式程序开发 这一章会和我们前面进行的需求分析进行呼应,完成程序的开发. 开发步骤 分布式系统开发是一个复杂的过程,对于复杂过程,我们需要分解为简单步骤的组合. 针对每 ...

  10. Github标星24k,127篇经典论文下载,这份深度学习论文阅读路线图不容错过

    作者  | Floodsung 翻译 | 黄海广 来源 | 机器学习初学者(ID:ai-start-com) [导读]如果你是深度学习领域的新手,那么你可能会遇到的第一个问题是"我应该从哪篇 ...

最新文章

  1. 【JAVA小游戏+水果售卖系统】基于GUI界面编程的水果“人生”模拟系统
  2. 梦心日记本V2.0完工
  3. 如何编写一个npm包,可以公共使用?
  4. Javascript操作DOM常用API总结
  5. C++阶段01笔记08【结构体(基本概念、定义与使用、数组、指针、嵌套、const使用)】
  6. postman新手使用教程
  7. [转载] 用 C++ 和 Java 写算法,差别大吗?
  8. Java反射机制demo(三)—获取类中的构造函数
  9. 进销存系统怎么部署到自己服务器,进销存软件云存储和自建服务器
  10. 网页打印和ActiveX控件打印
  11. 汽车行业营销案例(共13份)
  12. 神之bug 嵌套RecyclerView谜之滚动
  13. nginx配置文件的基本参数略解
  14. OJ old1226 算法提高 质数的后代
  15. 无人机专业实训室建设方案
  16. 跑鸭”微信小程序-一款基于校园跑步的社交小程序
  17. java山地车火山_2019“JAVA(佳沃)杯”第十届凤凰山山地自行车挑战赛
  18. 老陈---谈Delphi中SSL协议的应用
  19. 80老翁谈人生(324):关于网络安全的迷思
  20. linux 下exfat分区,exFAT 文件系统指南

热门文章

  1. 华为HCNA中vlan笔记
  2. 外币兑换c语言编程,货币转换 C
  3. python dot_graphviz,dot,及dot图可视化
  4. JS之flatten手写实现
  5. Codeforces Round #469 (Div. 2) C、 Zebras
  6. Autovue v21.0.2新功能简介
  7. win7看视频卡顿或声音画面不同步的解决步骤
  8. html文字溢出怎样处理,css文本溢出处理
  9. pygame之surface
  10. PHPUnit 在 Windows下的安装