目录

摘要

2 相关工作

立体匹配:

3 方法

3.1 构建成本体积

立体匹配中的三维成本体积

3.2 级联成本量

假设的范围

假设的平面时间间隔

假设平面数

空间分辨率

扭曲操作

3.3 特征金字塔

3.4 损失函数

4. 实验

4.2 立体匹配

Implementation


摘要

问题:构建三维成本体积来规范和回归深度或视差,会受到高分辨率输出的限制,随着体积分辨率的增加,内存和时间成本会随着体积分辨率的增加而增加。

方案:首先,提出的成本体积是建立在一个特征金字塔编码几何和上下文在逐渐较细的尺度。然后,通过对上一阶段的预测,我们可以缩小每个阶段的深度(或视差)范围。随着越来越高的成本体积分辨率和深度(或视差)间隔的自适应调整,输出将以更粗到更精细的方式恢复。

2 相关工作

立体匹配:

一个典型的立体匹配算法包括四个步骤:匹配成本计算、匹配成本聚合、视差计算和视差细化。局部方法将相邻像素的匹配成本聚合,通常利用赢家所有策略来选择最优视差。全局方法构造了一个能量函数,并试图将其最小化,以找到最优的视差。

在GCNet中首次提出了广泛使用的立体三维成本体积,其中视差回归步骤使用soft argmin操作来求出最佳匹配结果。PSMNet进一步引入了金字塔空间池和三维沙漏网络,以实现成本体积正则化,并产生了更好的结果。GwcNet修改了三维沙漏的结构,并引入了组明智的相关性,形成了一个基于组的三维成本体积。HSM用层次设计构建了一个高分辨率图像的光模型。GANet构造了几个半全局聚合层和局部引导聚合层,以进一步提高其精度。DeepPruner是一种粗到细的方法,该方法提出了一个基于可微的补丁匹配的模块来预测每个像素的剪枝搜索范围。

虽然基于三维成本量的方法显著地提高了性能,但它们仅限于下采样的成本量,并依赖于插值操作来产生高分辨率的差异。我们的级联成本量可以与这些方法相结合,以提高视差精度和GPU内存效率。

3 方法

3.1 构建成本体积

构建3D成本体积需要三个主要步骤:首先,确定离散假设深度(或视差)平面。然后,我们将提取的每个视图的二维特征扭曲到假设平面上,构造特征卷,最后融合在一起构建三维成本卷。

像素计算成本计算通常在固有的不适态区域中是模糊的,如遮挡区域、重复模式、无纹理区域和反射表面。为了解决这个问题,通常引入多尺度的三维CNNs来聚合上下文信息,并规范可能被噪声污染的成本量。

立体匹配中的三维成本体积

PSMNet使用视差水平作为假设平面,视差的范围是根据特定的场景来设计的。由于左右图像已被校正,因此坐标映射由x轴方向上的偏移量确定:

其中,Cr(d)是指右视图变换后的x轴坐标,Xl是左视图的源x轴坐标。为了构建特征卷,我们使用沿x轴的转换将右视图的特征图扭曲到左视图。有多种方法可以构建最终的成本量。GCNet和PSMNet在不减少特征维度的情况下连接左特征卷和右特征卷。DispNetC计算关于左特征卷和右特征卷的完全相关性,并且只为每个视差水平生成一个单通道相关图。GwcNet提出了通过将特征划分为组并计算相关图在每个组的组相关性。

3.2 级联成本量

图3显示了W×H×D×F分辨率的标准成本体积,其中W×H表示空间分辨率,D为平面假设数,F为特征图的通道数。

假设的范围

如图4所示,由R1表示的第一阶段的深度(或视差)范围覆盖了输入场景的整个深度(或视差)范围。在接下来的阶段,我们可以基于前一阶段的预测输出,并缩小假设范围。因此,我们有Rk1=Rk·wk,其中Rk是第k阶段的假设范围,wk<1是假设范围的减少因子

假设的平面时间间隔

我们也表示在第一阶段的深度(或视差)间隔为I1。与通常采用的单成本体积公式相比,初始假设平面间隔相对较大,可以产生粗深度(或视差)估计。在以下阶段,应用更精细的假设平面间隔来恢复更详细的输出。因此,我们有:Ik1=Ik·pk,其中Ik是第k阶段的假设平面区间,pk<1是假设平面区间的减少因子

假设平面数

在第k阶段,给定假设范围Rk和假设平面区间Ik,相应数量的假设平面Dk由方程确定:Dk=Rk/Ik。基于级联公式,我们可以有效地减少假设平面的总数,因为假设范围在覆盖整个输出范围的同时,逐级地减少。

空间分辨率

根据特征金字塔网络的实践,我们将每个阶段的成本体积的空间分辨率与输入特征图的双分辨率翻倍。我们将N定义为级联成本体积的总阶段数,然后将第k阶段成本体积的空间分辨率定义为

扭曲操作

同样地,在立体匹配中,我们根据级联成本体积重新制定了方程式2。第k1阶段的第m像素坐标映射表示为:

3.3 特征金字塔

在这里,我们参考了特征金字塔网络[28],并采用了其增加了空间分辨率的特征图来构建更高分辨率的成本体积。

3.4 损失函数

具有N级的级联成本体积产生N−1中间输出和最终预测。我们将监督应用于所有输出,总损失定义为:

4. 实验

4.2 立体匹配

Implementation

为了平衡精度和效率之间的权衡,采用了两级级联成本体积,视差假设数为12个。相应的视差间隔分别设置为4像素和1像素。特征图的空间分辨率从原始输入图像大小的1/16增加到1/4。最大视差设置为192

【菜鸟学习论文】2020_Cascade Cost Volume for High-Resolution Multi-View Stereo and Stereo Matching相关推荐

  1. 【论文简述及翻译】PWC-Net: CNNs for Optical Flow Using Pyramid, Warping, and Cost Volume(CVPR 2018)

    一.论文简述 1. 第一作者:Deqing 2. 发表年份:2018 3. 发表期刊:CVPR 4. 关键词:光流估计.端到端训练.代价体.金字塔 5. 探索动机:大多数性能最好的方法都采用能量最小化 ...

  2. 【论文简述】Efficient Multi-view Stereo by Iterative Dynamic Cost Volume(CVPR 2022)

    一.论文简述 1. 第一作者:Shaoqian Wang.Bo Li 2. 发表年份:2022 3. 发表期刊:CVPR 4. 关键词:MVS.深度学习.动态代价体.GRU.迭代优化 5. 探索动机: ...

  3. 论文阅读 | BMBC:Bilateral Motion Estimation with Bilateral Cost Volume for Video Interpolation

    前言:ECCV2020一篇做插帧的文章,看到很多后来的文章(timelens,flavr)在新的数据集上测效果还可以,来拜读一下 ps:论文里真的用了好多"yield",好不习惯- ...

  4. 【论文简述及翻译】Correlate-and-Excite: Real-Time Stereo Matching via Guided Cost Volume Excitatio(CVPR 2021)

     一.论文简述 1. 第一作者:Antyanta Bangunharcana 2. 发表年份:2021 3. 发表期刊:CVPR 4. 关键词:立体匹配.代价聚合.特征激励.实时网络.视差回归 5. ...

  5. 基于深度学习立体匹配中的‘Cost Volume‘

    最近太忙,我把参考资料和相关文献给大家整理一下,以及代码演示,print出来让大家看懂.一起进步! cost volume1 cost volume2 cost volume3 cost volume ...

  6. 深度学习论文阅读目标检测篇(七)中英对照版:YOLOv4《Optimal Speed and Accuracy of Object Detection》

    深度学习论文阅读目标检测篇(七)中英对照版:YOLOv4<Optimal Speed and Accuracy of Object Detection> Abstract 摘要 1. In ...

  7. GC-Net 笔记及探讨 --- unary特征以及级联的cost volume (更新中)

    文章目录 前言 论文结构 3.1 Unary Feature 笔记 3.2 Cost Volume 笔记及衍生 附录 unary? 英语学习 nn.ZeroPad2d(int_or_tuple) to ...

  8. 【阅读笔记】Cost Volume Pyramid Based Depth Inference for Multi-View Stereo

    目录 前言 摘要 1.介绍 2.相关工作 3.方法 1.特征金字塔 2.Cost Volume 金字塔 3. 深度图推断 4. 损失函数 前言 CVP-MVSNet(CVPR2020) 学习笔记 先预 ...

  9. 深度学习论文: An Energy and GPU-Computation Efficient Backbone Network for Object Detection及其PyTorch

    An Energy and GPU-Computation Efficient Backbone Network for Real-Time Object Detection PDF:https:// ...

最新文章

  1. C语言循环选择还有,C语言第五讲,语句 顺序循环选择.(示例代码)
  2. 阿里全球数学竞赛第二届
  3. FPGA黑金开发板mini版新鲜出炉!!!
  4. MySQl数据库必会sql语句(提升版)
  5. 27_Notification
  6. python语言入门m-Python学习基础篇 -1
  7. 解决ssh连接Linux服务器经常掉线不稳定的问题
  8. python英文语义角色标注_八款中文词性标注工具使用及在线测试
  9. ​css3属性选择器总结
  10. matlab与maple互联,Matlab,Maple和Mathematica三款主流科学计算软件的互操作
  11. 用JS判断不同分辨率调用不同的CSS样式文件
  12. Jdk动态代理 底层源码分析
  13. 营销和生意人的4项基本修炼
  14. 3款强大的BootStrap的可视化制作工具推荐
  15. 微软官方的SQLHelper类(含完整中文注释)
  16. 目标检测中的常见指标
  17. COOC软件一款用于文献计量和知识图谱绘制的新软件
  18. 虚拟机安装+win10系统
  19. 解决VMWare启动虚拟机出现错误“该虚拟机似乎正在使用中,请按“获取所有权(T)”按钮获取它的所有权。”
  20. 自媒体赚钱系列连载03:音乐人有收益自媒体平台大全

热门文章

  1. CCIE一年后的心语
  2. jsp mysql问卷调查_课内资源 - 基于JSP的在线调查问卷系统
  3. 优秀,起诉网站,可尼玛太秀了
  4. 厦门大学LaTeX模板:页眉页脚设置
  5. QT for Android串口开发
  6. 2023年全国最新工会考试精选真题及答案10
  7. android 涟漪背景,Android 水波效果 | 涟漪效果 实现
  8. 木纹标识lisp_Lisp
  9. BJTU1931 铁憨憨骑士团的中央空调
  10. 在C#中使用OpenCV(使用OpenCVSharp)