这篇文章的效果很好,但是没有开源代码。

1. 研究问题

基于立体深度估计的场景三维重建系统中,现有的立体深度算法(如PSMNet,GCNet)估计的视差图导致重建表面几何不一致的问题(左右视差不一致,导致融合后表面法向量误差较大),以及代价过滤模块计算量大的问题。

2. 研究方法

StereoDRNet(Dilated Residual StereoNet)提出一种新的视差细化网络,预测左右一致视差图和遮挡图,有助于产生几何一致性的重建。提出使用多尺度3D空洞卷积(ASPP)进行代价过滤,产生了更好的过滤效果,而且减少了一半的计算量。另外,使用Vortex Pooling 进行特征提取,产生了比SPP更好的效果。

2.1 特征提取

首先使用卷积块和残差块提取局部特征,然后使用 Vortex Pooling [24] 捕获全局上下文,相比于SPP,Vortex Pooling 使用空洞卷积扩大感受野,提高了网络的表征能力。


2.2 代价过滤

一般成本量构建方法有两种:

  1. 串联左右特征
  2. 左右特征点积

文章使用简单地减法构建成本量,即(左图特征 - 右图特征),(右图特征 - 左图特征),也很有效。

虽然简单的 argmin 原则应该得到正确的局部最小值解,但是相关文献中已经多次表明,解具有多个局部最小值是很常见的。具有均匀或重复纹理的表面特别容易出现此问题。通过将成本过滤视为具有多个卷积和非线性激活的深度学习过程,我们试图解决这些歧义并找到正确的局部最小值

针对 PSMNet 和 GCNet 等网络中 3D成本过滤计算量大的问题,提出在宽度、高度和视差三个维度使用并行的多尺度3D空洞卷积,联合了多尺度信息,产生了更好的过滤效果,而且相比于PSMNet减少了近一半的计算量。

采用多次残差学习,预测了三个尺寸为原始的1/4大小的左右视差图,可以进行中间监督,最后一个视差图用于视差细化。


2.3 视差回归

采用双线性插值将视差图放大到原始图像的大小,并采用soft argmax回归视差。

2.4 视差细化

为了使视差估计对遮挡和视图一致性具有鲁棒性,我们进一步优化估计。



2.5 损失函数

3. 实验结果

训练:

  • 优化器:Adam,β1=0.9\beta_1=0.9β1​=0.9,β2=0.999\beta_2=0.999β2​=0.999
  • 数据预处理:颜色归一化。代码中使用了与ImageNet一样的颜色归一化。
__imagenet_stats = {'mean': [0.485, 0.456, 0.406], 'std': [0.229, 0.224, 0.225]}
  • 图像剪裁:512x256
  • 批量:8
  • 损失函数超参数:w1 = 0.2、w2 = 0.4、w3 = 0.6、λ1 = 1.2 和 λ2 = 0.3

数据集:

  • SceneFlow
  • KITTI 2012
  • KITTI 2015
  • ETH3D

3.1 SceneFlow Dataset


3.2 KITTI Datasets


3.3 ETH3D Dataset

4. 结论

(1)StereoDRNet使用 Vortex Pooling 和 3D空洞卷积代价过滤 增加了感受野,捕获了更丰富的上下文信息,并减少了计算代价。此外,提出的视差细化网络利用了遮挡和视差一致性信息,产生了几何一致的视差图,获得了接近结构光的三维重建效果。
(2)所提出的方法在 KITTI 2012、KITTI 2015 和 ETH 3D 测试中取得了最先进的结果。

5. 启发

采用空洞卷积可以增加感受野,提取更多的上下文信息,从而减少了卷积层的使用,从而减少计算量。

参考文献

  1. Chen-Wei Xie, Hong-Yu Zhou, and JianxinWu. Vortex pooling: Improving context representation in semantic segmentation.

《StereoDRNet: Dilated Residual StereoNet》相关推荐

  1. 语义分割--Dilated Residual Networks 之转载

    Dilated Residual Networks CVPR2017 http://vladlen.info/publications/dilated-residual-networks/ 这里转载了 ...

  2. P3D——《Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks》概述

    <Learning Spatio-Temporal Representation with Pseudo-3D Residual Networks>概述 引言: 最近阅读了本篇发表在ICC ...

  3. Dilated Residual Networks

    如何理解空洞卷积(dilated convolution) 『计算机视觉』空洞卷积 1. Background   文章原文可在作者主页阅览:Fisher Yu主页  这篇文章实则是作者将何恺明(Ka ...

  4. Paper:2020年3月30日何恺明团队最新算法RegNet—来自Facebook AI研究院《Designing Network Design Spaces》的翻译与解读

    Paper:2020年3月30日何恺明团队最新算法RegNet-来自Facebook AI研究院<Designing Network Design Spaces>的翻译与解读 导读: 卧槽 ...

  5. DL:深度学习算法(神经网络模型集合)概览之《THE NEURAL NETWORK ZOO》的中文解释和感悟(六)

    DL:深度学习算法(神经网络模型集合)概览之<THE NEURAL NETWORK ZOO>的中文解释和感悟(六) 目录 DRN DNC NTM CN KN AN 相关文章 DL:深度学习 ...

  6. DL之YoloV3:YoloV3论文《YOLOv3: An Incremental Improvement》的翻译与解读

    DL之YoloV3:YoloV3论文<YOLOv3: An Incremental Improvement>的翻译与解读 目录 YoloV3论文翻译与解读 Abstract 1. Intr ...

  7. 李沐《动手学深度学习》PyTorch 实现版开源,瞬间登上 GitHub 热榜!

    点击上方"AI有道",选择"星标"公众号 重磅干货,第一时间送达 李沐,亚马逊 AI 主任科学家,名声在外!半年前,由李沐.Aston Zhang 等人合力打造 ...

  8. Paper之RegNet:《Designing Network Design Spaces》的翻译与解读—2020年3月30日来自Facebook AI研究院何恺明团队最新算法RegNet

    Paper之RegNet:<Designing Network Design Spaces>的翻译与解读-2020年3月30日来自Facebook AI研究院何恺明团队最新算法RegNet ...

  9. 【RegNet】《Designing Network Design Spaces》

    CVPR-2020 文章目录 1 Background and Motivation 2 Related Work 3 Advantages / Contributions 4 Design Spac ...

最新文章

  1. SQUAD的rnet复现踩坑记
  2. 数据结构讲义代码堆和栈、多线程、多进程、网络编程
  3. Scrapy匹配xpath时tbody标签的问题
  4. 总结MyBatis+Spring的整合
  5. td和div超出部分隐藏的区别和用法
  6. ContentObserver
  7. 内置RTK北斗高精度定位的智能安全帽完成调试,上报至smarteye平台
  8. 数学建模与数学实验P49第四题解答
  9. oracle独占锁表禁止查询,oracle 锁表查询及解决、表字段查询
  10. 浏览器无法访问百度的问题
  11. java意图_任务型对话(一)—— NLU/SLU(意图识别和槽值填充)
  12. 百度天气预报接口使用详细
  13. iTunes音乐导入过程记录(专辑图片、歌手修改,iTunes使用,网易云歌单批量下载)
  14. pg预热插件pg_prewarm
  15. pip升级失败 -- 解决WARNING: You are using pip version 20.0.2; however, version 20.1 is available 的问题
  16. 赛门铁克:政企云建设与安全要双管齐下
  17. 什么是区块链,区块链又是什么?
  18. 计算机电脑鼠标怎么插主机上,蓝牙鼠标怎么连电脑使用详细步骤
  19. 通俗易懂讲解TCP流量控制机制,了解一下
  20. windows下tpshop的安装--基于wampserver

热门文章

  1. 采集同花顺android数据,同花顺对比app排行榜数据_SZ300033_乌龟量化
  2. 【分享】asp.net WebChart 折线图、饼形图、柱状图
  3. Antd如何在label里增加icon图标
  4. go 注册登录 mysql_golang实现用户登录注册的方法
  5. Mac OS X 背后的故事(二)——Linus Torvalds的短视
  6. 【Web前端HTML5CSS3】12-字体
  7. 光猫里显示的设备类型为什么是MSFT 5.0
  8. 图10——判断顶点u和顶点v是否存在简单路径
  9. 工厂生产管理流程有哪些环节?
  10. 计算机专业一句话介绍自己,来聊聊,你会如何用一句话介绍自己的专业?