一、论文&代码

论文链接:Digging into Uncertainty inSelf-supervised Multi-view Stereo

开源代码:https://github.com/ToughStoneX/U-MVS

二、背景

多视图立体视觉作为计算机视觉领域的一项基本的任务,利用同一场景在不同视角下的多张图片来重构3D的信息。如下图所示:

自监督多视角立体视觉(MVS)近年来取得了显著的进展。然而,以往的方法缺乏对自监督MVS中pretext任务提供的监督信号进行有效性的全面解释。本文首次提出在自监督MVS中估计认知不确定性(epistemic uncertainty)。具体而言,信号不确定可分为两类:前景的监督信号模棱两可性和背景监督信号无效性。为了解决这些问题,本文提出了一个新的减少不确定性的多视角立体(U-MVS)自监督学习框架:1.)本文引入了额外的光流深度一致性损失,利用光流的密集二维对应关系来正则化MVS中的三维立体对应关系,缓解前景监督的模凌两可。2.)为了处理背景的无效监督信号,本文使用Monte-Carlo Dropout获取不确定性映射,进一步过滤无效区域上的不可靠的监督信号。

最后通过在DTU和Tank&Temples数据集的大量实验表明,本文提出的U-MVS框架在无监督MVS方法中取得了最好的性能,与完全监督的MVS方法相比具有相媲美的性能。

2.1 完全监督MVS

随着深度学习的蓬勃发展,在多视角立体视觉领域已经出现越来越多的神经网络方法。作为新型技术的代表,MVSNet构建了端到端的基于神经网络来进行多视角重建的pipeline。首先利用2D的卷积网络来获得多视角图片的特征,然后运用3D CNN对由feature构建得到的costvolume进行正则化操作,而后基于soft argmin操作回归得到深度信息。如下图所示:

为了缓解存储和计算3D cost volume消耗大量的资源的压力,一些方法运用coarse-to-fine的机制将之前单步的cost volume的计算变为多阶段的cost volume 计算。CascadeMVSNet提出基于特征金字塔编码的cost volume,缩小每个阶段的深度(或视差)范围的预测,随着分辨率的逐渐提高和深度(或视差)间隔的自适应调整,输出coarse-to-fine的深度估计。如下图所示:

2.2 无监督MVS

此外,完全监督学习存在一个不可忽视的问题,标注large scale的数据集对于场景重建来讲,需要繁琐和昂贵的程序。近年来人们致力于发展自监督学习来替代有监督学习。Unsup MVS 利用预测的深度信息结合相机内外参数,通过homographywarping来重构图像,并通过减小重构图像和原始图像之间的差异来优化深度信息。如下图所示:

M^ 3VSNet在Unsup MVS 的基础上,增加了深度信息和法向的一致性loss来进一步优化pipiline,而JDACS则利用非负矩阵分解(Non-Negative-Factorization)来生成Co-Segmentationmaps,借鉴photometric loss,构造更鲁棒的cross-viewsemantic consistency,同时利用数据增强模块来提升泛化能力。如下图所示:

之前这些方法都是基于对于自监督学习的直观的分析,缺乏对于自监督信号有效性的研究和解释。对于完全监督学习,如Figure 1 (a)所示,有效监督信号因为ground truth的原因是显性可用的,然而对于自监督框架来讲,如Figure 1 (b)所示,基于图像重建的pretext任务提供的监督信号是模糊不确定的,这将直接影响深度估计的效果。

2.3 核心解决问题

为了更直接地提供监督信号的有效性描述,本文利用了Monte-Carlo Dropout方法来可视化epistemic uncertainty,如上图Figure 1(c)所示。那么不确定性到底可以给我们哪一些启示呢?

如上图Figure 2 所示,本文提供了完全监督和自监督信号的不确定性直观比较,来加深理解导致自监督信号失败的原因。由图可知,自监督信号相比完全监督的信号有更多不确定性,基于自监督作为图像重建任务的前提,将不确定性归结为两类:第一类为图像前景中的监督信号的模凌两可性,主要来自于不同视角下像素点的颜色变化以及物体之间的遮挡,导致了reference image和source image的部分像素点没法很好的匹配;第二类为背景的监督信号的无效性,譬如无纹理区域没法提供有效信息。

三、方法

3.1 前景监督信号

为了解决前景监督信号的模凌两可,本文通过增加额外的先验相关性来增强自监督信号的可靠性,并引入一种新的多视图中的光流深度一致性损失。如下图所示:

直观地说,在自监督MVS中,可以利用光流来构造图像对的像素点之间密集的相关性来正则化3D的相关性。本文提出了一个可微的Depth2Flow模块,将视图间的深度图转换为虚拟光流。如下图所示:

RGB2Flow模块可以无监督地预测相应视图的光流。然后强制虚拟光流和真实光流保持一致,起到正则化的作用。如下图所示:

3.2 背景监督信号

为了缓解背景信号的无效性,本文建议除去不可靠的监督信号在完全无监督的情况下。首先使用自监督预训练模型标注数据集,并用Monte-Carlo-Dropout算法获取不确定性映射。如下图所示:

然后利用不确定性映射过滤之后的伪标签对模型进行监督。同时对输入的多视图图像进行随机数据增强,增强有效监督区域对干扰的鲁棒性。如下图所示:

四、结果

为了评价本文提出的方法的性能,在DTU数据集上进行了验证。在Table 1,本文给出了UMVS与最好的(SOTA)完全监督/自监督和传统方法的性能对比。从表中可以看出,本文提出的方法比之前的自监督方法性能更好。在整体误差(overall)的指标下,当前SOTA的完全监督方法的性能约为0.351 - 0.355mm。在没有利用任何ground truth标签的前提下,本文基于CascadeMVSNet的backbone可以在overall达到0.3537,这与完全监督的SOTA相媲美。Figure 5 给出了DTU数据集上多个场景的三维重建结果的定性比较。如下图所示:

为了评价本文方法的泛化能力,给出了Tanks and Temples数据集上(intermediate/advanced)与SOTA的完全监督和无监督方法的性能比较(Table 4和Table 5)。

如下图例为Tanks&Temples的intermediate/advancedpartition部分的效果可视化。

五、应用

本文模型将在maas上呈现,敬请期待。另外给大家介绍下其他域上的开源免费模型,欢迎大家体验、下载(大部分手机端即可体验):

https://modelscope.cn/models/damo/cv_resnet50_face-detection_retinaface/summary

https://modelscope.cn/models/damo/cv_resnet101_face-detection_cvpr22papermogface/summary

https://modelscope.cn/models/damo/cv_manual_face-detection_tinymog/summary

https://modelscope.cn/models/damo/cv_manual_face-detection_ulfd/summary

https://modelscope.cn/models/damo/cv_manual_face-detection_mtcnn/summary

https://modelscope.cn/models/damo/cv_resnet_face-recognition_facemask/summary

https://modelscope.cn/models/damo/cv_ir50_face-recognition_arcface/summary

https://modelscope.cn/models/damo/cv_manual_face-liveness_flir/summary

https://modelscope.cn/models/damo/cv_manual_face-liveness_flrgb/summary

https://modelscope.cn/models/damo/cv_manual_facial-landmark-confidence_flcm/summary

https://modelscope.cn/models/damo/cv_vgg19_facial-expression-recognition_fer/summary

https://modelscope.cn/models/damo/cv_resnet34_face-attribute-recognition_fairface/summary

ICCV | 达摩院联合开源融合不确定度的自监督MVS框架相关推荐

  1. 阿里达摩院联合友盟+ ,推出国内首个智能推送

    你还记得最近因为优秀的推送文案而让你印象深刻的App是哪个么?某游戏的热血邀约?某标题党的新闻资讯?或者是某次约会提醒? 恐怕很多人的答案是否定的.因为有无数的案例证明现在主流的推送方案问题多多,已经 ...

  2. 极市直播预告丨阿里达摩院:兼顾速度与精度的高效目标检测框架DAMO-YOLO

    |极市线上分享第106期 | 一直以来,为让大家更好地了解学界业界优秀的论文和工作,极市已邀请了超过100位技术大咖嘉宾,并完成了105期极市线上直播分享.往期分享请前往http://bbs.cvma ...

  3. AAAI | 达摩院联合华科开源基于Transformer的零样本学习框架TransZero

    团队模型.论文.博文.直播合集,点击此处浏览 一.论文&代码 论文链接:TransZero: Attribute-guided Transformer for Zero-Shot Learni ...

  4. ​横扫六大权威榜单后,达摩院开源深度语言模型体系 AliceMind

    整理 | AI 科技大本营(ID:rgznai100) 自然语言处理(NLP)被誉为 AI 皇冠上的明珠,传统 NLP 模型制作复杂,耗时耗力,且用途单一,难以复用.预训练语言模型是 NLP 领域的研 ...

  5. 横扫六大权威榜单后,达摩院开源深度语言模型体系 AliceMind

    整理 | AI 科技大本营(ID:rgznai100) 自然语言处理(NLP)被誉为 AI 皇冠上的明珠,传统 NLP 模型制作复杂,耗时耗力,且用途单一,难以复用.预训练语言模型是 NLP 领域的研 ...

  6. 阿里90后科学家研发,达摩院开源新一代AI算法模型

    整理 | 一一 出品 | AI科技大本营(ID:rgznai100) AI科技大本营7月5日消息,阿里达摩院宣布开源新一代人机对话模型ESIM.该算法模型提出两年多,已被200多篇论文引用,更曾在国际 ...

  7. 阿里 90 后科学家研发,达摩院开源新一代 AI 算法模型

    整理 | 一一 出品 | AI科技大本营(ID:rgznai100) 7月5日,阿里达摩院宣布开源新一代人机对话模型ESIM.该算法模型提出两年多,已被200多篇论文引用,更曾在国际顶级对话系统评测大 ...

  8. 全新思路!阿里达摩院将Transformer引入在线行为检测!ICCV2021

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:Sophia知乎 https://zhuanlan.zhihu.com/p/410187732 985人工智能 ...

  9. 首次超越人类!“读图会意”这件事,AI比你眼睛更毒辣 | 达摩院

    金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在超越人类这件事上,AI 又拿下一分. 就在最近,国际权威机器视觉问答榜单VQA Leaderboard,更新了一项数据: AI在" ...

最新文章

  1. UVA 12266 Stock prices --优先队列
  2. LibSvm python 调试实验
  3. JavaScript数组的API
  4. C#-微信公众平台接口-上传临时素材
  5. Metronic学习之路
  6. Cocos2d-x 3.1.1 Lua演示样例 ActionManagerTest(动作管理)
  7. 【论文阅读】A Gentle Introduction to Graph Neural Networks [图神经网络入门](4)
  8. python中的模块_python的模块和包的详细说明
  9. node.js-session问题
  10. SqlServer中检查数据表是否存在
  11. 2017.10.30 天晴 昨天十公里没减肥
  12. Mybatis 查询出来的数据数量正确,但是具体数据为null
  13. bugzilla发送邮件慢的问题
  14. 脑筋急转弯合集,主治心情不好!开心一笑
  15. vue实现输入六位密码支付页面
  16. ES3~ES6数组的方法总结
  17. 【中级计量经济学】Lecture 2 多重共线性
  18. 老闪创业那些事儿(14)——测试老白变身记
  19. 初始C语言——求算法,求1-1/2+1/3-1/4+……+1/99-1/100的值
  20. noip c语言算法教学视频,信息学奥赛课课通(C++)课程视频课程课件与代码

热门文章

  1. 原来“李”是这样的蜂糖李
  2. Misc隐写术深入分析
  3. 人类全面进入联合坐庄时代
  4. Socket总结 node搭建简单的http服务器
  5. 嵌入式系统开发教程 - 创新课程设计- “AI人脸识别+扩展系统”
  6. c语言指针编写input函数,C语言中的函数指针
  7. Adobe photoshop cc启动后,新建命令不能用,背景黑色的解决方法
  8. 【Dreamon】哆啦A梦居然说过这样的话!!!
  9. 用Matlab仿真点电荷电场强度和电位(势)求点电荷Q的电势强度和电势,点电荷的电场线和等势线是什么形状?
  10. 生鲜超市电子价签的工作原理