点击上方“3D视觉工坊”,选择“星标”

干货第一时间送达

作者丨许鸿斌

来源丨极市平台

编辑丨极市平台

导读

现有的方法都是假设不同视图之间的对应点具有相同的颜色,这在实践中并不总是正确的。这可能导致不可靠的自监督信号,并损害最终的重建性能。为了解决这个问题,本文提出了一个以语义共切分和数据扩充为指导的更可靠的监控框架。

导读

  • 目标读者:对多视图立体几何(Multi-view stereo, MVS)感兴趣或有一定了解的人。

  • 论文作者:深圳中科院先进技术研究院以及华南理工大学的研究团队。

  • 论文:https://www.aaai.org/AAAI21Papers/AAAI-2549.XuH.pdf

  • Arxiv: https://arxiv.org/abs/2104.05374

  • 代码:https://github.com/ToughStoneX/Self-Supervised-MVS

背景

一直以来,基于多视图立体几何(Multi-view stereo, MVS)的三维重建都是一个广受关注的主题。近年来深度学习方法的发展,催生了一系列传统MVS方法与深度学习方法结合的工作,例如:MVSNet[1]、R-MVSNet[2]、CascadeMVSNet[3]等等。以MVSNet为代表这一系列方法,通过可微单应性投影(DIfferentiable Homography)将立体几何的匹配关系嵌入到代价匹配体(Cost Volume)中,以实现端到端的神经网络。网络的输入是任意数量的多视角图像以及相机的内外参数,输出是某一个参考视角下的深度图。相比于传统的MVS中的立体匹配方法,这些基于深度学习改进的方法能更好地重建稠密的三维点云信息,并对于弱纹理及噪声干扰的情况鲁棒性更强。在DTU[4]、Tanks&Temples[5]等公开数据集上都取得了不错的效果。但是,一个不可忽视的问题就是,这些深度学习方法依赖于大量的3D场景的Ground Truth数据。这会给其在现实场景的应用带来不少的麻烦,因为采集3D Ground Truth数据的成本相对高昂。由此,整个研究社区也开始着眼于无监督/自监督学习在MVS中的应用,以求摆脱对Ground Truth的依赖。

现有的自监督学习方法的基本思路是将需要Ground Truth的深度估计的回归任务转换为一个无监督的图像重建的代理任务。根据网络预测的参考视角下的深度图和其他视角图像通过单应性映射重建为参考视角的图像,只有预测的深度值正确时,重建图像才会尽可能与原图相似。尽管此前的无监督方法进一步地改进自监督方法并取得了不错的结果,例如:Unsup_MVS[6]、MVS[7]、MVSNet[8]等,但是如下图所示,此前的无监督/自监督方法与有监督方法依然存在很明显的差异。我们的目标是提升自监督MVS方法的性能,但是在介绍具体方法之前,我们不妨先回顾一下自监督MVS方法本身是否存在一些缺陷导致了有监督与无监督方法的效果差异?

核心问题

由上图(a)可见,以图像重建任务作为代理任务的自监督MVS方法都依赖于一个比较粗糙的假设,即颜色一致性假设(Color Constancy Hypothesis)。该假设认为:多视图之间的匹配点具有相同的颜色。然而,由上图(b)中可见,在实际场景下,多视角图像的颜色值可能被各种外界因素干扰而导致匹配点具有不同的颜色,例如:光照变化、反光,噪声干扰等等。因此,基于颜色一致性假设的自监督信号在这些情况下很有可能引入错误的监督信号,反而干扰模型的效果。我们将这类问题称之为:颜色一致性歧义问题(Color Constancy Ambiguity)。那么,我们该如何解决这类问题呢?

方法

自监督MVS中的颜色一致性歧义问题,其根本原因在于图像重建这个代理任务仅仅考虑了颜色空间上的对应关系(Correspondence)。而这种基于RGB像素值差异的度量指标在表示多视图之间的对应关系时不够可靠,也限制了自监督方法的性能。那么,很自然地我们可以考虑考虑如何引入额外的先验知识,以提供一个更鲁棒的代理任务作为自监督信号。由此可以分为以下两点:

  1. 语义一致性:引入抽象的语义信息来提供鲁棒地对应性关系,将图像重建任务替换为语义分割图的重建任务构建自监督信号。

  2. 数据增强一致性:在自监督训练中引入数据增强,来提升网络针对不同颜色变化的鲁棒性。

但是在构建自监督信号时,依然存在一些不可忽视的问题:

  • 对于语义一致性先验来说,获取语义分割图标注的成本是非常高昂的。此外训练集中的场景是动态变化的,我们无法像自动驾驶任务那样明确地定义好所有场景中所有元素的语义类别。这也是此前的自监督方法中不曾使用语义信息构建自监督损失的原因。为此,我们通过对多视角图像进行无监督的协同分割(Co-Segmentation),以挖掘出多视角图像之间的共有语义信息来构建自监督损失。

  • 对于数据增强一致性先验来说,数据增强本身就会带来颜色分布的改变,换言之可能反过来引发颜色一致性歧义的问题,干扰自监督信号。为此,我们将单分支的自监督训练框架划分为双分支,使用原始分支的预测结果作为伪标签来监督数据增强分支的预测结果。

基于此,我们提出了一个新的自监督MVS训练框架:JDACS,如下图所示。

整个框架分为三个分支:

  1. 深度估计分支:输入参考视角(Reference View)以及源视角图像(Source View)到网络中,利用预测的深度图和源视角图像来重建参考视角图像。比较参考视角下重建图像和原图的差异,构建光度立体一致性损失(Photometric Consistency)。

  2. 协同分割分支:将输入多视图送入一个预训练的VGG网络,对其特征图进行非负矩阵分解(NMF)。由于NMF的正交约束,其过程可以看做多多视图之间的共有语义进行聚类,并输出协同分割图。随后通过预测的深度图和多视角的协同分割图构建分割图像重建任务,即语义一致性损失。

  3. 数据增强分支:对原始多视图进行随机的数据增强,并送入到网络中。以深度估计分支预测的深度图作为伪标签来监督数据增强分支的预测结果,构建数据增强一致性损失。

实验结果

DTU数据集上的定量实验结果:

DTU数据集上的定性实验结果:

Tanks&Temples数据集上的定量实验结果:

Tanks&Temples数据集上的定性实验结果:

有监督与无监督训练效果对比:

结语

这篇工作是我们对于自监督MVS的一些探索,重新思考了自监督信号的有效性,因为此前的基于图像重建代理任务的自监督方法都是基于颜色一致性假设。然而,现实场景中天然存在的颜色干扰会干扰到自监督训练,并引发颜色一致性歧义问题,导致训练过程中引入了错误的监督信号。我们提出的自监督MVS框架则试图引入额外的Correspondence先验知识来使得自监督信号更加可靠。一方面,通过无监督地挖掘协同分割图中的语义一致性信息来引入抽象的匹配关系;另一方面,通过双分支结构引入数据增强一致性的先验来提升网络应对噪声的鲁棒性。从实验结果可以看出,我们相比于此前的自监督MVS方法有一定的性能提升。

当然,我们提出的方法依然存在一些待解决的问题:首先,在非纹理区域如黑色/白色背景等等,是不存在有效的自监督信号的,因为所有背景像素点的颜色乃至语义都是相同的;其次,我们通过协同分割的方法只挖掘出了相对粗糙的语义信息,这是由于基于ImageNet分类任务预训练的VGG模型并不适用于需要关注到细节语义的分割任务。

最后附上我们论文的引用:

@inproceedings{xu2021self,  title={Self-supervised Multi-view Stereo via Effective Co-Segmentation and Data-Augmentation},  author={Xu, Hongbin and Zhou, Zhipeng and Qiao, Yu and Kang, Wenxiong and Wu, Qiuxia},  booktitle={Proceedings of the AAAI Conference on Artificial Intelligence},  year={2021}}

参考文献

  • Yao Y, Luo Z, Li S, et al. Mvsnet: Depth inference for unstructured multi-view stereo[C]//Proceedings of the European Conference on Computer Vision (ECCV). 2018: 767-783.

  • Yao Y, Luo Z, Li S, et al. Recurrent mvsnet for high-resolution multi-view stereo depth inference[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2019: 5525-5534.

  • Gu X, Fan Z, Zhu S, et al. Cascade cost volume for high-resolution multi-view stereo and stereo matching[C]//Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2020: 2495-2504.

  • Jensen R, Dahl A, Vogiatzis G, et al. Large scale multi-view stereopsis evaluation[C]//Proceedings of the IEEE conference on computer vision and pattern recognition. 2014: 406-413.

  • Knapitsch A, Park J, Zhou Q Y, et al. Tanks and temples: Benchmarking large-scale scene reconstruction[J]. ACM Transactions on Graphics (ToG), 2017, 36(4): 1-13.

  • Khot T, Agrawal S, Tulsiani S, et al. Learning unsupervised multi-view stereopsis via robust photometric consistency[J]. arXiv preprint arXiv:1905.02706, 2019.

  • Dai Y, Zhu Z, Rao Z, et al. Mvs2: Deep unsupervised multi-view stereo with multi-view symmetry[C]//2019 International Conference on 3D Vision (3DV). IEEE, 2019: 1-8.

  • Huang B, Yi H, Huang C, et al. M^ 3VSNet: Unsupervised Multi-metric Multi-view Stereo Network[J]. arXiv preprint arXiv:2005.00363, 2020.

本文亮点总结

1.自监督MVS中的颜色一致性歧义问题,其根本原因在于图像重建这个代理任务仅仅考虑了颜色空间上的对应关系(Correspondence)。

本文仅做学术分享,如有侵权,请联系删文。

下载1

在「3D视觉工坊」公众号后台回复:3D视觉即可下载 3D视觉相关资料干货,涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复:3D视觉github资源汇总即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复:相机标定即可下载独家相机标定学习课件与视频网址;后台回复:立体匹配即可下载独家立体匹配学习课件与视频网址。

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近2000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

开源|AAAI2021杰出论文-三维重建新探索:让自监督信号更可靠!相关推荐

  1. 顶会杰出论文作者,数千星开源作者,这十位学子荣获第二届字节跳动奖学金...

    「字节跳动奖学金计划 ByteDance Scholars Program」是字节跳动自 2021 年起发起的一年一期的人才培养项目,为每位获奖学生提供 10 万元人民币的资助基金,旨在帮助具有创新精 ...

  2. 华人“霸榜”ACL最佳长短论文、杰出论文一作,华为、南理工等获奖

    作者 | 夕颜.一一 出品 | AI科技大本营(ID:rgznai100) 导读:7 月 31 日晚,自然语言处理领域最大顶会 ACL 2019 在佛罗伦萨进行到了第四天(7 月 29 日-8 月 1 ...

  3. NeurIPS 2021六篇杰出论文公布,谷歌工程师11年前论文获时间检验奖

    来源:量子位 NeurIPS 2021将于下周正式召开. 近日,大会委员会公布了NeurIPS 2021的杰出论文奖,时间测试奖,以及今年新设的数据集和测试基准最佳论文奖. 杰出论文奖 今年有六篇论文 ...

  4. IJCAI 2021:周志华任大会首个华人程序主席,南大校友获AIJ杰出论文奖

    来源:新智元 [导读]近日,IJCAI 2021在线上开幕,IJCAI史上首位华人程序主席南大周志华教授分析本届大会论文接收情况:中国投稿量最多,最热门的前四个领域论文接收率占56%,此外还总结了通过 ...

  5. AAAI 2021全部大奖出炉!华人霸屏!北航、华科校友获最佳论文,华南理工获杰出论文

    AAAI 2021在万众期待中终于开幕啦!最佳论文.杰出论文等大奖也全部陆续出炉,华人担任主席,12篇获奖论文华人占据5席,今年的AAAI可谓是被华人力量霸屏了! 本届大会在最佳论文奖的设置上相比往年 ...

  6. 顶会ICML 2021杰出论文奖空降!

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:量子位 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 今天 ...

  7. NeurIPS'22杰出论文奖:3项研究出自华人团队,AlexNet获时间检验奖

    Pine 发自 凹非寺 量子位 | 公众号 QbitAI 就在今天,NeurIPS 2022杰出论文奖公布了!与它一同公布的还有数据集和测试基准(Datasets & Benchmarks)最 ...

  8. 一文盘点NeurIPS'22杰出论文亮点!英伟达AI大佬一句话总结每篇重点,一并看透今年技术趋势...

    Pine 明敏 发自 凹非寺 量子位 | 公众号 QbitAI 15篇NeurIPS'22杰出论文重磅出炉,具体亮点都是啥? 来来来,大佬已经帮你总结好了! 师从李飞飞,现在在英伟达工作的大佬,用49 ...

  9. ICLR 2022杰出论文奖出炉!清华、人大获奖!浙大提名

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 转载自:机器之心 | 编辑:陈萍.小舟 ICLR 2022 公布获奖名单,杰出论文奖有 7 篇,3 篇获得杰 ...

最新文章

  1. python复数类型的虚部通过什么表示_python复数,python中复数怎么表示
  2. 1049. Counting Ones (30)
  3. Python中异常(Exception)的总结
  4. IDEA中使用Maven
  5. 删库不跑路,详解MySQL数据恢复
  6. Python 集合、序列基础知识
  7. 从零开始编写深度学习库(三)ActivationLayer网络层CPU实现
  8. FZU 2080 最大差值 二维单调队列(甚是巧妙……)
  9. Java 8 Lambda表达式10个示例【存】
  10. VS2010 C++环境下DLL和LIB文件目录及名称修改
  11. 高数特殊符号-希腊字母
  12. HTTP的基础知识——HTTP协议
  13. FigDraw 8. SCI 文章绘图之饼图 (Pieplot)
  14. HTML学习日记-第二篇
  15. 【文件上传漏洞11】中间件文件解析漏洞基础知识及实验——Nginx
  16. 绘画教程:伤口疤痕应该怎么画?如何画出皮肤质感?
  17. 【游戏设计笔记】游戏开发团队
  18. [Ubuntu]从开始到编程
  19. Spotify的牛逼是如何炼成的?
  20. Android apk生成过程(超级简单)

热门文章

  1. Log4j的基本应用
  2. 航海新说|掌舵绝招 -- 弹性 · 敏捷 · 开放
  3. ios系统软件迁移到安卓_教你把ios系统移植到安卓手机
  4. 舵机的使用方法和一些注意事项
  5. 超微服务器型号,超微服务器主机配置raid
  6. 超实用:数字金额转成人民币大写
  7. iPhone模拟器里面模拟两个手指做放大缩小的手势
  8. 一个双非计算机学生的长远规划(考研篇)
  9. 防止电子元器件烧坏那些要避的坑
  10. java方法和数组的概念及法