点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

作者:廖康  |  已授权转载(源:知乎)

https://zhuanlan.zhihu.com/p/386863945

一、写在前面 

图像拼接(Image Stitching)可以说是计算机视觉领域中一个非常经典且完备的体系,由于其包含如特征点检测、映射估计、匹配对齐、投影变换和图像融合等重要算法(其中每一个小点都可单独拿出来研究),如此综合全面的技术常常被选为各类毕业论文的研究课题。自2007年Matthew Brown在IJCV上发表“Automatic panoramic image stitching using invariant features”后,便吸引了众多学者跑步入场,很多被学术界和工业界青睐的算法如双单应矩阵、网格对齐、视频拼接、立体拼接等如雨后春笋般映入眼帘。值得一提的是,如今Facebook在深度学习大放异彩的巨佬-何恺明和新星-Yuxin Wu都曾在图像拼接还未“失宠”之前留下了美好回忆。更深入地,learning-based计算机视觉中很多任务与图像拼接有着异曲同工之妙:都是在对比数据-学习映射关系-投影/映射至目标空间这个流程下进行的。

随着深度学习的快速发展,以大数据驱动的有监督学习在众多计算机视觉课题中得到了广泛研究。基于手工特征的传统视觉算法便慢慢退出了人们(arXiv)的视线,而其中图像拼接为典型代表之一。当然,近年也不乏怀旧派的忠实粉试图来波文艺复兴,但他们都只是在图像拼接中某一个技术点上用深度学习进行改进。一个完整、灵活且鲁棒的深度学习图像拼接框架至今还未被人研究和探索过。下面,我将分享一篇近期我们组和电子科大刘帅成老师组(人均图像拼接忠实老粉)合作的工作:Unsupervised Deep Image Stitching: Reconstructing Stitched Features to Images,目前该工作已被IEEE TIP接收。同时,我们公开了首个真实场景的无监督图像拼接数据集,欢迎各位同行和前辈使用、测评。

论文:https://arxiv.org/abs/2106.12859 数据集主页: https://github.com/nie-lang/UnsupervisedDeepImageStitching

二、研究动机与发现

传统的基于手工特征点(如SIFT、ORB等)的图像拼接方法严重依赖于特征点的检测质量,往往在低纹理,低光照或重复纹理等场景下失败。而现有的深度学习有监督拼接方案很少得到研究,其最主要的原因是拼接图的Ground Truth难以获得。

为了解决以上两个问题,我们提出了一种基于重建的无监督图像拼接方案。其重建的核心思想来自于一个有趣的发现:像素级的不对齐现象可以在特征级上被一定程度削弱。因此,我们认为:重建拼接特征比重建像素级拼接图更容易,随后拼接特征可以用来重建出拼接图。如下图从左至右依次展示了:1)像素不对齐 2)特征不对齐 3)重建的特征 4)重建的拼接图。

Fig. 1: Motivation

三、无监督图像拼接

如下图,我们提出的无监督拼接方案可以分为两个阶段:无监督粗对齐和无监督重建。第一个阶段估计一个全局单应性矩阵(homography)来粗对齐输入图像,第二阶段重建粗对齐的结果得到拼接图。

Fig. 2: Framework
  • 无监督粗对齐

现有的无监督deep homography方法在训练过程中,要求除了输入网络的patch对之外,还需要额外输入patch对周围的图像信息。这种基于填充的约束方式可以避免warp后出现的黑色区域。但在低重叠率的图像拼接场景中,这种patch对的选取方式可能导致两个patch输入之间找不到任何重叠区域(如下图第1、2列),这样会导致网络对homography的估计毫无意义。为了解决上述问题,我们提出一种基于消融的约束方式(如下图第3、4列),改动如下:1)网络的输入为整张图而不是patch,完全利用重叠区域 2)只约束warp后重叠区域的内容一致。

Fig. 3: Ablation-based Strategy
  • 无监督重建

第一步基于单homography的对齐不能解决视差的问题,会导致拼接图中出现伪影。这一步我们提出一个无监督的重建网络来消除伪影。该网络分为一个低分辨率重建分支和一个高分辨率优化分支,其中重建分支用来消除伪影,优化分支用来增强图像质量。

Fig. 4: Learning Deformation Rules with Masks in Low-resolution

在低分辨率的重建分支中,约束重建拼接图的特征应该尽可能接近warp过后的图像特征。由此,我们提出了一个内容约束和一个缝隙约束来引导重建过程的学习方式。对于内容约束,我们约束拼接图的Content Masks(上图第3列)部分需要尽可能接近warped images的特征(VGG-19高层特征);对于缝隙约束,我们要求拼接图的Seam Masks(上图第4列)部分需要尽可能接近warped images的像素值。当前低分辨率分支重建的过程可视化如下图:网络会优先在encoder阶段重建重叠区域的特征,然后在decoder阶段恢复非重叠区域,最后重建出像素级的拼接图。

Fig. 5: Visualization of the Learning Process

在高分辨率的优化分支中,由于没有Ground Truth作为监督,我们采用和低分辨率相似的约束,只不过我们将Content Masks区域的VGG高层特征约束换为了低层特征约束。除此之外,为了防止高分辨率分支重建的图像出现伪影(高分辨率下网络的感受野相对降低),我们还增加了内容一致性约束,即约束高分辨重建图的像素内容和低分辨率重建图的像素内容尽可能接近。下图展示了低/高分辨率的输出结果。

Fig. 6: The Outputs of the Low-resolution Branch and High-resolution Branch

四、数据集

此外,我们还构建了首个真实场景下的无监督图像拼接数据集(USIS-D)。该数据集包含了不同场景,不同重叠率和不同的视差的图片对。训练集共10,440对图像,测试集包含1,106对图像。部分数据展示如下:

Fig. 7: Samples of the Constructed Dataset

五、实验

我们分别在homography估计任务和图像拼接任务上进行了定量和定性的评估。实验结果表示,甚至与现有的有监督深度学习图像拼接算法相比,我们的方法实现了更好的拼接结果。消融实验结果也证明了本文设计的不同模块的有效性。更多实验结果和细节部分请参考原文。

Fig. 8: Experimental Results

Fig. 9: Visual Comparison Results

六、一些思考及开放问题

为了“重铸”Stitching之光,并赋予拼接算法灵活且鲁棒的特性,我们提出了首个无监督深度学习图像拼接框架。我们也希望本工作的实验结果和构建的数据集能够作为一个benchmark供后续工作参考。最后,我们还提出了一些思考及开放问题进行适当展望,欢迎各位同行及前辈交流、探讨。

  • Towards panorama stitching

本工作只考虑了左右两视较为理想的图像拼接情况,拼接场景所呈现的视场离360°全景还有一定距离。而增加输入图片数量又会带来很大的空间负担,因此如何做好视场和模型空间的trade-off还是很值得去探索的。此外,本身就具备大视场的鱼眼图像或许会更适合当前的deep image stitching,理论上两张鱼眼图像就能够展现一个完整的360°全景。

Fig. 10: Fisheye Panorama
  • Contrastive learning

对比学习是自监督学习近年来火热的学习方式之一,而缺乏Ground Truth的图像拼接算法与对比学习有着“浑然天成”的对应关系。实际上,传统图像拼接算法也是通过对比两幅图像间的匹配程度及区域去进行操作的。下图是微软亚研院在CVPR 2021上的一篇工作"Propagate Yourself: Exploring Pixel-Level Consistency for Unsupervised VisualRepresentation Learning",该工作提出了利用像素一致性去更好地促进对比学习。而保持左右视图在重叠区域的像素一致性,也正是图像拼接的初衷所在。

Fig. 11: Pixel-to-Propagation Consistency
  • Beyond stitching

随着VR技术的浪潮消散,全景拼接在工业界的需求也日益减少。此外,目前各类智能手机中也都集成了比较成熟的图像拼接算法,套用股市里的一个经典(xuan xue)语句——“利好落地便是利空”。所以,相较于视觉中的场景理解等high-level task, 当前图像拼接得到的关注并不是很多。但是,其中某些技术点仍具备广阔的应用场景,如单应性矩阵估计(homography estimation)等。仅仅在今年的CVPR上,就可以看到很多基于homography的有趣研究,例如用homography指导双目图像压缩,用homography去对齐多模态图像,用homography帮助图像修复,甚至图像超分也进军了homography。

Fig. 12: Deep Homography for Efficient Stereo Image Compression

我们组最近也在单应性矩阵估计这个任务上做了进一步的改进,提出了“Depth-Aware Multi-Grid Deep Homography Estimation with Contextual Correlation”。与现有的绝大部分deep homography的工作不同,这个工作利用多网格单应矩阵,将deep homography的应用由“无视差场景”推广到了“真实视差场景”。同时,论文中设计的contextual correlation模块比经典的cost volume模块更加高效(见下图表)。目前该方法在所有的对比方法中取得了SOTA性能。论文已在arXiv上发布: https://arxiv.org/abs/2107.02524,欢迎各位批评指正~

CVPR和Transformer资料下载后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加小助手微信,进交流群▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看

TIP 2021 | 重访CV经典!首个无监督深度学习图像拼接框架相关推荐

  1. 基于无监督深度学习的单目视觉的深度和自身运动轨迹估计的深度神经模型

    本文是对文章<Unsupervised Learning of Depth and Ego-Motion from Video>的解读. Figure 1. 深度图和Ground-Trut ...

  2. 用于光流估计的无监督深度学习DSTFlow

    用于光流估计的无监督深度学习DSTFlow 原文链接 摘要 ​ 最近的工作表明,光流估计可以被表述为一个监督学习问题. 此外,卷积网络已成功应用于此任务. 然而,监督流学习由于缺乏标记的训练数据而变得 ...

  3. 深度学习的关键:无监督深度学习简介(附Python代码)

    作者 | Faizan Shaikh 译者 | 马卓奇 编辑 | Vincent AI 前线导读:在这篇文章中,我们用一个直观的案例研究概述了无监督深度学习的概念.并且详解了在 MNIST 数据集上进 ...

  4. 子空间:群论的角度解释无监督深度学习

    参考: 论文把DL的非监督学习映射为群,是为轨道--稳定集理论. DL的群映射:轨道--稳定集理论 <The Group theoretic  perspective on unSupervis ...

  5. Unsupervised Deep Image Stitching:首个无监督图像拼接框架(TIP2021)

    作者丨廖康@知乎 来源丨https://zhuanlan.zhihu.com/p/386863945 编辑丨3D视觉工坊 一.写在前面 图像拼接(Image Stitching)可以说是计算机视觉领域 ...

  6. AI正在模仿人类大脑!2021年10篇顶会论文:大脑也在「无监督」学习

    编辑:桃子 小咸鱼 [导读]神经科学会成为人工智能「超进化」的关键吗?只要模拟大脑,神经网络就可以获得相似或相同的智能.近日,神经科学家Patrick Mineault就2021年无监督学习的大脑模型 ...

  7. MPASNET:用于视频场景中无监督深度人群分割的运动先验感知SIAMESE网络

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 小白导读 论文是学术研究的精华和未来发展的明灯.小白决心每天为大家 ...

  8. 最新!腾讯优图联合厦门大学发布:2021十大人工智能趋势!无监督/多模态等热点...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 本文转载自:腾讯优图 近日,2021全球人工智能技术大会在杭州成功举办,在计算机视觉论坛上,腾讯优图实验室副 ...

  9. 强化学习经典算法笔记(十九):无监督策略学习算法Diversity Is All You Need

    强化学习经典算法笔记19:无监督策略学习算法Diversity Is All You Need DIAYN核心要点 模型定义 目标函数的构造 DIAYN算法细节 目标函数的优化 SAC的训练 判别器的 ...

最新文章

  1. Vue -- 配合iView实现省市二级联动
  2. 【高级Java架构师系统学习】java十六进制字符串转数字
  3. 在线日志文件丢失的恢复(笔记)
  4. springcloud 之 EurekaServer 服务注册集群
  5. java内部类选择题_java内部类使用总结
  6. JS中的六大数据类型 (笔记0)
  7. 事业单位的生活是怎么样的?
  8. 系统修复对电脑的影响有哪些
  9. Head First 设计模式 —— 装饰器模式与门面模式
  10. TinyLog –轻量级Java日志记录框架教程
  11. GoogLeNetV1,V2,V3
  12. 让天下没有难做的研发:解读阿里CI/CD、DevOps、分层自动化技术
  13. C语言· 实现各进制间的相互转换
  14. java给出汉字“你”“我”“他”在Unicode表中的位置
  15. 网课题库接口(免费)高准确率
  16. 笔记本单/双网卡如何同时上内外网
  17. python在线问卷调查系统_GitHub - imze/surveySystem: 问卷调查系统
  18. 注册Google Pay企业开发者账号
  19. int数据超出范围的值变化
  20. 【摘录】哈利 · 波特 与密室(1998)

热门文章

  1. ubuntu 启动 meld、diffuse失败
  2. (memcpy,memmove...)内存函数还不会??别怕,我来助你一臂之力
  3. watch gt3 鸿蒙,华为matepad pro2和watchGT3系列即将发布!
  4. 幸运数划分 lucky
  5. 腾讯qq空间GET登陆JS分析
  6. Big Sur + karabiner + kernelmanagerd = 可能发烫
  7. VS Code快速实现Git PR操作
  8. html实现微信公众号,H5在微信公众号的下拉刷新实现
  9. php字符串处理函数大全--有时候我们只需要知道名字。
  10. 利用百度地图API获取地理编码