点击我爱计算机视觉标星,更快获取CVML新技术


本文对ICCV2019 Best Paper论文《SinGAN:Learning a Generative Model from a Single Natural Image》进行解读。

作者:Tamar Rott Shaham,Tali Dekel,Tomer Michaeli(以色列理工学院,Google Research)

这篇论文提出了一种可以从单幅自然图像学习的非条件生成模型--SinGAN,能够捕捉图像的内部块分布信息,生成具有相同视觉内容的高质量、多变的样本。SinGAN包含一个金字塔结构的全卷积GAN,每个GAN负责学习图像不同尺度的分布信息。

因此可以生成具有任意尺寸和纵横比的新样本,这些样本具有明显的变化,同时又可以保持训练图像的整体结构和精细的纹理特征。与之前的单图像GAN方案对比,本文方法不局限于纹理图像,而且是非条件的(即从噪声生成样本)。大量实验证明SinGAN生成的样本具有较好的真实性,而且可以应用于多种图像处理任务中。

研究背景

生成对抗网络(GAN)在对视觉数据的高维分布建模方面取得了巨大飞跃。特别是用类别特定数据集(如人脸、卧室)进行训练时,非条件GAN在生成逼真的、高质量样本方面已取得显著成功。但建模具有多个类别、高度多样化的数据集(如ImageNet)的分布仍然是一项重大挑战,并且通常需要根据另一种输入信号来调节生成或为特定任务训练模型。

本文将GAN带入了一个新领域--从单幅自然图像中学习非条件生成模型。对单幅自然图像中的图像内部分布进行建模已被公认为是许多计算机视觉任务的有用先验,单幅自然图像通常具有足够的内部统计信息,可以使网络学习到一个强大的生成模型。

作者提出了一种具有简单统一架构的模型SinGAN,能够处理包含复杂结构和纹理的普通自然图像,而不必依赖于具有同一类别图像的数据集。这是通过金字塔结构的全卷积GAN实现的,每个GAN负责捕捉不同尺度的图像分布。

经过训练后,SinGAN可以以任意尺寸生成各种高质量的图像样本,这些样本在语义上类似于训练图像,但包含新的目标和结构,如图1所示。并且多种图像处理任务都可以应用SinGAN,如图像绘制、编辑、融合,超分辨率重建和动画化。

图 1 从单幅训练样本学习的图像生成模型。本文提出SinGAN--一种在单幅自然图像上训练的新型非条件生成模型。SinGAN使用多尺度对抗训练方案来跨多个尺度学习图像内部统计信息,可以将其用于生成新的逼真图像样本,该样本在生成新目标和结构的同时保留原始图像块分布。

相关工作

1.单幅图像深度模型。最近的一些工作提出在单个样本上训练一个“过拟合”的深度模型,它们都是为特定任务设计的,如超分辨率重建、纹理扩展等。Shocher等提出的InGAN是第一个基于内部GAN的单幅自然图像训练模型,其生成的样本取决于输入图像(即将图像映射到图像),并不能绘制随机样本。

而本文框架是纯粹生成式的(即将噪声映射到图像样本),因此适合许多不同的图像处理任务。目前非条件单幅图像GAN模型仅对有纹理的图像进行研究,当在没有纹理的图像上训练这些模型时,不会生成有意义的样本,而本文方法不限于纹理,可以处理一般的自然图像,如图1。

2.用于图像处理的生成模型。在许多不同的图像处理任务中,基于GAN的方法已经证明了对抗学习的巨大优势,包括交互式图像编辑,草图合成图像和其他图像到图像翻译任务。

但是,所有这些方法都是在特定类别的数据集上进行训练的,通常需要另外的输入信号调整生成。本文不关注如何获取同一类图像间的共同特征,而是考虑使用不同的训练数据源--单幅自然图像的多个尺度上所有重叠的图像块。

作者表明,可以从这样的数据中学习强大的生成模型,并将其用于许多图像处理任务中。

方法

本文目标是学习一个非条件的生成模型,该模型可以捕捉单个训练图像x的内部统计信息。此任务在概念上与常规GAN设置相似,不同之处在于,此处训练样本是单幅图像不同尺度下的采样图像,而不是数据集中的整个图像样本。

模型选择处理更一般的自然图像,赋予模型生成纹理外的其他功能。为了捕捉图像中目标形状和排列位置这样的全局属性(如天空在顶部,地面在底部),以及精细的细节和纹理信息,SinGAN包含具有层级结构的patch-GANs(马尔可夫判别器),其中每个判别器负责捕捉x不同尺度的分布,如图2所示。

虽然在GAN中已经探索使用了类似的多尺度结构,但本文还是第一个为从单幅图像进行内部学习而探索的网络结构。

1.多尺度结构

2.训练过程

实验结果

作者在图像场景跨度很大的数据集上对SinGAN进行了定性和定量的测试,定性生成的图像如图1和图4所示。SinGAN很好地保留目标的全局结构和较好的纹理信息,如图1中的山、图4中的热气球或金字塔。此外,模型很真实地合成了反射和阴影。

图 4 随机生成的图像样本

在训练时使用较少数目的尺度,则最粗尺度的有效感受野会更小,从而只能捕获精细纹理。随着尺度数量的增加,出现了更大的支撑结构,并且更好地保留全局目标的排列(位置关系)。

测试时可以选择开始生成的尺度,SinGAN的多尺度结构可以控制样本间差异的总量。从最粗尺度开始生成会导致整体结构变化很大,在某些具有较大的显著目标的情况下,可能会生成不真实的样本。

当从较细的尺度开始,可以保持整体结构完整,同时仅会改变更精细的图像特征。

为了量化生成图像的真实性以及它们捕捉训练图像内部统计信息的程度,作者使用两个度量:AMT真假用户调研和FID的单幅图像版本。

AMT测试结果发现,SinGAN可以生成很真实的样本,人类判别的混淆率较高。利用单幅图像FID量化SinGAN捕捉x内部统计信息的能力的结果如表1所示。

从N-1尺度开始生成的SFID评价值比从N尺度开始生成低,这与用户调研一致。作者还报告了SIFID与假图像混淆率之间的相关性,两者之间存在显著的负相关性,这意味着较小的SIFID通常表示较大混淆率。

表 1 两种模式的SIFD值

结论

本文介绍了一种可以从单幅自然图像中学习的新型非条件生成框架--SinGAN。证明了其不仅可以生成纹理,还具有为复杂自然图像生成各种逼真样本的能力。

与外部训练的生成方法相比,内部学习在语义多样性方面具有固有的限制。例如,如果训练图像只包含一条狗,SinGAN不会生成不同犬种的样本。不过,作者通过实验证明,SinGAN可以为多种图像处理任务提供非常强大的工具。

论文地址:https://arxiv.org/abs/1905.01164

源码地址:https://github.com/tamarott/SinGAN

补充材料地址:http://webee.technion.ac.il/people/tomermic/SinGAN/SinGAN.htm


GAN交流群

关注最新最前沿的生成对抗网络技术,扫码添加CV君拉你入群,(如已为CV君其他账号好友请直接私信)

(请务必注明:GAN)

喜欢在QQ交流的童鞋,可以加52CV官方QQ群:805388940。

(不会时时在线,如果没能及时通过验证还请见谅)


长按关注我爱计算机视觉

ICCV 2019 Best Paper :SinGAN 解读,强烈推荐!相关推荐

  1. SinGAN实现的单图动画,ICCV 2019 Best Paper

    点击我爱计算机视觉标星,更快获取CVML新技术 ICCV 2019 Best Paper <SinGAN:Learning a Generative Model from a Single Na ...

  2. ICCV 2019 | 中国研究者无缘最佳论文奖项,接收论文数量超美国,商汤57篇论文入选...

    整理 | AI科技大本营编辑部 出品 | AI科技大本营(ID:rgznai100) ICCV 2019 最佳论文 论文标题:SinGAN:从单张图像学习生成模型 <SinGAN: Learni ...

  3. ICCV 2019 论文解读 | 基于层次解析的Image Captioning

    ©PaperWeekly 原创 · 作者|蔡文杰 学校|华南理工大学 研究方向|计算机视觉 目前大多数的 image captioning 模型采用的都是 encoder-decoder 的框架.本文 ...

  4. 论文解读:ICCV2019 Best paper SinGAN

    SinGAN: Learning a Generative Model from a Single Natural Image 今天介绍一篇非常有趣的论文,同时也是 ICCV 2019 的 best ...

  5. ICCV 2019 论文解读:用图神经网络改善视频的多标签分类

    作者 | 王磊 本文介绍了汽车之家团队在ICCV 2019一篇关于视频理解论文相关的工作.针对视频多标签分类的问题,论文提出了将视频多标签之间相关性特征加入到网络之中,结果证明该方法可以显著的提高视频 ...

  6. ICCV 2019 VisDrone挑战赛冠军方案解读

    点击我爱计算机视觉标星,更快获取CVML新技术 机器之心发布 作者:罗志鹏 近日,在 ICCV 2019 Workshop 举办的 Vision Meets Drone: A Challenge(简称 ...

  7. ICCV 2019丨微软亚研院精选论文解读

    点击我爱计算机视觉标星,更快获取CVML新技术 编者按:ICCV 2019 正于10月27-11月2日在韩国首尔举行.微软亚洲研究院有15篇论文入选本届 ICCV,内容涵盖空间注意力机制.图像深度估计 ...

  8. ICCV 2019 Oral | 解读北大提出的期望最大化注意力网络EMANet

    点击我爱计算机视觉标星,更快获取CVML新技术 本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载. 导读:本文作者为52CV分割群里一位技术大佬,论文中将期望最大化机 ...

  9. ICCV 2019 最佳论文和最佳学生论文下载

    ICCV 2019最佳论文和最佳学生论文已出炉! 最佳论文 SinGAN:LearningaGenerativeModelfromaSingleNaturalImage 用一张自然图片,学出一个生成模 ...

最新文章

  1. C语言的第一例,简单易操作
  2. Linux命令行与shell脚本编程大全(第3版)
  3. ElementUI中对el-table的某一列的时间进行格式化
  4. linux查cpu命令4可以选择哪些运动,Linux 查看cpu 信息的命令及简单实例
  5. s7五杀大数据英雄_大数据公布新赛季拿五杀最多的英雄,韩信垫底,她却拿到手抽筋!...
  6. 给深度学习入门者的Python快速教程 - numpy和Matplotlib
  7. 一个纸水杯的测试用例设计。
  8. Redis核心知识点总结(一万五千字,请耐心读完)
  9. 上海宝付教你如何更好地保护手机隐私
  10. 揭开迷雾,来一顿美味的Capsule盛宴
  11. 周记0053:0054
  12. UNITY3D报错 bug reporter
  13. Extraneous non-emits event listeners (xxxXxx) were passed to component but could not be automaticall
  14. 灵动ICPC冬令营基础-5
  15. Regionals 2014 Asia - Daejeon
  16. Backpack-problem背包九讲笔记
  17. html利用百度地图查找路线,html调用百度地图API实现查找路线
  18. 华为云弹性公网IP,如何解决现代企业的网络IP烦恼
  19. 动起来!好玩的CSS抖动样式 – CSS Shake
  20. 在 Able2Extract 中打开的 PDF 文档的某些部分显示为无法识别的字符?

热门文章

  1. Skywalking-02:如何写一个Skywalking trace插件
  2. 迷宫问题(栈解决)--2015年8月9日19:23:23v1.0版
  3. python输入数据pyqt5_python GUI库图形界面开发之PyQt5信号与槽多窗口数据传递详细使用方法与实例...
  4. rocketmq 有哪些监控工具_Kafka和RocketMQ底层存储之那些你不知道的事
  5. C语言开定时器做呼吸灯程序,简单的基于51单片机定时器上呼吸灯程序
  6. 全连接神经网络_【模型解读】从“局部连接”回到“全连接”的Non-Local神经网络...
  7. 详细设计 英文_官宣 | 闽江学院官方文创产品设计稿征集
  8. 安卓移动应用开发实例_移动应用开发协会纳新 ||掌握信息,赢得未来
  9. aqara (737) -(a俩)_A-史密斯:勇士有人类已知的最强后场组合,湖人很难限制
  10. php 读取excel转数组中,thinkphp5使用PHPExcel读取excel csv到数组