写在前面:因为下定决心要打起精神来好好扎实自己的学术基础,所以打算从阅读综述入手,对自己想要深入的领域有个总体的认识。文章就是自己的阅读随笔,如果有不对的地方,欢迎大家指出来~

这篇综述的英文题目是《Adversarial-learning-based image-to-image transformation: A survey》,是2020年发表的。

首先简要地介绍一下生成式对抗网络GAN的一个发展情况:自从Goodfellow在2014年提出了GAN之后,GAN在如图像生成、风格迁移、超分辨率图像和图像修复等问题上得到了广泛应用;同时,它也被扩展应用至语言处理、音乐生成和医学影像处理等问题中。但GAN饱受模式崩溃问题的困扰,导致其训练过程往往难以达到一个稳定的状态,需要人工调整超参数和选择合适的网络模型。

那么传统GAN模型和用于图像间转换的GAN模型有什么不同呢?文章给出了下图:

很显然,原始GAN模型根据一个随机噪声分布来进行无监督生成,主要的损失就是对抗损失;但被用于图像转换问题时,输入换成了一张图像,并引入了像素级别的L1或L2损失。像素级损失是逐像素地测量输出和真实图像之间的不一致性(颜色空间层面),而对抗损失测量的是输出和真实样本集间的似然度。

这篇文章认为,在图像间转换问题上,GAN的应用大致可分为两类:风格迁移和图像修复/重建。

1、风格迁移

文献[1]发现了在CNN中,风格和内容是可分的,可以通过独立操控这两部分来达到风格迁移的目的。显然,此处的网络总损失=内容损失+风格损失,并引入了Gram矩阵来计算风格损失(Gram矩阵计算的是不同CNN特征项间的相关性,具体计算请自行搜索~)。但文献[1]的生成过程需要反复迭代来实现梯度下降,使得损失值最小,因此十分耗时。

而文献[2]针对这一问题,提出了一个前馈生成网络。从下图可以看出,在训练过程中,输入图像经过一个转换网络后会输出一张结果图像;然后将目标风格图像、目标内容图像和生成图像分别输入到VGG16网络,再从网络中间层提取出真实的和生成的风格、内容特征项;通过分别求取二者的损失,来不断优化前面的转换网络性能。显然,训练结束后,将只有转换网络参与生成工作,而转换网络当中还使用了残差结构;因此相较于文献[1]的工作而言,这项工作的图像生成速度提升了数百倍。

但文献[2]工作的缺点也很显而易见:当我们希望更换生成图像的风格时,就必须为新的风格单独训练一个图像转换网络。这在实际应用中是不现实的。

下面会介绍几种经典的网络模型,这篇综述也给出了它们的示意图,但判别器部分就用各项损失来进行代替了。

1.1、MGAN

深度马尔可夫模型(Deep Markovian Model)通过捕获局部的数据特征,来将它们集合成高分辨率的图像;因此,此方法能有好的细节保真度。但深度马尔可夫模型是建立在反卷积(Deconvolution)网络上,会产生极大的运行时间代价。文献[3]改进了这一点,利用步长卷积网络(strided convolutional network)来进行实现,提出了MGANs结构,在这其中包含了马尔可夫反卷积对抗网络(MDANs)结构。实际测试时,只有蓝色部分的生成网络G发挥作用,大大加快了生成速度。

1.2、pix2pix

文献[4]就是提出了pix2pix框架的名作!建议大家好好地阅读它,在这里只提一下它的生成器为U-Net、判别器为PatchGAN,下面是它的示意图。

pix2pix的思想后来被运用到了许多文献当中。比如文献[5]提出的Style2Paints算法,它是对动漫线稿进行自动上色的一个应用。这个工作后来还迭代了许多版本,我看到有博主对这系列进行了一个详细的解读,大家可以去围观一下~(Style2paints V1论文解读-基于风格迁移的动漫线稿上色)

再比如,文献[6]是一项将素描转换为具有艺术风格图像(Sketch-to-Art)的工作,模型结构就是下图这个样子。包含三个模块:Dual Mask Injection(在CNN中对特征直接施加素描约束,因为素描图信息过少易丢失,这么做能增加内容信息);Feature Map Transfer(只提取风格图像的风格信息,排除内容信息);Instance De-Normalization(实例正则化的一种反向过程,有效地分离风格和内容信息)。各模块的具体内部过程与原理请参见文献~

又比如,文献[7]提出了感知对抗网络PAN(Perceptual Adversarial Network)。从下面这个网络示意图可以看出,感知损失有多项,并且都是在判别器的中间隐藏层处来计算的,而不是像以往的感知损失是在预训练的VGG上计算的。且这里的判别器可以被当做是一个能量函数,这与文献[8]的Energy-based GAN里提到的思想相似。

还有像文献[9]是一篇附带了指导(Guided)信息的图像间转换工作。网络内部的具体结构如下图所示,可以看到输入图像和指导图像各经过了一个Encoder,但同时每个中间特征都会传递给对方的网络当中。还要提一下它的特征转换(Feature Transformation, FT)层,不再是单纯地使用连接(Concatenate)操作,而是集合了归一化和仿射变换两种操作,其中仿射变换所需要用到的ScalingShifting参数,是从指导图像当中计算得出的。

1.3、DTN

pix2pix框架要求数据集是成对匹配好的,比如线稿到实物的转换任务中,所有的线稿图必须有自己独立的一个实物图来对应。但显然,在实际运用中我们是很难去获取大量的成对匹配数据的(比如我们想获取你老了之后的样子,肯定没法穿越到未来然后拍一张你的照片再传送回来训练吧),所以越来越多的工作倾向于无监督方式进行图像间转换。

文献[10]设计了一个无监督的图像转换框架,名为Domain Transfer Network(DTN)。给定两个域S和T,希望能学习一个生成网络G,将S域的样本映射到T域。如下图所示,G由特征提取函数f 中和生成函数g 组成。作者希望当向f 中输入源图像(比如真实的人脸)时,g 能生成转换为T域后的图像;而向f 中输入目标域图像时,g 则原封不动地还原该图像。且看图可知,判别网络D是接收三个输入,因此判别损失应该由三项构成。完整的损失函数参见论文。

类似的工作还有文献[11],尽管用的也是无监督方法,但这篇文章借助了两个图像域的标签信息。其训练过程分为两步:首先训练一个生成网络G,它能够根据隐变量(噪声)和标签信息来生成对应域的图像;第二步则是固定生成网络G,训练一个Encoder,来学习从生成图像到全局隐变量的映射。最后直接使用训练好的G和E来进行图像转换。

又比如文献[12],是一项专注于为服饰图像更换样式的工作。在其所提出的网络结构中,生成网络G的输入包含了服饰的局部图(背景干净、正面视角)以及完整的服饰效果图(背景复杂、视角各异),后者能够使得模型更加鲁棒,从而更好地保留下服饰的全局结构信息。对应地,判别过程也从局部和全局两个方面来进行。

文献[13]是ICCV2019的工作,值得一看~它的整体结构是很清晰的:输入是由一对风格图和一对内容图构成,它们各自被送入风格和内容的Encoder中,即被编码至对应的空间中;之后这两类编码结果进入一个Decoder中,输出这两对输入的所有排列组合后的结果。而损失函数也就是文章的核心,是由五部分构成的,其中FPT-styleFPD这两部分是重点,具体的算式请移步原文~但这里提一句,这项工作始终围绕着分离风格和内容信息这个主题,因此在设计损失时,就必须考虑的足够全面,原文在损失设计的因果关系上给出了明确的阐释。

参考文献:

[1] L.A. Gatys, A.S. Ecker, M. Bethge, A neural algorithm of artistic style, arXiv:1508.06576, 2015.

[2] J. Johnson, A. Alahi, L. Fei-Fei, Perceptual losses for real-time style transfer and super-resolution, in: Proceedings of the 2016 European Conference on Computer Vision, 2016, pp. 694–711.

[3] C. Li, M. Wand, Precomputed real-time texture synthesis with markovian generative adversarial networks, in: Proceedings of the 2016 European Conference on Computer Vision, 2016, pp. 702–716.

[4] P. Isola, J.-Y. Zhu, T. Zhou, A.A. Efros, Image-to-image translation with conditional adversarial networks, in: Proceedings of the 2017 IEEE Conference on Computer Vision and Pattern Recognition, 2017, pp. 1125–1134.

[5] L. Zhang, Y. Ji, X. Lin, Style transfer for anime sketches with enhanced residual u-net and auxiliary classififier GAN, in: Proceedings of the 2017 IAPR Asian Conference on Pattern Recognition, 2017, pp. 506–511.

[6] S.K. Liu B, E. A, Sketch-to-Art: Synthesizing Stylized Art Images From Sketches, arXiv:2002.1288, 2020.

[7] C. Wang, C. Xu, C. Wang, D. Tao, Perceptual adversarial networks for image-to-image transformation, IEEE Trans. Image Process. 27 (8) (2018) 4066–4079.

[8] J. Zhao, M. Mathieu, Y. LeCun, Energy-based generative adversarial network, arXiv:1609.03126, 2016.

[9] B. AlBahar, J.-B. Huang, Guided Image-to-image translation with bi-directional feature transformation, in: Proceedings of the 2019 IEEE International Conference on Computer Vision, 2019, pp. 9016–9025.

[10] Y. Taigman, A. Polyak, L. Wolf, Unsupervised cross-domain image generation, arXiv:1611.02200, 2016.

[11] H. Dong, P. Neekhara, C. Wu, Y. Guo, Unsupervised image-to-image translation with generative adversarial networks, arXiv:1701.02676, 2017.

[12] ] S. Jiang, Y. Fu, Fashion style generator, in: Proceedings of the 2017 International Joint Conference on Artifificial Intelligence, 2017, pp. 3721–3727.

[13] D. Kotovenko, A. Sanakoyeu, S. Lang, B. Ommer, Content and style disentanglement for artistic style transfer, in: Proceedings of the 2019 IEEE International Conference on Computer Vision, 2019, pp. 4422–4431.

基于特征的对抗迁移学习论文_[综述]基于对抗学习的图像间转换问题-1相关推荐

  1. 六年级上计算机课程计划书,六年级学习计划书_小学六年级学习计划范文

    想要更高效地学习,大家可以提前制定好一份学习计划.下面是小编整理的六年级学习计划书,欢迎大家参考! 1.我认为,我目前最大的毛病就是上课不认真听讲.总是在课堂上摆着一个认真听讲的架子,但脑子却早已想别 ...

  2. 基于特征的对抗迁移学习论文_有关迁移学习论文

    如果你有好的想法,欢迎讨论! 1 Application of Transfer Learning in Continuous Time Series for Anomaly Detection in ...

  3. 基于特征的对抗迁移学习论文_学界 | 综述论文:四大类深度迁移学习

    选自arXiv 作者:Chuanqi Tan.Fuchun Sun.Tao Kong. Wenchang Zhang.Chao Yang.Chunfang Liu 机器之心编译 参与:乾树.刘晓坤 本 ...

  4. python与人工智能关系论文_《Python深度学习》笔记:人工智能、机器学习与深度学习关系...

    三者之间的关系: 人工智能>>机器学习>>深度学习. 人工智能 诞生于20世纪50年代.简洁的定义是:努力将通常由人类完成的智力任务自动化. 因此,人工智能是一个综合性的领域, ...

  5. c# 设计原则需要学习吗_向最好的学习:产品设计原则

    c# 设计原则需要学习吗 重点 (Top highlight) In my job as Design Team Lead at SimpleSite, I've recently been part ...

  6. 自适应学习系统_如何建立适应性学习系统

    自适应学习系统 Have you ever started a course, but thought it was too slow? Or too difficult? Wish you coul ...

  7. 计算机应用深圳职业大三毕业设计,毕业设计(论文)文献综述-基于Web的家庭理财系统.docx...

    )4事欷夭2噹母院 本科生毕业设计(论文)文献综述 设计(论文)题目 基于Web的家庭理财系统 设计与实现 作者所在院系 作者所在专业 作者所在班级 计算机与遥感信息技术学院 软件工程 作者姓名 作者 ...

  8. 基于特征的对抗迁移学习论文_[论文笔记] 对抗样本不是bugs,而是特征

    [论文笔记] Adversarial Examples Are Not Bugs, They Are Features 说在前面 个人心得: 这是关于对抗样本可解释性的工作 理论部分看不懂,看懂了再来 ...

  9. 【深度学习论文翻译】基于LSTM深度神经网络的时间序列预测(Time Series Prediction Using LSTM Deep Neural Networks)

    目录 一.前言 二.摘要 三.什么是LSTM神经元? 四.简单正弦波示例 五. 不那么简单的股票市场 六.多维LSTM预测 七.结论 一.前言 最近需要用到时间序列,在网上也找到了一篇相关的文章及源代 ...

最新文章

  1. Nginx相关基础配置详解
  2. Linux Bash变量-数值运算与运算符
  3. kodi android 目录,Kodi添加本机和电脑上的电影视频、音乐、图片目录教程
  4. Fiddler抓包 | 竟然有这些骚操作,太神奇了?
  5. C/C++编程笔记:浅析 C 语言中宏定义的使用,知识点全解
  6. 13_python基础—函数进阶(参数、返回值、递归)
  7. 二、Linux系统目录和文件基本操作
  8. 【RMAN】正确删除归档日志的方式
  9. POJ - 3250 Bad Hair Day 单调栈
  10. Atitit attilax总结的对于attilax重要的jsr规范,以及需要增加的jsr规范
  11. 全球前十大证券交易所在区块链领域的探索和布局
  12. 7-8-无向图的关节点-图-第7章-《数据结构》课本源码-严蔚敏吴伟民版
  13. 淘淘商城第59讲——搭建Solr集群
  14. Android加载服务器的静态图片文件
  15. android中如何取得docx文件,如何显示或读取DOCX文件(how to Show or Read docx file)
  16. 【PSO三维路径规划】基于matlab球面矢量粒子群算法无人机三维路径规划【含Matlab源码 1682期】
  17. Linux系统之基础扫盲教程大全
  18. Android:安卓学习笔记之共享元素的简单理解和使用
  19. NVIDA CUDA和cuDNN安装教程
  20. Linux系统获取CPU温度

热门文章

  1. 【Vue2.0】—数据代理(一)
  2. 临近年底,又一家公司疑似裁员万人
  3. FreeNAS 是什么
  4. 画面每秒传输帧数是什么意思
  5. 公司因为薪资问题,走了一个各方面都不错的老工人,花更多的钱招来一个跨行业新手,这是为什么?
  6. 所以進入到二十一世紀之後
  7. 一枚比特币30多万,家用电脑24小时挖矿,多久才能挖到一枚?
  8. 为什么现在选择单身的男生和女生越来越多
  9. 老员工恳请加薪,老板“不愿意做就辞职”
  10. 互联网的上半场,建立平台获取流量