这是一篇总结文,总结我看过的几篇用GAN做图像翻译的文章的“套路”。

首先,什么是图像翻译?

为了说清楚这个问题,下面我给出一个不严谨的形式化定义。我们先来看两个概念。第一个概念是图像内容(content)  ,它是图像的固有内容,是区分不同图像的依据。第二个概念是图像域(domain),域内的图像可以认为是图像内容被赋予了某些相同的属性。举个例子,我们看到一张猫的图片,图像内容就是那只特定的喵,如果我们给图像赋予彩色,就得到了现实中看到的喵;如果给那张图像赋予铅笔画属性,就得到了一只“铅笔喵”。喵~

图像翻译是指图像内容从一个域迁移到另一个域,可以看成是图像移除一个域的属性 ,然后赋予另一个域的属性 。我们用来表示域和域的图像,图像翻译任务即可以定义为,寻找一个合适的变换使得

当然,还有一种图像翻译,在翻译的时候会把图像内容也换掉,下面介绍的方法也适用于这种翻译,这种翻译除了研究图像属性的变化,还可以研究图像内容的变化,在这里就不做讨论了。

常见的GAN图像翻译方法

下面简单总结几种GAN的图像翻译方法。

  • pix2pix

简单来说,它就是跟cGAN。Generator的输入不再是noise,而是图像。

  • CycleGAN/DualGAN/DiscoGAN

要求图像翻译以后翻回来还是它自己,实现两个域图像的互转。

  • DTN

用一个encoder实现两个域的共性编码,通过特定域的decoder解码,实现图像翻译。

  • FaderNets

用encoder编码图像的内容,通过喂给它不同的属性,得到内容的不同表达。

  • IcGAN

依靠cGAN喂给它不同属性得到不同表达的能力,学一个可逆的cGAN以实现图想到图像的翻译(传统的cGAN是编码+属性到图像的翻译)。

  • GeneGAN

将图像编码成内容和属性,通过交换两张图的属性,实现属性的互转。

  • Face Age-cGAN

这篇是做同个人不同年龄的翻译。依靠cGAN喂给它不同属性(年龄)得到不同年龄的图像的能力,学cGAN的逆变换以得到图像内容的编码,再通过人脸识别系统纠正编码,实现保id。

图像翻译方法的完备性

我认为一个图像翻译方法要取得成功,需要能够保证下面两个一致性(必要性):

  • Content consistency(内容一致性)

  • Domain consistency(论域一致性)

此外,我们也似乎也可以认为,满足这两点的图像翻译方法是能work的(充分性)。

我把上述两点称为图像翻译方法的完备性,换句话说,只要一个方法具备了上述两个要求,它就应该能work。关于这个完备性的详细论述,我会在以后给出。

下面,我们来看一下上述几种方法是如何达成这两个一致性的。

内容一致性

我把它们实现内容一致性的手段列在下面的表格里了。

这里有两点需要指出。

其一,有两个方法(IcGAN和Face Age-cGAN)依靠cGAN的能力,学cGAN的逆映射来实现图像换属性,它们会有多个训练阶段,不是端到端训练的方法。而cGAN训练的好坏,以及逆映射的好坏对实验结果影响会比较大,经过几个阶段的训练,图像的内容损失会比较严重,实际中我们也可以观察到 IcGAN 的实验效果比较差。Face Age-cGAN通过引入人脸识别系统识别结果相同的约束,能够对内容的编码进行优化,可以起到一些缓解作用。

其二,DTN主要依靠TID loss来实现内容的一致性,而编码一般来说是有损的,编码相同只能在较大程度上保证内容相同。从DTN的emoji和人脸互转的实验我们也可以看出,emoji保id问题堪忧,参看下图。

论域一致性

论域一致性是指,翻译后的图像得是论域内的图像,也就是说,得有目标论域的共有属性。用GAN实现的方法,很自然的一个实现论域一致性的方法就是,通过discriminator判断图像是否属于目标论域。

上述几种图像翻译的方法,它们实现论域一致性的手段可以分为两种,参见下表。

此外,可以看到,FaderNets实现两个一致性的方法都是剥离属性和内容,而实现剥离手段则是对抗训练。编码层面的对抗训练我认为博弈双方不是势均力敌,一方太容易赢得博弈,不难预料到它的训练会比较tricky,训练有效果应该不难达成,要想得到好的结果是比较难的。目前还没有看到能够完美复现的代码。文章的效果太好,好得甚至让人怀疑。

最后的最后,放一个歌单,听说听这个歌单炼丹会更快哦。

参考文献

  1. 1. Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[J]. arXiv preprint arXiv:1611.07004, 2016.

    2. Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[J]. arXiv preprint arXiv:1703.10593, 2017.

    3. Yi Z, Zhang H, Gong P T. DualGAN: Unsupervised Dual Learning for Image-to-Image Translation[J]. arXiv preprint arXiv:1704.02510, 2017.

    4. Kim T, Cha M, Kim H, et al. Learning to discover cross-domain relations with generative adversarial networks[J]. arXiv preprint arXiv:1703.05192, 2017.

    5. Taigman Y, Polyak A, Wolf L. Unsupervised cross-domain image generation[J]. arXiv preprint arXiv:1611.02200, 2016.

    6. Zhou S, Xiao T, Yang Y, et al. GeneGAN: Learning Object Transfiguration and Attribute Subspace from Unpaired Data[J]. arXiv preprint arXiv:1705.04932, 2017.

    7. Lample G, Zeghidour N, Usunier N, et al. Fader Networks: Manipulating Images by Sliding Attributes[J]. arXiv preprint arXiv:1706.00409, 2017.

    8. Brock A, Lim T, Ritchie J M, et al. Neural photo editing with introspective adversarial networks[J]. arXiv preprint arXiv:1609.07093, 2016.

    9. Antipov G, Baccouche M, Dugelay J L. Face Aging With Conditional Generative Adversarial Networks[J]. arXiv preprint arXiv:1702.01983, 2017.

    10. Perarnau G, van de Weijer J, Raducanu B, et al. Invertible Conditional GANs for image editing[J]. arXiv preprint arXiv:1611.06355, 2016.

    相关活动

GAN眼中的图像翻译(附神奇歌单)相关推荐

  1. GAN网络图像翻译机:图像复原、模糊变清晰、素描变彩图

    贴个文章,记录学习历程 http://www.sohu.com/a/169212360_473283 本文介绍深度学习方法在图像翻译领域的应用,通过实现一个编码解码"图像翻译机"进 ...

  2. 【阿里云课程】图像翻译GAN结构与应用

    大家好,继续更新有三AI与阿里天池联合推出的深度学习系列课程,本次更新内容为第11课中的一节,介绍如下: 图像翻译GAN结构与应用 本次课程是阿里天池联合有三AI推出的深度学习系列课程第11期,深度生 ...

  3. 综述:基于GAN的图像翻译模型盘点

    作者丨薛洁婷 学校丨北京交通大学硕士生 研究方向丨图像翻译 图像翻译(Image translation)是将一个物体的图像表征转换为该物体的另一种图像表征,也就是找到一个函数能让 A 域图像映射到 ...

  4. GAN做图像翻译的一点总结

    作者丨洪佳鹏 学校丨北京大学 研究方向丨生成式对抗网络 本文经授权转载自公众号「学术兴趣小组」. 如今,随着 GAN 在生成清晰图像(sharp images)上的成功,GAN 在图像翻译任务上的方法 ...

  5. GAN生成对抗网络-PIX2PIXGAN原理与基本实现-图像翻译09

    什么是pix2pix Gan 普通的GAN接收的G部分的输入是随机向量,输出是图像 :D部分接收的输入是图像(生成的或是真实的),输出是对或 者错.这样G和D联手就能输出真实的图像. 对于图像翻译任务 ...

  6. GAN系列(三) —— CycleGAN无配对图像翻译

    引入 之前讲的Pix2Pix图像翻译模型,要求数据必须成对,也就是说数据都是label好的,有监督的数据 但是我们很多数据都是没有label的,没有配对的 也就是说pix2pix是有配对下的图像翻译, ...

  7. 【图像翻译GAN】我家那只蠢猫更像狗子还是更像虎哥?让AI模型来看看

    前言 当忠诚的狗狗与凶猛的大老虎进行身份交换 老虎看起来也并没有那么凶残 甚至多了几分可爱 当可爱的猫咪与大老虎发生变换 猫猫的眼神里也多了几分坚定 而且充满了凶猛的气息 这是什么神仙操作? 它叫图像 ...

  8. NVIDIA新作解读:用GAN生成前所未有的高清图像(附PyTorch复现) | PaperDaily #15

    在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...

  9. CVPR 2020丨基于范例的精细可控图像翻译CoCosNet,一键生成你心目中的图像

    编者按:图像翻译是近年来的研究热点,类比于自然语言翻译,它将输入图像的表达转化为另一种表达,在图像创作.图像风格化.图像修复.域自适应学习等领域有着广泛应用.然而现有技术通常仅能产生合理的目标域图像, ...

最新文章

  1. Java基础教程——包装类
  2. 字节跳动技术整理:mysql性能优化方案
  3. python怎么读取列表-python如何读取列表中的参数
  4. silverlight + wcf(json格式) + sqlserver存储过程分页
  5. java 数字的进制转换
  6. JavaScript 之arguments、caller 和 callee 介绍
  7. centos7 安装 php7
  8. C#Json数据交互
  9. 算法导论笔记(四)算法分析常用符号
  10. 独家专访 | “共同基金之父”纽伯格的公司(NeubergerBerman)要在中国做什么?
  11. QT实现内录-电脑没有立体声混音,通过虚拟声卡实现内录
  12. Axure插件axure-chrome-extension安装
  13. matlab数学建模-遗传算法基本原理
  14. 什么是WiFi无缝漫游(即无线AP自动切换)?
  15. css图片背景之雪碧图的使用
  16. cf B. Wilbur and Array
  17. 从乔布斯卸任看苹果未来三年 会否半途而废?
  18. 使用PayPal补习注册(2/3):PayPal项目的真实注册
  19. 很简单能看懂阿里数据中台分析
  20. 原生js--选项卡全选反选,选项卡切换,模拟搜索框,微博发布(带时间),注册协议倒计时

热门文章

  1. opencv resize_树莓派监控摄像头python+picamera或openCV
  2. 7-27 冒泡法排序 (C语言)
  3. 【c语言】2020蓝桥杯校内模拟赛c组
  4. linux下如何更新镜像源(ubuntu 10.04 为例),Ubuntu 10.04 更新源补充
  5. js关于正则的前后关联约束(前后预查)
  6. 深度学习项目实战-关键点定位视频课程
  7. 用户切换命令:su 与 sudo
  8. OSChina 周六乱弹 ——生日快乐 @落落酱
  9. 分布式锁之三:Redlock实现分布式锁
  10. Linux下的QQ截图