GAN眼中的图像翻译(附神奇歌单)
这是一篇总结文,总结我看过的几篇用GAN做图像翻译的文章的“套路”。
首先,什么是图像翻译?
为了说清楚这个问题,下面我给出一个不严谨的形式化定义。我们先来看两个概念。第一个概念是图像内容(content) ,它是图像的固有内容,是区分不同图像的依据。第二个概念是图像域(domain),域内的图像可以认为是图像内容被赋予了某些相同的属性。举个例子,我们看到一张猫的图片,图像内容就是那只特定的喵,如果我们给图像赋予彩色,就得到了现实中看到的喵;如果给那张图像赋予铅笔画属性,就得到了一只“铅笔喵”。喵~
图像翻译是指图像内容从一个域迁移到另一个域,可以看成是图像移除一个域的属性 ,然后赋予另一个域的属性 。我们用和来表示域和域的图像,图像翻译任务即可以定义为,寻找一个合适的变换使得
当然,还有一种图像翻译,在翻译的时候会把图像内容也换掉,下面介绍的方法也适用于这种翻译,这种翻译除了研究图像属性的变化,还可以研究图像内容的变化,在这里就不做讨论了。
常见的GAN图像翻译方法
下面简单总结几种GAN的图像翻译方法。
pix2pix
简单来说,它就是跟cGAN。Generator的输入不再是noise,而是图像。
CycleGAN/DualGAN/DiscoGAN
要求图像翻译以后翻回来还是它自己,实现两个域图像的互转。
DTN
用一个encoder实现两个域的共性编码,通过特定域的decoder解码,实现图像翻译。
FaderNets
用encoder编码图像的内容,通过喂给它不同的属性,得到内容的不同表达。
IcGAN
依靠cGAN喂给它不同属性得到不同表达的能力,学一个可逆的cGAN以实现图想到图像的翻译(传统的cGAN是编码+属性到图像的翻译)。
GeneGAN
将图像编码成内容和属性,通过交换两张图的属性,实现属性的互转。
Face Age-cGAN
这篇是做同个人不同年龄的翻译。依靠cGAN喂给它不同属性(年龄)得到不同年龄的图像的能力,学cGAN的逆变换以得到图像内容的编码,再通过人脸识别系统纠正编码,实现保id。
图像翻译方法的完备性
我认为一个图像翻译方法要取得成功,需要能够保证下面两个一致性(必要性):
Content consistency(内容一致性)
Domain consistency(论域一致性)
此外,我们也似乎也可以认为,满足这两点的图像翻译方法是能work的(充分性)。
我把上述两点称为图像翻译方法的完备性,换句话说,只要一个方法具备了上述两个要求,它就应该能work。关于这个完备性的详细论述,我会在以后给出。
下面,我们来看一下上述几种方法是如何达成这两个一致性的。
内容一致性
我把它们实现内容一致性的手段列在下面的表格里了。
这里有两点需要指出。
其一,有两个方法(IcGAN和Face Age-cGAN)依靠cGAN的能力,学cGAN的逆映射来实现图像换属性,它们会有多个训练阶段,不是端到端训练的方法。而cGAN训练的好坏,以及逆映射的好坏对实验结果影响会比较大,经过几个阶段的训练,图像的内容损失会比较严重,实际中我们也可以观察到 IcGAN 的实验效果比较差。Face Age-cGAN通过引入人脸识别系统识别结果相同的约束,能够对内容的编码进行优化,可以起到一些缓解作用。
其二,DTN主要依靠TID loss来实现内容的一致性,而编码一般来说是有损的,编码相同只能在较大程度上保证内容相同。从DTN的emoji和人脸互转的实验我们也可以看出,emoji保id问题堪忧,参看下图。
论域一致性
论域一致性是指,翻译后的图像得是论域内的图像,也就是说,得有目标论域的共有属性。用GAN实现的方法,很自然的一个实现论域一致性的方法就是,通过discriminator判断图像是否属于目标论域。
上述几种图像翻译的方法,它们实现论域一致性的手段可以分为两种,参见下表。
此外,可以看到,FaderNets实现两个一致性的方法都是剥离属性和内容,而实现剥离手段则是对抗训练。编码层面的对抗训练我认为博弈双方不是势均力敌,一方太容易赢得博弈,不难预料到它的训练会比较tricky,训练有效果应该不难达成,要想得到好的结果是比较难的。目前还没有看到能够完美复现的代码。文章的效果太好,好得甚至让人怀疑。
最后的最后,放一个歌单,听说听这个歌单炼丹会更快哦。
参考文献
1. Isola P, Zhu J Y, Zhou T, et al. Image-to-image translation with conditional adversarial networks[J]. arXiv preprint arXiv:1611.07004, 2016.
2. Zhu J Y, Park T, Isola P, et al. Unpaired image-to-image translation using cycle-consistent adversarial networks[J]. arXiv preprint arXiv:1703.10593, 2017.
3. Yi Z, Zhang H, Gong P T. DualGAN: Unsupervised Dual Learning for Image-to-Image Translation[J]. arXiv preprint arXiv:1704.02510, 2017.
4. Kim T, Cha M, Kim H, et al. Learning to discover cross-domain relations with generative adversarial networks[J]. arXiv preprint arXiv:1703.05192, 2017.
5. Taigman Y, Polyak A, Wolf L. Unsupervised cross-domain image generation[J]. arXiv preprint arXiv:1611.02200, 2016.
6. Zhou S, Xiao T, Yang Y, et al. GeneGAN: Learning Object Transfiguration and Attribute Subspace from Unpaired Data[J]. arXiv preprint arXiv:1705.04932, 2017.
7. Lample G, Zeghidour N, Usunier N, et al. Fader Networks: Manipulating Images by Sliding Attributes[J]. arXiv preprint arXiv:1706.00409, 2017.
8. Brock A, Lim T, Ritchie J M, et al. Neural photo editing with introspective adversarial networks[J]. arXiv preprint arXiv:1609.07093, 2016.
9. Antipov G, Baccouche M, Dugelay J L. Face Aging With Conditional Generative Adversarial Networks[J]. arXiv preprint arXiv:1702.01983, 2017.
10. Perarnau G, van de Weijer J, Raducanu B, et al. Invertible Conditional GANs for image editing[J]. arXiv preprint arXiv:1611.06355, 2016.
相关活动
GAN眼中的图像翻译(附神奇歌单)相关推荐
- GAN网络图像翻译机:图像复原、模糊变清晰、素描变彩图
贴个文章,记录学习历程 http://www.sohu.com/a/169212360_473283 本文介绍深度学习方法在图像翻译领域的应用,通过实现一个编码解码"图像翻译机"进 ...
- 【阿里云课程】图像翻译GAN结构与应用
大家好,继续更新有三AI与阿里天池联合推出的深度学习系列课程,本次更新内容为第11课中的一节,介绍如下: 图像翻译GAN结构与应用 本次课程是阿里天池联合有三AI推出的深度学习系列课程第11期,深度生 ...
- 综述:基于GAN的图像翻译模型盘点
作者丨薛洁婷 学校丨北京交通大学硕士生 研究方向丨图像翻译 图像翻译(Image translation)是将一个物体的图像表征转换为该物体的另一种图像表征,也就是找到一个函数能让 A 域图像映射到 ...
- GAN做图像翻译的一点总结
作者丨洪佳鹏 学校丨北京大学 研究方向丨生成式对抗网络 本文经授权转载自公众号「学术兴趣小组」. 如今,随着 GAN 在生成清晰图像(sharp images)上的成功,GAN 在图像翻译任务上的方法 ...
- GAN生成对抗网络-PIX2PIXGAN原理与基本实现-图像翻译09
什么是pix2pix Gan 普通的GAN接收的G部分的输入是随机向量,输出是图像 :D部分接收的输入是图像(生成的或是真实的),输出是对或 者错.这样G和D联手就能输出真实的图像. 对于图像翻译任务 ...
- GAN系列(三) —— CycleGAN无配对图像翻译
引入 之前讲的Pix2Pix图像翻译模型,要求数据必须成对,也就是说数据都是label好的,有监督的数据 但是我们很多数据都是没有label的,没有配对的 也就是说pix2pix是有配对下的图像翻译, ...
- 【图像翻译GAN】我家那只蠢猫更像狗子还是更像虎哥?让AI模型来看看
前言 当忠诚的狗狗与凶猛的大老虎进行身份交换 老虎看起来也并没有那么凶残 甚至多了几分可爱 当可爱的猫咪与大老虎发生变换 猫猫的眼神里也多了几分坚定 而且充满了凶猛的气息 这是什么神仙操作? 它叫图像 ...
- NVIDIA新作解读:用GAN生成前所未有的高清图像(附PyTorch复现) | PaperDaily #15
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...
- CVPR 2020丨基于范例的精细可控图像翻译CoCosNet,一键生成你心目中的图像
编者按:图像翻译是近年来的研究热点,类比于自然语言翻译,它将输入图像的表达转化为另一种表达,在图像创作.图像风格化.图像修复.域自适应学习等领域有着广泛应用.然而现有技术通常仅能产生合理的目标域图像, ...
最新文章
- Java基础教程——包装类
- 字节跳动技术整理:mysql性能优化方案
- python怎么读取列表-python如何读取列表中的参数
- silverlight + wcf(json格式) + sqlserver存储过程分页
- java 数字的进制转换
- JavaScript 之arguments、caller 和 callee 介绍
- centos7 安装 php7
- C#Json数据交互
- 算法导论笔记(四)算法分析常用符号
- 独家专访 | “共同基金之父”纽伯格的公司(NeubergerBerman)要在中国做什么?
- QT实现内录-电脑没有立体声混音,通过虚拟声卡实现内录
- Axure插件axure-chrome-extension安装
- matlab数学建模-遗传算法基本原理
- 什么是WiFi无缝漫游(即无线AP自动切换)?
- css图片背景之雪碧图的使用
- cf B. Wilbur and Array
- 从乔布斯卸任看苹果未来三年 会否半途而废?
- 使用PayPal补习注册(2/3):PayPal项目的真实注册
- 很简单能看懂阿里数据中台分析
- 原生js--选项卡全选反选,选项卡切换,模拟搜索框,微博发布(带时间),注册协议倒计时
热门文章
- opencv resize_树莓派监控摄像头python+picamera或openCV
- 7-27 冒泡法排序 (C语言)
- 【c语言】2020蓝桥杯校内模拟赛c组
- linux下如何更新镜像源(ubuntu 10.04 为例),Ubuntu 10.04 更新源补充
- js关于正则的前后关联约束(前后预查)
- 深度学习项目实战-关键点定位视频课程
- 用户切换命令:su 与 sudo
- OSChina 周六乱弹 ——生日快乐 @落落酱
- 分布式锁之三:Redlock实现分布式锁
- Linux下的QQ截图