简单的说就是根据文字进行生成相应的图片。 
先看效果:

架构

这里首先用一个 text embedding网络来将文字转换为向量,ϕ(t)ϕ(t)是1024维的向量,然后投影成128。并将这128向量分别加入到G和D网络中。在G中直接concat到后面,而D中由于中间出来的是spatial size是4x4大小的,所以直接复制4x4份,后面concat上去。 
因为普通的GAN就是一个zz直接生成图片,但是这里是要让生成的图片符合tt的描述。因此显然要把ttembedding成向量,然后加入zz中。有意思的是,这里D也加入了ϕ(t)ϕ(t),个人觉得这类似CGAN。 
然后作者提出了GAN-CLS以及GAN-INT.

GAN-CLS
如果是普通的GAN,那么D只要负责看G的生成图片是真是假就行。但是这里的任务是要让G生成符合tt描述的图像。因此D担负着两个任务: 
1. 判断G生成的图片是真是假 
2. 判断生成的图片是否符合tt的描述。 
所以: 
 
与普通GAN不同的是,这里多了一种错误情况,即看上去挺真的,但是对应的描述tt与图不符合,即swsw。 
这里可以大概想到在D中加入ϕ(t)ϕ(t)的作用,如果不加的话,那么D所能获得的信息仅仅是G的生成图,失去了判断图与tt是否符合的判断能力。

GAN-INT
Et1,t2~pdata[log(1−D(G(z,βt1+(1−β)t2)))]
Et1,t2~pdata[log(1−D(G(z,βt1+(1−β)t2)))]

其实就是不仅用以前的tt了,还用了插值的语料。这是因为深度网络学习到的特征表示其实具有可插值性,或是说如果一对pair图像,经过相同的层后,对这些特征进行插值,那么插值后的特征也是在数据流型附近。也就是说,”一只小鸟在天上飞”和”黑头乌龟在地上晒太阳”,它们的深度特征插值后,没准就成了“一只黑头小鸟在地上晒太阳了”。。 
因此加入插值的语料进行训练,可以增加G的创新性吧。 
另外一点是:这种插值的语料没有对应的真实图片。也就是说我根本没有插值语料的SrSr啊。 
文中的解释: 
D learns to predict whether image and text pairs match or not. Thus, if D does a good job at this, then by satisfying D on interpolated text embeddings G can learn to fill in gaps on the data manifold in between training points. 
就是说既然D能够很好的判断给定的图片与给定的文本tt是否一致,那么如果用这种插值的文本tt, G会努力缩小训练数据点之间的差异。
zz起的作用
先定义content和style。一般情况下很多时候一句话就是描述content的,而不会描述style(style主要是包括背景和姿态)。那么这种情况下我们就希望zz能起到这种加入style的作用,从而生成更加真实多样化的图片。前面已经提到了GAN-CLS,GAN-INT和GAN-INT-CLS,那么哪种训练方式训练出来的模型,zz才是最能起到加入style的作用。 
然后他们首先弄了一个inverse G的网络。当然很简单,用以前生成的样本对就行。然后 
Lstyle=Et,z~N(0,1)∥z−S(G(z,ϕ(t)))∥
Lstyle=Et,z~N(0,1)‖z−S(G(z,ϕ(t)))‖

其中SS是inverse G网络。 
然后作者把图片按照style进行聚类(平均背景颜色,鸟类姿态等),然后取属于同一聚类的样本,求得zz。通过求解相同聚类的图片的style表示zz之间的consine距离,从而确定不同训练方式,zz所起到的style作用的强弱。 
 
还是GAN-INT-CLS模型的zz具有较好的style表示作用。
总结
通过分别在G和D里面加入tt的embedding特征,从而让G是在ϕ(t)ϕ(t)条件下的生成图片,而D是也是在ϕ(t)ϕ(t)条件下的判断图片是否符合文本。另一点是利用插值从而让G具有更强大的生成能力。此外,通过特征可视化的方式,让zz具有specific的style加入功能,从而解决文本描述本身不对style进行任何阐述的问题,随机化的zz可以加入不同的style,从而增加生成样本的真实性与多样性。
--------------------- 
作者:Hungryof 
来源:CSDN 
原文:https://blog.csdn.net/hungryof/article/details/76166980 
版权声明:本文为博主原创文章,转载请附上博文链接!

Generative Adversarial Text to Image Synthesis --- 根据文字描述生成对应的图片相关推荐

  1. Generative Adversarial Text to Image Synthesis 论文翻译精校版

    生成对抗性文本图像生成方法的研究 Generative Adversarial Text to Image Synthesis 美国密歇根大学.德国萨尔布鲁肯马克斯普朗克信息学研究所 摘    要 基 ...

  2. 论文笔记之:Generative Adversarial Text to Image Synthesis

    Generative Adversarial Text to Image Synthesis ICML 2016  摘要:本文将文本和图像练习起来,根据文本生成图像,结合 CNN 和 GAN 来有效的 ...

  3. MM2018/风格迁移-Style Separation and Synthesis via Generative Adversarial Networks通过生成性对抗网络进行风格分离和合成

    Style Separation and Synthesis via Generative Adversarial Networks通过生成性对抗网络进行风格分离和合成 0.摘要 1.概述 2.相关工 ...

  4. PaperNotes(5)-Conditional Generative Adversarial Nets

    Conditional GAN 论文阅读笔记 Abstract 1 Introduction 2 Related Work 3 Conditional Adversarial Nets 3.1 Gen ...

  5. 生成式对抗网络(Generative Adversarial Networks,GANs)

    1. 简介 首先简要介绍一下生成模型(Generative model)与判别模型(Discriminative mode)的概念: 生成模型:对联合概率进行建模,从统计的角度表示数据的分布情况,刻画 ...

  6. Text to image论文精读 DM-GAN: Dynamic Memory Generative Adversarial Networks for t2i 用于文本图像合成的动态记忆生成对抗网络

    Text to image论文精读 DM-GAN: Dynamic Memory Generative Adversarial Networks for Text-to-Image Synthesis ...

  7. CPGAN Content-Parsing Generative Adversarial Networks for Text-to-ImageSynthesis

    CPGAN: Content-Parsing Generative Adversarial Networks for Text-to-Image Synthesis 作者:Jiadong Liang, ...

  8. [论文笔记]Self-Attention Generative Adversarial Networks

    1.文献综述 文章链接:链接 文章题目:<Self-Attention Generative Adversarial Networks> 项目地址:1.TensorFlow版 2.pyto ...

  9. 文献阅读课13-DSGAN: Generative Adversarial Training for (远程监督关系抽取,句子级去噪)

    文章目录 Abstract 1.Introduction 2.相关工作 3 Adversarial Learning for Distant Supervision 3.1 Pre-Training ...

最新文章

  1. 学习成长就到鸿蒙思维,庆国庆,迎中秋,鸿蒙教育享双节99元开启思维之旅!!...
  2. Sparkamp;Spark性能调优实战
  3. 电磁干扰滤波器的设计
  4. Django学习 -- 第一个项目(Hello World)
  5. 机器学习笔记: Upsampling, U-Net, Pyramid Scene Parsing Net
  6. 成功解决解决VM软件安装Linux的Ubuntu过程,开启Linux出现Oprating System not found错误
  7. FFmpeg Maintainer赵军:FFmpeg关键组件与硬件加速
  8. 爬虫python下载视频_用python做爬虫下载视频
  9. codeforces 650B - Image Preview
  10. jsf标签p:ajax_JSF简单Ajax示例
  11. WPF 自定义 MessageBox (相对完善版 v1.0.0.6)
  12. Tomcat BIO . NIO . ARP 配置
  13. 概率霍夫变换(Progressive Probabilistic Hough Transform)原理详解
  14. mysql 61错误解决方法
  15. property 、classmethod 、 staticmethod 的用法
  16. VC的function类说明 -- 继续
  17. 游戏出海,技术先行 ——UCloud助力出海业务最佳实践直播公开课
  18. 基于Java+SpringBoot+mybatis+vue+element实现旅游管理系统
  19. mnist数据集下载地址
  20. CS架构客户端软件升级方案

热门文章

  1. oracle导入到mysql命令_oracle数据库导入导出命令
  2. oracle类型sql转为mysql_Oracle和MySql之间SQL区别(等效转换以及需要注意的问题)...
  3. c语言自动生成版本号,单片机C程序自动产生并增加版本号
  4. 用指针查找数组中温度值为32的天数
  5. Linux就业技术指导(二):简历项目经验示例
  6. 第39次《中国互联网络发展状况统计报告》发布
  7. 使用PowerShell调用MTools分析MongoDB性能并发送邮件
  8. iOS 提高tableView 性能的优化
  9. dns短域名会引起nslookup解析总解析到一个IP
  10. ASP.NET页面动态添加js脚本