生成对抗性文本图像生成方法的研究

Generative Adversarial Text to Image Synthesis

美国密歇根大学、德国萨尔布鲁肯马克斯普朗克信息学研究所

摘    要

基于文本的真实感图像自动合成会很有趣也很有用,但是现有的人工智能系统距离这个目标还很远。近年来,通用的、功能强大的递归神经网络体系结构在学习区分文本特征表示方面得到了发展。同时,深层卷积的生成对抗性网络(GANs)已经可以用来生成令人信服的特定类别的图像,如面孔、专辑封面、房间内饰。在本次工作中,我们提出了一种新的深度架构和GAN公式,以有效地连接文本和图像建模,将视觉概念从字符转换为像素。在论文中展示了我们的模型在处理“从详细文本描述生成鸟类和花卉的可信图像”时的能力。

关键词:真实;文本图像生成;深层卷积;GANs

1 引  言

在此次工作中,我们感兴趣的是将人类书写的单句文字直接翻译成图像的像素。例如,“这只小鸟有一个短而尖的橙色喙和白色的腹部”或“这朵花的花瓣是粉红色的,花药是黄色的”。从视觉描述中生成图像的问题已经引起了研究界的兴趣,但远未得到解决。

传统上,这类有关于物体的详细视觉信息是在属性表示中获取的,能够识别特征编码成矢量的对象类别(Farhadi et al., 2009; Kumar et al., 2009; Parikh & Grauman, 2011; Lampert et al., 2014),特别是为了实现零样本视觉识别(Fu et al., 2014; Akata et al., 2015)以及最近用于条件图像生成(Yan et al., 2015)。

图1,从文本描述生成图像的示例。详见原文

虽然属性表示的区分能力和强泛化特性很吸引人,但属性的获取也很麻烦,因为它们可能需要特定领域的知识。相比之下,自然语言提供了一个通用和灵活的界面,用于描述任何类别的视觉类别中的对象。理想情况下,我们可以实现利用通用的文本描述来实现具有辨别力的属性区分。

最近,文本的深度卷积和递归网络研究方面产生了高度辨别性和可概括性(在零样本学习意义下)的文本表示,这些表示是从单词和字符中自动学习的(Reed et al.,2016)。这些方法超越了加州理工大学UCSD鸟类数据库(Wah et al.,2011)上使用属性进行零样本视觉识别的最新技术,还能够基于零样本字幕进行检索。基于这些工作,我们的目标是学习从单词和字符到图像像素的直接映射。

为了解决这一具有挑战性的问题,需要解决两个子问题:首先,通过某种方法让模型学习能够捕捉到重要的视觉细节的文本特征表达;其次,使用这些捕捉到的特征来合成一些能够让人们误以为真的图片。幸运的是,在过去的几年里,深度学习在自然语言表达和图像合成这两个子问题上都取得了巨大的进展,我们得以在这一基础上成功完成了当前的任务。

然而,仅靠深度学习还不能解决的一个难题是,基于文本描述的图像分布是高度多模态的,因为有很多貌似合理的像素配置可以得到正确地说明描述。相反的方向(从图像到文本)也受到这个问题的影响,但是学习是实际可行的,因为单词或字符序列可以根据链式规则顺序分解;也就是说,利用一个训练模型来预测下一个“基于图像和所有先前标记”的标记条件,这是一个更明确的预测问题。

因此,这种条件多模态是生成性对抗网络的一种非常自然的应用(Goodfellow et al., 2014),其中,生成性网络被优化以愚弄经过对手训练的判别器,使其预测合成图像是真实的。通过调节生成器和判别器的信息(Mirza&Osindero(2014)和Denton et al.(2015)),我们可以自然地模拟这种现象,因为判别器网络充当智能自适应损耗函数。我们在这项工作中的主要贡献是开发一个简单有效的GAN架构和训练策略,使得能够成功实现由人类的书面文本描述来生成值得信赖的鸟和花卉图像。

我们主要使用加州理工学院UCSD鸟类数据集和Oxford-102花卉数据集,以及我们收集的每个图像的五个文本描述作为我们的评估设置。我们的模型是在训练类别的子集上训练的,并且我们演示了它在训练集和测试集上的性能,即除了鸟类和花卉,我们还将模型应用于MS COCO数据集中更一般的图像和文本描述(Lin et al.,2014)。

2 相  关  工  作

多模态学习的主要挑战包括学习跨模态的共享表示,以及预测一种基于另一种模态的缺失数据(例如通过检索或合成)。(Ngiam et al., 2011)训练了音频和视频信号上的堆叠多模态自动编码器,并能够学习共享模态不变表示。(Srivastava & Salakhutdinov, 2012)开发了一个深度 Boltzmann机器,并联合建模图像和文本标签(Sohn et al., 2014)提出了一个多模态条件预测框架(假设一个模态产生另一个模态),并提供了理论依据。

近年来,许多研究者利用深度卷积解码网络产生真实图像的能力。(Dosovitskiy et al., 2015)训练一个解卷积网络(若干层卷积和上采样),根据一组显示形状、位置和照明的图形代码生成三维椅子效果图(Yang et al., 2015)增加了一个编码器网络以及该方法的操作。他们训练了一个递归卷积编码器,它可以根据旋转的动作序列旋转三维椅子模型和人脸(Led et al., 2015)对类比对的转换进行编码,并使用卷积解码器预测形状、视频游戏角色和3D汽车上的视觉类比。

生成性对抗网络(Goodfello et al.,2014)也受益于用于生成性网络模块的卷积解码器网络(Denton et al., 2015)使用一个由对抗发生器和判别器组成的拉普拉斯金字塔合成多分辨率图像。这项工作产生了引人注目的高分辨率图像,也可以在类标签上进行可控生成(Radford et al.,2016)使用了标准卷积解码器,但开发了一种高效、稳定的架构,结合批量规范化,以获得显著的图像合成结果。

我们的工作与上面描述的条件GANs的主要区别在于,我们的模型条件是文本描述而不是类标签。据我们所知,它是第一个从字符级到像素级的端到端可微体系结构。此外,我们还为GAN发生器引入了一种流形插值正则化器,该正则化器显著提高了生成样本的质量,包括在CUB上保持零样本类别。

以前关于从图像和文本中进行多模态学习的大部分工作都将检索作为目标任务,即获取给定文本查询的相关图像,反之亦然。然而,在过去一年中,在使用递归神经网络解码器生成基于图像的文本描述方面取得了突破(Vinyals et al.,2015;Mao et al.,2015;Karpathy&Li,2015;Donahue et al.,2015)。这些典型条件是,在深度卷积网络的顶层特征上具有长-短期记忆(Hochreiter&Schmidhuber,1997),以使用MS COCO(Lin et al.,2014)和其他标题图像数据集生成标题(Xu et al., 2015)纳入了一个反复的视觉注意机制,以提高准确率。

在最近的工作中,除了条件生成之外,还考虑了其他任务(Ren et al., 2015)生成有关图像视觉内容的问题的答案。该方法被扩展为包含明确的知识库(Wang et al.,2015; Zhu et al., 2015)将序列模型应用于文本(书籍形式)和电影,从而保证相关一致性。

曼西莫夫(et al., 2016)完成了从文本标题生成图像,使用可变递归自动编码器,注意在多个步骤中绘制图像,类似于逐步绘制图像(Gregor et al.,2015)。令人印象深刻的是,该模型能够对完全新颖的(人类不太可能表述的)文本进行合理的合成,例如“一个停车标志在蓝天上飞翔”,这表明它不仅仅是从记忆来进行和合成。虽然结果是令人鼓舞的,但这个问题是非常具有挑战性的,生成的图像还不真实,也就是说,被误认为是真实的。在许多情况下,我们的模型可以根据文本生成视觉上可信的64×64图像,并且我们的整个模型都是使用GAN,而不是仅使用GAN进行后处理。

在借鉴前人工作的基础上,我们提出了一种更加简单有效的基于字符级文本编码器和类条件GAN的图像合成方法。我们提出了一种新颖的架构和学习策略,能够产生令人信服的视觉效果。我们关注细粒度图像数据集的情况,我们使用最近收集的加州理工大学圣地亚哥分校鸟类和牛津花卉的描述,每个图像有5个人类标注的标题(Reed et al.,2016)。在类不相交集上进行训练和测试,使测试性能能够很好地反映泛化能力,并在多目标、多背景的MS-COCO图像上进行了验证。

3 背  景

在本节中,我们将简要介绍我们的方法所基于的几个先前完成的工作。

3.1 生成性对抗网络

生成性对抗网络(GANs)由一个生成器G和一个在两种mini-max博弈中竞争的判别器D组成:判别器试图区分真实训练数据和合成图像,生成器试图愚弄判别器。具体来说,D和G在V(D,G)上构成以下关系:

公式(1)详见原文

(Goodfellow et al., 2014)证明了当pg=pdata时,该极小极大对策具有全局最优解,并且在温和条件下(例如G和D具有足够的容量时)pg收敛到pdata。在实际操作中,训练开始时,D的样本非常差,被D以很高的置信度拒绝。已经发现,在实践中更好地使发生器最大化log(d(g(z))),而不是最小化log(1×1(g(z)))。

3.2 深对称结构节点嵌入

为了获得文本描述的视觉辨别矢量表示,我们决定遵循Reed等人的方法。使用深卷积和递归文本编码器学习与图像的对应函数。通过优化以下结构损失,训练由学习的对应函数ft诱导的文本分类器:

公式(2)(3)(4)详见原文

其中,φ是图像编码器(例如,深卷积神经网络),ɕ是文本编码器(例如,字符级CNN或LSTM),T(y)是类y的文本描述集,同样,V(y)是图像的文本描述集。这里的结论是,与其他类相比,文本编码应该与相应类的图像具有更高的兼容性分数,反之亦然。

为了训练模型,与方程2相关的替代目标最小化(Akata et al., 2015)。所得到的梯度被反向传播到ɕ,以学习区分文本编码器。里德等人。(2016)发现不同的文本编码器对CUB和Flowers的效果更好,但是为了充分的通用性和对输入错误和大量词汇的鲁棒性,在这项工作中,我们始终使用混合字符级卷积递归网络。

4 实  验  方  法

我们的方法是训练一个深度卷积的世代对抗网络(DC-GAN),该网络以混合字符级卷积递归神经网络编码的文本特征为条件。生成器网络G和判别器网络D都根据文本特征执行前馈推理。

4.1 网络结构

我们使用以下符号。生成网络表示为G: R^Z×R^T→R^D; 判别器为D: R^D×R^T→{0,1},其中T是文本的维度描述嵌入,D是图像的维数,Z是输入到G的噪声的维数。我们的网络架构如图2所示:

图2,我们设计的文本-条件卷积GAN结构。详见原文

在生成器G中,首先从噪声先验Z∈R^Z∼N(0,1)中采样,然后使用文本编码器ɕ对文本查询t进行编码。首先使用完全连接的层将嵌入的描述ɕ(t)压缩到一个小尺寸(实际上我们使用了128),然后连接到噪声矢量z。然后,识别如同在正常的卷积网络中一样进行:我们通过生成器G将其前馈;合成图像xˆ是通过xˆ<.G(z,ü(t))生成的。图像生成对应于生成器G中基于查询文本和噪声样本的前馈推理。

在判别器 D中,我们使用空间批处理规范化(Ioffe&Szegedy,2015)执行几层stride-2卷积,然后执行leaky ReLU函数。再次降低描述的维数,在一个(单独的)完全连接层中嵌入(t),然后进行校正。当判别器的空间维数为4×4时,我们在空间上复制嵌入的描述并执行深度连接。然后进行1×1卷积、校正和4×4卷积以计算D的最终得分。最后在所有卷积层上执行批处理规范化。

4.2 具有匹配感知的判别器(GAN-CLS)

训练条件GAN最直接的方法是将(文本、图像)对视为联合观测,并训练判别器判断是真是假。这种类型的条件反射是原始的,因为判别器对真实的训练图像是否与文本嵌入上下文匹配没有明确的概念。

然而,正如(Gauthier,2015)所讨论的,机器学习的准确率可能不同于无条件情况。在训练开始时,判别器忽略了条件信息,并且很容易拒绝来自G的样本,因为它们看起来不可信。一旦G学会了生成合理的图像,它也必须学会将它们与条件信息对齐,同样地,D也必须学会评估来自G的样本是否满足该条件约束。

在naive GAN中,判别器观察两种输入:具有匹配文本的真实图像和具有任意文本的合成图像。因此,它必须隐式地分离两个错误源:不切实际的图像(对于任何文本),以及与条件信息不匹配的错误类的真实图像。基于这可能会使机器学习算法复杂化的问题,我们修改了GAN训练算法来分离这些误差源。除了训练过程中对判别器的真/假输入外,我们还添加了第三种类型的输入,它由文本不匹配的真实图像组成,判别器必须学会将其作为假输入来区分。通过学习优化图像/文本匹配以及图像真实性,判别器可以向生成器提供额外的信号。

算法1,步长为α的GAN-CLS训练算法。详见原文

算法1总结了训练过程。在对文本、图像和噪声(第3-5行)进行编码后,我们生成假图像(xˆ,第6行)。sr表示将真实图像与其对应句子关联的分数(第7行),sw表示将真实图像与任意句子关联的分数(第8行),sf表示将假图像与其对应文本关联的分数(第9行)。注意,我们使用∂LD/∂D来表示D的目标相对于其参数的梯度,同样地,对于G,第11行和第13行意味着采用梯度步骤来更新神经网络的各项参数。

4.3 流形插值学习(GAN-INT)

深层网络已经被证明能够学习嵌入对之间的插值趋向于接近数据流形的表示(Bengio等人,2013;Reed等人,2014)。基于这种特性,我们可以通过简单地在训练集标题的嵌入之间进行插值来生成大量额外的文本嵌入。关键的是,这些插入的文本嵌入不需要与任何实际的手写文本相对应,因此没有额外的标记成本。这可视为在生成器目标中添加一个附加术语,以达到最小化需求:

公式(5),详见原文

其中z从噪声分布中提取,β在文本嵌入t1和t2之间插值。在实验过程中,我们发现党固定β=0.5时效果良好。

由于插值嵌入是合成的,判别器D没有“真实”对应的图像和文本对来训练。然而,D学习预测图像和文本对是否匹配。因此,如果D在这方面做得很好,那么通过在插值文本嵌入上满足D,G可以学习在训练点之间填补数据流形上的空白。注意t1和t2可能来自不同的图像,甚至是不同的类别。

4.4 反转样式转换生成器

如果文本编码ɕ(t)捕获图像内容(例如花的形状和颜色),则为了生成逼真的图像,噪声样本z应捕获样式因子,例如背景颜色和姿势。使用经过训练的GAN,可以希望将查询图像的样式转移到特定文本描述的内容上。为了实现这一点,我们可以训练一个卷积网络来反转G,使其从样本xˆ←G(z,ü(t))回归到z。我们使用简单的平方损失方法来训练样式编码器:

公式(6),详见原文

其中S是样式编码器网络。使用经过训练的生成器和样式编码器,从查询图像x到文本t的样式传输按以下步骤进行:

s ← S(x), xˆ ← G(s, ϕ(t))

其中xˆ是结果图像,s是预测样式。

结    论

在这项工作中,我们开发了一个简单有效的模型,用于生成基于详细视觉描述的图像。我们证明了该模型可以综合对给定文本标题的许多合理的视觉解释。我们的流形插值正则化器实质上改进了CUB上的文本到图像合成。我们展示了文本描述中风格和内容的分离,以及从查询图像到文本描述的鸟类姿势和背景的转换。最后,我们在MS-COCO数据集上证明了我们的方法在生成多目标和可变背景图像方面的通用性。在未来的工作中,我们的目标是将模型进一步扩展到更高分辨率的图像,并添加更多类型的文本。

Generative Adversarial Text to Image Synthesis 论文翻译精校版相关推荐

  1. 论文笔记之:Generative Adversarial Text to Image Synthesis

    Generative Adversarial Text to Image Synthesis ICML 2016  摘要:本文将文本和图像练习起来,根据文本生成图像,结合 CNN 和 GAN 来有效的 ...

  2. Generative Adversarial Text to Image Synthesis --- 根据文字描述生成对应的图片

    简单的说就是根据文字进行生成相应的图片.  先看效果: 架构 这里首先用一个 text embedding网络来将文字转换为向量,ϕ(t)ϕ(t)是1024维的向量,然后投影成128.并将这128向量 ...

  3. CVPR2018: Generative Image Inpainting with Contextual Attention 论文翻译、解读

    2019独角兽企业重金招聘Python工程师标准>>> CVPR2018: Generative Image Inpainting with Contextual Attention ...

  4. Generative Adversarial Zero-shot Learning via Knowledge Graphs翻译

    Generative Adversarial Zero-shot Learning via Knowledge Graphs Abstract: 零样本学习(ZSL)是处理那些没有标记训练数据的看不见 ...

  5. FaceID-GAN:Learning a Symmetry Three-Player GAN for Identity-Preserving Face Synthesis论文翻译和解读

    写在之前:这篇work的精妙程度是我平生仅见,或者是我还没看过太多论文.网络模型的设计加上合适的损失函数,一篇CVPR就出来了. 摘要 人脸合成使用GANs已经获得了很卓越的效果.现存在的方法将GAN ...

  6. Recent Advances in Open Set Recognition A survey全文翻译精校

    开放集识别的最新进展:综述 耿传兴,黄圣君,陈松灿 摘要--在现实世界的识别/分类任务中,由于受到各种客观因素的限制,在训练一个识别器或分类器时,通常很难收集训练样本来用尽所有类.更现实的场景是开放集 ...

  7. 高被引Top1团队综述:Adversarial Attacks and Defenses in Images, Graphs and Text: A Review【论文翻译】

         深度神经网络(DNN)逐渐代替传统模型,成为机器学习中最热门的工具,它已被成功应用于计算机视觉,自然语言处理等很多领域.然而,最近的研究表明,深度模型极容易被对抗样本攻击.人为稍微扰动模型的 ...

  8. ST-GAN: Spatial Transformer Generative Adversarial Networks for Image Compositing 原文翻译

    ST-GAN:用于图像合成的空间变换器生成敌对网络 目录 摘要 1.介绍 2.相关工作 3.方法 3.1.迭代几何校正 3.2.顺序对抗训练 3.3.敌对目标 4.实验 4.1.3D立方体 4.2.室 ...

  9. 【GAN ZOO阅读】Generative Adversarial Nets 生成对抗网络 原文翻译 by zk

    Ian J. Goodfellow, Jean Pouget-Abadie ∗ , Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair † ...

最新文章

  1. 数码管字体属于什么字体_photoshop里这方法就能知道图片上文字使用的是什么字体...
  2. 雷辉:让视频会议conferencing like TV
  3. SAP应用有可能改造成Serverless架构么?
  4. [C++]vector创建二维数组
  5. 微信无法连接服务器1-502,只有一部iphone x手机,在微信公众号中选择菜单,出现bad gateway 502错误,原因?...
  6. 关于java中锁的面试题_Java面试题-Java中的锁
  7. 万能钥匙ctf--4-ReeHY-main调试记录--unlink
  8. iptv错误代码2003什么意思_IPTV部分错误代码和原因解释
  9. 如何利用RFM模型对客户进行精细化管理
  10. 解决:qrc文件中删除资源文件后编译失败
  11. Linux如何验证AP6212(AP6236)的bluetooth功能
  12. 我在名牌大学毕业后的经历——曾经努力过,就不会后悔
  13. git cherry-pick 的时候出现git cherry-pick xxx  fatal: bad object xxx
  14. obs多推流地址_OBS如何进行多路推流
  15. Python 条件语句
  16. 回味一下——仿2008QQ面板导航
  17. 开源流媒体服务器SRS环境搭建
  18. 维基解密创始人被捕,从“天才黑客”到“阶下之囚”
  19. 点云系统的搭建--ROS,OPENNI,PCL1.8
  20. 水滴公司Q3财报引股价增长,保险业复苏“第一枪”打响了?

热门文章

  1. L1,L2正则化理解-奥卡姆剃刀(Occam's razor)原理
  2. 如皋中学2021高考成绩查询,喜报!如皋八所高中高考成绩公布
  3. 阿里巴巴“相信小的伟大”:用普世情怀传播小力量
  4. 基于OpenCV 的手指骨骨龄计算
  5. tomcat使用详解(week4_day2)--技术流ken
  6. 我是如何通过华为面试的?群面+技术面+综合面+英语面(Android岗)
  7. 小米笔记本AIR13.3第一代(6200U+8GB+256GB,不带指纹)双系统(WIN10+DEEPIN)安装过程避坑
  8. Usdt到底靠谱吗?——记美国与大B网的恩怨情仇
  9. 嵌入式GUI盘点-你了解几款?
  10. chrome + IDM + 油猴插件 实现百度网盘大文件的高速下载