来源:新智元

【导读】从图像到生成文本、从文本生成图像,多模态模型的探索一直未停止。最近Google又出从文本到图像的新模型,75%的人类都说超过了传统的SOTA模型,直呼脑子里有画面了!

文本到图像的自动合成(automatic text-to-image synthesis)是一个具有挑战性的研究课题,也逐渐引起了学界的重视,模型的训练输入只有文本,输出为一个图像。

这项研究能够让研究人员了解机器学习(ML)模型如何获得视觉属性,并将它们与文本联系起来。

与素描图、物体遮罩或矢量图等其他类型的图像创建的输入相比,描述性的句子是一种更直观和灵活的视觉概念表达方式。

“别说了,有画面了”就是这个意思。

因此,一个强大的自动文本到图像生成系统也可以成为快速创建内容的有用工具,并且可以应用于许多其他创造性应用,类似于将机器学习融入艺术创作。

一个典型的例子是Magenta,由谷歌大脑创造的,旨在推进 AI 在艺术领域的发展,可以进行包括 AI 音乐、绘画、笑话生成在内的多个项目。计算机能否具有创造力,这个问题也许还没有答案,但 AI 能创作出富有趣味的音乐和画作,则已经被Magenta带进了现实。

最先进的图像合成结果通常使用生成对抗性网络(GANs)来实现,该网络训练两个模型: 一个是试图创造真实图像的生成器,另一个是试图判断图像是真实还是虚构的鉴别器。

许多文本到图像的生成模型都是有限制条件的,例如类别标签等,它使用文本输入来生成语义相关的图像。

这个任务是非常具有挑战性的,特别是在提供长而模糊的描述时。

此外,GAN 的训练还很容易出现模式崩溃,也是训练过程中常见的失败案例,在这种情况下,生成器学习只产生有限的一组输出,因此鉴别器无法学习识别伪造图像的稳健策略。为了减少模式崩溃,一些方法使用多阶段细化网络迭代细化图像。

然而,这种系统需要多阶段的培训,并且效率远低于简单的单阶段端到端模型。其他的工作则依赖于分层的方法,即在最终合成一个真实的图像之前,首先对模型对象进行布局。这需要使用带标签的分段数据,这可能很难获得。

基于这个问题,Google在CVPR 2021上发表了一篇论文《跨模态对比学习: 文本到图像的生成》,提出了一个跨模态对比生成语法网络(XMC-GAN) ,该网络通过学习使图像和文本之间的互信息最大化,利用图像-文本和图像-图像之间的对比丢失来实现文本到图像的生成。

这种方法有助于判比器学习更健壮和鉴别特征,因此即使是一阶段的训练, XMC-GAN 也更不容易模式崩溃。

重要的是,与以前的多级或分级方法相比,XMC-GAN 通过简单的一阶段生成就实现了sota性能。它是端到端可训练的,只需要图像-文本对(相对于标记分割或边界框数据)即可训练。

文本到图像合成的对比损失文本到图像合成系统的目标是生成清晰的、具有高语义逼真度的、符合条件的文本描述的真实场景。为了实现这一目标,Google提出最大化相应对之间的互信息: (1)图像(真实的或生成的)与描述场景的句子; (2)生成的图像和具有相同描述的真实图像; (3)图像的区域(真实的或生成的)和与之相关的单词或短语。

在 XMC-GAN通过对比损失来增强效果。与其他 GANs 类似,XMC-GAN 包含了一个合成图像的生成器,以及一个判别器,它被训练成为真实图像和生成图像之间的判别器。

三组数据共同构成系统的对比损失,即真实图像、描述图像的文本以及由文本描述生成的图像。生成器和鉴别器的单个损失函数是从整个图像计算的损失与全文描述的损失的组合,再加上从带有相关单词或短语的细分图像计算的损失。

对于每一批训练数据,计算每一个文本描述和真实图像之间的余弦距离得分,同样,每一个文本描述和生成的图像之间的得分,目标是使匹配对(文本到图像和真实图像到生成的图像)具有较高的相似性得分,而非匹配对的相似性得分较低。执行这样的对比损失可以使鉴别器学习更健壮和鉴别特征。

XMC-GAN 成功应用于三个具有挑战性的数据集,一个是 MS-COCO 图像的描述集,另外两个是带有局部叙事注释的数据集,其中一个包括 MS-COCO 图像(也称为 LN-COCO) ,另一个描述开放图像数据(LN-OpenImages)。

结果发现,XMC-GAN 实现了一个新的国家的艺术在每一个。由 XMC-GAN 生成的图像所描绘的场景质量高于使用其他技术生成的图像。在 MS-COCO 上,XMC-GAN 将最先进的 Fréchet 起始距离(FID)评分从24.7提高到9.3,并且明显受到人类评估者的青睐。

同样,其他三个sota模型相比(CP-GAN,SD-GAN,和 OP-GAN),77.3%的人类评分员更喜欢 XMC-GAN 生成的图像质量,和74.1% 的认为模型图像文本对齐更好。

XMC-GAN 也很好地概括了具有挑战性的本地化叙事数据集,其中包含更长和更详细的描述。我们之前的工作 TReCS 解决了文本到图像生成的本地化叙事使用鼠标跟踪输入,以改善图像生成质量。尽管没有收到鼠标跟踪注释,但 XMC-GAN 能够在 LN-COCO 上显著优于 TReCS 的图像生成,将最先进的 FID 从48.7提高到14.1。将鼠标轨迹和其他额外输入纳入端到端模型,如 XMC-GAN,将是今后工作中值得研究的。

此外,我们还在 LN-OpenImages 上进行培训和评估,这比 MS-COCO 更具挑战性,因为数据集更大,图像覆盖的主题范围更广,也更复杂(平均8.4个对象)。据我们所知,XMC-GAN 是第一个在开放图像上训练和评估的文本到图像合成模型。XMC-GAN 能够产生高质量的结果,并在这个非常具有挑战性的任务上设置了一个强大的基准 FID 分数26.9。

在这项工作中,Google提出了一个跨模态对比学习框架,用于文本到图像合成的 GAN 模型的训练,并研究了几种加强图像和文本对应的跨模态对比损失。

对于人类评估和定量指标,XMC-GAN 建立了一个显着改进以前的模型对多个数据集。它生成高质量的图像,很好地匹配他们的输入描述,包括长的、详细的叙述,这样做的同时,还能够保持一个简单的端到端模型。

研究人员相信这代表了从自然语言描述生成图像的创造性应用的一个重大进步。随着这项研究的继续,根据人类社会的人工智能原则,还应该不断评估方法、潜在的应用和风险缓解方案。

参考资料:

https://ai.googleblog.com/2021/05/cross-modal-contrastive-learning-for.html

重磅!DLer-CVPR2021论文分享交流群已成立!

大家好,这是CVPR2021论文分享群里,群里会第一时间发布CVPR2021的论文解读和交流分享会,主要设计方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

???? 长按识别,邀请您进群!

别说了,有画面了!Google文本生成图像取得新SOTA,CVPR2021已接收相关推荐

  1. 文本生成图像的新SOTA:Google的XMC-GAN

    点击上方"机器学习与生成对抗网络",关注星标 获取有趣.好玩的前沿干货! 来源:新智元 [导读]从图像到生成文本.从文本生成图像,多模态模型的探索一直未停止.最近Google又出从 ...

  2. 重磅!2022年剑桥AI全景报告出炉,文本生成图像掀起新风暴!

    作者 | Nathan Benaich.Ian Hogarth 编译 | 杨阳 出品 | AI科技大本营(ID:rgznai100) 日前,2022年<State of AI Report> ...

  3. 使用扩散模型从文本生成图像

    1代的DALLE使用VQ-VAE 的改进版,2代的DALLE2 通过使用扩散模型将图片的生成提升到了一个新的高度,但是由于其计算量很大而且没有开源,我们普通用户并没有办法使用,但是Stable Dif ...

  4. AI艺术的背后:详解文本生成图像模型【基于 Diffusion Model】

    系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...

  5. AI艺术的背后:详解文本生成图像模型【基于GAN】

    系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...

  6. 字节最新文本生成图像AI,训练集里居然没有一张带文字描述的图片?!

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 丰色 发自 凹非寺 量子位 | 公众号 QbitAI 一个文本-图像 ...

  7. 缩小规模,OpenAI文本生成图像新模型GLIDE用35亿参数媲美DALL-E

    视学算法报道 编辑:陈萍.小舟 模型的参数规模并不需要那么大. 从年初 OpenAI 刷屏社区的 DALL-E 到英伟达生成逼真摄影的 GauGAN2,文本生成图像可谓是今年大火的一个研究方向.现在 ...

  8. 引燃AI社区,不用跨界也能从文本生成图像,OpenAI新模型打破自然语言与视觉次元壁...

    视学算法报道 作者:魔王.杜伟.蛋酱 艺术创作的事,以后人类只要动手打几个字,其他的交给 AI 就行了. 自然语言与视觉的次元壁正在被打破.这不,OpenAI 最近连发大招,提出两个连接文本与图像的神 ...

  9. 四步快速配置一个简单高效的文本生成图像基准模型 T2I baseline

    本文将介绍一个简单高效的文本生成图像基准模型,该基准模型是DF-GAN20版代码,清楚简单,实用性高,本基准模型代码在他的基础上经过少量简化和处理,虚拟环境也进行了打包,非常适合作为一个基线模型,然后 ...

最新文章

  1. 服了!会 Python 找工作这么容易?
  2. js课程 5-14 js如何实现控制动画角色走动
  3. CSP认证201709-1 打酱油[C++题解]:贪心
  4. 数据结构 稀疏矩阵的实现方法
  5. 华为堡垒机_安恒信息成为“华为云优秀严选合作伙伴”,携手保障“云上”资产安全访问...
  6. 续昨天的文章,在火山图标记基因名字
  7. web自动化测试---第一个自动化测试用例
  8. ubuntu使用python opencv_Ubuntu中“利用Opencv + python进行特征匹配”的环境搭建
  9. SQL Sever — 导入数据与导出数据到表的方法
  10. HMM,MEMM,CRF模型的比较
  11. Centos8 yum配置阿里云镜像
  12. python 字符串 1.1 从键盘输入10个英文单词,输出其中以元音字母开头的单词。
  13. 可视化搭建移动端店铺解决方案
  14. SolidWorks PDM二次开发---检出与检入
  15. 自然语言处理:问答语料生成词汇表,词转向量(三)
  16. 解决filebeat 报错 Failed to publish events
  17. ubuntu安装RYU过程问题记录
  18. 用 Python 来全自动抢微信红包
  19. Android处理大图片
  20. layui 滚动数据_layui 实现table翻页滚动条位置保持不变的例子

热门文章

  1. 验证码识别,发票编号识别(转)
  2. Javascript框架的自定义事件(转)
  3. 脚本语言lua笔记(5)c++调用lua
  4. 显卡位宽和带宽的区别
  5. neutron linux网络命令,OpenStack Neutron网络组件介绍(重要)
  6. path与classpath区别 path是Windows查找.exe文件的路径;classpath是jvm查找.class文件的路径
  7. 科普大V河森堡:用科学的方法回答哲学问题
  8. 真惨!连各大编程语言都摆起地摊了!
  9. 干货!神经网络原来是这样和数学挂钩的
  10. 世界上最百变的人不是女友,竟然是......