超过AttGAN,谷歌推出生成文本到图像的新框架 TReCS
谷歌研究人员推出新框架 TRECS,生成的图像更逼真,更符合文字的描述。
近年来,基于生成对抗性网络(GAN)的深层神经网络已经大幅提高了端到端可训练的照片式文本到图像的生成结果。许多方法也使用中间场景图(intermediate scene graph)表示来改进图像合成的效果。
通过基于对话交互的方法允许用户提供指令来逐步改进和调整生成的场景:通过指定背景中对象的相对位置,为用户提供了更大的控制权。然而,这种方法所使用的语言是有限制的,所产生的图像仅限于3D合成可视化或者卡通。
本月初,OpenAI官宣了一个基于Transformer的语言模型DALL-E,使用了GPT-3的120亿参数版本,引起了不小的轰动。
根据文字提示,DALL-E生成的图像可以像在现实世界中拍摄的一样。
DALL-E同时接收文本和图像作为单一数据流,包含多达1280个token,并使用最大似然估计来进行训练,以一个接一个地生成所有的token。这个训练过程不仅允许DALL-E可以从头开始生成图像,而且还可以重新生成现有图像的任何矩形区域,与文本提示内容基本一致。
谷歌当然不甘落后。
最近,谷歌研究院的成员们发表了一篇新论文:以细粒度用户注意力为基础的文本到图像生成.
作者在论文中提出了一个新的框架:Tag-Retrieve-Compose Synthesize system (TReCS)。该方法通过改进语言对图像元素的唤醒方式和痕迹对图像元素位置的告知方式,显著提高了图像生成过程。该系统使用了超过250亿个样本来进行训练,并有可能处理103种语言。
这篇论文的主要贡献在于:
1.第一次展示了在非常困难的文本到图像合成任务中的能力(与之前关于更短的文本任务相比)。
2.提出了TRECS,这是一种序列生成模型,它使用最先进的语言和视觉技术生成与语言和空间鼠标轨迹一致的高质量图像。
3.进行了自动和人工评估,以证明TRECS生成的图像质量比现有技术有所提高。通过广泛的研究,确定了TRECS管道的关键组成部分,这对于基于用户注意力的文本到图像生成任务至关重要。
具体效果如下:
或是这样:
TRECS的亮点在于可以同时利用文本和鼠标痕迹。相比对于其他策略,尤其是那些需要场景图的策略,说话时用鼠标指着是一种更自然的方式,供用户在图像合成过程中指示其意图。
大致流程如下:
1.新的框架利用可控的鼠标轨迹作为细粒度的视觉基础来生成给定用户叙述的高质量图像,标记器用于预测短语中每个单词的对象标记。
2. 文本到图像的双重编码器用语义相关的mask掩码来检索图像。对于每个跟踪序列,选择一个mask来最大化空间重叠,克服了真实文本到对象的信息和更好的描述。
3. 选定的mask按照跟踪顺序组合,并为背景和前景对象分别绘制画布。前景掩码被置于背景掩码之上,以创建一个完整的场景分割。
4. 最后,将整个分割过程输入到掩码到图像的转换模型中,合成出真实感图像。
在评价方面,无论是自动判断还是人工评估,该系统都优于目前 SOTA 的文本图像生成技术。从日常语言中翻译出来的杂乱的叙事文本中生成真实可控的照片,显示了这种方法的可行性。同时TReCS 系统也解释了冗长而复杂的文本描述来进行文本-图像生成的复杂性。实验结果表明,该方法可以有效地生成真实感强的文本图像。
目前该方法还存在一定的限制,即:缺乏合适的评价指标来定量测量生成的图像的质量。现有的度量方法不能合理地反映基本真实图像和机器生成的真实图像之间的语义相似性。
不过,在未来的几年里,这个想法或许可以用来支持各种应用程序,并提供一个友好的人机界面。例如,可以帮助艺术家创建原型,从机器生成的照片中获得洞察力,并生成逼真的图像。此外,它可以用来设计 human-in-the-loop 的评价系统,以优化网络。
论文原文链接:
https://arxiv.org/pdf/2011.03775.pdf
超过AttGAN,谷歌推出生成文本到图像的新框架 TReCS相关推荐
- MAE同期工作!MSRA新作SimMIM收录CVPR 2022!高达87.1%准确率!掩码图像建模新框架...
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:机智勇敢萌刚刚 | 已授权转载(源:知乎)编辑:CVer https://zhuanlan.zhi ...
- 别说了,有画面了!Google文本生成图像取得新SOTA,CVPR2021已接收
来源:新智元 [导读]从图像到生成文本.从文本生成图像,多模态模型的探索一直未停止.最近Google又出从文本到图像的新模型,75%的人类都说超过了传统的SOTA模型,直呼脑子里有画面了! 文本到图像 ...
- 文本生成图像的新SOTA:Google的XMC-GAN
点击上方"机器学习与生成对抗网络",关注星标 获取有趣.好玩的前沿干货! 来源:新智元 [导读]从图像到生成文本.从文本生成图像,多模态模型的探索一直未停止.最近Google又出从 ...
- 首篇BEV感知生成工作!BEVGen:从鸟瞰图布局生成环视街景图像
摘要 鸟瞰图(BEV)感知近年来受到越来越多的关注,因为它提供了跨视图的简洁和统一的空间表示,并有利于多种下游驾驶应用.虽然重点放在区分性任务上,如BEV分割,但从BEV视角生成街景图像的双重生成任务 ...
- 比Imagen更高效!谷歌新作Muse:通过掩码生成Transformer进行文本到图像生成
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->CV微信技术交流群 转载自:机器之心 图像生成领域越来越卷了! 文本到图像生成是 2022 ...
- ICML2021 | ALIGN:大力出奇迹,谷歌用18亿的图像-文本对训练了一个这样的模型
关注公众号,发现CV技术之美 本文分享ICML 2021 收录论文『Scaling Up Visual and Vision-Language Representation Learning With ...
- 重磅!2022年剑桥AI全景报告出炉,文本生成图像掀起新风暴!
作者 | Nathan Benaich.Ian Hogarth 编译 | 杨阳 出品 | AI科技大本营(ID:rgznai100) 日前,2022年<State of AI Report> ...
- #今日论文推荐# 谷歌推出DreamBooth扩散模型,可做到“以假乱真”,让指定现实物体在图像中以各种方式展现
#今日论文推荐# 谷歌推出DreamBooth扩散模型,可做到"以假乱真",让指定现实物体在图像中以各种方式展现 在 AI 长期发展中,目前的文本生成图像模型有了显著提升,今年谷歌 ...
- 谷歌推出TFGAN:开源的轻量级生成对抗网络库
原作 Joel Shor 机器感知高级软件工程师 Root 编译自 谷歌开源博客 量子位 出品 | 公众号 QbitAI 一般情况下,训练一个神经网络要先定义一下损失函数,告诉神经网络输出的值离目标值 ...
最新文章
- 【加密U盾】在LINX操作系统中部署KD电子钥匙
- html5的网页布局工具,HTML5网站响应式布局的主流设计方法介绍及工具推荐
- 理解SQLNET.AUTHENTICATION_SERVICES参数|转|
- Java EE之旅02 CSS基础
- 计算机基础- -认识磁盘
- 数据结构问题集锦 - Find Median from Data Stream
- oracle 取mac地址,java执行命令,得到Mac地址
- session一致性架构设计
- 33 个 JavaScript 核心概念系列(四): == 与 ===
- Layui判断Tab栏是否打开,查找Tab栏中的元素
- 计算机操作基本技能知识,计算机基本操作技能考核知识点
- MySQL重复数据排序_排序数据以在MySQL中重复记录
- 国产首发:上海川土微电子数字接口电源数字隔离芯片模拟芯片领导者
- 情人节用python来表白女神
- android定位二(百度定位SDK)
- WLAN与WiFi各是什么意思有什么区别
- Intellij IDEA的永久破解网站
- 被动语态和非谓语区别_动词的被动语态和非谓语动词-ed形式区别
- Froyo(Android2.2)移植到Mips平台经验总结
- Oracle Demo库默认用户/密码为什么叫Scott/Tigger?
热门文章
- python的科学计算库有哪些_Python科学计算库-Numpy
- icns图标制作_PPT制作必备:这6个网站,帮你打造超强的图标素材库
- HelloServlet
- pytorch中Schedule与warmup_steps的用法
- python向字典中添加值
- 《强化学习周刊》第11期:强化学习应用之模拟到真实
- 你为什么“啃不动”你手中的技术书?
- Visual Transformers: Token-based Image Representation and Processing for Computer Vision
- 关于consistent hash的思考及改进方案
- Spark运行模式(local standalond,yarn-client,yarn-cluster,mesos-client,mesos-cluster)