丰色 发自 凹非寺
量子位 报道 | 公众号 QbitAI

OpenAI刚刚推出了一个新的文本生成图像模型,名叫GLIDE

相比今年年初诞生的大哥DALL·E,它只有35亿参数(DALL·E有120亿)。

规模虽然小了,质量却不赖。

大家仔细看这效果,“使用计算器的刺猬”、“星空下的狐狸”、“彩色玻璃窗风格的熊猫吃竹子”、“太空升降舱蜡笔画”:

是不是很像样儿?

一位码农兼艺术家的网友则形容它“和真的难以区分”

GLIDE在人类评估员的打分中,确实PK掉了使用CLIP给图片排序的DALL·E。

最有趣的是,这个GLIDE似乎具有“智力”——会否决你画出八条腿的猫的主意,也不认为老鼠可以捕食狮子

OpenAI岁末新作GLIDE

GLIDE全称Guided Language to Image Diffusion for Generation and Editing,是一种扩散模型 (diffusion model)。

扩散模型最早于2015提出,它定义了一个马尔可夫链,用于在扩散步骤中缓慢地向数据添加随机噪声,然后通过学习逆转扩散过程从噪声中构建所需的数据样本。

相比GAN、VAE和基于流的生成模型,扩散模型在性能上有不错的权衡,最近已被证明在图像生成方面有很大的潜力,尤其是与引导结合来兼得保真度和多样性。

扩散模型与其他三种生成模型的对比

研究人员训练了一个64×64分辨率的文本条件扩散模型,参数35亿;以及一个256×256分辨率的文本条件上采样扩散模型,参数15亿。

模型有两种引导形式来获得更好的生成效果:无分类器引导(classifier-free guidance)和CLIP引导。

对于CLIP引导,他们还训练了一个噪声感知的64×64 ViT-L CLIP模型 (vit)。

模型采用了SOTA论文《Improved Denoising Diffusion Probabilistic Models》(改进的去噪扩散概率模型)的架构,使用文本条件信息对其进行增强。

对于每个带噪图像xt和相应的提示文本caption,该模型预测出p(xt-1|xt,caption)。

为了对文本进行条件处理,模型还将文本编码为K个token的序列,并将这些token馈送到Transformer中,此Transformer的输出有两个用处:

1、在ADM模型中使用最终token embedding来代替class embedding;

2、token embedding的最后一层在整个ADM模型中分别映射每个注意层的维度,然后连接到每个层的注意上下文。

研究人员在与DALL·E相同的数据集上训练GLIDE,batch size为2048,共经过250万次迭代;对于上采样模型,则进行了batch size为512的160万次迭代。

这些模型训练稳定,总训练计算量大致等于DALL·E。

在初始训练完成之后,研究人员还微调了基础模型以支持无条件图像生成。

训练过程与预训练完全一样,只是将20%的文本token序列替换为空序列。这样模型就能既保留文本条件生成的能力,也可以无条件生成。

为了让GLIDE在图像编辑任务中产生不必要的伪影,研究人员在微调时将GLIDE训练样本的随机区域擦除,其余部分与掩码通道一起作为附加条件信息输入模型。

相比DALL·E,GLIDE的效果更逼真

  • 定性实验

研究人员首先比较了GLIDE两种不同的引导策略:CLIP引导和无分类器引导。

分别用XMC-GAN、DALL·E(使用CLIP重排256个样本,从中选择最佳结果)和CLIDE模型(CLIP引导/无分类器引导)在相同的文本条件下生成了一些结果。

CLIDE模型的结果未经挑选。

可以发现,无分类器引导的样本通常比CLIP引导的看起来更逼真,当然,两者都胜过了DALL·E。

对于复杂的场景,CLIDE可以使用修复功能进行迭代生成:比如下图就是先生成一个普通客厅,再加画、加茶几、加花瓶……

此外,CLIDE还可以在SDedit模型上利用草图与文本相结合的方式,对图像进行更多受控修改。

  • 定量实验

研究人员首先通过衡量质量和保真度的帕累托边界(Pareto frontier)来评估无分类引导和CLIP引导之间的差异。

在前两组曲线中,可以发现无分类器引导几乎都是最优的——不管是在准确率/召回率上,还是在IS/FID距离上。

而在绘制CLIP分数与FID的关系时,出现了完全相反的趋势。

研究人员假设这是CLIP引导正在为评估CLIP模型寻找对抗性示例,而并非真正优于无分类器引导。为了验证这一假设,他们聘请了人工评估员来判断生成图像的质量。

在这个过程中,人类评估者会看到两个256×256的图像,选择哪个样本更好地匹配给定文本或看起来更逼真。如果实在分辨不出,每个模型各得一半分数。

结果如下:

无分类器引导产生了更符合相应提示的高质量样本。

同时,研究人员也将CLIDE与其他生成模型的质量进行了评估:CLIDE获得了最有竞争力的FID分数。

再将GLIDE与DALL-E进行人工评估。

包含三种比法:两种模型都不使用CLIP重排序;仅对DALL·E使用CLIP重排序;对DALL-E使用CLIP重排序,并通过DALL-E使用的离散VAE映射GLIDE样本。

结果是不管哪种配置,人类评估员都更倾向于GLIDE的结果(每项第一行代表GLIDE)。

当然,说这么多,GLIDE也有它的不足,就如开头的例子,它没法画出不合常理的“八条腿的猫”,也就是有智力但缺乏想象力

此外,未优化的GLIDE需要15秒才能在单张A100 GPU上生成一张图像,这比GAN慢多了。

最后,po一张我们在官方发布的Colab链接上亲手试的一张效果,还凑合(an illustration of a rabbit,demo上的模型比较小):

论文地址:
https://arxiv.org/abs/2112.10741

GitHub地址(是一个在过滤后的数据集上训练的小模型):
https://github.com/openai/glide-text2im

Colab试玩:
https://colab.research.google.com/github/openai/glide-text2im/blob/main/notebooks/text2im.ipynb#scrollTo=iuqVCDzbP1F0

OpenAI逆炼以文生图:参数缩水2/3性能却更强,还get局部编辑新技能|可试玩相关推荐

  1. 腾讯太极文生图大模型,带你一起感受祖国大好河山

    ​一.背景 随着大规模预训练模型的蓬勃发展和算力的大规模提升,业界和学界在图片生成这个领域也取得了非常大的进展.在AIGC(AI Generated Content)这个领域,随着英文Stable D ...

  2. AIGC周报|30秒定制一个文生图模型;60美元让AI玩转《我的世界》;手机版“文生图”模型:2秒不到出一张图

    AIGC(AI Generated Content)即人工智能生成内容.近期爆火的 AI 聊天机器人 ChatGPT,以及 Dall·E 2.Stable Diffusion 等文生图模型,都属于 A ...

  3. 【文生图系列】文生图大模型合集与效果对比

    文章目录 DELL · E DELL · E 1 DELL · E 2 ERNIE-ViLG ERNIE-ViLG 1 ERNIE-ViLG 2 Paddlehub Imagen Midjourney ...

  4. Diffusion扩散模型学习2——Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例

    Diffusion扩散模型学习2--Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例 学习前言 源码下载地址 网络构建 一.什么是Stable Diffusion ...

  5. 阿里系文生图(PAI+通义)

    PAI-Diffusion模型来了!阿里云机器学习团队带您徜徉中文艺术海洋 - 知乎作者:汪诚愚.段忠杰.朱祥茹.黄俊导读近年来,随着海量多模态数据在互联网的爆炸性增长和训练深度学习大模型的算力大幅提 ...

  6. AI 绘画Stable Diffusion 研究(五)sd文生图功能详解(下)

    大家好,我是风雨无阻. 上一篇文章详细介绍了sd文生图的功能及使用注意事项,感兴趣的朋友可以前往查看:AI 绘画Stable Diffusion 研究(四)sd文生图功能详解(上) . 那今天这篇文章 ...

  7. 程序员盒子接入百度文心大模型文生图能力

    原文:https://www.coderutil.com/article?id=203 一.前言 AI时代是一个快速发展的时代,它带来了很多机会和挑战.对于普通人来说,AI技术的应用可以帮助我们更高效 ...

  8. 百度回应文心一言文生图功能争议

    允中 发自 凹非寺 量子位 | 公众号 QbitAI 文心一言文生图功能是"中翻英"?对此质疑,百度刚刚作出回应. 回应说明如下: 1.文心一言完全是百度自研的大语言模型,文生图能 ...

  9. AI绘画最强工具:集成所有国内外主流大模型AI绘画能力文生图、图生图、图修复和超分辨率能力。

    AIGC(Artificial Intelligence Generated Content)登上舞台,以高效.精准.定制化等能力特征,重新定义了内容生产方式. 只需通过4行代码就能实现强大的文图生成 ...

最新文章

  1. 北大发布最新《图神经网络推荐系统》2020综述论文,27页pdf
  2. LVS/HAProxy/Nginx负载均衡对比
  3. xgboost算法_详解xgboost算法的样本不平衡问题
  4. 运维基础--Linux用户和组的管理
  5. java的知识点23——泛型Generics、Collection接口、List特点和常用方法、 ArrayList特点和底层实现
  6. 这应该是最通俗易懂的一篇Spring知识点总结了
  7. linux 卸载lv,Linux 软件安装、卸载、查询
  8. 详解:设计模式之-单例设计模式
  9. pb 选中树形菜单节点_动态绑定树形菜单,并搜索节点展开
  10. 李楠自曝已预定5.4寸iPhone 12 mini:Pro版还得等一个月
  11. 多人博客php源码,wusx php多用户博客(基础thinkphp)
  12. 安卓开发监听外部蓝牙设备断开_这软件能让你的蓝牙耳机,用上 AirPods 的功能...
  13. 敏捷开发“松结对编程”实践之六:大型团队篇|后记(大型研发团队,学习型团队,139团队,师徒制度,人员招聘,职业生涯规划)...
  14. 12大深度学习开源框架(caffe,tensorflow,pytorch,mxnet等)汇总详解
  15. 联想服务器没有安装iis组件,win10没有iis怎么安装_手把手教你安装iis的详细步骤...
  16. 数据采集的目的是什么
  17. 偶遇的webshell,那得冲一波
  18. 备案域名绑定服务器后 提示需要备案_网站空间配置和域名解析怎么选择
  19. 基于镶嵌数据集制作地貌晕眩图
  20. html设置某一块一直在屏幕上方,gogo体育在线-gogo体育在线

热门文章

  1. centos7 中文乱码问题解决方法
  2. getContext(),getApplicationContext(),getBaseContext()和“ this”之间的区别
  3. Python之初识模块之序列化模块
  4. Python多线程中阻塞(join)与锁(Lock)的使用误区
  5. BZOJ 1370: [Baltic2003]Gang团伙 [并查集 拆点 | 种类并查集WA]
  6. TechED 2005 博客园兄弟合影
  7. iOS无法导入头文件
  8. const 的作用?
  9. XamarinSQLite教程下载安装SQLite/SQL Server Compact Toolbox
  10. C#语法浮点型字面量