来源:AI科技评论本文约3600字,建议阅读5分钟本文介绍了OpenAI新研究:扩散模型在图像合成的最新技术。

新模型在ImageNet512×512上实现了3.85FID,甚至在每个样本只有25次正向传递的情况下,其生成图像质量可匹敌DeepMind提出的BigGAN。

1 扩散模型在图像合成上击败了BigGAN

2021年5月,Alex Nichol和Prafulla Dhariwal两位学者发表了《Diffusion Models Beat GANs on Image Synthesis》,文中证明了扩散模型在图像合成上优胜于目前最先进的生成模型的图像质量。

论文地址:https://arxiv.org/abs/2105.05233

代码地址:https://github.com/openai/guided-diffusion

研究人员通过一系列的消融实验,以找到更好的扩散模型架构,实现无条件的图像合成。对于条件图像合成,则使用分类器指导(利用分类器的梯度以来权衡样本质量-多样性)进一步提高了样本质量。

作者在ImageNet 128×128上达到2.97的FID,在ImageNet 256×256上达到4.59的FID,在ImageNet512×512上达到7.72的FID,并且即使每个样本只有25次正向传递,其生成图像质量依然可以匹配BigGAN-deep,同时保持了更好的分布覆盖率(多样性)。最后,作者发现分类器指导与上采样扩散模型可以很好地结合在一起,从而将ImageNet512×512上的FID进一步降低到3.85。

DeepMind曾于2018年在一篇 ICLR 2019 论文中提出了BigGAN,当时一经发表就引起了大量关注, 很多学者都不敢相信AI竟能生成如此高质量的图像,这些生成图像的目标和背景都相当逼真,边界也很自然。

由BigGAN模型生成的512x512分辨率图像

如今,Alex Nichol和Prafulla Dhariwal两位学者提出的扩散模型,在图像合成上终于可匹敌BigGAN。

从最佳ImageNet512×512模型(FID3.85)中选择的样本

据PapersWithCode数据显示,目前在ImageNet数据集的从64x64到512x512分辨率的图像生成模型榜单中,本文提出的ADM模型全部占据榜首。另外,在LSUN数据集上,ADM模型图像生成能力也首屈一指。

其中,在ImageNet数据集的128x128和256x256图像生成模型榜单中,BigGAN自2018年来一直找不到对手。

2 扩散模型图像生成

在过去的几年里,生成模型已经获得了生成类似人类的自然语言、无限高质量的合成图像以及高度多样化的人类语言和音乐的能力。

虽然这些模型已经能够产生逼真的图像和声音,但是仍有很大的改进空间,而且更好的生成模型可能会对平面设计、游戏、音乐制作以及其他领域产生广泛的影响。

GANs目前在大多数图像生成任务上拥有最先进的技术,这些技术是通过样本质量来衡量的,例如FID,Inception Score 和 Precision 。其中一些指标并不能完全捕获多样性,而且与最先进的基于似然度的模型相比,GANs捕获的多样性较少。此外,如果没有精心选择的超参数和正则化器,GANs在训练中经常崩溃。

扩散模型是一类基于似然度的模型,最近被证明可以生成高质量的图像,同时提供了理想的属性,如更高的分布覆盖率,稳定的训练目标和更好的可扩展性。这些模型通过逐步去除信号中的噪声来生成样本,其训练目标可以表示为一个重新加权的变分下界。

Nichol和Dhariwal发现,随着计算量的增加,这些模型得到了可靠的改进,即使在高难度ImageNet256×256数据集上也能生成高质量的样本。然而,该模型的FID仍然不能与BigGAN-deep相比,后者是目前这个数据集上最先进的技术。

研究人员假设扩散模型和GANs之间的差距至少在两方面:第一,最近GAN文献使用的模型架构已经被大量探索和改进;第二,GAN能够权衡质量和多样性,生成高质量的样本,但不覆盖整个分布。如何将这些优势应用到扩散模型?

研究者首先改进模型结构,然后设计一个以多样性换取质量的方案。通过这些改进,实现了一个新的最先进的模型,在几个不同的指标和数据集上超过了GANs。

3 扩散模型改造

Nichol 和 Dhariwal 找到为扩散模型提供最佳样本质量的模型架构进行一些架构调整。

Jonathan Ho在论文“Denoising diffusion probabilistic models”中引入了U-Net的扩散模型架构,与先前的架构相比,该架构大大提高了样本质量,用于去噪得分匹配。

模型使用了多个残差层和下采样卷积,然后是多个残差层和上采样卷积,其中跳过连接将相同尺寸的卷积层连接起来。

此外,他们使用了一个16×16分辨率的单头全局注意力层,并且在每个残差块中添加一个时间步嵌入的投影。

Song等人在ICLR 2021杰出论文“Score-based generative modeling through stochastic differential equations”中,发现对U-Net架构的进一步改进可以提高扩散模型在CIFAR-10和CelebA-64数据集的性能。

研究人员在ImageNet128×128上展示了同样的结果,发现在更大、更多样、分辨率更高的数据集上,架构改进确实可以大大提高采样质量。

Nichol和Dhariwal探讨了以下的架构变化:

  • 增加深度与宽度,保持模型尺寸相对恒定。

  • 增加注意力头的数量。

  • 使用32×32,16×16和8×8分辨率的注意力,而不仅仅是16×16。

  • 使用BigGAN残差块对激活值进行上采样和下采样。

  • 参考“Score-based generative modeling through stochastic differential equations”等论文,以1/√2因子重新缩放残差连接数。

研究者还研究了其他更符合 Transformer 架构的注意力配置。将注意力头固定在一个常数上,或者固定每个头的通道数。结果表明更多的头或更少的通道可以改善 FID。

不同注意力配置的消融实验结果:更多的头或更少的通道可以改善 FID

4 实验结果

为了在无条件图像生成方面评估改进的模型架构,研究者在三个LSUN数据集类别(卧室、马和猫)上训练不同配置的扩散模型。为了评估分类器指导,研究者在128×128,256×256,512×512分辨率的ImageNet数据集上训练条件扩散模型。

最先进的图像生成技术

根据下表总结,扩散模型可以在每个任务上得到最好的FID,在除一个任务外的所有任务上得到最好的sFID。

通过改进的架构,研究者已经在LSUN和ImageNet64×64图像生成上获得了最佳的性能。对于更高分辨率的ImageNet,研究者观察到扩散模型大大超过最好的GANs。这些模型生成的图像的感知质量接近GAN,同时保持了更高的分布覆盖率。

比较了来自BigGAN-deep和最佳扩散模型的随机样本质量。

虽然样本具有相似的感知质量,但扩散模型包含了比GAN更多的模式,比如放大的鸵鸟头特写,单只火烈鸟,不同方向观察的芝士汉堡,以及一条没有被人类抓着的马口鱼。

取自BigGAN-deep的样本(FID6.95,左),与取自扩散模型的样本(FID4.59,中)和取自训练集的样本(右)(truncation=1.0)。

与Upsampling比较

为了提高高分辨率下的样品质量,Nichol等人构造了一个低分辨率扩散模型和上采样扩散模型。在这种方法中,上采样扩散模型被训练从训练集上采样图像,以低分辨率图像为条件通过一个简单的技术上采样它们(例如双线性插值),并将结果通道级联到模型输入。

在采样过程中,低分辨率扩散模型生成一个样本,然后上采样模型以该样本为条件。这大大提高了ImageNet256×256上的FID,但不能达到BigGAN等最先进模型的性能。

研究者比较了这种上采样技术和分类器指导,并表明这两种方法从不同方面提高了样本采样质量。上采样提高了精度,,同时保持了较高的召回率。而分类器指导则提供了一个用于权衡多样性以获得更高精度的旋钮。

通过使用较低分辨率上的分类器指导,然后再上采样至较高分辨率,扩散模型在ImageNet 512×512上获得了最佳的FID,这表明这些方法是相辅相成的。

5 扩散模型的发展

现有的生成建模技术可以基于它们表示概率分布的方式大致分为两类。

  • 第一种是基于似然的模型,它通过近似的最大似然直接学习分布的概率密度(或质量)函数。典型的基于似然的模型包括自回归模型、归一化流模型、基于能量的模型(EBMs)和变分自编码器(VAEs)。

  • 第二种是隐式生成模型,其中概率分布是通过采样过程的模型来隐式表示的。最突出的例子是生成对抗性网络(GANs) ,它通过将随机高斯矢量与神经网络相转换来合成新的数据分布样本。

贝叶斯网络、马尔可夫随机场(MRF)、自回归模型和归一化流模型都是基于似然的模型的例子。所有这些模型都表示一个分布的概率密度或质量函数

GAN 是隐式模型的一个例子。它隐式地表示生成器网络可以生成的所有对象的分布

然而,基于似然的模型和隐式生成模型都有很大的局限性。基于似然的模型要么要求对模型结构有很强的约束,以确保似然计算的可控归一化常数,要么必须依靠替代目标来近似最大似然训练。另一方面,隐式生成模型往往需要对抗性训练,从而存在不稳定性,并可能导致模式崩溃。

基于分数的生成模型与扩散概率模型紧密相连,扩散概率模型是由Jascha Sohl - Dickstein和他的同事首先提出的一种具有多随机层的VAEs。

去年,Jonathan Ho和他的同事在论文“Denoising diffusion probabilistic models”中指出,用于训练扩散概率模型的证据下限(ELBO)基本上等同于基于分数的生成模型中的分数匹配目标的混合。此外,通过参数化的解码器作为一个序列得分为基础的模型,他们第一次证明扩散模型可以产生高质量的、可媲美GAN的图像样本。

扩散模型其与现有的模型相比有几个重要的优点:没有对抗性训练的GAN级样本质量,灵活的模型架构,精确的对数似然计算,唯一可辨识的表示学习,以及不需要重新训练模型的逆问题求解。

然而,研究者也指出,目前扩散模型相对于GAN还存在几个缺点:训练计算量更大、采样速度更慢、采样过程中需要多次前向传播、在单步模型上远不如GAN。

6 ADM的更多图像生成结果

图9:来自StyleGAN2的样本(左),与来自扩散模型(中)的样本,和来自训练集的样本(右)。(LSUN数据集)

图13:ADM最好的512×512模型的样品(FID:3.85),(ImageNet数据集)

图15:从最好的512 × 512模型(FID: 3.85)中提取的复杂样本,(ImageNet数据集)

参考链接:

https://twitter.com/arankomatsuzaki/status/1392280377784369152

http://yang-song.github.io/blzog/2021/score/

https://mp.weixin.qq.com/s/dQ9UAaD7cu7a05XXKkBsdw

https://paperswithcode.com/paper/diffusion-models-beat-gans-on-image-synthesis

https://openreview.net/pdf?id=B1xsqj09Fm

编辑:王菁

校对:林亦霖

OpenAI新研究:扩散模型在图像合成质量上击败BigGAN,多样性还更佳相关推荐

  1. AI 能匹敌程序员了吗?OpenAI 新研究展​示 NLP 大模型的局限性

    作者:Ben Dickson 来源:数据实战派 Codex 在一篇新论文中,OpenAI 的研究人员展示了 Codex 的详细信息,它是一种生成软件源代码的深度学习模型. Codex 可以为 Open ...

  2. OpenAI新研究:通过非监督学习提升NLP任务表现

    唐旭 编译整理 量子位 出品 | 公众号 QbitAI 今天,OpenAI在其官方博客上发布了一篇题为<用非监督学习来提升语言理解>的文章,介绍了他们最近的一项研究:Improving L ...

  3. 2015年的ResNet潜力都挖掘出来了吗?新研究:不用蒸馏、无额外数据,性能还能涨一波...

    来源:机器之心 基线:我要是用上最新的训练流程,性能还能涨一波. 在计算机视觉领域,何恺明等人 2015 年提出的 ResNet(deep residual network,深度残差网络)一直被视为经 ...

  4. ResNet才是YYDS!新研究:不用蒸馏、无额外数据,性能还能涨一波

    ©作者 | 杜伟.张倩 来源 | 机器之心 基线:我要是用上最新的训练流程,性能还能涨一波. 在计算机视觉领域,何恺明等人 2015 年提出的 ResNet(deep residual network ...

  5. Cell论文解读!新研究揭示CRISPR/Cas9除了作为基因编辑工具,还可作为调节开关调节基因活性

    推荐阅读: [CRISPR-Cas9神助攻] Cas9稳定表达细胞系.CRISPR/Cas9敲除细胞系 在一系列针对实验室培养的细菌开展的实验中,来自美国约翰霍普金斯大学的研究人员发现了证据,表明广泛 ...

  6. 证件照转数字人只需几秒钟,微软实现首个3D扩散模型高质量生成效果,换装改形象一句话搞定 | CVPR 2023...

    转载自 微软亚洲研究院 量子位 | 公众号 QbitAI 一张2D证件照,几秒钟就能设计出3D游戏化身! 这是扩散模型在3D领域的最新成果.例如,只需一张法国雕塑家罗丹的旧照,就能分分钟把他" ...

  7. OpenAI新论文称打败GAN达到SOTA!是噱头还是干货?

    来源:OpenAI 编辑:好困 [导读]近日,OpenAI的两个研究员发表了一篇新文章,称他们的扩散模型在图像生成领域比GAN更强.然而,霸榜多年的GAN这么轻易就会落败么? FaceAPP最近又小火 ...

  8. 扩散模型又杀疯了!这一次被攻占的领域是...

    文 | Yimin_饭煲 从2020年的初出茅庐,到2021年的日趋火热,再到2022年的大放异彩,扩散模型(Diffusion Models) 正在人工智能学术界和工业界获取越来越多的关注. 如果还 ...

  9. 扩散模型的基本内容介绍

    点击上方"AI公园",关注公众号,选择加"星标"或"置顶" 作者:Ryan O'Connor 编译:ronghuaiyang 导读 本文从原 ...

最新文章

  1. Oracle之物化视图
  2. 分治法求数组中的最大最小元素
  3. shell中单引号的嵌套
  4. .NET Core容器化之多容器应用部署@Docker-Compose
  5. python自动化运维快速入门pdf下载_Python自动化运维快速入门
  6. kotlin 查找id_Kotlin程序查找平行四边形的区域
  7. [ Ubuntu Chinese Method ] uninstall DBus, install fcitx
  8. 如何使用js判断视频是否可以成功访问
  9. 关于三星研究院adv机试(开发人员入职机试)
  10. ApacheCN 活动汇总 2019.7.19
  11. 本地计算机添加网络打印机共享,如何连接共享打印机?一步一步教你设置和连接局域网共享打印机...
  12. yigo基础学习笔记4_业务报表
  13. SpringBosent框架
  14. React 全家桶(react脚手架 redux react-redux react-router-dom ui库 reactHook)含 自定义hook的方法及使用
  15. IIS7配置PHP图解
  16. Nano Today(IF=21)| 北京大学齐宪荣团队通过原位重编程巨噬细胞增强肿瘤免疫治疗效果
  17. 物理服务器、VPS、虚拟主机、云服务器分别有什么作用
  18. 安装Office2010/2007出现1935错误解决办法
  19. 描述生活日常的句子、语录、短句、说说、文案
  20. 触摸查询系统服务器注册码,多媒体触摸查询系统旗舰版-用户手册(20161215.pdf

热门文章

  1. 前端笔记(4)css,复合选择器,标签的显示模式,行高,css背景,css三大特性
  2. java表单 mysql 乱码_java web当中表单提交到后台出现乱码的解决方法
  3. 学JS的心路历程 -数组常见处理方法
  4. jQuery 插件取url参数[jquery.url.js]的使用以及文件下载
  5. IC卡读卡器web开发,支持IE,Chrome,Firefox,Safari,Opera等主流浏览 器
  6. 20151020sql2
  7. DoS***原理和防御方法
  8. aix-syslog
  9. ASPNET 页面编码
  10. python read函数返回值_python read()方法定义及使用(实例解析)