博雯 发自 凹非寺
量子位 报道 | 公众号 QbitAI

OpenAI刚刚推出的年末新作GLIDE,又让扩散模型小火了一把。

这个基于扩散模型的文本图像生成大模型参数规模更小,但生成的图像质量却更高。

于是,依旧是OpenAI出品,论文标题就直接号称“在图像生成上打败GAN”的ADM-G模型也重新进入了大众眼中:

光看Papers with Code上基于ImageNet数据集的图像生成模型榜单,从64 x 64到512 x 512分辨率都由这一模型占据榜首:

对比曾号称史上最强图像生成器的BigGAN-deep也不落下风,甚至还能在LSUN和ImageNet 64 × 64的图像生成效果上达到SOTA。

有网友对此感叹:前几年图像生成领域一直由GAN主导,现在看来,似乎要变成扩散模型了。

加入类别条件的扩散模型

我们先来看看扩散模型的定义。

这是一种新的图像生成的方法,其名字中的“扩散”本质上是一个迭代过程。

具体到推理中,就是从一幅完全由噪声构成的图像开始,通过预测每个步骤滤除的噪声,迭代去噪得到一个高质量的样本,然后再逐步添加更多的细节。

而OpenAI的这个ADM-G模型,则是在此基础上向图像生成任务中加入了类别条件,形成了一种独特的消融扩散模型。

研究人员分别从以下几个方面做了改进:

基本架构

基于UNet结构做了五点改进:

  • 在保持模型大小不变的前提下,增加深度与宽度

  • 增加注意头(Attention Head)数量

  • 在32×32、16×16和8×8的分辨率下都使用注意力机制

  • 使用BigGAN残差块对激活函数进行上采样和下采样

  • 将残差连接(Residual Connections)缩小为原来的1/根号2

类别引导(Classifier Guidance)

在噪声逐步转换到信号的过程中,研究人员引入了一个预先训练好的分类网络。

它能够为中间生成图像预测并得到一个标签,也就是可以对生成的图片进行分类。

之后,再基于分类分数和目标类别之间的交叉熵损失计算梯度,用梯度引导下一步的生成采样。

缩放分类梯度(Scaling Classifier Gradients)

按超参数缩放分类网络梯度,以此来控制生成图像的多样性和精度。

比如像这样,左边是1.0规模大小的分类网络,右边是10.0大小的分类网络,可以看到,右边的生成图像明显类别更加一致:

也就是说,分类网络梯度越高,类别就越一致,精度也越高,而同时多样性也会变小。

生成领域的新热点

目前,这一模型在GitHub上已有近千标星:

而与GAN比起来,扩散模型生成的图像还更多样、更复杂。

基于同样的训练数据集时,扩散模型可以生成拥有全景、局部特写、不同角度的图像:

左:BigGAN-deep 右:ADM

其实,自2020年谷歌发表DDPM后,扩散模型就逐渐成为了生成领域的一个新热点,

除了文章中提到的OpenAI的两篇论文之外,还有Semantic Guidence Diffusion、Classifier-Free Diffusion Guidence等多个基于扩散模型设计的生成模型。

扩散模型接下来还会在视觉任务上有哪些新的应用呢,我们来年再看。

论文链接:
https://arxiv.org/abs/2105.05233

开源链接:
https://github.com/openai/guided-diffusion

参考链接:
[1]https://www.casualganpapers.com/guided_diffusion_langevin_dynamics_classifier_guidance/Guided-Diffusion-explained.html
[2]https://www.reddit.com/r/MachineLearning/comments/rq1cnm/d_diffusion_models_beat_gans_on_image_synthesis/

图像生成王者不是GAN?扩散模型最近有点火:靠加入类别条件,效果直达SOTA相关推荐

  1. 图像生成之扩散模型:靠加入类别条件,效果直达SOTA

    来源:AI蜗牛车 本文约1300字,建议阅读7分钟 比GAN更真实.还懂全景局部多角度构图. OpenAI去年年末推出的新作GLIDE,又让扩散模型小火了一把. 这个基于扩散模型的文本图像生成大模型参 ...

  2. 在图像生成领域里,GAN这一大家族是如何生根发芽的

    作者:思源 生成对抗网络这一 ML 新成员目前已经枝繁叶茂了,截止今年 5 月份,目前 GAN 至少有 300+的论文与变体.而本文尝试借助机器之心 SOTA 项目梳理生成对抗网络的架构与损失函数发展 ...

  3. GAN|在图像生成领域里,GAN这一大家族是如何生根发芽的

    作者:思源 本文经机器之心(微信公众号:almosthuman2014)授权转载,禁止二次转载 图像生成领域的 SOTA 排名涉及非常多的数据集与度量方法,我们并不能直观展示不同 GAN 的发展路线. ...

  4. 妙啊!用扩散模型生成蛋白质结构,结果不输天然蛋白质|来自斯坦福微软

    丰色 发自 凹非寺 量子位 | 公众号 QbitAI 没想到,图像生成领域的大明星-- 扩散模型,这么快就被用来做蛋白质结构生成了! 而且结果在复杂度和结构上都和天然蛋白质有的一拼. 消息一出,不少人 ...

  5. 深度学习:Diffusion Models in Vision: A Survey视觉中的扩散模型:综述

    Diffusion Models in Vision: A Survey视觉中的扩散模型:综述 0.摘要 1.概述 2.通用模型架构 2.1.Denoising Diffusion Probabili ...

  6. 什么是扩散模型(Diffusion Models),为什么它们是图像生成的一大进步?

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 也许过去十年在计算机视觉和机器学习方面的突破是GANs(生成式对抗 ...

  7. 【深度学习】什么是扩散模型(Diffusion Models),为什么它们是图像生成的一大进步?...

    也许过去十年在计算机视觉和机器学习方面的突破是GANs(生成式对抗网络)的发明--这种方法引入了超越数据中已经存在的内容的可能性,是一个全新领域的敲门砖,现在称为生成式建模.然而,在经历了一个蓬勃发展 ...

  8. 换脸方法大汇总:生成对抗网络GAN、扩散模型等

    1.One-Shot Face Video Re-enactment using Hybrid Latent Spaces of StyleGAN2 StyleGAN的高保真人像生成,已逐渐克服了单样 ...

  9. 基于扩散模型的文本引导图像生成算法

    ©作者 | 微风 单位 | 中山大学+IDEA研究院 研究方向 | 多模态表征学习.多模态生成 DALL·E 2 之所以能够生成十分惊艳的图像,扩散模型功不可没,相比 GAN,该模型可以生成更多样,更 ...

最新文章

  1. oracle:ORA-01940无法删除当前已连接用户的解决方案
  2. git的简单使用(一些小操作,持续更新)
  3. 该线程或进程自上一个步骤以来已更改_多线程与高并发
  4. Tornado-Lesson05-模版继承、函数和类导入、ui_methods和ui_modules
  5. 在什么情况下,刘强东会丧失京东的控制权?
  6. django22:复制网页与css/时区设置
  7. 工作177:表单重置项目处理
  8. 【SQL】利用HAVING取众数和中位数
  9. 内存条上面参数详解_【硬件篇】第4期:内存条知识(台式机)
  10. linux f95编译器,Fortran 95编译器是否可以编译Fortran 77代码?
  11. 串口硬盘如何应用于并口硬盘计算机,串口并口硬盘连接具体步骤(转)
  12. ps如何把自己的图与样机结合_样机在ps里面怎么用|ps怎么把图片放在书本样机图中...
  13. 计算机策略删除必须要一个密码,取消电脑开机密码
  14. WPF——鼠标悬停在按钮时,只显示文字并高亮
  15. 什么是UPS UPS的选购技巧介绍
  16. oppo手机文件共享媒体服务器,网件:ReadyNAS特色功能之媒体服务器
  17. 淘宝客导购产品设计(二)
  18. Mysql死锁排查及解决办法
  19. Oracle数据库内存体系 - PGA
  20. 永恒之蓝黑脏牛提权范围

热门文章

  1. 检查PHP会话是否已经开始
  2. Android Adobe Reader 任意代码执行分析(附POC)
  3. 我是如何将网站全站启用Https的?-记录博客安装配置SSL证书全过程
  4. K-近邻(KNN)算法
  5. Linux下SENDMAIL+OPENWEBMAIL(2)
  6. Java-P: 2_3,类成员具有的控制修饰符
  7. Android入门(九)文件存储与SharedPreferences存储
  8. array_keys
  9. ORACLE 日期查询
  10. 已知一棵二叉树的中序序列和后序序列,写一个建立该二叉树的二叉链表存储结构的算法...