图像生成之扩散模型:靠加入类别条件,效果直达SOTA
来源:AI蜗牛车
本文约1300字,建议阅读7分钟
比GAN更真实。还懂全景局部多角度构图。
OpenAI去年年末推出的新作GLIDE,又让扩散模型小火了一把。
这个基于扩散模型的文本图像生成大模型参数规模更小,但生成的图像质量却更高。
于是,依旧是OpenAI出品,论文标题就直接号称“在图像生成上打败GAN”的ADM-G模型也重新进入了大众眼中:
光看Papers with Code上基于ImageNet数据集的图像生成模型榜单,从64 x 64到512 x 512分辨率都由这一模型占据榜首:
对比曾号称史上最强图像生成器的BigGAN-deep也不落下风,甚至还能在LSUN和ImageNet 64 × 64的图像生成效果上达到SOTA。
有网友对此感叹:前几年图像生成领域一直由GAN主导,现在看来,似乎要变成扩散模型了。
加入类别条件的扩散模型
我们先来看看扩散模型的定义。
这是一种新的图像生成的方法,其名字中的“扩散”本质上是一个迭代过程。
具体到推理中,就是从一幅完全由噪声构成的图像开始,通过预测每个步骤滤除的噪声,迭代去噪得到一个高质量的样本,然后再逐步添加更多的细节。
而OpenAI的这个ADM-G模型,则是在此基础上向图像生成任务中加入了类别条件,形成了一种独特的消融扩散模型。
研究人员分别从以下几个方面做了改进:
基本架构
基于UNet结构做了五点改进:
在保持模型大小不变的前提下,增加深度与宽度;
增加注意头(Attention Head)数量;
在32×32、16×16和8×8的分辨率下都使用注意力机制;
使用BigGAN残差块对激活函数进行上采样和下采样;
将残差连接(Residual Connections)缩小为原来的1/根号2。
类别引导
(Classifier Guidance)
在噪声逐步转换到信号的过程中,研究人员引入了一个预先训练好的分类网络。
它能够为中间生成图像预测并得到一个标签,也就是可以对生成的图片进行分类。
之后,再基于分类分数和目标类别之间的交叉熵损失计算梯度,用梯度引导下一步的生成采样。
缩放分类梯度
(Scaling Classifier Gradients)
按超参数缩放分类网络梯度,以此来控制生成图像的多样性和精度。
比如像这样,左边是1.0规模大小的分类网络,右边是10.0大小的分类网络,可以看到,右边的生成图像明显类别更加一致:
也就是说,分类网络梯度越高,类别就越一致,精度也越高,而同时多样性也会变小。
生成领域的新热点
目前,这一模型在GitHub上已有近千标星:
而与GAN比起来,扩散模型生成的图像还更多样、更复杂。
基于同样的训练数据集时,扩散模型可以生成拥有全景、局部特写、不同角度的图像:
△左:BigGAN-deep 右:ADM
其实,自2020年谷歌发表DDPM后,扩散模型就逐渐成为了生成领域的一个新热点,除了文章中提到的OpenAI的两篇论文之外,还有Semantic Guidence Diffusion、Classifier-Free Diffusion Guidence等多个基于扩散模型设计的生成模型。
扩散模型接下来还会在视觉任务上有哪些新的应用呢,我们来年再看。
论文链接:
https://arxiv.org/abs/2105.05233
开源链接:
https://github.com/openai/guided-diffusion
参考链接:
[1]https://www.casualganpapers.com/guided_diffusion_langevin_dynamics_classifier_guidance/Guided-Diffusion-explained.html
[2]https://www.reddit.com/r/MachineLearning/comments/rq1cnm/d_diffusion_models_beat_gans_on_image_synthesis/
编辑:黄继彦
校对:龚力
图像生成之扩散模型:靠加入类别条件,效果直达SOTA相关推荐
- 一文总结图像生成必备经典模型(一)
本文将分 2 期进行连载,共介绍 16 个在图像生成任务上曾取得 SOTA 的经典模型. 第 1 期:ProGAN.StyleGAN.StyleGAN2.StyleGAN3.VDVAE.NCP-VAE ...
- 图像生成王者不是GAN?扩散模型最近有点火:靠加入类别条件,效果直达SOTA
博雯 发自 凹非寺 量子位 报道 | 公众号 QbitAI OpenAI刚刚推出的年末新作GLIDE,又让扩散模型小火了一把. 这个基于扩散模型的文本图像生成大模型参数规模更小,但生成的图像质量却更高 ...
- 文本生成图像简述4——扩散模型、自回归模型、生成对抗网络的对比调研
基于近年来图像处理和语言理解方面的技术突破,融合图像和文本处理的多模态任务获得了广泛的关注并取得了显著成功. 文本生成图像(text-to-image)是图像和文本处理的多模态任务的一项子任务,其根据 ...
- 不用GAN、VAE,谷歌发明视频生成的扩散模型,实现新SOTA
关注公众号,发现CV技术之美 本文转自机器之心,编辑:杜伟.陈萍. 扩散模型正在不断的「攻城略地」. 扩散模型并不是一个崭新的概念,早在2015年就已经被提出.其核心应用领域包括音频建模.语音合成.时 ...
- 这个图像生成领域的PyTorch库火了,涵盖18+ SOTA GAN实现
点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 机器之心报道 近日,在 GitHub 上看到了一个非常有意义的项目 PyTorch-S ...
- 一文总结图像生成必备经典模型(二)
第 2 期:WGAN.SAGAN.BIG-GAN.CSGAN.LOGAN.UNet-GAN.IC-GAN.ADC-GAN
- 从DDPM到GLIDE:基于扩散模型的图像生成算法进展
前几天,OpenAI在Arxiv上挂出来了他们最新最强的文本-图像生成GLIDE [1],如头图所示,GLIDE能生成非常真实的结果.GLIDE并非基于对抗生成网络或是VQ-VAE类模型所设计,而是采 ...
- 李沐论文精读系列五:DALL·E2(生成模型串讲,从GANs、VE/VAE/VQ-VAE/DALL·E到扩散模型DDPM/ADM)
文章目录 一. 前言 1.1 DALL·E简介 1.2 DALL·E2简介 1.3 文生图模型进展 二. 引言 2.1 摘要 2.2 引言&模型结构 三. 算法铺垫 3.1 GANs 3.2 ...
- 一文读懂扩散模型原理、推断加速和可控生成
在刚刚过去的2022年,扩散模型(Diffusion Models)成为了深度生成模型中新的SOTA.近期,中国人民大学助理教授李崇轩和清华大学博士生鲍凡在由智源社区主办的"2022大模型创 ...
最新文章
- SWPU OnlingJudge 在线评测平台 使用教程
- mysql获取有哪几种状态_Mysql进阶垫脚石 -- Sql命令的执行状态有哪几种
- 蓝桥杯审核要多久_商标审核要多久?
- centeros php 实战
- MBEWH-查看历史期间的移动平均价
- CloudNative时代践行DevOps躲坑指南
- 伺服驱动器生产文件_直流伺服系统的组成和控制原理详解
- 5e检索服务器信息,服务器检索 - 找服玩|Minecraft服务器列表
- Kafka集群搭建(四节点)
- 前端研发生态环境构建经验谈
- 4K高清屏幕保护工具Aquarium 4K for Mac
- 狄利克雷分布公式_潜在狄利克雷分配(LDA)
- 【3】WEB安全学习----HTTP协议
- Java中资源文件获取源码浅析
- filter过滤器设置URL例外
- 【移动机器人导航架构】navigation(mose_base)
- 数据库--mysql(SQL语句)
- 2022刘润年度演讲:进化的力量关键词
- 随记:普遍性验证、数学思维、代数基本定理及其它
- 这些成为网络工程师的基本技能要求,你拥有哪些?
热门文章
- Microsoft Visual C++ 不支持long long
- c++ 高通、低通、带通滤波器_射频/微波滤波器
- 前端笔记(7)css属性书写顺序,布局流程,chrome调试工具
- 《深入理解ElasticSearch》——2.4 批量操作
- 《Docker技术入门与实战》读书笔记
- uva live 4394 String painter 间隔dp
- .substr()在字符串每个字母前面加上一个1
- NSUserDefaults读取和写入自定义对象
- 知乎网解决HTML5 Placeholder的方案
- c++将小数化为二进制_C++版进制转换(十进制,二进制,十六进制整数和小数)