论文阅读之 Diffusion Models Beat GANs on Image Synthesis
扩散首次打败gan
来源 OpenAI
- 无条件图像合成
- 条件图像合成
背景
- 目标函数和参数化方式的来源
Alex Nichol and Prafulla Dhariwal. Improved denoising diffusion probabilistic models.
arXiv:2102.09672, 2021.
- 采样过程来源
Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models.
arXiv:2010.02502, 2020.
- 样本质量度量
FID | 捕获了保真度和多样性 |
---|---|
Precision and recall | 保真度和多样性 |
sFID | 捕获空间关系的标准度量 |
IS | 保真度 |
结构改变
以前的方法
u-net & 在16*16分辨率使用全局attention & 时间投影嵌入到每个残差块
本文的改进
- 增加深度和宽度保持模型尺寸相对一致
增加注意力机制的头:使用attention在3232,1616,88上而不仅仅在1616上
使用bigGan残差块在激活上采样和下采样
rescale 残差连接本文最后的结构使用:可变宽度,每个分辨率2个残差块,多个头部,64个通道,注意力在32,16和8分辨率,BigGAN残差块为上和下采样,以及注入时间步长和类嵌入的自适应组归一化。
训练集 | mertics | ||
---|---|---|---|
ImageNet 128×128128 \times 128128×128 | FID |
分类器指导
我们已经将类信息合并到自适应的组归一化层中(第3节)。我们探索了一种不同的方法:
- 利用分类器 P(X∣Y)P(X|Y)P(X∣Y)改进扩散生成器。
- (之前的工作) 展示一种实现这一点的方法,其中一个预先训练的扩散模型可以使用分类器的梯度进行调节。
- (在我们的工作中) 特别地,我们可以在有噪声的图像XtX_tXt上训练一个分类器pφ(y∣xt,t)p_φ(y|x_t,t)pφ(y∣xt,t),然后使用梯度▽logpφ(y∣xt,t)\bigtriangledown log p_φ(y|x_t,t)▽logpφ(y∣xt,t)来引导扩散采样过程走向任意的类标签y。
- 类条件扩散抽样
1. in Appendix D.2.Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. arXiv:1503.03585, 2015.
2. in Appendix D.3 对于DDIM,执行了一个基于分数的推导 Yang Song, Jascha Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon,and Ben Poole. Score-based generative modeling through stochastic differential equations. arXiv:2011.13456, 2020.
我们用于指导的结果采样算法分别是算法1和算法2,这两种算法都通过将每个采样步长添加到具有适当步长的分类器的梯度来合并类信息。为了简单表示pϕ(y∣xt,t)=pϕ(y∣xt)and ϵθ(xt,t)=ϵθ(xt)p_{\phi}\left(y \mid x_{t}, t\right)=p_{\phi}\left(y \mid x_{t}\right) \text { and } \epsilon_{\theta}\left(x_{t}, t\right)=\epsilon_{\theta}\left(x_{t}\right)pϕ(y∣xt,t)=pϕ(y∣xt) and ϵθ(xt,t)=ϵθ(xt) 注意到它们引用了每个时间步长t的单独函数,在训练时,模型必须以输入t为条件。
- 为了将分类器指导应用于大规模生成任务,我们在ImageNet上训练分类模型。我们的分类器架构只是UNet模型的降采样主干,在8x8层有一个注意力池[55],以产生最终的输出。本文在相同的噪声分布上训练这些分类器,并添加随机作物以减少过拟合。
算法1和算法2的对比
![在这里插入图片描述](https://img-blog.csdnimg.cn/52916d2db22f498990b264b6fd068abc.png#pic_center
---------算法2中的s!!!在哪--------
trick:{\color{Red} trick: }trick: 在使用无条件ImageNet模型的初始实验中,我们发现有必要将分类器的梯度调整为一个大于1的常数因子。当使用1的尺度时,我们观察到分类器为最终的样本分配了合理的概率(约50%),但这些样本在目视检查时与预期的类不匹配。扩大分类器的梯度解决了这个问题,并且来自分类器的类概率增加到近100%。为了理解缩放分类器梯度的影响,请注意s×▽xlogp(y∣x)=▽xlog1Zp(y∣x)ss\times\bigtriangledown x log p(y|x)= \bigtriangledown x log \frac{ 1}{Z} p(y|x)^ss×▽xlogp(y∣x)=▽xlogZ1p(y∣x)s,其中Z是一个任意常数。因此,条件反射过程在理论上仍然是基于一个与p(y∣x)sp(y|x)^sp(y∣x)s成正比的重新归一化的分类器分布。当s>1s > 1s>1时,这个分布变得比p(y∣xp(y|xp(y∣x)更尖锐,因为较大的值被指数放大。换句话说,使用更大的梯度尺度更关注分类器的模式,这可能是产生更高质量(但较少多样性)样本的理想条件。
在上述推导中,假设潜在的扩散模型是无条件的,建模为p (x)。它也可以训练条件扩散模型,p(x|y),并使用分类器指导完全一样。从表3中可以看出,通过分类器的指导,可以大大提高无条件模型和条件模型的样本质量。我们可以看到,在足够高的规模下,引导无条件模型可以非常接近非引导条件模型的FID,尽管直接使用类标签进行训练仍然有帮助。指导了一个条件模型,进一步改进了FID。
总结
- 网络结构改进
- 训练trick
- 引入分类梯度指导
- 在image net 上的大模型可以用啊!!!
论文阅读之 Diffusion Models Beat GANs on Image Synthesis相关推荐
- [论文解析] Diffusion Models Beat GANs on Image Synthesis
code link: https://github.com/openai/guided-diffusion. 文章目录 Overview What problem is addressed in th ...
- 【论文阅读】Diffusion Models for Imperceptible and Transferable Adversarial Attack
论文地址:https://arxiv.org/abs/2305.08192 代码地址:https://github.com/WindVChen/DiffAttack 目录 Abstract Intro ...
- Diffusion Models和GANs结合
Diffusion Models专栏文章汇总:入门与实战 前言:作为Diffusion Models最成功的前辈们:flow based models.VAEs.GANs,最近几个月已经有不少将dif ...
- 论文阅读:Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型
Pre-trained Models for Natural Language Processing: A Survey 综述:自然语言处理的预训练模型 目录 Pre-trained Models f ...
- 论文阅读《Block-NeRF: Scalable Large Scene Neural View Synthesis》
论文地址:https://arxiv.org/pdf/2202.05263.pdf 复现源码:https://github.com/dvlab-research/BlockNeRFPytorch 概述 ...
- Diffusion Models专栏文章汇总:入门与实战
最新最全Diffusion Models论文.代码汇总 1.Diffusion Models扩散模型与深度学习(数学原理和代码解读) 这篇文章适合小白入门看,能快速了解diffusion models ...
- Diffusion models代码解读:入门与实战
1.Diffusion models代码实战:从零搭建自己的扩散模型 这个系列曾经写过三篇文章专门讲代码,分别从数据集.超参数.loss设计.参数计算.Unet结构.正向过程.逆向过程等部分详细介绍了 ...
- 14篇论文拿捏Diffusion
本文转载于底部链接,只作为学习使用 扩散模型自2020年的DDPM以来,以其种种优异的特性(如训练简便,对数据分布拟合效果极好,本身的构造体系使得性质调控更加优雅直接等),在两年来横扫整个学术界,甚至 ...
- 2022年11月100篇 diffusion models 扩散模型 汇总!
在生成图像方面,自从NIPS 2014的一篇开山之作: Generative Adversarial Nets 论文:https://proceedings.neurips.cc/paper/2014 ...
最新文章
- 用脑机接口创作音乐,将音乐与思想进行合成
- Spring mvc 3.0 入门及应用
- Windows Mobile,用C#更改网络连接(SSID、IP Address、Subnet Mask、Gatew... (转)
- MATLAB xlswrite函数出现“错误: 服务器出现意外情况”
- hibernate saveorupdate mysql_Mysql数据库 hibernate保存数据时,Mysql主键需设定自增,否则报错_MySQL...
- LeetCode-978:最长湍流子数组
- java判断线段是否相交函数_计算几何-判断线段是否相交
- openim php sdk,imsdk_restapi-php-sdk
- HtmlTextWriter类的学习
- 美赛如何选题matlab,2017美赛D题—学习记录
- springboot健康饮食管理系统
- msfconsole的简单使用
- FPS游戏:实现GDI方框透视
- 关于3分频电路的讨论
- 全国省市二级json,带id
- python制作海报_生成海报(前端 | python)
- word设置多级列表
- 华为18级工程师历时五年总结出趣谈网络协议(大牛精讲)
- 服务器 消息 22029,解决SQL Server数据库维护计划失败的问题
- element-ui 网格_UI备忘单:列表与网格