升级扩散模型！一步成图，1秒18张，OpenAI开源

本文来源机器之心编辑部

在 AI 画图的领域，人们一直在尝试不断改进扩散模型，推出了 Stable Diffusion、Midjourney、DALL-E 等技术，并在其基础上构建应用。不过最近，OpenAI 提出的全新生成模型看起来要让这一领域经历一场革命。

与高调推出 ChatGPT 、GPT-4 不同，这次 OpenAI 在上个月偷偷上传了一篇论文《 Consistency Models 》，也不能说是偷偷，只是这次没有媒体大张旗鼓的报道，就显得这项研究有些低调。论文内容主要是关于图像生成领域的。

作者阵容也非常强大，有本科毕业于清华大学数理基础科学班、目前在 OpenAI 担任研究员的宋飏。宋飏将于 2024 年 1 月加入加州理工学院电子系（Electrical Engineering）和计算数学科学系（Computing and Mathematical Sciences）担任助理教授。此外还包括 OpenAI 联合创始人、首席科学家 Ilya Sutskever。

前面我们已经提到，OpenAI 的这项研究主要是图像生成方面的，大家或多或少的都听过这项技术，例如最近热门的 Midjourney 和 Stable Diffusion，它们大都采用扩散模型，由于其生成的图片效果惊艳，很多人都将其视为最好的工具。但扩散模型依赖于迭代生成过程，这导致此类方法采样速度缓慢，进而限制了它们在实时应用中的潜力。

OpenAI 的这项研究就是为了克服这个限制，提出了 Consistency Models，这是一类新的生成模型，无需对抗训练即可快速获得高质量样本。与此同时，OpenAI 还发布了 Consistency Models 实现以及权重。

论文地址：https://arxiv.org/pdf/2303.01469.pdf
代码地址：https://github.com/openai/consistency_models

具体而言，Consistency Models 支持快速 one-step 生成，同时仍然允许 few-step 采样，以权衡计算量和样本质量。它们还支持零样本（zero-shot）数据编辑，例如图像修复、着色和超分辨率，而无需针对这些任务进行具体训练。Consistency Models 可以用蒸馏预训练扩散模型的方式进行训练，也可以作为独立的生成模型进行训练。

研究团队通过实验证明 Consistency Models 在 one-step 和 few-step 生成中优于现有的扩散模型蒸馏方法。例如，在 one-step 生成方面，Consistency Models 在 CIFAR-10 上实现了新的 SOTA FID 3.55，在 ImageNet 64 x 64 上为 6.20。当作为独立生成模型进行训练时，Consistency Models 在 CIFAR-10、ImageNet 64 x 64 和 LSUN 256 x 256 等标准基准上的表现也优于 single-step、非对抗生成模型。

有网友将其视为扩散模型的有力竞争者！并表示 Consistency Models 无需对抗性训练，这使得它们更容易训练，不容易出现模式崩溃。

还有网友认为扩散模型的时代即将结束。

更有网友测试了生成速度，3.5 秒生成了 64 张分辨率 256×256 的图片，平均一秒生成 18 张。

接下来我们看看 Consistency Model 零样本图像编辑能力：

图 6a 展示了 Consistency Model 可以在测试时对灰度卧室图像进行着色，即使它从未接受过着色任务的训练，可以看出，Consistency Model 的着色效果非常自然，很逼真；图 6b 展示了 Consistency Model 可以从低分辨率输入生成高分辨率图像，Consistency Model 将 32x32 分辨率图像转成 256x256 高分辨率图像，和真值图像（最右边）看起来没什么区别。图 6c 证明了 Consistency Model 可以根据人类要求生成图像（生成了有床和柜子的卧室）。

Consistency Model 图像修复功能：左边是经过掩码的图像，中间是 Consistency Model 修复的图像，最右边是参考图像：

Consistency Model 生成高分辨率图像：左侧为分辨率 32 x 32 的下采样图像、中间为 Consistency Model 生成的 256 x 256 图像，右边为分辨率为 256x 256 的真值图像。相比于初始图像，Consistency Model 生成的图像更清晰。

模型介绍

Consistency Models 作为一种生成模型，核心设计思想是支持 single-step 生成，同时仍然允许迭代生成，支持零样本（zero-shot）数据编辑，权衡了样本质量与计算量。

我们来看一下 Consistency Models 的定义、参数化和采样。

首先 Consistency Models 建立在连续时间扩散模型中的概率流 (PF) 常微分方程 (ODE) 之上。如下图 1 所示，给定一个将数据平滑地转换为噪声的 PF ODE，Consistency Models 学会在任何时间步（time step）将任意点映射成轨迹的初始点以进行生成式建模。Consistency Models 一个显著的特性是自洽性（self-consistency）：同一轨迹上的点会映射到相同的初始点。这也是模型被命名为 Consistency Models（一致性模型）的原因。

Consistency Models 允许通过仅使用 one network 评估转换随机噪声向量（ODE 轨迹的端点，例如图 1 中的 x_T）来生成数据样本（ODE 轨迹的初始点，例如图 1 中的 x_0）。更重要的是，通过在多个时间步链接 Consistency Models 模型的输出，该方法可以提高样本质量，并以更多计算为代价执行零样本数据编辑，类似于扩散模型的迭代优化。

在训练方面，研究团队为 Consistency Models 提供了两种基于自洽性的方法。第一种方法依赖于使用数值 ODE 求解器和预训练扩散模型来生成 PF ODE 轨迹上的相邻点对。通过最小化这些点对的模型输出之间的差异，该研究有效地将扩散模型蒸馏为 Consistency Models，从而允许通过 one network 评估生成高质量样本。

第二种方法则是完全消除了对预训练扩散模型的依赖，可独立训练 Consistency Models。这种方法将 Consistency Models 定位为一类独立的生成模型。

值得注意的是，这两种训练方法都不需要对抗训练，并且都允许 Consistency Models 灵活采用神经网络架构。

实验及结果

实验数据集包括 CIFAR-10 、ImageNet 64x 64 、LSUN Bedroom 256 x 256 、 LSUN Cat 256 x 256。首先该研究在 CIFAR-10 上进行了一系列实验。结果图 3 所示。

Few-Step 图像生成

接着该研究在 ImageNet 64x 64、LSUN Bedroom 256 x 256 数据集上进行实验，结果如图 4 所示。

表 1 表明，CD（ consistency distillation ）优于 Knowledge Distillation、DFNO 等方法。

表 1 和表 2 表明 CT（ consistency training ）在 CIFAR-10 上的表现优于所有 single-step、非对抗性生成模型，即 VAE 和归一化流。此外，CT 在不依赖蒸馏的情况下获得与 PD （ progressive distillation ）相当的质量，用于 single-step 生成。

图 5 提供了 EDM (Karras et al., 2022) 样本（顶部）、single-step CT 样本（中）和 two-step CT 样本（底部）。

了解更多内容，请参考原论文。

猜您喜欢：

深入浅出stable diffusion：AI作画技术背后的潜在扩散模型论文解读

深入浅出ControlNet，一种可控生成的AIGC绘画生成算法！

经典GAN不得不读：StyleGAN

戳我，查看GAN的系列专辑~！

一顿午饭外卖，成为CV视觉的前沿弄潮儿！

最新最全100篇汇总！生成扩散模型Diffusion Models

ECCV2022 | 生成对抗网络GAN部分论文汇总

CVPR 2022 | 25+方向、最新50篇GAN论文

ICCV 2021 | 35个主题GAN论文汇总

超110篇！CVPR 2021最全GAN论文梳理

超100篇！CVPR 2020最全GAN论文梳理

拆解组新的GAN：解耦表征MixNMatch

StarGAN第2版：多域多样性图像生成

附下载 | 《可解释的机器学习》中文版

附下载 |《TensorFlow 2.0 深度学习算法实战》

附下载 |《计算机视觉中的数学方法》分享

《基于深度学习的表面缺陷检测方法综述》

《零样本图像分类综述: 十年进展》

《基于深度神经网络的少样本学习综述》

《礼记·学记》有云：独学而无友，则孤陋而寡闻

点击 一顿午饭外卖，成为CV视觉的前沿弄潮儿！，领取优惠券，加入 AI生成创作与计算机视觉 知识星球！

升级扩散模型！一步成图，1秒18张，OpenAI开源相关推荐

【终结扩散模型】Consistency Models.OpenAI开源新模型代码，一步成图，1秒18张
[终结扩散模型]Consistency Models.OpenAI开源新模型代码,一步成图,1秒18张 0.前言 Abstract 1. Introduction 2. Diffusion Model ...
不可思议！英伟达新技术训练NeRF模型最快只需5秒，代码已开源
英伟达将训练 NeRF 模型从 5 小时缩至 5 秒. 你曾想过在 5 秒内训练完成狐狸的 NeRF 模型吗?现在英伟达做到了! 令人不可思议的是,就如谷歌科学家 Jon Barron 在推特上表示的 ...
中秋佳节，程序员教你AI三步成诗，秒变“李白”
摘要:举杯邀明月,用技术来附庸风雅. 中秋佳节来临之际,你是否开始思念远方的亲朋好友,想为他们送上祝福?又或是与家人团圆赏月之时,希望借一段风雅诗词抒情达意? 华为云的开发者们教你一招,来个技术风的A ...
将扩散模型应用到文本领域
前言扩散模型在文生图领域可谓是大显身手,效果棒棒- 每当一个idea有效之时,便会有更多相关的研究跟进尝试,今天就给大家介绍一篇将扩散模型应用到文本生成领域的工作,这也是一篇比较新的paper,其中 ...
玩不起RLHF？港科大开源高效对齐算法木筏，GPT扩散模型都能用
原文:玩不起RLHF?港科大开源高效对齐算法木筏,GPT扩散模型都能用_训练_人类_微调开源大模型火爆,已有大小羊驼LLaMA.Vicuna等很多可选. 但这些羊驼们玩起来经常没有ChatGPT效果 ...
首个中文开源扩散模型！中文AI艺术时代即将开启（IDEA封神榜团队）
编辑 | 机器之心点击下方卡片,关注"自动驾驶之心"公众号 ADAS巨卷干货,即可获取点击进入→自动驾驶之心[全栈算法]技术交流群生成内容一直被视为 AI 领域中最具有挑战性 ...
从DDPM到GLIDE：基于扩散模型的图像生成算法进展
前几天,OpenAI在Arxiv上挂出来了他们最新最强的文本-图像生成GLIDE [1],如头图所示,GLIDE能生成非常真实的结果.GLIDE并非基于对抗生成网络或是VQ-VAE类模型所设计,而是采 ...
证件照转数字人只需几秒钟，微软实现首个3D扩散模型高质量生成效果，换装改形象一句话搞定 | CVPR 2023...
转载自微软亚洲研究院量子位 | 公众号 QbitAI 一张2D证件照,几秒钟就能设计出3D游戏化身! 这是扩散模型在3D领域的最新成果.例如,只需一张法国雕塑家罗丹的旧照,就能分分钟把他" ...

升级扩散模型！一步成图，1秒18张，OpenAI开源

升级扩散模型！一步成图，1秒18张，OpenAI开源相关推荐

最新文章

热门文章