论文提出了latent diffusion models (LDMs)。基于该模型最著名的工作是文本生成图像模型stable-diffusion。

普通的扩散模型在像素空间操作,运算复杂度较高。为了保证在低资源下训练扩散模型,并保留扩散模型的质量和灵活性,该论文使用预训练的自编码器得到隐含空间,并在隐含空间中训练扩散模型。另一方面,该论文使用cross-attention机制为扩散模型引入条件,条件可以是文本、bounding box等。

方法

方法的整体结构如上图。

先用自编码器训练通用的压缩模型(红色部分),通用的压缩模型可以用来训练不同的扩散模型。

之后在自编码器的低维隐含空间上训练扩散模型(绿色部分),降低运算复杂度。

图片压缩

使用perceptual loss和patch-based adversarial objective训练一个自编码器用于图片的压缩。

表示图片。有编码器,解码器

,z是被降采样的隐含表示,是被压缩的结果。二维的隐含表示有利于保存图片的细节。

为了避免隐含空间有过高的方差,作者使用了两种regularization。

  1. KL-reg。类似VAE,假设隐含表示服从标准正太分布。
  2. VQ-reg。解码器使用vector quantization layer。

隐含扩散模型

普通的扩散模型的优化公式如下:

压缩模型被训练好后,就得到了低维的隐含空间。这个空间对于likelihood-based生成模型的好处是,生成模型可以更关注重要的语义信息,并且可以更为高效地训练。

论文提出在隐含空间训练扩散模型。基于隐含表示的扩散模型优化的公式如下:

其中用time-conditional UNet来实现。

条件机制

作者通过使用cross-attention机制来补充UNet以引入条件。cross-attention的计算如下:

其中 是条件y经过encoder得到的中间表示,是UNet的中间表示。

基于条件的隐含扩散模型优化公式如下:

遇到的一些名词

Bits Per Dimension

在论文的分析图中出现了bits/dim。这个是指标负log-likelihood除以图片的维度的单位。该指标越小模型性能越好。负log-likelihood等于用熵编码法(entropy coding scheme)无损压缩所需要的平均bit数。

The total discrete log-likelihood is normalized by the dimensionality of the images (e.g., 32 × 32 × 3 = 3072 for CIFAR-10). These numbers are interpretable as the number of bits that a compression scheme based on this model would need to compress every RGB color value.

参考:《Pixel Recurrent Neural Networks》

论文笔记High-Resolution Image Synthesis with Latent Diffusion Models相关推荐

  1. High-Resolution Image Synthesis with Latent Diffusion Models 论文重点

    Content High-Resolution Image Synthesis with Latent Diffusion Models Abstract 1. Introduction 不足之处: ...

  2. high-resolution image synthesis with latent diffusion models

    如何通俗理解扩散模型? - 知乎泻药.实验室最近人人都在做扩散,从连续到离散,从CV到NLP,基本上都被diffusion洗了一遍.但是观察发现,里面的数学基础并不是模型应用的必须.其实大部分的研究者 ...

  3. High-Resolution Image Synthesis with Latent Diffusion Models笔记

    我是刚入门的小白,试着自己读论文不一定对望能理解 这篇论文产生问题的源头是什么 这篇论文解决了什么问题以及实现了什么功能 由于这些模型通常直接在像素空间中操作,因此强大DM的优化通常消耗数百个GPU天 ...

  4. Latent Diffusion Models / Stable Diffusion

    High-Resolution Image Synthesis with Latent Diffusion Models(CVPR 2022) https://arxiv.org/abs/2112.1 ...

  5. Stable Diffusion背后原理(Latent Diffusion Models)

    前言 2023年第一篇博客,大家新年好呀~ 这次来关注一下Stable Diffusion背后的原理,即 High-Resolution Image Synthesis with Latent Dif ...

  6. 论文笔记--On the Sentence Embeddings from Pre-trained Language Models

    论文笔记--On the Sentence Embeddings from Pre-trained Language Models 1. 文章简介 2. 文章概括 3 文章重点技术 3.1 BERT模 ...

  7. 详细解读Latent Diffusion Models:原理和代码

    Diffusion Models专栏文章汇总:入门与实战 前言:CVPR 2022中的一项新工作latent diffusion models引起了广泛关注,提出了两段式diffusion model ...

  8. [论文解析] NeRDi: Single-View NeRF Synthesis with Language-Guided Diffusion as General Image Priors

    用语言引导的diffusion作为通用图像先验的单视角NeRF合成 Overview What problem is addressed in the paper? Is it a new probl ...

  9. 【论文笔记】Resolution Adaptive Networks for Efficient Inference (CVPR2020)

    Resolution Adaptive Networks for Efficient Inference Motivation Method Experiments 借鉴意义与思考 论文地址:http ...

最新文章

  1. 常见笔试面试问题点(转载)
  2. 电话光端机与PCM复用设备的区别
  3. 一起Polyfill系列:Function.prototype.bind的四个阶段
  4. python 配置文件返回的两种方式,写法不一样而已
  5. pytorch dropout代码解读
  6. 计算机教室网络同传及保护,用好联想网络同传系统解放信息技术教师
  7. Spring 概念模型 : PathMatcher 路径匹配器
  8. Python:运行时隐藏窗口
  9. 天气预报接口api(中国天气网)
  10. 5.5 设置UITableView单元格背景色 [原创iOS开发-Xcode教程]
  11. web前端课程设计(HTML和CSS实现餐饮美食文化网站)静态HTML网页制作
  12. 與情分析系统,包括爬虫、文本摘要、主题分类、情感倾向性识别以及可视化...
  13. ps 图片添加文字
  14. android netd和kernelframeworks的通信逻辑
  15. 涂鸦三明治开发套件开箱及固件下载
  16. mac 常用快捷键整理
  17. excel 中粘贴时怎么不覆盖
  18. Visual Studio(VS) 编程推荐字体和主题设置
  19. 178Echarts - 主题河流图(ThemeRiver)
  20. 依赖倒置原则(Dependecy-Inversion Principle)

热门文章

  1. 2022最新圣诞节代码:圣诞树
  2. pc模式 华为mate30_华为Mate30系列10个隐藏黑科技
  3. java系列之redis基础
  4. 转 脏字/ 敏感词汇搜索算法
  5. 如何提高内存卡的读写速度
  6. 【教学类-34-01】拼图(运动项目-长方块拼图)3*4格子(中班主题《个别化拼图》健康偏艺术-美术)
  7. python list中的sort()简单用法与lambda的使用
  8. 什么是百度霸屏?百度霸屏的基本流程是什么?
  9. 此mac已与apple id关联(如何绕过macOS恢复模式的激活锁)
  10. 高等数学学习笔记——第三讲——函数的概念与性质(1. 函数的概念)