就在一个月前,我还很疑惑为什么大厂们都要去卷文本生成图像,当时自己总结了两个有价值的落地点(美术教育和内容生成),但始终不太exciting,感觉现在的技术离目标还有不少距离。

结果才短短一个月,我的认知就被革新了。

在过去的一两周里,我的twitter每天都在被Diffusion刷屏,各种玩法层出不穷。如果这样描述你没有感觉,那你可以打开这个网站,来看看过去一周内Diffusion相关的新项目列表:

https://multimodal.art/news/1-week-of-stable-diffusion

我数了一下,非完全统计一共24个,平均每天就有3+个Diffusion的项目,仿佛是一个新的大航海时代。

Stable Diffusion

这次火爆的源起,是慕尼黑大学的CompVis组,联合Stability AI[1]和Runway[2]发布了他们预训练的Diffusion生成模型[3]

不就开源了一个模型吗?有啥呢?

首先,它开源。别看OpenAI的DALLE2和Google的Imagen效果都那么好,可他们都是半开不开的,Diffusion的训练成本更高,普通人根本训不起。这次能开源要得益于Stability AI的加持,由国外超级富豪Emad Mostaque创办,目标是创造开源的AI工具,大家可以把它当成真正的「Open AI」。这次的Stable Diffusion,是Stability AI的第一个公开产品,在4000台A100上训了一个月[4],有钱真好。

其次,它轻量,一张10GB以上显存的卡就能跑。要知道即使DALLE2开源了,普通人也是用不起的,而Stable Diffusion经过优化后一张卡就能放得下了,做到了真真正正的亲民。

最后,它效果真的好,好到能商用。这主要归功于高质量数据集LAION[5]的加持,我分别挑了DALLE2和Imagen的prompt来对比,感觉Stable Diffusion不亚于那两个大模型:

同时它还有很多种玩法

  1. 文本生成图像

  2. 图像+文本生成图像

  3. 补全图像中的某个部分(例如把猫换成一只狗)

种种以上因素,让Stable Diffusion在几天内引爆了AI圈。

Diffusion的大航海时代

Diffusion最早是15年的一篇文章提出的[6],但当时并不完善,直到20年时的DDPM[7]才真正做work。之后的事情大家也就知道了,从21年底到22年间,先后有OpenAI的GLIDE、DALLE2和Google的Imagen都用上了这个工作。

Diffusion的核心思想,就是把生成的过程拆成一个个简单的小步骤,而不是像其他模型一样「一步到位」,这样拟合起来相对容易,所以做出来效果很好,同时训练起来也更加稳定

不过随之而来的,就是它训练过程消耗资源大(每一个小步都需要训练),同时生成的速度也慢(一步一步生成)。

正因为它存在缺点,在理论上还有很多研究可以做,同时它优秀的效果,使AIGC可以更进一步

想想在过去,在移动互联网时代中,UGC撑起了多少应用吧:微博、知乎、B站、头条、抖音。。如果AI能增加UGC的效率,或者直接生产内容,会是什么样呢?再想想未来,在元宇宙里,如果不需要那么多人力去建模,那未来是不是能来的更快一些呢?

听到这里,是不是开始exciting了!

那就开始学习吧!

学习资料汇总

下面是我收集的靠谱学习资料:

HuggingFace推荐的博客:

  • https://lilianweng.github.io/posts/2021-07-11-diffusion-models/

  • https://yang-song.net/blog/2021/score/

  • 代码+公式:https://huggingface.co/blog/annotated-diffusion

介绍和Paper汇总:https://github.com/heejkoo/Awesome-Diffusion-Models

苏神博客:https://spaces.ac.cn/

知乎讨论:https://www.zhihu.com/question/536012286

B站视频:

  • https://www.bilibili.com/video/BV1b541197HX

  • https://www.bilibili.com/video/BV1cW4y1z7pp

参考资料

[1]

Stability AI: https://stability.ai/

[2]

Runway: https://runwayml.com/

[3]

High-Resolution Image Synthesis with Latent Diffusion Models: https://ommer-lab.com/research/latent-diffusion-models/

[4]

Stable Diffusion及其背后的机构Stability AI: https://www.bihuoji.com/441035.html

[5]

LAION: https://laion.ai/

[6]

Deep Unsupervised Learning using Nonequilibrium Thermodynamics: https://arxiv.org/pdf/1503.03585.pdf

[7]

Denoising Diffusion Probabilistic Models: https://arxiv.org/abs/2006.11239

分享

收藏

点赞

在看

你可能不知道,Diffusion现在有多火相关推荐

  1. Diffusion Models专栏文章汇总:入门与实战

    最新最全Diffusion Models论文.代码汇总 1.Diffusion Models扩散模型与深度学习(数学原理和代码解读) 这篇文章适合小白入门看,能快速了解diffusion models ...

  2. 古风修仙美少女-InsCode Stable Diffusion 美图活动一期

    Stable Diffusion 模型在线使用地址: https://inscode.csdn.net/@inscode/Stable-Diffusion 点我直接前往 大家直接点击上面链接就是,如果 ...

  3. 智源AI日报(2022-09-02):我是如何从头开始写一篇顶级论文的

    [智源AI日报]每天速读5分钟,AI要事不错过!欢迎点击这里,关注并订阅智源AI日报. 经验 | 我是如何从头开始写一篇顶级论文的 看点:从一形成Routine的日常科研生活中挖掘到巧妙的论文产出攻略 ...

  4. 关于BIO | NIO | AIO的讨论

    关于BIO | NIO | AIO的讨论一直存在,有时候也很容易让人混淆,就我的理解,给出一个解释: BIO | NIO | AIO,本身的描述都是在Java语言的基础上的.而描述IO,我们需要从两个 ...

  5. 【建站系列教程】2、数据源

    [建站系列教程]2.数据源 (全网最良心.实用教程) 网站主题 数据源 数据来源于数据库 数据来源于api接口 数据来源于python爬虫 总结 写在前面:大家好,我是热爱编程的小泽. [建站系列教程 ...

  6. 也谈BIO | NIO | AIO (Java版--转)

    http://my.oschina.net/bluesky0leon/blog/132361 关于BIO | NIO | AIO的讨论一直存在,有时候也很容易让人混淆,就我的理解,给出一个解释: BI ...

  7. 计算机装机比赛感想,装机赛 篇一:一次雨露均沾的装机比赛

    装机赛 篇一:一次雨露均沾的装机比赛 2019-12-03 19:04:49 26点赞 61收藏 61评论 创作立场声明:装机大赛获奖作品分享 前言 今天给大家分享一下我在参加百度贴吧装机大赛的获奖作 ...

  8. eclipse基本操作

    android的java被被告了,不知道还会不会火,把以前的记录一下,纪念我将要死去的安卓. -->eclipse中基本的java操作 1.File->NEW PROJECT,弹出对话框, ...

  9. “菜鸟”和“大神”de区别

    "菜鸟"和"大神" 刚刚走出就业的程序员,技术是刚刚起步的基点.那下面我们就聊一聊有关技术的东西.首先请您先想想这几个问题.现在社会上有很多程序员,CSDN就是 ...

最新文章

  1. Asp.Net页面执行流程分析
  2. ASP.NET MVC经典项目ProDinner项目解析(3)
  3. 2020-python小工能
  4. Flutter Listener 监听手指的滑动方向、监听手指上下滑动
  5. 第6章 访问权限控制
  6. 双击图片不放大手机php,Android_Android App中实现可以双击放大和缩小图片功能的实例,先来看一个很简单的核心图片 - phpStudy...
  7. 命运211月服务器维护,命运2服务端+客户端+工具+教程
  8. 设计模式之--策略模式
  9. fl2440串口编程
  10. 华为物联网操作系统LiteOS内核教程02-HelloWorld
  11. NOIP2008年普及组初赛题目答案及解析
  12. Sublime Text 3—Project(项目管理)
  13. C++ 流 文件操作(输入输出流)
  14. [推荐]我的感受:China-pub与Dearbook
  15. 电子设备采购合同是否要质保金
  16. Paddle实践:手写数字识别
  17. Python入门:循环语句
  18. Blender2.9-keymap
  19. 这 14 个短代码,蕴含着丰富的 Python 编程思维
  20. 某月份各部门按小分类销售业绩达成状况(月报)之python代码的实现

热门文章

  1. 将UTC、EST时区的时间转化成北京时间(python)
  2. 从中国封建历史的发展来理解云计算、雾计算、边缘计算以及云原生之间的关系
  3. ctf writeup之程序员密码
  4. Excel根据手机号区分运营商
  5. 无意听到的歌, 心理很难受..
  6. 微信小程序中使用画布canvas实现动态心电图绘制
  7. 用 Python 写软件原来这么简单!
  8. 浏览器劫持解决:解决浏览器的捆绑问题
  9. html5适配屏幕,HTML5屏幕适配标签设置
  10. 2018ACM-ICPC焦作站E题Resistors in Parallel