视学算法发布

机器之心编辑部

OneFlow 将 Stable Diffusion 的推理性能推向了一个全新的 SOTA。

第一辆汽车诞生之初,时速只有 16 公里,甚至不如马车跑得快,很长一段时间,汽车尴尬地像一种“很酷的玩具”。人工智能作图的出现也是如此。

AI 作图一开始的 “风格化” 本身就为 “玩” 而生,大家普遍兴致勃勃地尝试头像生成、磨皮,但很快就失去兴趣。直到扩散模型的降临,才给 AI 作图带来质变,让人们看到了 “AI 转成生产力” 的曙光:画家、设计师不用绞尽脑汁思考色彩、构图,只要告诉 Diffusion 模型想要什么,就能言出法随般地生成高质量图片。

然而,与汽车一样,如果扩散模型生成图片时“马力不足”,那就没法摆脱玩具的标签,成为人类手中真正的生产工具。

起初,AI 作图需要几天,再缩减到几十分钟,再到几分钟,出图时间在不断加速,问题是,究竟快到什么程度,才会在专业的美术从业者甚至普通大众之间普及开来?

显然,现在还无法给出具体答案。即便如此,可以确定的是 AI 作图在技术和速度上的突破,很可能已经接近甚至超过阈值,因为这一次,OneFlow 带来了字面意义上 “一秒出图” 的 Stable Diffusion 模型。

  • OneFlow Stable Diffusion 使用地址:https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion

  • OneFlow 地址:https://github.com/Oneflow-Inc/oneflow/

比快更快,OneFlow 一马当先

下面的图表分别展示了在 A100 (PCIe 40GB / SXM 80GB)、RTX 2080 和 T4 不同类型的 GPU 硬件上,分别使用 PyTorch, TensorRT, AITemplate 和 OneFlow 四种深度学习框架或者编译器,对 Stable Diffusion 进行推理时的性能表现。

对于 A100 显卡,无论是 PCIe 40GB 的配置还是 SXM 80GB 的配置,OneFlow 的性能可以在目前的最优性能之上继续提升 15% 以上

特别是在 SXM 80GB A100 上,OneFlow 首次让 Stable Diffusion 的推理速度达到了 50it/s 以上,首次把生成一张图片需要采样 50 轮的时间降到 1 秒以内,是当之无愧的性能之王

在 T4 推理卡上,由于 AITemplate 暂不支持 Stable Diffsuion,相比于目前 SOTA 性能的 TensorRT,OneFlow 的性能是它的 1.5 倍

而在 RTX2080 上,TensorRT 在编译 Stable Diffsuion 时会 OOM ,相比于目前 SOTA 性能的 PyTorch,OneFlow 的性能是它的 2.25 倍

综上,在各种硬件以及更多框架的对比中,OneFlow 都将 Stable Diffusion 的推理性能推向了一个全新的 SOTA。

生成图片展示

利用 OneFlow 版的 Stable Diffusion,你可以把天马行空的想法很快转化成艺术图片,譬如:

以假乱真的阳光、沙滩和椰树:

仓鼠救火员、长兔耳朵的狗子:

在火星上吃火锅:

未来异世界 AI:

集齐 OneFlow 七龙珠:

上述图片均基于 OneFlow 版 Stable Diffusion 生成。如果你一时没有好的 idea,可以在 lexica 上参考一下广大网友的创意,不仅有生成图片还提供了对应的描述文字。

无缝兼容 PyTorch 生态,实现一键模型迁移

想体验 OneFlow Stable Diffusion?只需要修改三行代码,你就可以将 HuggingFace 中的 PyTorch Stable Diffusion 模型改为 OneFlow 模型,分别是将 import torch 改为 import oneflow as torch 和将 StableDiffusionPipeline 改为 OneFlowStableDiffusionPipeline:

之所以能这么轻松迁移模型,是因为 OneFlow Stable Diffusion 有两个出色的特性:

  1. OneFlowStableDiffusionPipeline.from_pretrained 能够直接使用 PyTorch 权重。

  2. OneFlow 本身的 API 也是和 PyTorch 对齐的,因此 import oneflow as torch 之后,torch.autocast、torch.float16 等表达式完全不需要修改。

上述特性使得 OneFlow 兼容了 PyTorch 的生态,这不仅在 OneFlow 对 Stable Diffusion 的迁移中发挥了作用,也大大加速了 OneFlow 用户迁移其它许多模型,比如在和 torchvision 对标的 flowvision 中,许多模型只需通过在 torchvision 模型文件中加入 import oneflow as torch 即可得到。

此外,OneFlow 还提供全局 “mock torch” 功能,在命令行运行 eval $(oneflow-mock-torch) 就可以让接下来运行的所有 Python 脚本里的 import torch 都自动指向 oneflow。

使用 OneFlow 运行 Stable Diffusion

在 docker 中使用 OneFlow 运行 StableDiffusion 模型生成图片:

docker run --rm -it \--gpus all --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 \-v ${HF_HOME}:${HF_HOME} \-v ${PWD}:${PWD} \-w ${PWD} \-e HF_HOME=${HF_HOME} \-e HUGGING_FACE_HUB_TOKEN=${HUGGING_FACE_HUB_TOKEN} \oneflowinc/oneflow-sd:cu112 \python3 /demos/oneflow-t2i.py # --prompt "a photo of an astronaut riding a horse on mars"

更详尽的使用方法请参考:https://github.com/Oneflow-Inc/diffusers/wiki/How-to-Run-OneFlow-Stable-Diffusion

后续工作

后续 OneFlow 团队将积极推动 OneFlow 的 diffusers(https://github.com/Oneflow-Inc/diffusers.git) 和 transformers(https://github.com/Oneflow-Inc/transformers.git) 的 fork 仓库内容合并到 huggingface 上游的的对应仓库。这也是 OneFlow 首次以 transformers/diffusers 的后端的形式开发模型,欢迎各位开发者朋友在 GitHub 上反馈意见。

值得一提的是,在优化和加速 Stable Diffusion 模型的过程中使用了 OneFlow 自研编译器,不仅让 PyTorch 前端搭建的 Stable Diffusion 在 NVIDIA GPU 上跑得更快,而且也可以让这样的模型在国产 AI 芯片和 GPU 上跑得更快,这些将在之后的文章中揭秘技术细节。

© THE END

转载请联系原公众号获得授权

点个在看 paper不断!

1秒出图,全球最快的开源Stable Diffusion出炉相关推荐

  1. 全球首个完全开源的指令跟随大模型;T5到GPT-4最全盘点

    1. Dolly 2.0:世界上第一个完全开源的指令跟随LLM 两周前,Databricks发布了类ChatGPT的大型语言模型 (LLM)Dolly,其训练成本不到 30 美元.今天,他们发布了 D ...

  2. 阿里AI设计师一秒出图,小撒连连惊呼,真相是……

    近期,央视<机智过人>的舞台上来了位"三超设计师"--设计能力超强:出图能力超快:抗压能力超强,成功迷惑嘉宾和现场观众,更让撒贝宁出错三连. 节目一开场,这位" ...

  3. 阿里AI设计师一秒出图,小撒连连惊呼,真相是...

    2019独角兽企业重金招聘Python工程师标准>>> 摘要: 近期,央视<机智过人>的舞台上来了位"三超设计师"--设计能力超强:出图能力超快:抗压 ...

  4. revit的常用插件出图有哪些?怎么快速局部平面?

    说到revit的出图功能大家一定很头疼,因为revit根本就没有专门的出图规范,所以对于使用revit的我们来说有时候就是个坑,很多时候revit的原生出图功能真的是让人感到头大又无可奈可,不过有需求 ...

  5. 图片插值数据_结合PS用这招来增强ArcGIS插值图出图效果

    1 概述 在一些科研领域,经常会遇到使用插值的方式进行处理,并生成最终的插值图.插值图在ArcGIS里面非常容易生成,只要具备了采用点数据,通过ArcToolBox里面的插值的工具可以直接生成最终的插 ...

  6. 使用matplotlib实现连续单独出图

    使用matplotlib实现连续单独出图 文章目录 使用matplotlib实现连续单独出图 一.先设置图例单独窗口显示 二.连续单独图例 1.新建画布figure[这是单独出图的核心] 2.新建子图 ...

  7. Stable-diffusion支持Intel和AMD显卡加速出图的操作方法

    英伟达的显卡有CUDA加持Stable diffusion出图很快,但我无奈家徒四壁,只有AMD老显卡苦苦支撑着本不富裕的家庭,但是生活还是继续不是.来吧!兄弟,看看老显卡能不能加速出图就完事了. 说 ...

  8. 少年侠客【InsCode Stable Diffusion美图活动一期】

    少年侠客[InsCode Stable Diffusion美图活动一期] 文章目录 Stable Diffusion 模型在线使用地址 第一张图 第二张图 第三张图 第四张图 第五张图 第六章图 一. ...

  9. AIGC:如何使用Stable Diffusion生图

    文生图 1. 正反向Prompt 使用文字Prompt,正向和反向词的添加来生成图片,通过对应参数调节和添加更多的Prompt来让AI更清晰的感知我们想要的场景图片.添加更多的Prompt之间使用英文 ...

最新文章

  1. The Innovation | Volume 3 Issue 1 正式出版
  2. 最长回文子串动态规划_九章算法 | 微软面试题:最长回文子串
  3. U盘安装Windows 7 方法
  4. JQuery图片切换 Win8 Metro风格Banner
  5. dotNetSpider 手记
  6. springboot 多线程_机密文档!阿里产出SpringBoot/Cloud,细节爆炸
  7. AcWing 4. 多重背包问题(多重背包 朴素版)
  8. python车牌字符分割_OpenCV+Python识别车牌和字符分割的实现
  9. 12.Memcached 与 Redis 区别
  10. 批量测试Mybatis项目中Sql是否正确
  11. uni-app在小程序开发者工具:TypeError: Cannot read property ‘forceUpdate‘ of undefined
  12. 2个dataframe,df1的每一列分别乘以df2的某一列
  13. 挖掘肖特基二极管正向压降大小与温度变化有什么关系?
  14. Apache Doris 在京东广告报表查询场景下的应用
  15. blender玻璃材质
  16. 果然十三香!史上最强iPhone13来了:全面降价、刘海缩小,支持120HZ高刷!网友:真香!苹果:业内苦苦追赶我们的芯片性能...
  17. RAKsmart高防服务器怎么样
  18. 优酷古永锵:最大对手是土豆网 做好内容监管
  19. C++串口同步和异步的读取与串口设备编程
  20. python3中的rank函数

热门文章

  1. 每周分享第 47 期
  2. C++实现积分函数(第一章)
  3. 这4个兼职平台实测靠谱,想做兼职的赶紧收藏起来看看吧
  4. mac 重置mysql_mac 重置mysql 登录密码
  5. 资本寒冬之下的聚美优品私有化
  6. OPC UA客户端工具Softing OPC Client使用_推荐使用
  7. 【DFS练习】水洼数
  8. 石油大学个人训练赛(一)补题----问题 A: 斗地主
  9. 蓝桥杯星期一(翻日历)
  10. Cesium加载建筑物模型(shp转Geojson\3Dtiles)