Stable Diffusion半秒出图；VLIW的前世今生；YOLOv5全面解析教程

1. Stable Diffusion采样速度翻倍！仅需10到25步的扩散模型采样算法

自研深度学习编译器技术的 OneFlow 团队更是在不降低采样效果的前提下，成功将之前的 “一秒出图” 缩短到了 “半秒出图”！在 GPU 上仅仅使用不到 0.5 秒就可以获得一张高清图片！

这基于清华大学朱军教授带领的 TSAIL 团队所提出的DPM-Solver，一种针对于扩散模型特殊设计的高效求解器：该算法无需任何额外训练，同时适用于离散时间与连续时间的扩散模型，可以在 20 到 25 步内几乎收敛，并且只用 10 到 15 步也能获得非常高质量的采样。在 Stable Diffusion 上，25 步的 DPM-Solver 就可以获得优于 50 步 PNDM 的采样质量，因此采样速度直接翻倍。

链接：

https://mp.weixin.qq.com/s/vr5Pw6rc36PwQbP7j9vQYg

2. 比快更快，Stable Diffusion实现一秒出图

起初，AI 作图需要几天，再缩减到几十分钟，再到几分钟，出图时间在不断加速，问题是，究竟快到什么程度，才会在专业的美术从业者甚至普通大众之间普及开来？

显然，现在还无法给出具体答案。即便如此，可以确定的是 AI 作图在技术和速度上的突破，很可能已经接近甚至超过阈值，因为这一次，OneFlow 带来了字面意义上 “一秒出图” 的 Stable Diffusion 模型。

链接：https://mp.weixin.qq.com/s/KqffXfRhLN0LP3cHKkt2DQ

3. VLIW的前世今生：为什么DL加速器都青睐于它

现在，很多主攻云端推理和训练市场的产品，在提到基础架构时都会宣传其自定义的矢量运算指令集，大发射位宽，高度的并行执行能力。这些名词背后的底层结构几乎都是VLIW。被Intel收购的Habana就大方宣称采用自定义的VLIW的指令集。

虽然VLIW结构在之前的几十年只能算是取得了“非常有限的成果“，但就目前的深度学习处理器架构发展而言，重新回顾下VLIW的特征以及其成功和失败的案例仍然是很有意义的，也许这也是AI设计的一种可能方向。

链接：

https://zhuanlan.zhihu.com/p/101538383

4. 深挖Cerebras：世界上最大AI芯片的架构设计

作为业内备受关注的AI加速器创业公司，成立于2016年的Cerebras希望通过构建全新AI加速器方案解决AI计算问题，以实现数量级计算性能：首先，需要改进计算核心架构，而不只是一味地提升每秒浮点运算次数；其次，需要以超越摩尔定律的速度提高芯片集成度；最后，还要简化集群连接，大幅度提升集群计算效率。

为了实现上述目标，Cerebras设计了一种新的计算核心架构。它让单台设备运行超大规模模型成为可能，此外，它开发出只需简单数据并行的横向扩展和本地非结构化稀疏加速技术，使大模型的应用门槛大幅降低。

链接：

https://mp.weixin.qq.com/s/_JmINzustpH1bEDMjz9WaA

5. 关于AI芯片软件栈的六条感悟

链接：

https://zhuanlan.zhihu.com/p/582706007

6. AI编译关键技术 • 高层循环编译优化 - 不仅仅是分块和合并

如何借助编译优化理论和方法，将计算图描述的深度学习算法部署在具体硬件上并让算法高效运行，是学术界和工业界一个重要的研究课题。更多深度芯片编译技术内容在清华大学出版社新书《多面体编译理论与深度学习实践》中。

链接：

https://mp.weixin.qq.com/s/mBheJ9NG8khcLRshI40b2w

7. TVM for DSA的一些总结

目前TVM/MLIR等开源AI编译器生态有一定起色，于是进入了TVM的坑（端侧对TVM的接受度更高）。对于TVM来说，针对CPU/GPU等通用架构做了很多优化工作。我们的开发没有走BYOC路线（自身也没有现成编译软件栈，都需要0-1造所有轮子），于是就像CPU/GPU那样走relay->te->tir->(llvm)->dsa的路子，想沿用TVM上各种优秀的feature。

链接：

https://zhuanlan.zhihu.com/p/571045566

8. OneFlow源码解析：Global Tensor

上文中讲到的类似于PyTorch中的普通Tensor，在OneFlow中称为Local Tensor。Local Tensor是单卡视角下的普通Tensor。与之相对，OneFlow中还有一个独有的概念——Global Tensor。Global Tensor是指被placement和SBP属性所指定的，一个全局视角下的逻辑Tensor。Global Tensor的shape是逻辑形状，其真实数据根据placement和SBP的规则分布在多个rank上。

Global Tensor既可以通过普通的Local Tensor通过tensor.to_global()转换得到，也可以直接用数据或Numpy来构造。

链接：

https://mp.weixin.qq.com/s/bVaz0DQkiylCA6S0SbFm3g

9. 李白：你的模型权重很不错，可惜被我没收了

按照现在的趋势来说，模型越来越大了，大到一张GPU甚至装不下完整的模型，必须得上分布式并行技术，但是分布式代码在很多框架下都是高度定制化的，对于新手来说根本读不懂，也不知道应该怎么使用，导致大家上手非常的困难，让自己珍贵的发际线显得更加珍贵。

针对大模型上述存在的痛点，导致我们必须上分布式（数据并行、模型并行、流水并行）才能跑起来一个大模型。那么，LiBai有哪些特点呢？

链接：

https://mp.weixin.qq.com/s/zWsB-iL0gYSqKKnYuRqw5g

10. 一个更快的YOLOv5问世，附送全面中文解析教程

作为计算机视觉领域的基础性技术，目标检测在业界具有广泛应用，而YOLO系列因其综合性能较好，成为广受欢迎的首选框架。

这次，为了让用户深入了解 OneFlow 训练目标检测模型的可行性以及性能的优越性，我们将Ultralytics 版YOLOv5通过 import oneflow as torch 的方式迁移为 OneFlow 后端。

相比PyTorch，目前 YOLOv5 在 OneFlow 上进行小 batch 训练时有 5%-10% 的性能优势，而训练大 batch 的性能与 PyTorch 持平。

链接：

https://mp.weixin.qq.com/s/imTnKQVWcJkY7yswBLcYtw

11. 关于AI大模型的一点思考和讨论

大家似乎都沉浸在大模型欣欣向荣、歌舞升平的状态中，大多数工业界的场景中，大模型并不能直接发挥价值。在不同的任务里还是要根据实际场景去谈具体的模型和算法，不建议逢解决方案就提大模型，也不建议把大模型当成一个主要的技术方案去忽悠不是特别懂这一块技术的人，事实上在学术界的论文中也不会有人说我们用一个Big Model解决了所有问题。

未来大模型应该可以在2.c所提的方向上持续发力，但肯定也会演变出来一系列千奇百怪或优或劣的AI架构，大浪淘沙，去伪存真。

链接：

https://zhuanlan.zhihu.com/p/580745171

12. 直播预告｜LiBai：开源大规模预训练模型库及开发实践

LiBai（李白）模型库一个基于OneFlow的开源大规模模型工具箱，覆盖了 Hugging Face、Megatron-LM、DeepSpeed、FairSeq 这些所有主流Transformer库的优点，为用户提供了“开箱即用”的深度学习大模型体验。目前，LiBai已支持BERT、GPT、ViT、Swin-Transformer、T5 等常见大模型，以及MoCoV3、MAE等最新研究，开箱即用，并且可以很方便地在下游任务上进行微调。

11月24日（本周四）19:00，LiBai核心作者程鹏将首先介绍大规模预训练模型的开发生态，并比较主流的Transformer模型库，之后重点讲解开源大规模预训练模型库LiBai的研发目标、克服的困难。最后，程鹏也将展示基于LiBai的大模型开发流程。

报名链接：

https://mp.weixin.qq.com/s/Td3LZjwxBFiSRwUb4_yUNw

其他人都在看

机器学习编译器的前世今生
OneFlow-ONNX v0.6.0正式发布
更快的YOLOv5问世，附送全面中文解析教程
李白：你的模型权重很不错，可惜被我没收了
大模型狂欢背后：AI基础设施“老化”与改造工程
开源吞噬AI界？从Stable Diffusion的爆火说起
OneEmbedding:单卡训练TB级推荐模型不是梦

欢迎Star、试用OneFlow最新版本：
https://github.com/Oneflow-Inc/oneflow

Stable Diffusion半秒出图；VLIW的前世今生；YOLOv5全面解析教程 | AI系统前沿动态相关推荐

首个中文Stable Diffusion模型开源；TPU演进十年；18个PyTorch性能优化技巧 | AI系统前沿动态...
1. TPU演进十年:Google的十大经验教训希腊神话中,特洛伊战争的起因是两方争夺世界上最美的女人--海伦,后世诗人将海伦的美貌"令成千战舰为之起航".TPU就像海伦,它的出 ...
1秒出图，全球最快的开源Stable Diffusion出炉
视学算法发布机器之心编辑部 OneFlow 将 Stable Diffusion 的推理性能推向了一个全新的 SOTA. 第一辆汽车诞生之初,时速只有 16 公里,甚至不如马车跑得快,很长一段时间, ...
阿里AI设计师一秒出图，小撒连连惊呼，真相是……
近期,央视<机智过人>的舞台上来了位"三超设计师"--设计能力超强:出图能力超快:抗压能力超强,成功迷惑嘉宾和现场观众,更让撒贝宁出错三连. 节目一开场,这位" ...
阿里AI设计师一秒出图，小撒连连惊呼，真相是...
2019独角兽企业重金招聘Python工程师标准>>> 摘要: 近期,央视<机智过人>的舞台上来了位"三超设计师"--设计能力超强:出图能力超快:抗压 ...
Stable Diffusion背后的故事：独辟蹊径，开源和社区驱动的AI独角兽 | 创始人专访...
今日,AI文生图模型Stable Diffusion背后的公司Stability AI宣布获得了1.01亿美元超额融资,此轮融资后,Stability AI 估值已到达 10 亿美元,成为新晋独角兽. ...
再见了Origin，这才是科研法宝，新手秒出图！
昨天半夜收到表妹的连串吐槽. 说最近深受论文+实验双重折磨,平均每天睡不到5小时,情绪几近崩溃: 提交上去的论文,不是被批数据不完整.就是引证不足: 晚上熬夜找文献.作图.肝论文,第二天还要早起做实验 ...
重磅！这个生信神器助你文章秒出图——miRNA与基因互作数据库
我们熟知,在特定情况下,microRNA(miRNA)可以直接或间接激活和抑制基因表达.但是,尚没有基于多组学的数据库能够证明对激活与抑制以及正常与癌症状况之间相互作用模式转换的系统数据.今天我们为大 ...
NeurIPS 2022 | Stable Diffusion采样速度翻倍！清华提出扩散模型高效求解器
©作者 | 机器之心编辑部来源 | 机器之心清华大学计算机系朱军教授带领的 TSAIL 团队提出 DPM-Solver(NeurIPS 2022 Oral,约前 1.7%)和 DPM-Solver ...
AI绘图实战（三）：手绘出图机甲狂暴男 | Stable Diffusion成为设计师生产力工具
S:你安装stable diffusion就是为了看小姐姐么? I :当然不是,当然是为了公司的发展谋出路~~ 预先学习: 安装及其问题解决参考:<Windows安装Stable Diffusi ...
Diffusion扩散模型学习2——Stable Diffusion结构解析-以文本生成图像（文生图，txt2img）为例
Diffusion扩散模型学习2--Stable Diffusion结构解析-以文本生成图像(文生图,txt2img)为例学习前言源码下载地址网络构建一.什么是Stable Diffusion ...

Stable Diffusion半秒出图；VLIW的前世今生；YOLOv5全面解析教程 | AI系统前沿动态

Stable Diffusion半秒出图；VLIW的前世今生；YOLOv5全面解析教程 | AI系统前沿动态相关推荐

最新文章

热门文章