来源:机器之心

该论文提出了一个为多 模态设计的概率建模框架 UniDiffuser,除了单向的文生图,还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能。

据悉 GPT-4 将于本周发布,多模态将成为其一大亮点。当前的大语言模型正在成为理解各种模态的通用接口,能够根据不同模态信息来给出回复文本,但大语言模型生成的内容也仅仅局限于文本。另一方面,当前的扩散模型 DALL・E 2、Imagen、Stable Diffusion 等在视觉创作上掀起一场革命,但这些模型仅仅支持文到图的单一跨模态功能,离通用式生成模型还有一定距离。而多模态大模型将能够打通各种模态能力,实现任意模态之间转化,被认为是通用式生成模型的未来发展方向。

清华大学计算机系朱军教授带领的 TSAIL 团队近期公开的一篇论文《One Transformer Fits All Distributions in Multi-Modal Diffusion at Scale》,率先发布了对多模态生成式模型的一些探索工作,实现了任意模态之间的相互转化。

论文链接:https://ml.cs.tsinghua.edu.cn/diffusion/unidiffuser.pdf

开源代码:https://github.com/thu-ml/unidiffuser

该论文提出了一个为多模态设计的概率建模框架 UniDiffuser,并采用该团队提出的基于 transformer 的网络架构 U-ViT,在开源的大规模图文数据集 LAION-5B 上训练了一个十亿参数量的模型,使得一个底层模型能够高质量地完成多种生成任务(图 1)。简单来讲,除了单向的文生图,还能实现图生文、图文联合生成、无条件图文生成、图文改写等多种功能,大幅提升文图内容的生产效率,也进一步提升了生成式模型的应用想象力。

该论文一作鲍凡目前博士在读,是此前 Analytic-DPM 的提出者,凭借在扩散模型方面的优秀工作荣获 ICLR 2022 的 outstanding paper award(目前唯一一篇大陆单位独立完成的获奖论文)。

此外,机器之心之前还报道过 TSAIL 团队提出的 DPM-Solver 快速算法,目前仍是扩散模型最快的生成算法。多模态大模型正是该团队在深度概率模型的算法和原理方面上长期深入积累的一个集中展示。该工作的合作者包括人民大学高瓴人工智能学院的李崇轩、北京智源研究院的曹越等。

值得注意的是,该项目的论文和代码均已开源。

效果展示

如下的图 8 展示了 UniDiffuser 在图文联合生成的效果:

如下的图 9 展示了 UniDiffuser 在文到图上的效果:

如下的图 10 展示了 UniDiffuser 在图到文上的效果:

如下的图 11 展示了 UniDiffuser 在无条件图像生成上的效果:

如下的图 12 展示了 UniDiffuser 在图像改写上的效果:

如下的图 15 展示了 UniDiffuser 能够实现在图文两个模态之间的来回跳跃 :

如下图 16 展示了 UniDiffuser 能对真实的两张图像进行插值:

方法概览

研究团队将针对通用生成式模型的设计划分成了两个子问题:

  • 概率建模框架:是否能寻找到一个概率建模框架,能同时建模出模态之间所有的分布,例如图文之间的边缘分布、条件分布、联合分布等?

  • 网络架构:是否能设计出一个统一的网络架构,来支持各种不同模态的输入?

概率建模框架

针对概率建模框架,研究团队提出 UniDiffuser,一个基于扩散模型的概率建模框架。UniDiffuser 能够显示地建模多模态数据中包括边缘分布、条件分布、联合分布在内的所有分布。研究团队发现,关于不同分布的扩散模型学习都可以统一成一个视角:首先向两个模态的数据分别加入某种大小的噪声,然后再预测两个模态数据上的噪声。其中两个模态数据上的噪声大小决定了具体的分布。例如,将文本的噪声大小设置为 0,则对应了文生图的条件分布;将文本噪声大小设置为最大值,则对应了无条件图像生成的分布;将图文噪声大小设置为相同,则对应了图文的联合分布。根据该统一的视角,UniDiffuser 只需要将原始扩散模型的训练算法做少许的修改,便能同时学习上述的所有分布 — 如下图所示,UniDiffuser 同时向所有模态加噪而非单个模态,输入所有模态对应的噪声大小,以及预测所有模态上的噪声。

以双模态为例子,最终的训练目标函数如下所示:

其中代表数据,代表加入到两个模态中的标准高斯噪声,代表两个模态加入噪声的大小(即时间),两者独立的从 {1,2,…,T} 中采样,为噪声预测网络,同时预测两个模态上的噪声。

在训练后,通过向噪声预测网络设置两个模态合适的时间,UniDiffuser 能够实现无条件、条件以及联合生成。例如将文本的时间设置为 0,可以实现文到图生成;将文本的时间设置为最大值,可以实现无条件图像生成;将图文时间设置为相同值,可以实现图文联合生成。

下面罗列了 UniDiffuser 的训练和采样算法,可见这些算法相对原始的扩散模型均只做了微小的改动,易于实现。

此外,由于 UniDiffuser 同时建模了条件分布和无条件分布,因此 UniDiffuser 天然地支持 classifier-free guidance。下面的图 3 展示了 UniDiffuser 的条件生成和联合生成在不同的 guidance scale 下的效果:

网络架构

针对网络架构,研究团队提出使用基于 transformer 的架构来参数化噪声预测网络。具体地,研究团队采用了最近提出的 U-ViT 架构。U-ViT 将所有的输入都视作 token,并在 transformer 块之间加入了 U 型连接。研究团队也采用了 Stable Diffusion 的策略,将不同模态的数据都转换到了隐空间再进行扩散模型的建模。值得注意的是,U-ViT 架构同样来自该研究团队,并且已被开源在 https://github.com/baofff/U-ViT。

实验结果

UniDiffuser 首先和 Versatile Diffusion 进行了比较。Versatile Diffusion 是过去的一个基于多任务框架的多模态扩散模型。首先 UniDiffuser 和 Versatile Diffusion 进行了文到图上的效果比较。如下面的图 5 所示,在不同的 classifier-free guidance scale 下,UniDiffuser 在 CLIP Score 和 FID 指标上均要好于 Versatile Diffusion。

然后 UniDiffuser 和 Versatile Diffusion 进行了图到文上的效果比较。如下面的图 6 所示,UniDiffuser 在图到文上有更好的 CLIP Score。

UniDiffuser 也和专用的文到图模型在 MS-COCO 上进行了 zero-shot FID 的比较。如下面的表 1 所示,UniDiffuser 可以和专用的文到图模型取得可比的效果。

推荐阅读

  • 西电IEEE Fellow团队出品!最新《Transformer视觉表征学习全面综述》

  • 润了!大龄码农从北京到荷兰的躺平生活(文末有福利哟!)

  • 如何做好科研?这份《科研阅读、写作与报告》PPT,手把手教你做科研

  • 奖金675万!3位科学家,斩获“中国诺贝尔奖”!

  • 又一名视觉大牛从大厂离开!阿里达摩院 XR 实验室负责人谭平离职

  • 最新 2022「深度学习视觉注意力 」研究概述,包括50种注意力机制和方法!

  • 【重磅】斯坦福李飞飞《注意力与Transformer》总结,84页ppt开放下载!

  • 2021李宏毅老师最新40节机器学习课程!附课件+视频资料

欢迎大家加入DLer-计算机视觉技术交流群!

大家好,群里会第一时间发布计算机视觉方向的前沿论文解读和交流分享,主要方向有:图像分类、Transformer、目标检测、目标跟踪、点云与语义分割、GAN、超分辨率、人脸检测与识别、动作行为与时空运动、模型压缩和量化剪枝、迁移学习、人体姿态估计等内容。

进群请备注:研究方向+学校/公司+昵称(如图像分类+上交+小明)

清华朱军团队开源首个基于Transformer的多模态扩散大模型相关推荐

  1. 清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型!文图互生、改写全拿下!...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->[多模态和扩散模型]微信技术交流群 转载自:机器之心 该论文提出了一个为多 模态设计的概率 ...

  2. 华为诺亚开源首个亿级中文多模态数据集-悟空,填补中文NLP社区一大空白

    选自arXiv 作者:Jiaxi Gu等 机器之心编译 编辑:Juniper 华为诺亚方舟实验室的研究者提出了一个大规模的中文的跨模态数据库 --「悟空」,并在此基础上对不同的多模态预训练模型进行基准 ...

  3. 新突破!华为诺亚开源首个亿级中文多模态数据集-悟空!

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 作者:Jiaxi Gu等 转载自:机器之心  |  编辑:Juniper 华为诺亚方舟实验室的研究者提出了一 ...

  4. 清华刘知远团队巨作!Pre-trained Prompt Tuning框架,让超大模型调参变简单

    点击 机器学习算法与Python学习 ,选择加星标 精彩内容不迷路 机器之心报道 来自清华大学的刘知远.黄民烈等研究者提出了一个名为「PPT」的新框架.PPT=Pre-trained Prompt T ...

  5. 首个“开源ChatGPT”来了:基于谷歌5400亿参数大模型,华人小哥出品,网友吐槽:这谁能跑?

    就说程序员的手速有多快吧,首个开源ChatGPT项目已经出现了! 基于谷歌语言大模型PaLM架构,以及使用从人类反馈中强化学习的方法(RLHF),华人小哥Phillip Wang复刻了一个ChatGP ...

  6. 论文笔记:InternImage—基于可变形卷积的视觉大模型,超越ViT视觉大模型,COCO 新纪录 64.5 mAP!

    目录 文章信息 写在前面 Background & Motivation Method DCN V2 DCN V3 模型架构 Experiment 分类 检测 文章信息 Title:Inter ...

  7. 清华朱军团队包揽三项冠军 | NIPS 2017对抗样本攻防竞赛总结(附学习资料)

    来源:AI科技评论 作者:高云河 本文共8989字,建议阅读10分钟. 本次比赛总结由谷歌大脑.清华大学以及其它参与研究人员们联合撰写,为你介绍NIPS 2017 对抗样本攻防比赛的情况. 自 Ian ...

  8. 论文阅读(9)---基于Transformer的多模态CNN心电图心律失常分类

    Multi-module Recurrent Convolutional Neural Network with Transformer Encoder for ECG Arrhythmia Clas ...

  9. AI周报丨中国信息通信研究院发布《AI框架发展白皮书》;华为开源首个NLP中文数据集-悟空;AAAI2022年度论文公布。

    AI周报丨中国信息通信研究院发布<AI框架发展白皮书>:华为开源首个NLP中文数据集-悟空:AAAI2022最佳论文公布. 2022年2月22日 极链AI云 官网地址 点击注册 更多AI内 ...

最新文章

  1. Ubuntu下用matplotlib作图时显示中文
  2. java自动注入注解_Spring自动注解标签@Autowired不能注入xml配置的bean吗?
  3. Vue-router学习(一)- 路由匹配
  4. 大结局:GitHub正式归于微软旗下,新CEO下周一上任“三把火”
  5. Linux之rmdir命令
  6. 小程序引入的echarts过大如何解决_微信小程序中使用echarts
  7. [开源]quakeIII(雷神之锤3)源码
  8. 传输层协议(7):滑动窗口(1)
  9. java将一个字符串数组复制到一个字符串_C语言 | 将元音字母复制到另一个字符串中...
  10. h5侠客行服务器维护有更新什么,《侠客行》1月22日版本更新说明
  11. Java中this和super关键字分别是什么意思
  12. 《App后台开发运维和架构实践》资源汇总
  13. 27亿美元的NASA「毅力号」成功登陆火星!还带了一架1%大气密度也能飞的无人机...
  14. unity全栈开发是什么意思_unity3D用什么语言开发好?
  15. Maven报:Unable to import maven project: See logs for details
  16. android 固件下载地址,[下载]安卓6.0/Android M第三个开发者预览版固件下载地址
  17. 数据库笔记 NO.1 ------------2020.03.26
  18. 【征文大赛】TiDB 社区第二届征文大赛,一次性带走社区全部新周边,还有bose 降噪耳机、倍轻松按摩仪等你拿!
  19. 美国军方在“量子战”上的考量与布局
  20. 长三角G60科创走廊智能驾驶产业联盟揭牌成立,近80家企业助力智能驾驶行业发展...

热门文章

  1. ElasticSearch入门1
  2. 文本框下载jQuery UI Datepicker精美的日期选择组件
  3. 云栖科技评论第38期:亚马逊推出时尚智能助手Echo Look
  4. go语言按位取反 | goland按位取反
  5. mysqlsql常用函数_MySQL中的常用函数
  6. 【JS继承】JS继承之构造函数继承
  7. 游戏对象操控-小坦克为例
  8. WPS中怎么给文字添加茶色底纹?
  9. .net core 使用 iTextSharp 导入 Adobe Acrobat Pro 创建的PDF模板及生成表格,然后导出PDF
  10. 一、如何给视频加字幕?