点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【多模态和Transformer】交流群

萧箫 发自 凹非寺
转载自:量子位(QbitAI)

多模态大模型,终于迎来“大一统”时刻!

从声音、文字、图像到视频,所有模态被彻底打通,如同人脑一般,实现了真正意义上的任意输入,任意输出

要知道,多模态一直是学术界公认要达到更强智能的必经之路,连GPT-4都在往这个方向发展。

也正是因此,这项来自微软、北卡罗来纳大学教堂山分校的新研究一经po出,立即在社交媒体上爆火,有网友惊叹:

这是我最近见过最不可思议的一篇论文!

究竟有多不可思议?

只需告诉大模型,想要“一只玩滑板的泰迪熊”,并输入一张照片+一段声音:

它立刻就能精准get要点,生成一段在下雨天在城市里玩滑板的心碎小熊录像,仔细听还会发现配上了新的雨声

效果太过于鹅妹子嘤,以至于不少网友表示“有被吓到”:

还有网友感叹“新时代的到来”:

等不及看到创作者们用这些AI工具制作各种沉浸式故事体验了。这简直给RPG角色扮演游戏赋予了全新的意义。

值得一提的是,一作Zineng Tang虽然本科还没毕业,但他已经在CVPR、发了6篇顶会论文,其中5篇都是一作

所以,这个号称能够“转一切”(any-to-any)的大一统大模型,实现效果究竟如何?

4种模态随意选,打出“组合拳”

大模型CoDi,具有任意输入和输出图、文、声音、视频4种模态的能力。

无论是单模态生成单模态(下图黄)、多模态生成单模态(下图红)、还是多模态生成多模态(下图紫),只要指定输入和输出的模态,CoDi就能理解并生成想要的效果:

先来看单模态生成单模态

输入任意一种模态,CoDi都能联想并输出指定的模态,例如,输入一张风景图像,就能输出“山景,日出”这样的文字提示词:

或是输入一段铁轨碰撞声,就能生成一张地铁图像:

面对多模态生成单模态时,CoDi威力同样不减。

输入一张“熊猫吃竹子”图像,加上一段“在咖啡桌上吃”的文字要求:

CoDi就能生成一段大熊猫坐在咖啡桌旁吃竹子的视频:

或是输入一组文字提示词“油画,恐怖画风,优雅复杂的概念艺术,克雷格·穆林斯(CG绘画之父)风格”,加上一段拍打木板的水声:

CoDi在经过联想后,就能输出一张精致的、气势恢宏的黄昏时分海盗船画像:

最后来看看多模态生成多模态的效果。

给CoDi提供一段钢琴声,加上一张森林中的照片:

CoDi就能想象出一段“在森林中弹钢琴”的文字,并配上对应的插图:

要知道在这之前,AI生成的视频不少都没有配音,停留在老式的“无声电影”阶段。

然而CoDi不仅能生成视频,还能生成搭配视频食用的声音。

例如根据一个“天空中的花火”文字提示词+一段对应的音频,就能生成一个带有爆炸声音的烟花录像:

所以,CoDi究竟是如何做到理解不同的模态,并“打出组合拳”的?

用“对齐”来节省大模型训练数据

事实上,CoDi的打造面临两个难点。

首先是缺少训练数据的问题,以作者们能收集到的数据集为例:

无论是像Laion400M这样的文图数据集、还是像AudioSet之类的音频文字数据集,或是油管上的图像音视频数据集,以及Webvid10M之类的视频数据集,都属于“单模态生成单个或两个模态”的类型。

然而,多模态大模型的训练数据需求,随着模态数量的增加呈指数级增长,许多输入输出组合,往往缺少对应的训练数据集。

其次,已有的扩散模型大多是1v1的类型,如何设计并训练模型,确保多模态输入输出的效果,同样是个问题。

针对这两个问题,作者们决定分两个阶段打造CoDi,让它不仅能实现单模态“完美输出”、还能做到多模态“1+1>2”。

阶段一,组合条件训练,给每个模态都打造一个潜在扩散模型(LDM),进行组合训练。

针对A模态生成B模态数据集缺失的问题,作者们提出了一种名为桥接对齐(Bridging Alignment)的策略。

具体来说,就是以带文本模态的数据集为“中介”,对齐另外几种模态的训练效果。

以音频生成图像为例。

虽然音频生成图像数据集不多,但文本生成音频、文本生成图像的数据集却有不少,因此可以将这两类数据集合并起来,用于训练文本+音频生成图像的效果。

在此期间,文本和音频输入经过模型处理,会被“放置”进一个共享特征空间,并用输出LDM来处理输入输入的组合特征,输出对应的图像结果。

阶段二,进一步增加生成的模态数量。

在阶段一的基础上,给每个潜在扩散模型和环境编码器上增加一个交叉注意力模块,就能将潜在扩散模型的潜变量投射到共享空间中,使得生成的模态也进一步多样化。

最终训练出来的模型,虽然训练数据类型不是“全能的”,但也具备了多模态输入、多模态输出的能力。

值得一提的是,可别以为这种方法会降低模型生成的质量。

事实上,在多种评估方法上,CoDi均超越了现有多模态大模型的生成效果。

华人本科生,5篇顶会论文一作

一作Zineng Tang,本科就读于北卡罗来纳大学教堂山分校,也是微软研究院的实习生,今年6月将进入加州大学伯克利分校读博。

他的研究兴趣在于多模态学习、机器学习和NLP领域,而从大一开始,他就在NeurIPS、CVPR、ACL和NAACL等顶会上相继发了6篇文章,其中5篇一作。

就在今年1月,Zineng Tang还获得了2023年的美国计算机研究学会(CRA)设立的优秀本科生研究员奖。

每年全美国能获得这个奖项的本科生,只有4人

这一奖项旨在表彰在计算机研究领域有杰出研究潜力的本科生,包括MIT、斯坦福、哈佛和耶鲁大学等不少北美名校在内,每年都会提名一些优秀学生,经过层层筛选后决定获奖者。

通讯作者Ziyi Yang,目前是微软Azure认知服务研究团队(CSR)的高级研究员,研究方向是多模态理解和生成,文档智能和NLP等。

在加入微软之前,他本科毕业于南京大学物理系,并于斯坦福大学获得电气工程硕士和机械工程博士学位。

通讯作者Mohit Bansal,是北卡罗来纳大学教堂山分校计算机系教授。他于加州大学伯克利分校获得博士学位,目前研究方向是NLP和多模态机器学习,尤其侧重语言生成问答和对话、以及可解释深度学习等。

你感觉多模态大模型发展的下一阶段,会是什么样子?

论文地址:
https://arxiv.org/abs/2305.11846

项目地址:
https://github.com/microsoft/i-Code/tree/main/i-Code-V3

参考链接:
[1]https://twitter.com/AviSchiffmann/status/1660771055676588033
[2]https://twitter.com/ZinengTang/status/1660726736642887681
[3]https://cra.org/2023-outstanding-undergraduate-researcher-award-recipients/
[4]https://codi-gen.github.io/

点击进入—>【多模态和Transformer】交流群

最新CVPR 2023论文和代码下载

后台回复:CVPR2023,即可下载CVPR 2023论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

多模态和Transformer交流群成立
扫描下方二维码,或者添加微信:CVer333,即可添加CVer小助手微信,便可申请加入CVer-多模态或者Transformer 微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer等。
一定要备注:研究方向+地点+学校/公司+昵称(如多模态和Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群▲扫码或加微信号: CVer333,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉,已汇集数千人!▲扫码进星球
▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看

微软提出CoDi:开创性多模态扩散生成模型,实现4种模态任意输入输出相关推荐

  1. 「大一统」大模型论文爆火,4种模态任意输入输出,华人本科生5篇顶会一作,网友:近期最不可思议的论文...

    来源:量子位 进NLP群->加入NLP交流群 多模态大模型,终于迎来"大一统"时刻! 从声音.文字.图像到视频,所有模态被彻底打通,如同人脑一般,实现了真正意义上的任意输入, ...

  2. Diffusion Model (扩散生成模型)的基本原理详解(三)Stochastic Differential Equation(SDE)

    本篇是<Diffusion Model (扩散生成模型)的基本原理详解(二)Score-Based Generative Modeling(SGM)>的续写,继续介绍有关diffusion ...

  3. 2022 ICLR | Geodiff:分子构象几何扩散生成模型

    2022 ICLR | Geodiff:分子构象几何扩散生成模型 温馨提示,扩散模型公式比较复杂,若没有基础可以先参考blog或者deep_thoughts老师的视频 本文是由蒙特利尔学习算法研究所唐 ...

  4. 清华朱军团队开源UniDiffuser:首个基于Transformer的多模态扩散大模型!文图互生、改写全拿下!...

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->[多模态和扩散模型]微信技术交流群 转载自:机器之心 该论文提出了一个为多 模态设计的概率 ...

  5. 清华朱军团队开源首个基于Transformer的多模态扩散大模型

    来源:机器之心 该论文提出了一个为多 模态设计的概率建模框架 UniDiffuser,除了单向的文生图,还能实现图生文.图文联合生成.无条件图文生成.图文改写等多种功能. 据悉 GPT-4 将于本周发 ...

  6. ICLR 2023 | 扩散生成模型新方法:极度简化,一步生成

    ©作者 | 刘星超 单位 | 德州大学奥斯汀分校 研究方向 | 生成式模型 Diffusion Generative Models(扩散式生成模型)已经在各种生成式建模任务中大放异彩,但是,其复杂的数 ...

  7. Diffusion Model (扩散生成模型)的基本原理详解(一)Denoising Diffusion Probabilistic Models(DDPM)

    本章开始笔者来陆续的介绍最近爆火的Diffusion Model的近期发展. 本篇的学习内容与图片均来自于对文章Diffusion Models: A Comprehensive Survey of ...

  8. 由浅入深理解latent diffusion/stable diffusion(2):扩散生成模型的工作原理

    Diffusion Models专栏文章汇总:入门与实战 前言: 关于如何使用stable diffusion的文章已经够多了,但是由浅入深探索stable diffusion models背后原理, ...

  9. 单张人像生成视频!中国团队提出最新3D人脸视频生成模型,实现SOTA

    来源:IEEE 编辑:新智元 [导读]稀疏人脸特征点生成的人脸图像视频通常会遇到图像质量损失.图像失真.身份改变,以及表情不匹配等问题.为此作者使用重建出的三维人脸动态信息来指导人脸视频的生成.结果显 ...

最新文章

  1. 安卓socks5代理客户端_内网Mysql代理浅析
  2. antd tree 动态添加_一文了解Matlab如何制作动态图像
  3. linux tr 字符串,linux tr命令-转换或删除输入的字符的
  4. python的可变长参数
  5. java之hibernate之 cascade和inverse
  6. NODE_PATH的疑难杂症(转)
  7. boost::mp11::mp_filter相关用法的测试程序
  8. input限制输入小数点后两位(vue版本)
  9. jboss入门_JBoss Forge NetBeans集成–入门
  10. 永恒之塔修改服务器,[搬运工]永恒之塔单机版7.8 德国最新服务端
  11. python网络爬虫软件哪个好用_好好学Python,入门网络爬虫之精华版!
  12. 的采样方式_DR803M4水质自动采样器(岸边站自动排空型)
  13. 仿IOS圆角可自定义扩展对话框
  14. 高等数学公式(latex)
  15. 妙趣横生的英语单词 看见英语单词头不大(zt)
  16. 简单实现Rectrofit+RXJAVA+Fresco
  17. HTML5:移动互联网的第二个苹
  18. 知识图谱 01:知识图谱概述
  19. luogu3426 [POI2005]SZA-Template 后缀树
  20. 关于Jmeter中的函数和变量用法

热门文章

  1. 大白话说网络-----路由协议基础(一)
  2. 数据库mysql:更新指定部门员工的工资上涨20%
  3. js 延期执行_js--延时执行
  4. css垂直居中超出后并出现滚动条的解决方案
  5. Windows10 系统取消登录密码教程
  6. 监听设置黑名单限制客户端连接
  7. jsp通过ajax上传文件,基于jquery
  8. 利用计算机系统对机床等生产设备进行管理,浅谈计算机技术在机械制造及其自动化方向的发展...
  9. Android疯狂猜歌游戏之---------主界面布局
  10. linux电脑连接苹果手机,在iPhone上使用命令行命令以及通过ssh连接iPhone