本文经AI新媒体量子位(公众号ID:qbitai)授权转载,转载请联系出处

本文约1500字,建议阅读5分钟

本文带你了解 Make-A-Video 用“嘴”做视频。

画家执笔在画布上戳戳点点,形成手绘作品独有的笔触。

你以为这是哪部纪录片的画面?

No,No,No!

视频里的每一帧,都是AI生成的。

还是你告诉它,来段“画笔在画布上的特写”,它就能直接整出画面的那种。

不仅能无中生画笔,按着马头喝水也不是不可以。

同样是一句“马儿喝水”,这只AI就抛出了这样的画面:

好家伙,这是以后拍视频真能全靠一张嘴的节奏啊……

不错,那厢一句话让AI画画的Text to Image正搞得风生水起,这厢Meta AI的研究人员又双叒给生成AI来了个超进化。

这回是真能“用嘴做视频”了:

AI名为Make-A-Video,直接从DALL·E、Stable Diffusion搞火的静态生成飞升动态。

给它几个单词或几行文字,就能生成这个世界上其实并不存在的视频画面,掌握的风格还很多元。

不仅纪录片风格能hold住,整点科幻效果也没啥问题。

两种风格混合一下,机器人在时代广场蹦迪的画面好像也没啥违和感。

文艺小清新的动画风格,看样子Make-A-Video也把握住了。

这么一波操作下来,那真是把不少网友都看懵了,连评论都简化到了三个字母:

而大佬LeCun则意味深长地表示:该来的总是会来的。

毕竟一句话生成视频这事儿,之前就有不少业内人士觉得“快了快了”。只不过Meta这一手,确实有点神速:

比我想象中快了9个月。

甚至还有人表示:我已经有点适应不了AI的进化速度了……

文本图像生成模型超进化版

你可能会觉得Make-A-Video是个视频版的DALL·E。

实际上,差不多就是这么回事儿。

前面提到,Make-A-Video是文本图像生成(T2I)模型的超进化,那是因为这个AI工作的第一步,其实还是依靠文本生成图像。

从数据的角度来说,就是DALL·E等静态图像生成模型的训练数据,是成对的文本-图像数据。

而Make-A-Video虽然最终生成的是视频,但并没有专门用成对的文本-视频数据训练,而是依然靠文本-图像对数据,来让AI学会根据文字复现画面。

视频数据当然也有涉及,但主要是使用单独的视频片段来教给AI真实世界的运动方式。

具体到模型架构上,Make-A-Video主要由三部分组成:

  • 文本图像生成模型P

  • 时空卷积层和注意力层

  • 用于提高帧率的帧插值网络和两个用来提升画质的超分网络

整个模型的工作过程是酱婶的:

首先,根据输入文本生成图像嵌入。

然后,解码器Dt生成16帧64×64的RGB图像。

插值网络↑F会对初步结果进行插值,以达到理想帧率。

接着,第一重超分网络会将画面的分辨率提高到256×256。第二重超分网络则继续优化,将画质进一步提升至768×768。

基于这样的原理,Make-A-Video不仅能根据文字生成视频,还具备了以下几种能力。

将静态图像转成视频:

根据前后两张图片生成一段视频:

根据原视频生成新视频:

刷新文本视频生成模型SOTA

其实,Meta的Make-A-Video并不是文本生成视频(T2V)的首次尝试。

比如,清华大学和智源在今年早些时候就推出了他们自研的“一句话生成视频”AI:CogVideo,而且这是目前唯一一个开源的T2V模型。

更早之前,GODIVA和微软的“女娲”也都实现过根据文字描述生成视频。

不过这一次,Make-A-Video在生成质量上有明显的提升。

在MSR-VTT数据集上的实验结果显示,在FID(13.17)和CLIPSIM(0.3049)两项指标上,Make-A-Video都大幅刷新了SOTA。

此外,Meta AI的团队还使用了Imagen的DrawBench,进行人为主观评估。

他们邀请测试者亲身体验Make-A-Video,主观评估视频与文本之间的逻辑对应关系。

结果显示,Make-A-Video在质量和忠实度上都优于其他两种方法。

One More Thing

有意思的是,Meta发布新AI的同时,似乎也拉开了T2V模型竞速的序幕。

Stable Diffusion的母公司StabilityAI就坐不住了,创始人兼CEO Emad放话道:

我们将发布一个比Make-A-Video更好的模型,大家都能用的那种!

而就在前几天,ICLR网站上也出现了一篇相关论文Phenaki。

生成效果是这样的:

对了,虽然Make-A-Video尚未公开,但Meta AI官方也表示,准备推出一个Demo让大家可以实际上手体验,感兴趣的小伙伴可以蹲一波了~

论文地址:
https://makeavideo.studio/Make-A-Video.pdf
参考链接:
[1]https://ai.facebook.com/blog/generative-ai-text-to-video/
[2]https://twitter.com/boztank/status/1575541759009964032
[3]https://twitter.com/ylecun/status/1575497338252304384
[4]https://www.theverge.com/2022/9/29/23378210/meta-text-to-video-ai-generation-make-a-video-model-dall-e
[5]https://phenaki.video

编辑:于腾凯

校对:林亦霖

真·拿嘴做视频!Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度...相关推荐

  1. 一句话就能魔改视频主角,谷歌新「AI导演」惊呆网友:这画质也太赞了

    Alex 发自 凹非寺 量子位 | 公众号 QbitAI 谷歌整出了个新"AI导演",一句话甚至能把视频主角给换了. 你看,青青草地上,一只小熊正在跳舞. 难道现在的熊都这么有艺术 ...

  2. python做excel麻烦_高效办公必备:别人通宵做的 Excel,我用Python 半小时搞定!

    原标题:高效办公必备:别人通宵做的 Excel,我用Python 半小时搞定! 最近经常听到周围的人抱怨:"工作忙,在加班--" 不知不觉,当代职场人早就被"996&qu ...

  3. 最强绘图AI:一文搞定Midjourney(附送咒语)

    最强绘图AI:一文搞定Midjourney(附送咒语) Midjourney官网:https://www.midjourney.com 简介 Midjourney是目前效果最棒的AI绘图工具.访问Mi ...

  4. 这就是视频列表二维码,一个二维码搞定视频列表播放

    文章原创  转载请注明出处来自CSDN 2020-1-5  //  我是视频砖家,只关注视频应用. 我以前写视频二维码的教程,今天再上一个原创的视频列表二维码教程吧 // 视频列表二维码教程基于酷播云 ...

  5. python从视频中提取音频_提取视频中的音频——python三行程序搞定!

    原标题:提取视频中的音频--python三行程序搞定! 写在开头 身处数据爆炸增长的时代,各种各样的数据都飞速增长,视频数据也不例外.我们可以使用 python 来提取视频中的音频,而这仅仅需要安装一 ...

  6. 促销海报模板|经典蓝的带着「节日促销」来搞事情了!

    经典蓝(Classic Blue,19-4052)无疑是今年的主角色彩.其实早在 PANTONE 发声之前,蓝色在闻风而动的潮流界里就已经紧锣密鼓地铺排开来! 看看这些经典的蓝色系促销海报是如何设计的 ...

  7. 类似爱美刻 右糖 轻剪辑 捷映 秀展网 秀多多 来画 创视网 传影 影大师 闪剪源码 技术源头 二次开发 提供源码 逗拍 趣推 飞推 美册 搞定视频 简影 剪影 爱字幕 幸福相册 八角星

    需要源码的下面评论 介绍 类似爱美刻 右糖 轻剪辑 捷映 秀展网 秀多多 来画 创视网 传影 影大师 闪剪源码 技术源头 二次开发 提供源码. 类似 逗拍 趣推 飞推 美册 搞定视频 简影 剪影 爱字 ...

  8. Meta祭出元宇宙「阿拉丁神灯」!LeCun称世界模型将带来像人一样的AI

      视学算法报道   编辑:桃子 好困 袁榭 拉燕 [新智元导读]2022年2月24日凌晨,在Meta AI实验室讨论会上,小扎亲自带队公布了多项技术内容:语音生成元宇宙场景的Builder Bot. ...

  9. AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定

    来源丨机器之心 作者丨陈萍.小舟 AI会是未来的「造物者」吗? 近来,视觉合成任务备受关注.几天前英伟达的 GauGAN 刚刚上新了 2.0 版本,现在一个新视觉合成模型 Nüwa(女娲)也火了. 相 ...

最新文章

  1. XML 与DataSet 对象的关系
  2. Android中的Notification
  3. QT出现“undefined reference to `vtable for’”解决方法
  4. php程序设计简明教程
  5. 喜讯 | 国际智慧城市大会巨杉喜获两项大奖
  6. 将银行读卡设备读取到的身份证头像Bitmap属性转换成路径
  7. Python中的两种路径
  8. putty远程连接以及密钥
  9. 应用程序虚拟化,序列化实验 Microsoft Desktop Optimization Pack 实现一个应用程
  10. 如何安装64位Windows7
  11. BZOJ5219[Lydsy2017省队十连测] 最长路径
  12. WEB实现百度离线地图展示
  13. 计算机组装和维护ppt,计算机组装与维护ppt课件
  14. Java框架面试题及答案
  15. putty 配色方案分享
  16. 100 年前科幻小说的概念,创造了今天千亿美元的市场
  17. 6-6 根据要求,使用泛型和LinkedList编写StringList类,实现QQ号码查找的功能。 (30 分)
  18. 关于三体小说拍成电影的想法
  19. 【Qt界面个性化】大杀器——qss
  20. Pinpoint作为链路追踪和报警(监控spring boot服务)

热门文章

  1. gitlab安装,移库,升级
  2. O_DIRECT对齐
  3. CSDN Markdown编辑技巧 -使用Katex插入数学公式
  4. Buck电路输入电容计算方法详解,再也不用死记硬背!
  5. Alpha 21264 Execution engine memory system
  6. Android V7包学习笔记更新中.....
  7. 最新3GPP协议下载
  8. Juniper----常用Troubleshooting 方法及日志收集
  9. TIA博途中, 如何把程序块连同PLC变量及PLC数据类型从CPU 上载到电脑?
  10. 唱歌比赛求平均分-Java编写