来源丨机器之心

作者丨陈萍、小舟

AI会是未来的「造物者」吗?

近来,视觉合成任务备受关注。几天前英伟达的 GauGAN 刚刚上新了 2.0 版本,现在一个新视觉合成模型 Nüwa(女娲)也火了。

相比于 GauGAN,「女娲」的生成模式更加多样,不仅有文本涂鸦生成图像,还能从文本生成视频。

随着 VQ-VAE 这种离散化 VAE 方案的出现,高效和大规模的预训练被逐渐应用于视觉合成任务,例如 DALL-E(图像)、GODIVA(视频)。这些模型虽然取得了巨大的成功,但仍然存在一些局限性——它们分别处理图像和视频,专注于生成其中一种,这限制了模型从图像和视频数据中受益。相比之下,「女娲」是一个统一的多模态预训练模型,在 8 种包含图像和视频处理的下游视觉任务上具有出色的合成效果

论文地址:https://arxiv.org/pdf/2111.12417.pdf

GitHub 地址:https://github.com/microsoft/NUWA

模型概览

该研究提出了一个通用的 3D transformer——编码器 - 解码器框架(如下图所示),同时涵盖了语言、图像和视频,可用于多种视觉合成任务。该框架由以文本或视觉草图作为输入的自适应编码器和由 8 个视觉合成任务共享的解码器组成。

「女娲」整体架构图。

该框架还包含一种 3D Nearby Attention (3DNA) 机制,以考虑空间和时间上的局部特征。3DNA 不仅降低了计算复杂度,还提高了生成结果的视觉质量。与几个强大的基线相比,「女娲」在文本到图像生成、文本到视频生成、视频预测等方面都得到了 SOTA 结果。此外,「女娲」还显示出惊人的零样本学习能力。

「女娲」的 8 种跨模态合成模式分别是:

文本转图像:

涂鸦转图像:

图像补全:

根据文本编辑图像:

文本转视频:

视频预测:

涂鸦转视频:

根据文本编辑视频:

实验结果

还研究通过多项实验评估了合成结果。

首先研究者将「女娲」在三个数据集上进行预训练:用于文本 - 图像 (T2I) 生成的 Conceptual Captions,包括 2.9M 文本 - 图像对;用于视频预测 (V2V) 的 Moments in Time,包括 727K 视频;用于文本 - 视频 (T2V) 生成的 VATEX 数据集,包括 241K 文本 - 视频对。

与 SOTA 方法比较

文本 - 图像 (T2I) 微调:该研究比较了「女娲」在 MSCOCO 数据集上的性能,如表 1 和图 3 所示:在表 1 中,「女娲」明显优于 CogView,其中 FID-0 为 12.9,CLIPSIM 为 0.3429 。尽管 XMC-GAN 的 FID-0 为 9.3,优于「女娲」,但「女娲」能生成更逼真的图像,如图 3 所示。特别是在最后一个例子中,「女娲」生成的男孩脸更清晰,并且男孩旁边的气球也很逼真。

文本 - 视频 (T2V) 微调:该研究在 Kinetics 数据集上评估了「女娲」,结果如表 2 和图 4 所示。在表 2 中,「女娲」在所有指标上实现了最好的性能。

在图 4 中,该研究还展示了「女娲」强大的零样本生成能力,可以生成没见过的图像,例如:在游泳池里打高尔夫球,在海里奔跑:

视频预测 (V2V) 微调:该研究在 BAIR Robot Pushing 数据集上对「女娲」和其他模型进行了比较,结果如表 3 所示:为了进行公平比较,所有模型都使用 64×64 分辨率。虽然只给出了一帧作为条件(Cond.),但「女娲」仍然将 SOTA FVD 得分从 94±2 降到 86.9 。

草图 - 图像 (S2I)微调:该研究在 MSCOCO stuff 上进行实验,如图 5 所示。与 Taming-Transformers 和 SPADE 相比,「女娲」生成了种类繁多的逼真汽车, 甚至巴士车窗的反射也清晰可见。

图像补全 (I2I) 零样本评估:给定塔楼的上部,与 Taming Transformers 模型进行比较,「女娲」可以生成对塔楼下半部分更丰富的想象,包括生成周围建筑物、湖泊、花草、树木、山脉等。

文本 - 指导图像处理 (TI2I) 零样本评估:「女娲」显示了其强大的处理能力,可以生成高质量的文本一致性结果,而不会改变图像的其他部分。

消融实验

图 5 显示了文本 - 视频 (T2V) 生成任务中多任务预训练的有效性。该研究在具有挑战性的数据集 MSR-VTT(具有自然描述和真实视频) 上进行了实验。「女娲」FID-vid 为 47.68,CLIPSIM 为 0.2439。

图 9 显示了文本指导视频处理(TV2V)。第一行显示了原始视频帧,潜水员在潜水;第二行为潜水员正在向水面游;第三行显示可以让潜水员游到海底,如果我们想生成让潜水员飞向天空的图片?「女娲」可以实现,从图中可以看出,潜水员像火箭一样飞向天空。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉精品课程推荐:

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线!(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建:原理剖析、代码讲解、及优化改进
4.国内首个面向工业级实战的点云处理课程
5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
6.彻底搞懂视觉-惯性SLAM:基于VINS-Fusion正式开课啦
7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法:算法梳理与代码实现

11.自动驾驶中的深度学习模型部署实战

12.相机模型与标定(单目+双目+鱼眼)

重磅!3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群,目前主要有3D视觉CV&深度学习SLAM三维重建点云后处理自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注:研究方向+学校/公司+昵称,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球:针对3D视觉领域的视频课程(三维重建系列三维点云系列结构光系列手眼标定相机标定、激光/视觉SLAM、自动驾驶等)、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近4000星球成员为创造更好的AI世界共同进步,知识星球入口:

学习3D视觉核心技术,扫描查看介绍,3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用,麻烦给个赞和在看~  

AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定相关推荐

  1. AI版「按图索骥」,比猜画小歌更复杂的的AI交互游戏

    郑集杨 发自 凹非寺  量子位 报道 | 公众号 QbitAI 你能在时间结束前根据Emoji找到你身边的物品吗?大概,像这样: 跟我玩?不不不,是你自己跟这个AI玩,找出东西然后让AI辨认它. 这并 ...

  2. AI版「盗梦空间」?谷歌大脑「世界模型」可实现在其梦境中对智能体进行训练

    图源:pixabay 原文来源:arXiv 原文链接:https://arxiv.org/pdf/1803.10122.pdf 作者:David Ha.Jurgen Schmidhuber 「雷克世界 ...

  3. Meta AI推出“杂食者”:一个模型搞定图像、视频和3D数据三大分类任务,性能还不输独立模型...

    丰色 发自 凹非寺 量子位 | 公众号 QbitAI 最近,Meta AI推出了这样一个"杂食者" (Omnivore)模型,可以对不同视觉模态的数据进行分类,包括图像.视频和3D ...

  4. 图像、视频生成大一统!MSRA+北大全华班「女娲」模型怒刷8项SOTA,完虐OpenAI DALL-E...

      视学算法报道   编辑:好困 小咸鱼 LRS [新智元导读]微软亚洲研究院.北京大学强强联合提出了一个可以同时覆盖语言.图像和视频的统一多模态预训练模型--NÜWA(女娲),直接包揽8项SOTA. ...

  5. 一个模型通杀8大视觉任务,图像、视频生成大一统!MSRA+北大全华班「女娲」模型...

    来源:新智元 太卷了,太卷了!微软亚洲研究院.北京大学强强联合提出了一个可以同时覆盖语言.图像和视频的统一多模态预训练模型--NÜWA(女娲),包揽8项SOTA,完虐OpenAI DALL-E! 照着 ...

  6. GPT-5将死于GPT-4背刺?牛津剑桥研究警告:AI训AI成「剧毒」,会让模型崩溃!

    [导读]最差的人类语料,也要胜过AI生成的文本. 随着GPT-4.Stable Diffusion和Midjourney的爆火,越来越多的人开始在工作和生活中引入生成式AI技术. 甚至,有人已经开始尝 ...

  7. 照片转3d模型_这个AI能帮女朋友自拍:照片生成3D视频,总有个角度让她满意

    晓查 发自 凹非寺 量子位 报道 | 公众号 QbitAI 爱自拍的女生,为了拍一张美照总是需要很久,就是为了找到最美的角度. 比如这位妹子,在自己的书架前拍了4张自拍照,都不太满意. 现在可以把选最 ...

  8. AI艺术的背后:详解文本生成图像模型【基于 Diffusion Model】

    系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...

  9. AI艺术的背后:详解文本生成图像模型【基于GAN】

    系列文章链接: AI艺术的背后:详解文本生成图像模型[基于 VQ-VAE] AI艺术的背后:详解文本生成图像模型[基于GAN] AI艺术的背后:详解文本生成图像模型[基于Diffusion Model ...

最新文章

  1. python为什么从0开始_为什么大多数编程语言中,索引都是从0开始
  2. 【科普】STP生成树协议
  3. 知识图谱有哪些方向是可以深入研究的?
  4. Linux进程管理(第二版) --进程管理命令
  5. 如何设置mysql远程访问
  6. 将数据插入SQL Server的方法
  7. ubuntu 的使用(五)—— 桌面(desktop)
  8. UNIX环境高级编程之第1章:UNIX基础知识
  9. E20170603-ts
  10. 面试题大汇总华为面试题
  11. wsimport 直接处理wsdl接口
  12. 51单片机排队叫号系统LCD1602显示仿真设计(proteus仿真+程序)
  13. D轮融资1亿美金,6亿美金估值,3位计算机学霸如何带领海归团队创造业内神话?!...
  14. Vuex实战之 todos待办事项列表的状态管理
  15. java8 foreach 异常_在java 8流foreach中抛出异常
  16. [NLP]OpenNLP介绍
  17. 【致青春】奋斗迷茫的我们
  18. 《Windows不欢迎你,你爱用什么系统就用什么去吧》
  19. 2022数据库系统工程师 下午试题二 真题答案
  20. 2018年关于人工智能、大数据和分析的十大预测

热门文章

  1. Centos7 Docker无法重启
  2. VR和AR核心技术分别是什么?两者有什么不同?
  3. 微点“主动防御”的科学定义与原理是什么?
  4. 用于自动驾驶的混合稀疏-稠密单目SLAM系统
  5. python查微信好友是否删除自己_微信 用脚本查看是否被微信好友删除 不用群发用Python脚本查微信被哪些好友删除...
  6. 有道精品课python-Python小咖养成计划 Python自学课程
  7. 科普分享 | 波士顿动力机器人进化史
  8. TCPDF 文档尺寸标准
  9. Linux中为什么sem_open返回0,我可以在下面的程序中使用sem_open,但是我在这里看到崩溃?...
  10. JDK源码学习04-寄生虫LinkedHashMap