问耕 郭一璞 发自 凹非寺 

量子位 报道 | 公众号 QbitAI

记得神笔马良的故事么?

拿到神笔的马良,可以画物品、画动物、画食物,而且,这些画作都可以一秒钟从画面上出来,变成真实世界中存在的东西。

虽然这只是一个童话故事,不过,英伟达和MIT联手的最新研究,基本上马良的“神笔”造了个八九不离十。

来自英伟达和MIT的研究团队,最近搞出了迄今最强的高清视频生成AI。这个团队,包括来自英伟达的Ting-Chun Wang、刘明宇(Ming-Yu Liu),以及来自MIT的朱俊彦(Jun-Yan Zhu)等。

他们的成果到底有多强、多可怕?一起来看。

只要一幅动态的语义地图,你就可以获得和真实世界几乎一模一样的视频。换句话说,只要把你心中的场景勾勒出来,不用去实拍,电影级的视频就可以自动P出来,像下面一样:



这可不是在播放录像,街景中的道路、车辆、建筑、绿植都是自动生成的。原本只是简单勾勒景物轮廓的语义分割图,摇身一变就成了真实的街景。

真实的有点过分。

而且,还可以生成各种不同风格的视频:



甚至,它还能把街景改掉。比如把道路两侧的建筑全都变成树木,顿时有一种行驶在森林公园的感觉:



或者把行道树也给变成建筑,不过这些建筑倒是看起来有年头了:



随意的生成变化,就像偷来了哈利·波特的魔杖,无需咒语,就可以把这个场景中所有的元素变变变。

还有厉害的。

通过一个简单的素描草图,就能生成细节丰富、动作流畅的高清人脸:

根据勾勒出的人脸轮廓,系统自动生成了一张张正在说话的脸,脸型、面部五官、发型、首饰都可以生成。



甚至还主动承担了给人脸绘制背景的任务。

除此之外,人脸的面色、发色也可以定制化选择,皮肤或深或浅,发色或黑或白,全都自然生成无压力:



 面色红润style



 一脸苍白style



 脸色蜡黄style

简直就像同一个人染了头发拍了三遍,这种逼真的效果,真怕有一天朋友圈三无化妆品微商们拿去造假骗人。(当然,仔细看眉毛,还是有一些破绽)

不只人脸,整个身子都能搞定:



随着左侧人体模型的跳动、位移和肢体不断变换,右侧的真人视频中,主角也在随之舞蹈,无论你想要什么样的姿势,变高、变矮、变胖、变瘦,只要把左侧的人体模型调整一下,右侧的真人视频就会乖乖的听你调教。

与之前的研究相比,英伟达这个vid2vid的效果怎么样,大家一看便知。

这是2017年ICCV上的COVST的效果:



这是2018年CVPR上的pix2pixHD的效果:



而最新的效果是这样:



没有模糊,没有扭曲,没有异常的闪动,画面平稳流畅,色调柔和。如果应用在视频生产中,简直可以让抠图小鲜肉们一年拍10000部电影都不成问题。

最后,清晰的效果欢迎大家点开视频查看:

技术细节

这么NB的效果,是怎么实现的?

说下要点。



研究团队使用了序列生成器和多尺度鉴别器来训练神经网络。生成器接收输入映射和前序帧,然后生成中间帧和Flow map。Flow map用于处理前序帧,然后与中间帧合并,从而生成最终帧。

生成下一帧时,最终帧变成输入,以此类推。



鉴别器共有两种,一种处理图片,一种处理视频。

图片鉴别器同时获取输入图像和输出图像,并从多个特征尺度进行评估,这与pix2pixHD类似。视频鉴别器接收Flow maps以及相邻帧以确保时间一致性。

所有帧在进入鉴别器之前,还进行了下采样,这可以看做是时域中的多尺度。



训练从低分辨率开始,然后结合低分辨率特征进行高分辨率的训练。同样,训练先从几帧开始,然后逐渐增加训练帧的数量。这两个步骤不断交替,形成渐进式的训练流程,最终让神经网络学会生成高分辨率和长时间的视频。

更多细节,可以从Paper中查看。

论文中表示,这是一种在生成对抗性学习框架下的新方法:精心设计的生成器和鉴别器架构,再加上时空对抗目标。这种方法可以在分割蒙版、素描草图、人体姿势等多种输入格式上,实现高分辨率、逼真、时间相干的视频效果。

这种新方法训练出来的模型,能够生成长达30秒的2K分辨率街景视频,显著提升了视频合成的技术水平,而且这个方法还能用来预测未来的视频发展。

论文传送门:

https://tcwang0509.github.io/vid2vid/paper_vid2vid.pdf



代码

好消息是,相关代码也已经在GitHub上公布。

而且研究团队给出了详细的训练指南,可以算是手把手教你如何自己训练出一个类似的强大神经网络。

包括用8个GPU怎么训练,用1个GPU又该怎么设置等等。



你所需要准备的是,一个Linux或者macOS系统,Python 3,以及英伟达GPU+CUDA cuDNN。

GitHub页面传送门:

https://github.com/NVIDIA/vid2vid

活动推荐

加入社群

量子位AI社群19群开始招募啦,欢迎对AI感兴趣的同学,在量子位公众号(QbitAI)对话界面回复关键字“交流群”,获取入群方式;

此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。

进专业群请在量子位公众号(QbitAI)对话界面回复关键字“专业群”,获取入群方式。(专业群审核较严,敬请谅解)

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

真实到可怕!英伟达MIT造出马良的神笔相关推荐

  1. 5300亿参数的「威震天-图灵」,微软、英伟达合力造出超大语言模型

    在微软和英伟达的共同努力下, Turing NLG 17B 和 Megatron-LM 模型的继承者诞生了:5300 亿参数,天生强大,它的名字叫做「Megatron-Turing」. 机器之心报道, ...

  2. 这些假脸实在太逼真了!英伟达造出新一代GAN,生成壁纸级高清大图毫无破绽...

    栗子 晓查 发自 凹非寺  量子位 报道 | 公众号 QbitAI 不敢相信,上面这些人脸,全都是假的. 是英伟达的AI生成的. 借用风格迁移的思路,团队为GAN创造了一种新的生成器. 连GAN之父G ...

  3. 英伟达 AI 凭空创作人物肖像照:看起来非常真实

    (点击上方公众号,可快速关注) 转自:cnBeta http://www.cnbeta.com/articles/soft/666175.htm 据外媒 bgr 报道称,下图出现的人物中有两个共同点: ...

  4. 2002年3月英伟达发布核弹GPU与大算力自动驾驶芯片

    2002年3月英伟达发布核弹GPU与大算力自动驾驶芯片 英伟达核弹级GPU:800亿晶体管,20块承载全球互联网流量 2022年3 月 22 日,在英伟达 GTC2022 上,英伟达介绍了 Hoppe ...

  5. AI一分钟 | 万达网科裁员95%高达5000余人,被爆下一步将转型AI; 英伟达放话了:研究人员放心用,不更新驱动就没啥事儿

    一分钟AI 万达网科裁员95% 后业务将转型AI,朱战备或接班曲德君成为新一任总裁 2020年东京奥运会将首次采用人脸识别系统,将在场馆入口处识别运动员.奥委会官员和记者等身份 意大利机器人公司E-N ...

  6. 用GAN也可以P图,效果还不输PS | 英伟达出品

    丰色 发自 凹非寺 量子位 报道 | 公众号 QbitAI 把人的眼睛变大.把闭着的嘴合上.转动眼珠: 质量如此逼真.一点糊图的痕迹都没出现-- 如果我不说,你知道这其实是GAN自己P的吗? 除了人脸 ...

  7. 大数据早报:Firebase推出机器学习功能 英伟达大幅扩大深度学习学院规模(11.2)

    数据早知道,上乐投网看早报! 『机器学习』闹哪样? Firebase推出机器学习功能! 谷歌旗下的公司昨日在Amsterdam的Firebase Dev Summit峰会上宣布:Firebase将会有 ...

  8. 英伟达又一次突破想象力!一句话实时P图在线Demo可玩,「神笔马良」升级「创世纪」...

    明敏 萧箫 发自 凹非寺 量子位 报道 | 公众号 QbitAI 在"一句话生成照片"这件事上,英伟达又一次突破了大伙的想象力. 他们最新的AI模型GauGAN2,不仅能根据字词生 ...

  9. 基于百度英伟达EasyDL公开课的学习笔记

    本文是基于智东西公开课<零算法基础的百度EasyDL定制化图像识别揭秘>整理的学习笔记 本文非广告,标注单纯是出于尊重智东西和EasyDL的知识产权 如若涉及侵权,请联系本人 作者:李皮皮 ...

最新文章

  1. 微软公布19财年财报:净利润增长22%,云计算首超个人计算业务
  2. laravel数据迁移的时候遇到的字符串长度的问题
  3. lua 访问oracle,lua语言数据库访问 - Lua教程
  4. Progressive Web App(PWA)
  5. Flutter教程app
  6. Java高级开发面试,Java面试没有项目经验
  7. python入门-零基础 Python 入门
  8. vi编辑器 末尾添加_VI编辑器的使用方法
  9. ExcelToSQLServer-批量导入Excel文件到SQL Server数据库
  10. 个人业务网站php源码,最新个人发卡网源码,PHP运营级个人自动发卡平台完整源码...
  11. MXF视频文件损坏的修复方法
  12. 为什么需要Code Review?
  13. 【FLASH】报错“必要的系统组件未能正常运行,请修复Adobe Flash Player”及 error#2046
  14. 公寓酒店项目工程智能门锁的种类以及系统有哪些?
  15. Python画柱状图(双柱状图,三柱状图)且显示对应数值
  16. 理解Vue中的methods对象方法里的this指向,并解读源码
  17. 用单流802.11n实现的VoWiFi
  18. 字符串排序-C语言实例
  19. 服务器gs文件修改器,NBA2K17L大修改器用法 使用第三方名单和GS教程
  20. Flink(十):TaskManager 内存简介

热门文章

  1. javaweb实训第四天上午——MySQL基础
  2. mysql cnf参数_系统运维|MySQL my.cnf参数配置优化详解
  3. oracle狎鸥亭_卢永佑 个人主页 - 韩国奥拉克皮肤科整外科 - 美佳网
  4. 查询显示注释_第2章 查询基础
  5. 车机没有carlife可以自己下载吗_长安CS55自带百度CarLife使用方法
  6. 写html前端代码的软件_你能看懂高贵的前端程序员的工作内容?
  7. Dave一款gitee热搜项目,不需node基础也能直接部署node
  8. 彻底理解AMD和CMD
  9. verilog 生成块_Verilog数字系统设计教程之学习摘要
  10. code128java字符_java相关:如何使用Code128字体将文本转换为code128条形码