杨净 发自 凹非寺
量子位 报道 | 公众号 QbitAI

只需一段语音,就能生成说话视频。

就像这样。

可以看到,表情、动作、神情全都在线,还有不同的穿搭。

就连发型、甚至发际线,都可以不同。(手动狗头)

视频里的主人公,是美国一著名主持人John Oliver,这是他主持的一档节目《Last Week Tonight with John Oliver 》。

而这样一个视频生成效果,在Reddit上热度达580+。

不少网友表示:那这样,是不是视频博主就从此省事了?!

别着急,先康康研究怎么说。

论文详情

能实现以上效果的,是一个NWT生成器,用表征学习来实现音视频生成。

它由两个模型组成。

一个用于离散潜在表示的视频自动编码器dVAE-Adv。另一个自回归先验模型,用来生成新视频。

此外,这一生成器可以控制生成的视频中的潜在属性,这些属性在数据中是没有标注的。

首先,自动编码器dVAE-Adv,将视频帧从256×224压缩到一个16×14的潜在空间。

生成的每个潜在网格元素称为Memcode,每个Memcode在像素域中携带了大约768个元素的信息。

而自回归模型则作为编解码器模型,能从离散分类分布中自动采样,将音频转化为视频。

研究人员采用的数据集,则是来自这位主持人的节目——《Last Week Tonight with John Oliver (LWT)》组成。

不过这些视频样本是经过处理的,研究人员将其分成了16127个视频片段,平均长度为7.46秒。

最终在主观评价测试中,这一方法都明显优于以往的唇语、脸部生成任务。

研究人员表示,这个研究是对话式人类视频合成技术上的一个新突破,展现了未来将普遍应用的潜力。

srds(虽然但是),目前这个模型还是有一定局限性。

比如,不能用其他人声音来生成。

对此作者回应道,尝试过,但唇语同步会有影响。

还有网友注意到,视频中人的手很奇怪。

作者则表示,跟GAN出现的问题不同,主要是由自回归生成过程中的错误分类造成的。

接下来,他们将进一步扩大数据集和模型,来处理不同个体。还有一个想法就是,给定一个框架或部分图像,模型能够模仿一个特定的情节。

论文地址:
https://arxiv.org/pdf/2106.04283.pdf

参考链接:
[1]https://next-week-tonight.github.io/NWT_blog/
[2]https://www.youtube.com/watch?v=HctArhfIGs4

一段语音生成说话视频,连发际线都可以分好几种,网友:利好视频博主相关推荐

  1. 做短视频可以选哪些领域?推荐五种类型短视频,选对方向很重要

    做短视频可以选哪些领域?推荐五种类型短视频,选对方向很重要 刚刚进入短视频行业的小伙伴们想必都在苦恼如何选择短视频领域,毕竟想要长久发展短视频的话,那么就必须要选对方向,按照选择好的方向一直走,才能够 ...

  2. 仅用语音生成人体姿态,代码已开源

    本文转载自机器之心. 机器之心报道 参与:杜伟.魔王 只输入语音便能生成人体姿势.瑞典皇家理工学院的研究者做到了! 你能看出上图中的人物姿势是仅基于一段语音生成的吗? 基于语音生成上半身动作甚至全身姿 ...

  3. 视频技术结合机器学习和人工智能的5种方式

    视频技术正在以稳定的速度发展,而且随着机器学习和人工智能在这几年的高速发展,以及在技术领域的巨大潜力,视频技术将迎来更大的演进. 近年来令人兴奋的视频技术发展包括:结合使用云计算和视频转码进行直播和改 ...

  4. ATEN瞄准专业级影音市场,发表全新VanCryst™视频系列产品线

    2019独角兽企业重金招聘Python工程师标准>>> 整合齐全完善的产品方案.市场通路布局与售后服务优势,充分满足各产业应用需求 全球数字信息分享领导厂商 – 宏正自动科技(ATE ...

  5. 打赏热度上千万视频号人气男主播都有谁

    实时了解视频号数据,挖掘热门直播间,友望数据为大家带来[直播热度榜][博主认证排行榜][企业认证排行榜]. 感兴趣的朋友可以登录友望数据小程序查看优质博主.人气直播间.监控直播数据,一手掌握视频号动态 ...

  6. 首席新媒体运营商学院黎想:怎么做短视频运营博主?

    抖音已经到了第4年头了,产品也开始越来越完善了.产品通过本身的数据算法,已经形成良好用户使用机制.视频推荐流算法,其实是对每个视频进行优质筛选过程. 抖音视频推荐主要分为2类: 第一类为通讯录好友,就 ...

  7. AI绘画与虚拟人生成实践(三):让虚拟形象动起来!照片生成说话的视频

    书接上回,本篇的目的是结合上篇生成虚拟的女生形象,以及上一篇生成的关于介绍AI绘画领域的脚本,让生成的虚拟形象来念这段文案.先进入正题说明怎么来生成想要的动态视频. 1. Yanderify项目 Ya ...

  8. 【Unity人物动画】SALSA With RandomEyes (语音生成嘴型/人物说话) 使用

    SALSA使用探索 之前做项目时想实现人物说话的效果,因为我们的语音是AI合成的,有很多片段,如果能根据语音生成嘴部的动画,那将极大便利我们的工作.后面是找到了SALSA的这款插件,并摸索出使用方法. ...

  9. 使用英伟达NeMo让你的文字会说话,零基础即可实现自然语音生成任务 | 附代码...

    语音合成技术可以将文字信息转换成标准流畅的语音且进行朗读,在公共服务.智慧交通.泛娱乐.智能硬件等领域具有广泛应用. 在第3期英伟达x量子位NLP公开课上,英伟达开发者社区经理分享了[使用NeMo让你 ...

最新文章

  1. android 注册、登录实现程序
  2. 1033 To Fill or Not to Fill (25 分)【难度: 难 / 知识点: 模拟 贪心】
  3. C# XML的序列化与反序列化
  4. 北风设计模式课程---13、享元模式
  5. lnmp发送测试邮箱失败(亲测正解)
  6. GAN生成对抗网络-text to image原理与基本实现-文字转图像-11
  7. AT2390-[AGC016F]Games on DAG【状压dp,SG函数】
  8. 使用no-gui 模式执行分布式测试
  9. Star Schema完全参考手册读书笔记二
  10. 1.5.2 编译java程序
  11. 施耐德电气的 Modicon PLC 中被曝严重漏洞,已有缓解措施
  12. loj10157. 「一本通 5.2 例 5」皇宫看守
  13. 设计模式之构造函数模式
  14. x的平方加y平加xy的java语言_面试被虐题:说说 JVM 系语言的函数式编程
  15. python 多线程 线程池的四种实现方式
  16. latex---插入三线表伪代码流程图
  17. 小丁在研究数学问题时遇到一个定义:对于排好顺序的k个数:x1,x2,x3,…,xk,称为数列Ak:x1,x2,x3,xk,其中k为整数且k≥3.定义V(Ak)=|x1-x2|+|x2-x3|+…+|x
  18. 浅谈Linux PCI设备驱动(一)
  19. c语言VK_SPACE什么意思,C语言,回车键: VK_RETURN (13) 后面的英文跟数字是什么含义,如何使用求解。。。...
  20. 将element-plus 默认的使用英语改成其他语言设置

热门文章

  1. 字符串的UPDATE和REPLACE部分
  2. 如何使用DrawerLayout在操作栏/工具栏上方和状态栏下方显示?
  3. git-diff忽略^ M.
  4. 如何根据C编程语言标准初始化结构
  5. 洛谷乐多赛 yyy loves Maths VI (mode)
  6. Mysql:查询当天、今天、本周、上周、本月、上月、本季度、本年的数据
  7. Centos下安装MongoDB复制集
  8. 网络服务搭建、配置与管理大全(Windows版)
  9. Mysql-cobar集群安装部署手册
  10. 关于CLSCompliant