月石一 发自 凹非寺
量子位 报道 | 公众号 QbitAI

现在,给视频人物“喂”一段音频,他就能自己对口型了,就像这样:

原声其实是出自这里:

这是一种利用音频生成视频人物口型的新方法,出自慕尼黑工业大学Wojciech Zielonka的硕士论文。

用这种新方法对口型,只需2-3分钟就能够训练目标角色,生成的视频保留了目标角色的说话风格

并且不受语音来源、人脸模型和表情的限制

新方法与Neural Voice Puppetry、Wav2Lip、Wav2Lip GAN的生成效果,对比起来是这样的:

在保持较低唇部误差的同时,生成图像质量高于其他方法。

原理简介

具体来说,作者提出了一个新的框架,它由音频特征提取、投影网络、变形网络、颜色网络、组成网络几个部分组成。

首先,将输入音频转换为MFCC(梅尔频率倒谱系数),并进行特征提取

利用投影网络进行近似转换,将提取的特征嵌入到不同的低维空间。

为了顺利生成视频,研究人员还引入了一维卷积网络和一个衰减模块,以保持时间上的连贯性。

在变形网络中,作者使用了三维可变形人脸模型(3DMM),这是一种基于一组人脸形状和纹理的统计模型,将人脸表示为固定的点数。

将3DMM的网格输入变形网络,该网络能通过音频信号产生优化的3D形状。

再将其栅格化传递给色彩网络,每个三维点经过位置编码,并与音频嵌入相关联,最终通过色彩网络输出图像。

最后,用2D膨胀卷积网络建立的组成网络,将渲染的人脸被无缝地嵌入到背景中。

可以看到从3D形状到最终合成输出的效果:

这项研究采用了最小绝对值偏差(L1)和感知损失(VGG)这两个损失函数的组合。

先利用L1损失网络找到粗略图像,然后在训练过程中,通过VGG损失进行完善并学习细节。

性能如何?

研究人员使用数据集对模型进行了测试,数据集中共有6个人物。

其中,模型用于Krista和Obama时效果更好,生成图像与ground truth最为接近。

而Ayush的误差较高,作者表示,这可能是受到训练视频质量的影响

从左至右依次是原视频、配音视频、原声视频:

作者还对色彩网络的性能进行了评估,结果显示,即使3D形状在随机帧之间没有很大变化,色彩网络也能作出正确的预测。

论文中还给出了与其他方法的定量对比情况,整个数据集的图像质量误差如下:

在图像质量的3个指标中,新方法都优于其他方法

不过新方法也不是一直可靠,比如在合成时,也可能会产生位移误差,出现双下巴等。

此外,它还存在一定的局限性

由于3DMM并没有明确地对牙齿建模,目前的方法是将两个嘴唇封闭起来。因此,顶点的数量并没有改变,特征基数仍然成立。

拥有详细的牙齿几何形状,可以更好地捕捉说话时的面部运动,当然这在很大程度上取决于人们的说话风格。

此外,一个更大的局限是,在场景或演员变化时,就需要重新训练模型,并且只支持英语音频。

网友热议

作者把效果视频发在了Reddit上,引起了网友们的热议。

不少网友发现,视频人物的唇部动作,似乎效果不佳

除了“美国”之外,他的口型看起来对不上。

更多的网友对于这项技术的应用,提出了质疑。

这与在奥巴马静音的视频上播放音频有何不同?

就像这位网友所说,类似这样的人脸生成技术,很多都被用于造假,因此一直存在着伦理争议

网友们也为此感到担忧:

有时我会想到这些技术是如何被滥用的,这让我对未来感到有点难过。

我们需要虚假视频检测器,不知道这场战斗还要走多远。

拥有权利的同时,也被赋予了重大的责任!

如果这类应用盛行起来,人们也许不会相信视频了。

不过也有网友提到:

好在,就目前来说,检测比生成要要容易得多,效果也更好。

对于这项研究,作者表示,

它具有商业前景。比如,在未来,演员可以出售自己的(视频)化身。

仅需语音操纵,就能够制作电影或游戏,还可以使用根据文本生成的语音。

你希望这样的技术用在电影和游戏里吗?

参考链接:
[1]https://www.dropbox.com/s/o0hk73j1dmelcny/ThesisTUM.pdf?dl=0
[2]https://zielon.github.io/face-neural-rendering/
[3]https://www.reddit.com/r/MachineLearning/comments/ntiv0z/r_audiodriven_neural_rendering_of_portrait_videos/

视频台词现在不用背也不用配,连对口型都免了相关推荐

  1. ios 后台唤醒应用_苹果不用背锅了!微信被杀后台是因为“耍流氓”?用户该听谁的?...

    文 | 考拉科技馆 排版 | 考拉科技馆 原创文章,禁止转载,违者必究! 苹果表示不用背锅了.日前,苹果推送了最新的iOS 13.2系统,在升级到iOS 13.2系统后,很多果粉都在网上反映iOS 1 ...

  2. 地铁WIFI值28亿?运营商终于不用背锅了

    据说,一家地铁WiFi运营商上市了,价值28亿,仅仅是计划在上海.广州.深圳等7个城市的地铁上,向乘客提供免费WiFi信号. 运营WIFI能挣钱?好像以前也有过不少的尝试,甚至还得到过大资本的青睐,但 ...

  3. 5分钟教会五笔!!不用背口决了!(建议转载,以后用的着)

    5分钟教会五笔!!不用背口决了!(建议转载,以后用的着) 原创思路总结:­ 只需记住下面3点: ­ 1:知道五笔是什么:一丨丿丶乙 (横竖撇捺折) ­ 2:知道这五个笔划在键盘上的分布特点:认出字根的 ...

  4. php格式视频ipad打开方式,用iPad看各种视频格式的电影,格式兼容不用愁

    原文: 用iPad看各种视频格式的电影,格式兼容不用愁 链接: http://www.mofavideo.com/jiaocheng/zhuan_ipad_iphone.aspx 关键词:" ...

  5. 教程 | 批量将经纬度坐标标注到地图上,不用Python,不用GIS软件

    小O地图EXE版三大功能,地图数据查询.地图数据分析.地图可视化! 在以往的文章中大多介绍前两者,可视化功能介绍较少,本文将直接上视频,通过B站视频演示地图可视化功能使用. 本文视频演示使用小O地图软 ...

  6. iPhone11的计算机怎么用,旧手机数据怎样导入iPhone 11?既不用电脑也不用云,竟这样简单...

    导语:旧手机数据怎样导入iPhone 11?既不用电脑也不用云,竟这样简单 新iPhone11系列发布带来的热潮正席卷全球,无论赞美,还是吐槽,你都不得不承认,苹果仍然具备全球刷屏的能力. 对于无数果 ...

  7. 如何直接用maven创建java项目,不用eclipse,不用idea,不用任何ide

    不用eclipse,不用idea,不用任何ide,如何直接用maven创建java项目 写作背景 maven简介 安装maven 配置镜像与本地仓库 更改镜像下载地址 更改本地仓库 配置环境变量 建立 ...

  8. new bing不用登录,不用申请排队就能用了

    new bing介绍目录 1.摘要 2.数据介绍 3.new bing相关技术 GPT4模型特征 使用GPT-4的几种方法 4.完整代码和使用方法 5.与new bing的一些聊天记录 1.摘要 本文 ...

  9. 怎么成为日上会员直邮_放福利啦,免税店现在一件也能直邮,不用出入境、不用出入境、不用找代购...

    中免日上给全中国的小仙女放福利啦        只要通过邀请码注册中免日上会员,就能随意在中免日上的小程序,不管几件中免日上都能给小仙女们直邮到家(不需要任何运费哦) 不用在上上海日上免税行那样买直邮 ...

最新文章

  1. 并发编程之多进程编程(python版)
  2. 用vector实现一个变长数组
  3. android xutils数据库操作,XUtils3.0之本地数据库操作
  4. 洛谷P3349:小星星(容斥dp)
  5. 不止代码:乘法游戏 题解(区间dp)
  6. npm安装与卸载和cordova及ionic项目打包调试等相关命令总结归纳
  7. 2018-2019-2 网络对抗技术 20165332 Exp6 信息搜集与漏洞扫描
  8. 如何赋予自主系统具备持续学习的能力?
  9. 数字电路技术可能出现的简答题_2013年9月份考试数字电子技术第二次作业
  10. 如何在ASP.NET Core中上传文档
  11. Flutter布局锦囊---蜡笔画的表单
  12. 冒泡排序代码_凡人能看懂的冒泡排序和快速排序(附动态图和代码详解))
  13. java移位运算符实验程序:lt;lt;(左移)、gt;gt;(带符 号右移)和gt;gt;gt;(无符号右移)...
  14. JS正则表达式从入门到入土(7)—— 分组
  15. JOBDU 1108 堆栈的使用
  16. 推荐一款在线文件对比工具
  17. 2022年王道数据结构考研复习指导习题代码(排序)
  18. Cesium入门(五):加载WMTS瓦片地图服务
  19. spark count统计元素个数
  20. Python爬取东方财富网任意股票任意时间段的Ajax动态加载股票数据

热门文章

  1. Git叉子实际上是Git克隆吗?
  2. 【CentOS 7MySQL常用操作2】,连接MySQL#180112
  3. Cassandra 处理客户端请求
  4. soapUI学习笔记--用例字段参数化
  5. [NIOS] 如何Erase EPCS flash內容
  6. js 对动态添加的table 排序
  7. Jenkins中运行脚本提示“Permission denied”,没有权限解决方法(MacOS)
  8. matlab 查看函数属性,matlab – 使用FFT属性查找2D函数的导数
  9. mac mtu测试_一个关于MTU的现象,请兄弟们看看是不是确实是这样。 - 网络管理论坛 - 51CTO技术论坛_中国领先的IT技术社区...
  10. mysql 减少文件排序_消除更新查询中的mysql文件排序