视频台词现在不用背也不用配,连对口型都免了
月石一 发自 凹非寺
量子位 报道 | 公众号 QbitAI
现在,给视频人物“喂”一段音频,他就能自己对口型了,就像这样:
原声其实是出自这里:
这是一种利用音频生成视频人物口型的新方法,出自慕尼黑工业大学Wojciech Zielonka的硕士论文。
用这种新方法对口型,只需2-3分钟就能够训练目标角色,生成的视频保留了目标角色的说话风格;
并且不受语音来源、人脸模型和表情的限制。
新方法与Neural Voice Puppetry、Wav2Lip、Wav2Lip GAN的生成效果,对比起来是这样的:
在保持较低唇部误差的同时,生成图像质量高于其他方法。
原理简介
具体来说,作者提出了一个新的框架,它由音频特征提取、投影网络、变形网络、颜色网络、组成网络几个部分组成。
首先,将输入音频转换为MFCC(梅尔频率倒谱系数),并进行特征提取。
利用投影网络进行近似转换,将提取的特征嵌入到不同的低维空间。
为了顺利生成视频,研究人员还引入了一维卷积网络和一个衰减模块,以保持时间上的连贯性。
在变形网络中,作者使用了三维可变形人脸模型(3DMM),这是一种基于一组人脸形状和纹理的统计模型,将人脸表示为固定的点数。
将3DMM的网格输入变形网络,该网络能通过音频信号产生优化的3D形状。
再将其栅格化传递给色彩网络,每个三维点经过位置编码,并与音频嵌入相关联,最终通过色彩网络输出图像。
最后,用2D膨胀卷积网络建立的组成网络,将渲染的人脸被无缝地嵌入到背景中。
可以看到从3D形状到最终合成输出的效果:
这项研究采用了最小绝对值偏差(L1)和感知损失(VGG)这两个损失函数的组合。
先利用L1损失网络找到粗略图像,然后在训练过程中,通过VGG损失进行完善并学习细节。
性能如何?
研究人员使用数据集对模型进行了测试,数据集中共有6个人物。
其中,模型用于Krista和Obama时效果更好,生成图像与ground truth最为接近。
而Ayush的误差较高,作者表示,这可能是受到训练视频质量的影响。
从左至右依次是原视频、配音视频、原声视频:
作者还对色彩网络的性能进行了评估,结果显示,即使3D形状在随机帧之间没有很大变化,色彩网络也能作出正确的预测。
论文中还给出了与其他方法的定量对比情况,整个数据集的图像质量误差如下:
在图像质量的3个指标中,新方法都优于其他方法。
不过新方法也不是一直可靠,比如在合成时,也可能会产生位移误差,出现双下巴等。
此外,它还存在一定的局限性。
由于3DMM并没有明确地对牙齿建模,目前的方法是将两个嘴唇封闭起来。因此,顶点的数量并没有改变,特征基数仍然成立。
拥有详细的牙齿几何形状,可以更好地捕捉说话时的面部运动,当然这在很大程度上取决于人们的说话风格。
此外,一个更大的局限是,在场景或演员变化时,就需要重新训练模型,并且只支持英语音频。
网友热议
作者把效果视频发在了Reddit上,引起了网友们的热议。
不少网友发现,视频人物的唇部动作,似乎效果不佳。
除了“美国”之外,他的口型看起来对不上。
更多的网友对于这项技术的应用,提出了质疑。
这与在奥巴马静音的视频上播放音频有何不同?
就像这位网友所说,类似这样的人脸生成技术,很多都被用于造假,因此一直存在着伦理争议。
网友们也为此感到担忧:
有时我会想到这些技术是如何被滥用的,这让我对未来感到有点难过。
我们需要虚假视频检测器,不知道这场战斗还要走多远。
拥有权利的同时,也被赋予了重大的责任!
如果这类应用盛行起来,人们也许不会相信视频了。
不过也有网友提到:
好在,就目前来说,检测比生成要要容易得多,效果也更好。
对于这项研究,作者表示,
它具有商业前景。比如,在未来,演员可以出售自己的(视频)化身。
仅需语音操纵,就能够制作电影或游戏,还可以使用根据文本生成的语音。
你希望这样的技术用在电影和游戏里吗?
参考链接:
[1]https://www.dropbox.com/s/o0hk73j1dmelcny/ThesisTUM.pdf?dl=0
[2]https://zielon.github.io/face-neural-rendering/
[3]https://www.reddit.com/r/MachineLearning/comments/ntiv0z/r_audiodriven_neural_rendering_of_portrait_videos/
视频台词现在不用背也不用配,连对口型都免了相关推荐
- ios 后台唤醒应用_苹果不用背锅了!微信被杀后台是因为“耍流氓”?用户该听谁的?...
文 | 考拉科技馆 排版 | 考拉科技馆 原创文章,禁止转载,违者必究! 苹果表示不用背锅了.日前,苹果推送了最新的iOS 13.2系统,在升级到iOS 13.2系统后,很多果粉都在网上反映iOS 1 ...
- 地铁WIFI值28亿?运营商终于不用背锅了
据说,一家地铁WiFi运营商上市了,价值28亿,仅仅是计划在上海.广州.深圳等7个城市的地铁上,向乘客提供免费WiFi信号. 运营WIFI能挣钱?好像以前也有过不少的尝试,甚至还得到过大资本的青睐,但 ...
- 5分钟教会五笔!!不用背口决了!(建议转载,以后用的着)
5分钟教会五笔!!不用背口决了!(建议转载,以后用的着) 原创思路总结: 只需记住下面3点: 1:知道五笔是什么:一丨丿丶乙 (横竖撇捺折) 2:知道这五个笔划在键盘上的分布特点:认出字根的 ...
- php格式视频ipad打开方式,用iPad看各种视频格式的电影,格式兼容不用愁
原文: 用iPad看各种视频格式的电影,格式兼容不用愁 链接: http://www.mofavideo.com/jiaocheng/zhuan_ipad_iphone.aspx 关键词:" ...
- 教程 | 批量将经纬度坐标标注到地图上,不用Python,不用GIS软件
小O地图EXE版三大功能,地图数据查询.地图数据分析.地图可视化! 在以往的文章中大多介绍前两者,可视化功能介绍较少,本文将直接上视频,通过B站视频演示地图可视化功能使用. 本文视频演示使用小O地图软 ...
- iPhone11的计算机怎么用,旧手机数据怎样导入iPhone 11?既不用电脑也不用云,竟这样简单...
导语:旧手机数据怎样导入iPhone 11?既不用电脑也不用云,竟这样简单 新iPhone11系列发布带来的热潮正席卷全球,无论赞美,还是吐槽,你都不得不承认,苹果仍然具备全球刷屏的能力. 对于无数果 ...
- 如何直接用maven创建java项目,不用eclipse,不用idea,不用任何ide
不用eclipse,不用idea,不用任何ide,如何直接用maven创建java项目 写作背景 maven简介 安装maven 配置镜像与本地仓库 更改镜像下载地址 更改本地仓库 配置环境变量 建立 ...
- new bing不用登录,不用申请排队就能用了
new bing介绍目录 1.摘要 2.数据介绍 3.new bing相关技术 GPT4模型特征 使用GPT-4的几种方法 4.完整代码和使用方法 5.与new bing的一些聊天记录 1.摘要 本文 ...
- 怎么成为日上会员直邮_放福利啦,免税店现在一件也能直邮,不用出入境、不用出入境、不用找代购...
中免日上给全中国的小仙女放福利啦 只要通过邀请码注册中免日上会员,就能随意在中免日上的小程序,不管几件中免日上都能给小仙女们直邮到家(不需要任何运费哦) 不用在上上海日上免税行那样买直邮 ...
最新文章
- 并发编程之多进程编程(python版)
- 用vector实现一个变长数组
- android xutils数据库操作,XUtils3.0之本地数据库操作
- 洛谷P3349:小星星(容斥dp)
- 不止代码:乘法游戏 题解(区间dp)
- npm安装与卸载和cordova及ionic项目打包调试等相关命令总结归纳
- 2018-2019-2 网络对抗技术 20165332 Exp6 信息搜集与漏洞扫描
- 如何赋予自主系统具备持续学习的能力?
- 数字电路技术可能出现的简答题_2013年9月份考试数字电子技术第二次作业
- 如何在ASP.NET Core中上传文档
- Flutter布局锦囊---蜡笔画的表单
- 冒泡排序代码_凡人能看懂的冒泡排序和快速排序(附动态图和代码详解))
- java移位运算符实验程序:lt;lt;(左移)、gt;gt;(带符 号右移)和gt;gt;gt;(无符号右移)...
- JS正则表达式从入门到入土(7)—— 分组
- JOBDU 1108	堆栈的使用
- 推荐一款在线文件对比工具
- 2022年王道数据结构考研复习指导习题代码(排序)
- Cesium入门(五):加载WMTS瓦片地图服务
- spark count统计元素个数
- Python爬取东方财富网任意股票任意时间段的Ajax动态加载股票数据
热门文章
- Git叉子实际上是Git克隆吗?
- 【CentOS 7MySQL常用操作2】,连接MySQL#180112
- Cassandra 处理客户端请求
- soapUI学习笔记--用例字段参数化
- [NIOS] 如何Erase EPCS flash內容
- js 对动态添加的table 排序
- Jenkins中运行脚本提示“Permission denied”,没有权限解决方法(MacOS)
- matlab 查看函数属性,matlab – 使用FFT属性查找2D函数的导数
- mac mtu测试_一个关于MTU的现象,请兄弟们看看是不是确实是这样。 - 网络管理论坛 - 51CTO技术论坛_中国领先的IT技术社区...
- mysql 减少文件排序_消除更新查询中的mysql文件排序