只要一句话、一段文字,想让奥巴马说啥他就说啥
十三 发自 凹非寺
量子位 报道 | 公众号 QbitAI
“嘿!Siri,我能看看你的脸吗?”
“没问题,什么样的脸我都能给你呈现。”
不仅如此,现在还可以根据你自己的声音或是一段文字,再选择一张脸,就能让TA说话。
这个黑科技叫Neural Voice Puppetry,来自慕尼黑科技大学和马普所。
只要一句话,一段文字,随便一张脸就能说话
Neural Voice Puppetry是音频驱动的面部视频合成技术。
只要输入一段音频,就能根据它生成人物说话的视频,而且还十分逼真。
下图就是生成的奥巴马演讲视频,从嘴型到说话的神态都非常自然。
给出一段文字,也可以生成人说话的视频。
根据下面的这段文字,生成了美国四位总统的演讲视频,跟我们印象中他们说话的样子如出一辙。
类似于这样的技术之前也是有过,但从效果和功能上看,Neural Voice Puppetry取得了一定的进步。
与最先进的基于音频驱动的面部视频合成技术相比,该方法能够适用于多个目标。
与VOCA相比,只需要一个3D代理(proxy)作为中间步骤,并没有对视频做特殊处理。和Speech2Vid相比,使用的是3D模型来保证输出视频的逼真程度。
和基于2D的“You said that?”(基于GAN)方法相比,虽然它们不需要3D模型就可以工作,但作者的这项工作能够保证输出视频的3D一致性。
并且生成的是视频,而不是标准化的图像。
在人物表情非常扭曲的时候,输出的结果也是非常稳健的。
△观看文章开头视频效果更佳
不仅如此,还能对不同语言做处理。
什么原理?
为了实现根据一句话就能再现逼真的面部视频,研究人员采用3D面部模型作为面部运动的中间表示。
Neural Voice Puppetry的关键部分是基于声音的面部表情估计,采用了一个两阶段的过程。
首先是Audio2ExpressionNet,根据DeepSpeech特征来估计每一帧的表征。
这个网络的输出是长度为32的音频表征向量。
这个音频表征是有时间噪声的,使用一个表征感知过滤网络进行过滤,该网络可以与每帧表征估计网络一起训练。
使用了5个核尺寸为3的一维卷积滤波器,将特征空间从32×8 、16×8、8×8、4×8、2×8到1×8依次缩小。
其次是Rendering network。
基于驱动人脸模型的表情预测,对目标视频图像空间进行神经纹理处理。
这一步包括两个网络。第一个网络用于将从神经纹理中采样的神经描述符转换为RGB颜色值。第二个网络将此图像嵌入到目标视频帧中。
最后,采用了一种新的延迟神经渲染(deferred neural rendering)技术来生成最终的输出图像。
下一步工作
虽然Neural Voice Puppetry对不同的音频源和目标视频效果很好,但它仍然有局限性。
特别是在音频流中有多个声音的情况下,该方法会失效。
另外还有一个局限性是谈话风格较为固定。
因为研究人员假设目标参与者在一个目标序列中的谈话风格是不变得。
在后续的工作中,研究人员计划从语音信号来估计说话风格,以此来控制面部动作的表现力。
团队介绍
△Justus Thies
Justus Thies,慕尼黑工业大学视觉计算组的博士后。2017年,获得埃尔朗根-纽伦堡大学的博士学位,主要研究面部表情的无标记运动捕捉及其应用。近期专注于神经图像合成技术,允许视频编辑和创作。工作领域结合了计算机视觉、机器学习和计算机图形学视觉。
△Mohamed Elgharib
Mohamed Elgharib,马普所计算机图形学部分。主要研究领域包括可视真实感渲染、3D重建及视频后期制作等。
△Ayush Tewari
Ayush Tewari,马普所计算机图形学部门。
△Christian Theobalt
Christian Theobalt,马普所图形、视觉和视频研究小组组长,沙尔大学计算机科学教授。
△Matthias Nießner
Matthias Nießner,慕尼黑工业大学教授,可视化计算小组。研究领域包括计算机视觉、图形学和机器学习的交叉领域。对3D 重建、语义3D 场景理解、视频编辑和人工智能驱动的视频合成等尖端技术特别感兴趣。
传送门
论文地址:
https://arxiv.org/pdf/1912.05566.pdf
— 完 —
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !
只要一句话、一段文字,想让奥巴马说啥他就说啥相关推荐
- 练习:使用BufferedWriter,向“f:/output“ 输出一句话“hello world“, 并能过BufferedReader,流读出这段文字
使用BufferedWriter,向"f:/output" 输出一句话"hello world", 并能过BufferedReader,流读出这段文字 impo ...
- Python 技术篇-如何打印一段文字,用友云霸气控制台颜文字打印
打印一段文字只要前后三个点包起来就行. 我主要想是展示一下用友云的颜文字收藏!哈哈,有意思吧! print( ''' \ \ / / \ \ / / / ____| | | |\ \_/ /__ _ ...
- iostext添加点击事件_iOS实现一段文字中指定的某些文字点击有响应事件或者可以跳转(给字符串添加超链接)...
直接上需求,见如下UI图: 需求是点击中间的电话(蓝色字体部分),可以直接拨打电话.对于这种很长的一段文字中间夹着可以有点击事件的文字,可以通过下面这种方式解决: 图中所指的这段文字,不用UILabe ...
- html中让两段文字并列排放,言语理解:探究阅读之并列文段
[导读] 中公事业单位为帮助各位考生顺利通过事业单位招聘考试!今天为大家带来言语理解与表达之探究阅读之并列文段.希望可以帮助各位考生顺利备考! 在事业单位职测考试中,片段阅读是必考题型,重要程度不言而 ...
- html文本隐藏内容占位,在HTML中如何隐藏某段文字具体该怎么实现文
在HTML中如何隐藏某段文字具体该怎么实现 可以用js设置div的id为隐藏就可以了,如下: 添加一个 .hid_div { display:hidden; } 这么一个css样式. 在HTML中隐藏 ...
- python 将一段文字转为mp3音频文件
最近想实现利用python将文本文件转换成mp3--听书,pyttsx3是一款优秀的文字转语音的模块,它生成的音频文件也比较具有个性化. #encoding=utf8''' python将一段文字转为 ...
- H5一段文字中有URL链接地址,自定义拼接a标签可以让他点击跳转
H5一段文字中有URL链接地址,自定义拼接a标签可以让他点击跳转 实现如图效果,有时候第三方接口返回的数据是没有加a标签的,所有我们如果想要让它点击,需要自己进行修改. //链接可点击// _that ...
- android 中一段文字设置不同颜色
目录 一.使用HTML .strings.xml 辅助完成 二.SpannableStringBuilder 来实现 我们都会遇到UI给的效果图中,一段文字,却用不同的颜色显示关键字以突出重点.我们平 ...
- 当科学家们使用计算机来试图,阅读下面一段文字,完成8一10题当科学家们使用计算机来试图预...
现代文阅读掌握内容: 各种文体有不同的命题规律和答题技巧,不能一概而论. 相对来说说明文和议论文命题方向更集中,答题的格式也相对固定,规律性更强些.解题注重技巧. 记叙文题型更丰富些,答案也更灵活.重 ...
最新文章
- Mean Shift+聚类
- java字符串 n换行符_java切割字符串中的回车应注意是\n\r不是\n
- 为什么成员函数不占用类和对象的空间
- codeforces gym-101736 Farmer Faul 平衡树+并查集
- 服务器安装系统教程进光盘界面,iso光盘系统怎么安装系统教程
- java如何无感知部署_干货!如何平稳用户无感知的完成系统重构升级
- jquey 批量操作 checkbox
- 带省份的下拉框的html语言,js实现省份下拉菜单效果
- Unity序列化——Assets序列化
- 业务流程图(TFD)实例
- 网络受限是个什么东东?
- OSChina 周六乱弹 ——什么是村支书不可推卸的责任!
- vue生命周期是什么?
- Poj 2992 Divisors(算数基本定理素数因子个数)
- 扡扫机器人_评测:不会满场乱飞奔 这台Anker扫拖机器人指哪儿扫哪儿
- 【BZOJ 2054】 疯狂的馒头
- PaddleHub一键视频动漫化
- 点云中的Chamfer distance
- win10蓝屏后的解决办法
- java 首字母大写方法