合成视频以假乱真新高度！商汤科技、中科院、南洋理工大学联合提出当前最高清的语音驱动视频生成系统...

点击我爱计算机视觉标星，更快获取CVML新技术

昨天ArXiv新出一篇效果异常赞的语音驱动的人脸视频合成论文，出自商汤科技，视频效果异常好。给定一段15分钟的演讲视频，应用该技术，即可生成一段该人物新的演讲内容的视频。

该文作者信息：

作者来自商汤科技、中科院自动化所、南洋理工大学。文章标注为Linsen Song在商汤科技实习期间，在Wayne Wu等研究人员指导下完成的工作。

下图展示了该文技术目标：

该方法可以用任意视频的任意人的语音数据作为输入，且利用单网络可以驱动任意人物生成视频，实现多对多的语音驱动视频生成。生成效果上，表情自然真实，且运动幅度可以很大！

文末有视频演示，效果更惊艳！

作者最核心的idea是将待驱动的目标视频帧通过3D重建网络分解为表情、身份、姿态参数，然后从驱动语音中提取去除身份信息的表情参数，将此二者结合生成新的视频。

背景& 动机

Talking Face是利用说话人的语音合成最新对应的人脸视频的方法，其主要的应用背景包括虚拟主播，视频编辑等。最近，采用生成对抗网络的方法在Talking Face中应用广泛，但是其中仍然有许多挑战。例如说话人的角度问题以及使用某个人语音去驱动另一个人的脸。基于这些挑战我们提出人脸身份与姿态可控的Talking Face生成的方法。

方法

该文的方法主要包含两个部分，其一是3D人脸重建模块，其二是语音处理模块，其三是视频生成模块。算法总体的框架图如下：

在3D人脸重建模块上，通过一个单目RGB重建算法，可以将人脸的信息解耦成Expression，Geometry和Pose 三个互相垂直的分量，这些分量表示为3DMM人脸模型中的不同系数，为之后表情系数学习和重组做准备。

在语音处理模块上，人说话的语音主要包含说话的内容以及该说话人的身份，为了消除其中的说话人的身份而不至于影响其后对于人脸身份的控制，我们参考了语音识别中的fMLLR方法并将其进一步的改进成深度网络，同时也通过speech identification网络来监督网络以消除其中的身份信息。

该网络输出的ID-removed Audio Features最后通过简单的LSTM+FC网络映射到3D人脸模型的expression系数上。

在视频生成模块上，参考的人脸/所需要的目标身份以及姿态的人脸也作为输入并提取其中人脸的身份信息(Geometry)与姿态(Pose)信息，这些信息与从语音提取的expression信息一起用于渲染全新的人脸的3D点云，其中就包含与说话嘴型强相关的嘴部关键点的位置。

通过人脸的3D点云可以投影得到人脸嘴部的关键点的位置。我们将其形式化的表达为heatmap并将输入的参考的人脸的原来的嘴部遮起来一同输入一个inpainting网络来生成新的、符合输入语音说话内容的嘴。

其后，为了保证输出的视频的时间上的稳定性，又添加了消抖算法以消除视频中的人脸的抖动。

网络架构

Audio ID-Removing Network：

输入是语音的MFCC特征，网络包含LSTM+FC，输出的是消除语音身份的MFCC特征。

Audio-to-Expression Translation Network

输入的是输出的是消除语音身份的MFCC特征，网络的结构是LSTM+FC，输出是与语音内容对应的视频中的人脸的expression系数。

Neural Video Rendering Network

输入的是嘴部遮挡住的人脸的图片以及作为指导/目标嘴型的嘴部关键点的heatmap图，网络是Unet结构的生成网络，输出的是符合输入的指导/目标嘴型关键点的人脸图片。

实验结果

作者在GRID数据集和另外收集的数据集上进行了实验，官网放出如下效果视频（请务必全屏观看！）：

相信你已经发现该文算法生成的视频人物可以大范围运动，表情自然，相比其他算法更像真实视频！

（这种以假乱真的效果，简直太难以置信，以后演员也许真的只需要一张人脸照片就可以拍戏了。。。）

这是同一个人的语音驱动不同的三个人的视频的效果：

这是不同的人的语音驱动同一个人视频的效果：

在较大的姿态变化时，生成效果依然逼真，不出现“鬼畜”，如下图：

值得注意的是，该方法也可以直接用于基于语音的视频编辑，可以对当前视频中的语句进行删改和重组，仍然合成得到非常逼真的视频效果：

相比于其他state-of-the-art方法，该文方法在处理脸部细节、人物边缘、嘴形变化时更加逼真自然：

另外作者们还邀请了100名参与者对生成视频和真实视频进行真实度打分，结果如下：

评分4和5为真实和绝对真实，该文提出的方法平均获得55%的真实认定，而真实视频是70.6%，还有一定的差距，但已经难能可贵了！

总之，该文从任意人的语音中消除身份信息提取表情参数，再加入到视频合成网络的方法，使语音驱动的人脸视频合成达到了新高度！必将成为未来相关技术（虚拟主播，视频编辑）发展重要的里程碑！

论文地址：

https://arxiv.org/abs/2001.05201

项目地址：

https://wywu.github.io/projects/EBT/EBT.html

（目前暂未发现该文有开源代码）

One More Thing

作者在文中，特意给出了Ethical Consideration（伦理道德考虑）章节。文章表示该工作的目的旨在为电影制作，视频创作等产业更好的的发展做出前沿的探索。对于该技术存在的潜在滥用风险，例如对政客，明星视频的恶意篡改等，文章表示会积极和学界一起开发对应的篡改视频检测系统，一起防止技术的滥用。

值得注意的是，一周前，该研究组刚刚发布了一个目前最大量级的篡改视频检测数据集DeeperForensics-1.0：

https://liming-jiang.com/projects/DrF1/DrF1.html

人脸技术交流群

关注最新最前沿的人脸识别、人脸视频合成、人脸重建等技术，扫码添加CV君拉你入群，（如已为CV君其他账号好友请直接私信）

（请务必注明：人脸）

喜欢在QQ交流的童鞋，可以加52CV官方QQ群：805388940。

（不会时时在线，如果没能及时通过验证还请见谅）

长按关注我爱计算机视觉

合成视频以假乱真新高度！商汤科技、中科院、南洋理工大学联合提出当前最高清的语音驱动视频生成系统...相关推荐

商汤科技中科院自动化所：视觉跟踪之端到端的光流相关滤波 | CVPR 2018
作者丨朱政学校丨中科院自动化所博士生单位丨商汤科技研究方向丨视觉目标跟踪及其在机器人中的应用本文主要介绍我们发表于 CVPR 2018 上的一篇文章:一种端到端的光流相关滤波跟踪算法.据我们所 ...
终于！商汤科技开源DAVIS2017视频目标分割冠军代码
(关注52CV--有价值有深度的公众号~) 用目标重识别改进视频目标分割. 传统视频分割经常依赖于时序连续来生成mask(目标的掩膜),而真实的视频中的目标位置往往存在着一些跳变,比如在目标快速漂移和 ...
商汤科技开源DAVIS2017视频目标分割冠军代码
出处"来自微信公众号:我爱计算机视觉" 商汤科技开源DAVIS2017视频目标分割冠军代码用目标重识别改进视频目标分割. 传统视频分割经常依赖于时序连续来生成mask(目标的掩膜 ...
B轮融资4.1亿美元，商汤科技是一家怎样的公司？
点击关注,抢跑AI世代来源 / 量子位(ID:QbitAI) 文 / 李根刚宣布4.1亿美元B轮融资的商汤科技,是一家令人熟悉又陌生的AI公司. 人们在他单轮巨额融资时议论,在他科研论文刷屏CVP ...
AAAI 2020论文解读：商汤科技提出新弱监督目标检测框架
来源 | Object Instance Mining for WeaklySupervised Object Detection 编辑 | Carol 出品 | AI科技大本营(ID:rgznai1 ...
观点 | 商汤科技联合创始人林达华：深度学习遭遇瓶颈，未来之路需要新的思考
观点 | 商汤科技联合创始人林达华:深度学习遭遇瓶颈,未来之路需要新的思考原创: 商汤科技商汤SenseTime 今天日前,由中国计算机学会(CCF).雷锋网.香港中文大学(深圳)联合举办的20 ...
互联网晚报 | 3月11日星期五 | 商汤科技在深圳成立新公司，；微信支付电子小票上线...
呷哺呷哺:2021年实现营收61.5亿元,2022年拟新开156家店. 3月11日消息,呷哺呷哺在港交所公告,2021年公司实现营收61.5亿元,同比增长约13%:预计年度净亏损在2.75亿元至2.9 ...
AAAI 2020论文解读：商汤科技发布新视频语义分割和光流联合学习算法
来源 | Every Frame Counts: Joint Learning of Video Segmentation and Optical Flow 编辑 | Carol 出品 | AI科技大 ...
“学院派”商汤科技：原创技术价值迸发
作者|震霆出品|新芒X 公众号|GOwithAI 距离李飞飞离职谷歌已经5个月了. 我们熟识的这位AI圈一姐沉寂了一段时间后,终于又听到关于她的消息:领导的斯坦福的团队提出了自动图 ...

合成视频以假乱真新高度！商汤科技、中科院、南洋理工大学联合提出当前最高清的语音驱动视频生成系统...

合成视频以假乱真新高度！商汤科技、中科院、南洋理工大学联合提出当前最高清的语音驱动视频生成系统...相关推荐

最新文章

热门文章