1. 相关链接

中文介绍链接：

语音语义创新Lab_News_聚焦虚拟说话人生成技术，华为云论文被人工智能语音领域顶级会议ICASSP2022接收

论文链接：

Meta Talk: Learning To Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking Face With High Definition | IEEE Conference Publication | IEEE Xplore

2. 简介

语音驱动虚拟说话人模型，旨在生成与输入语音能够口型匹配的任意目标人像虚拟说话人视频。目前业界开发出了一些先进的虚拟说话人生成模型，包括语音驱动的3D虚拟人视频生成模型(AudioDVP) 和2D语音-口型生成模型(Wav2lip)。华为研究团队经过多次实验，发现AudioDVP仅有在数十小时大量训练数据下才能具有良好唇音同步效果，对应目标人物模特的训练数据录制成本太高，一旦有更换模特的需求，则需要大量的人力物力来做重新准备。另外，Wav2lip虽然在超过30小时的视频数据下构建了预训练模型，具有较好的泛化能力，但是生成的视频清晰度较低，无法满足应用需求。

基于这些观察，如下图所示，作者提出了一种新的虚拟说话人的生成方法Meta Talk，融合了AudioDVP和Wav2lip各自的优点，通过自适应裁剪模块、3D人脸模型重建和渲染等模块相互配合，突破了仅需3分钟的原始视频，即可实现生成唇形同步的4K清晰度且达到真实照片逼真程度的虚拟说话人视频的技术。

3. 模型原理

1. 训练阶段

(1) 使用AudioDVP中的3D重建模块，训练3D人脸重建模型，待训练完毕后，将其作为模块使用，可以从人脸图像中获取表情系数参数。

(2) 使用Wav2Lip与训练好的3D重建模块，制作A2E训练标签对，训练A2E模型

(3) 使用3D重建模型预测3DMM参数，对原始训练视频进行预测，并通过3D顶点渲染得到3D人脸面具，使用人脸Mask，得到3D半脸面具(脸颊下部分)

(4) 使用3D半脸面具作为输入，原始视频人脸下半脸颊部分(Mask遮罩区域)作为输出，训练Nerual Renderer模型(类似于Pixel2Pixel网络)

2. 测试阶段

(1) 输入测试Audio通过A2E模型得到3DMM expression系数

(2) 输入原始训练视频，通过3D重建模型得到纹理、形状、光照、姿态等3DMM系数

(3) 合并(1)(2)系数，经过3D顶点渲染得到3D人脸面具，并且通过Mask遮罩仅使用人脸面具的脸颊部分

(4) 使用Neural Renderer网络将3D半脸面具转化为真实的人脸下半部分，并且根据Mask形式贴合到原始训练视频

4. 个人解读

4.1 优点

1. 对训练的视频时长及要求可以进一步降低

在这里训练视频仅仅起到了训练3D重建模型及3DFace-->realFace模型的作用，Audio2Expression模型的数据是由LRS2提供的。论文中提及仅需要3分钟训练视频即可有比较好的表现效果。

2. 使用Wav2Lip优化音画同步效果

作者认为，Wav2Lip具有比较好的音画同步效果，因此使用它生成低清真实人脸，再使用3D人脸重建模块获取的Expression也与Audio具有比较好的同步效果，作者将它们作为标签对，训练A2E模型。在消融实验中，论文中也展示了wav2lip获取伪标签的方式，对音画同步的提升效果。

4.2 存在问题

1. 训练步骤繁琐

针对每一个不同人，论文都需要重新训练人脸3D重建模型，都需要使用Wav2lip获取LRS2 Audio对应的Expression标签，然后重新训练A2E模块，再训练3Dface--->realFace(pixel2pixel)，训练繁琐且都需要专人专训练。

2. 3D重建模型训练与低清图像质量不匹配

Wav2Lip生成图像尺寸为96x96，而AudioDVP中的3D重建模型输入尺寸为256x256，因此使用之获取wav2lip生成图像的expression时，需对之进行上采样与插值，不可避免引入模糊，存在重建expression的问题。这里后续可以考虑使用微软官方在大规模数据上训练的3D重建模型。

5. 参考

wav2lip_train | Kaggle

语音语义创新Lab_News_聚焦虚拟说话人生成技术，华为云论文被人工智能语音领域顶级会议ICASSP2022接收

[2008.10010] A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild

Photorealistic Audio-driven Video Portraits | Christian Richardt

Meta Talk: Learning To Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking 论文解读相关推荐

Automated defect inspection system for metal surfaces based on deep learning and data augmentation
Automated defect inspection system for metal surfaces based on deep learning and data augmentation 基 ...
大三小学期进阶课程第二十一课：reinforcement learning and data driven approaches
第21课.reinforcement learning and data driven approaches 解决规划问题,不能一上来就开始data driven,而是一步步来从rule based这 ...
READ-2316 Meta Federated Learning
READ-2316 Meta Federated Learning 论文名称 Meta Federated Learning 作者 Omid Aramoon, Pin-Yu Chen, Gang Qu ...
机器学习概念记忆卡片01-基于Learning from data一书
前言最近学习了Cousera上Dr. Barbara Oakley和Dr. Terrence Sejnowski关于学习方法论指导的课程(涉及浅显认知神经科学的知识)的文章.发现小学时候这种知识卡片 ...
Machine Learning 和 Data Science 的最佳公共数据集
什么是机器学习的最佳数据集?本文整理了一个高质量.多样化的机器学习数据集榜单. AUTHORS: Stacy Stanford, Machine Learning Memoirs Inc. Rober ...
Learning Active Learning from Data 主动学习笔记
最近这段时间都在看关于主动学习的文章,现在分享自己看的这篇文章,希望与大家共勉! 这是2017在NIPS上发表的一篇文章:Learning Active Learning from Data 文章目录 ...
Paper：《A Few Useful Things to Know About Machine Learning—关于机器学习的一些有用的知识》翻译与解读
Paper:<A Few Useful Things to Know About Machine Learning-关于机器学习的一些有用的知识>翻译与解读目录 <A Fe ...
自监督学习(Self-Supervised Learning)多篇论文解读（下）
自监督学习(Self-Supervised Learning)多篇论文解读(下) 之前的研究思路主要是设计各种各样的pretext任务,比如patch相对位置预测.旋转预测.灰度图片上色.视频帧排序等 ...
自监督学习(Self-Supervised Learning)多篇论文解读（上）
自监督学习(Self-Supervised Learning)多篇论文解读(上) 前言 Supervised deep learning由于需要大量标注信息,同时之前大量的研究已经解决了许多问题.所以 ...

Meta Talk: Learning To Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking 论文解读