Meta Talk: Learning To Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking 论文解读
1. 相关链接
中文介绍链接:
语音语义创新Lab_News_聚焦虚拟说话人生成技术,华为云论文被人工智能语音领域顶级会议ICASSP2022接收
论文链接:
Meta Talk: Learning To Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking Face With High Definition | IEEE Conference Publication | IEEE Xplore
2. 简介
语音驱动虚拟说话人模型,旨在生成与输入语音能够口型匹配的任意目标人像虚拟说话人视频。目前业界开发出了一些先进的虚拟说话人生成模型,包括语音驱动的3D虚拟人视频生成模型(AudioDVP) 和2D语音-口型生成模型(Wav2lip)。华为研究团队经过多次实验,发现AudioDVP仅有在数十小时大量训练数据下才能具有良好唇音同步效果,对应目标人物模特的训练数据录制成本太高,一旦有更换模特的需求,则需要大量的人力物力来做重新准备。另外,Wav2lip虽然在超过30小时的视频数据下构建了预训练模型,具有较好的泛化能力,但是生成的视频清晰度较低,无法满足应用需求。
基于这些观察,如下图所示,作者提出了一种新的虚拟说话人的生成方法Meta Talk,融合了AudioDVP和Wav2lip各自的优点,通过自适应裁剪模块、3D人脸模型重建和渲染等模块相互配合,突破了仅需3分钟的原始视频,即可实现生成唇形同步的4K清晰度且达到真实照片逼真程度的虚拟说话人视频的技术。
3. 模型原理
1. 训练阶段
(1) 使用AudioDVP中的3D重建模块,训练3D人脸重建模型,待训练完毕后,将其作为模块使用,可以从人脸图像中获取表情系数参数。
(2) 使用Wav2Lip与训练好的3D重建模块,制作A2E训练标签对,训练A2E模型
(3) 使用3D重建模型预测3DMM参数,对原始训练视频进行预测,并通过3D顶点渲染得到3D人脸面具,使用人脸Mask,得到3D半脸面具(脸颊下部分)
(4) 使用3D半脸面具作为输入,原始视频人脸下半脸颊部分(Mask遮罩区域)作为输出,训练Nerual Renderer模型(类似于Pixel2Pixel网络)
2. 测试阶段
(1) 输入测试Audio通过A2E模型得到3DMM expression系数
(2) 输入原始训练视频,通过3D重建模型得到纹理、形状、光照、姿态等3DMM系数
(3) 合并(1)(2)系数,经过3D顶点渲染得到3D人脸面具,并且通过Mask遮罩仅使用人脸面具的脸颊部分
(4) 使用Neural Renderer网络将3D半脸面具转化为真实的人脸下半部分,并且根据Mask形式贴合到原始训练视频
4. 个人解读
4.1 优点
1. 对训练的视频时长及要求可以进一步降低
在这里训练视频仅仅起到了训练3D重建模型及3DFace-->realFace模型的作用,Audio2Expression模型的数据是由LRS2提供的。论文中提及仅需要3分钟训练视频即可有比较好的表现效果。
2. 使用Wav2Lip优化音画同步效果
作者认为,Wav2Lip具有比较好的音画同步效果,因此使用它生成低清真实人脸,再使用3D人脸重建模块获取的Expression也与Audio具有比较好的同步效果,作者将它们作为标签对,训练A2E模型。在消融实验中,论文中也展示了wav2lip获取伪标签的方式,对音画同步的提升效果。
4.2 存在问题
1. 训练步骤繁琐
针对每一个不同人,论文都需要重新训练人脸3D重建模型,都需要使用Wav2lip获取LRS2 Audio对应的Expression标签,然后重新训练A2E模块,再训练3Dface--->realFace(pixel2pixel),训练繁琐且都需要专人专训练。
2. 3D重建模型训练与低清图像质量不匹配
Wav2Lip生成图像尺寸为96x96,而AudioDVP中的3D重建模型输入尺寸为256x256,因此使用之获取wav2lip生成图像的expression时,需对之进行上采样与插值,不可避免引入模糊,存在重建expression的问题。这里后续可以考虑使用微软官方在大规模数据上训练的3D重建模型。
5. 参考
wav2lip_train | Kaggle
语音语义创新Lab_News_聚焦虚拟说话人生成技术,华为云论文被人工智能语音领域顶级会议ICASSP2022接收
[2008.10010] A Lip Sync Expert Is All You Need for Speech to Lip Generation In The Wild
Photorealistic Audio-driven Video Portraits | Christian Richardt
Meta Talk: Learning To Data-Efficiently Generate Audio-Driven Lip-Synchronized Talking 论文解读相关推荐
- Automated defect inspection system for metal surfaces based on deep learning and data augmentation
Automated defect inspection system for metal surfaces based on deep learning and data augmentation 基 ...
- 大三小学期进阶课程第二十一课:reinforcement learning and data driven approaches
第21课.reinforcement learning and data driven approaches 解决规划问题,不能一上来就开始data driven,而是一步步来从rule based这 ...
- READ-2316 Meta Federated Learning
READ-2316 Meta Federated Learning 论文名称 Meta Federated Learning 作者 Omid Aramoon, Pin-Yu Chen, Gang Qu ...
- 机器学习概念记忆卡片01-基于Learning from data一书
前言 最近学习了Cousera上Dr. Barbara Oakley和Dr. Terrence Sejnowski关于学习方法论指导的课程(涉及浅显认知神经科学的知识)的文章.发现小学时候这种知识卡片 ...
- Machine Learning 和 Data Science 的最佳公共数据集
什么是机器学习的最佳数据集?本文整理了一个高质量.多样化的机器学习数据集榜单. AUTHORS: Stacy Stanford, Machine Learning Memoirs Inc. Rober ...
- Learning Active Learning from Data 主动学习笔记
最近这段时间都在看关于主动学习的文章,现在分享自己看的这篇文章,希望与大家共勉! 这是2017在NIPS上发表的一篇文章:Learning Active Learning from Data 文章目录 ...
- Paper:《A Few Useful Things to Know About Machine Learning—关于机器学习的一些有用的知识》翻译与解读
Paper:<A Few Useful Things to Know About Machine Learning-关于机器学习的一些有用的知识>翻译与解读 目录 <A Fe ...
- 自监督学习(Self-Supervised Learning)多篇论文解读(下)
自监督学习(Self-Supervised Learning)多篇论文解读(下) 之前的研究思路主要是设计各种各样的pretext任务,比如patch相对位置预测.旋转预测.灰度图片上色.视频帧排序等 ...
- 自监督学习(Self-Supervised Learning)多篇论文解读(上)
自监督学习(Self-Supervised Learning)多篇论文解读(上) 前言 Supervised deep learning由于需要大量标注信息,同时之前大量的研究已经解决了许多问题.所以 ...
最新文章
- ITK:计算灰度图像的梯度幅度
- python画两条曲线_查找在matplotlib中绘制的两条曲线之间的区域(在区域之间填充)...
- 转载-程序员编程技术迅速提高的终极攻略
- 小觅双目相机如何使用_MYNT EYE S小觅双目摄像头标准(彩色)版结构光双目深度惯导相机3D...
- vue中在data中写入img地址 引入问题
- HDU 4714 Tree2cycle:贪心
- - 贪心基础入门讲解二——活动安排问题
- 10 Seconds Count Down
- c++ 应输入表达式_【C语言编程入门系列】—— 第五章,C语言基本运算和表达式(一)...
- qt之qthread的使用
- 长生诀手游源码服务端
- 计算机本科科研什么项目,本科生做科研:大势所趋?
- 共识,权威以及去中心化的区块链
- Ardunio开发实例-简单声音感应控制开关
- php8最新版本特性,PHP8 了解新特性
- java 时区转换 转换成东八区 时间
- 高中计算机基础知识课件,5.1.2 信息资源管理的方式方法
- 可视为线性回归的曲线回归(R语言)
- Redission实现分布式锁完美方案 以及 Lua 脚本浅谈
- 中国土地利用现状遥感监测数据(1985-2020年)
热门文章
- 什么是内存溢出(Out Of Memory---OOM)和内存泄露 (Memory Leak)
- 禁止事件被快速点击触发多次
- SD-WAN三种基础技术架构
- three.js 聚光灯阴影
- c语言 计算分段函数[2]
- Wannafly挑战赛29A御坂美琴
- python socket通信 recv 丢包_用clumsy模拟丢包测试socket库的失败重传
- Caused by: java.sql.SQLException: ORA-00918: column ambiguously defined
- 24.(C语言)根据输入的三角形的三边判断是否能组成三角形,若可以则输出它的面积
- Go语言Web开发Echo框架搭建