最近做作业看到了一篇挺有意思的文章《Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation》。文章开发了一个说话人脸生成工具，可以由视频和音频共同驱动

Zhou, H., Sun, Y., Wu, W., Loy, C. C., Wang, X., & Liu, Z. (2021). Pose-controllable talking face generation by implicitly modularized audio-visual representation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 4176-4186).

简单记录一下

说话人脸合成的基本框架

Chen, L., Cui, G., Kou, Z., Zheng, H., & Xu, C. (2020). What comprises a good talking-head video generation?: A survey and benchmark. arXiv preprint arXiv:2005.03201.

由静态人脸生成一个人脸特征(向量或矩阵)
由驱动源(人脸特征或者音频特征)生成动作特征(向量或矩阵)
将两个特征融合，再送给某生成式模型(通常是GAN)合成人像

由动态姿态控制静态图片姿态的方法

Burkov, E., Pasechnik, I., Grigorev, A., & Lempitsky, V. (2020). Neural head reenactment with latent pose descriptors. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 13786-13795).

将人脸特征嵌入到一个Identity embedding向量，将姿态信息嵌入到Pose embedding向量，
两个向量利用一个MLP融合
将融合向量送入StyleGAN重建具有姿态信息的人像

由音频和姿态共同驱动的说话人脸生成

这部分就是开头那篇文章《Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation》

动机

针对任意人的、以其音频驱动的说话人脸生成研究方向，已实现了较准确的唇形同步，但头部姿势的对齐问题依旧不理想
此前的方法依赖于预先估计的结构信息，例如关键点和3D参数。但极端条件下这种估计信息不准确则效果不佳

贡献

提供了一种由音频控制嘴唇，由视频控制姿态的说话人脸生成方式

示例

环境配置

从左到右依次是

静态人脸
生成结果
姿态信息
语音源

方法框架

对于每个固定的帧，将三种特征向量(Embedding)顺序拼接(concate)为一个长特征(上图中的fcat部分)
由MLP融合后送入GAN重建人脸

一种由视频和音频共同驱动的说话人脸合成方法简介相关推荐

这些视频转音频软件你知道吗？
我们平时经常会在网上浏览到各种各样的视频内容,其中就有很多翻唱歌曲的视频.他们的歌声非常有个人特色,就想把这首歌保存下来,这样可以随时播放.那有没有办法将视频转换为音频来收听呢?答案是肯定的.有些 ...
CVPR 2021 | 任何人都能“不讲武德”，姿态可控的语音驱动说话人脸
作者丨Johann Zhou@知乎来源丨https://zhuanlan.zhihu.com/p/367525241 编辑丨极市平台 [导读]本文介绍了一篇由香港中文大学MMLab,商汤科技和南洋理 ...
CVPR 2021 | “以音动人”：姿态可控的语音驱动说话人脸
本文转载自商汤学术摘要 · 看点本文不使用任何人为定义的结构信息(人脸关键点或者3D人脸模型),成功实现了人头姿态可控的语音驱动任意说话人脸生成.本文的关键在于,隐式地在潜空间(latent sp ...
常见的几种视频和音频格式
视频格式一般分为影像格式(Video Format)和流格式(Stream Video Format) 一.影像格式 1.AVI格式 (audio video interleaved) 播放软件:(W ...
怎么视频提取音频文件？分享这3种简单实用的提取方法
不知道大家平时用手机刷视频的时候,会不会被一些好听的背景音乐给吸引了呢?这些背景音乐大多都是网友们自己合成导入视频上传的,可能在许多音乐平台都不能找到音源播放.遇到这样的情况,大家一定都很苦恼吧?但其 ...
macOS如何正确驱动集成显卡HDMI（包括视频和音频）
聊聊如何正确驱动集成显卡HDMI(包括视频和音频) 必备条件: 1.必须使用AppleHDA驱动声卡(仿冒.clover.applealc都可以的),使用voodoo驱动声卡应该不行的. 2.dsdt ...
转载：Linux音频驱动-OSS和ALSA声音系统简介及其比较
Linux音频驱动-OSS和ALSA声音系统简介及其比较概述昨天想在Ubuntu上用一下HTK工具包来绘制语音信号的频谱图和提取MFCC的结果,但由于前段时间把Ubuntu升级到13.04,系统的 ...
Java使用JDBC向数据库存取二进制数据(如图片，视频，音频等)
前言上次写了一个用JDBC向数据库存取小说等大文本的案例用到了PreparedStatement和io流的相关知识.Java使用JDBC向数据库存取大文本(比如小说等)https://blog.cs ...
【20220505】文献翻译9：从视频中学习语音驱动的3D对话手势
Learning Speech-driven 3D Conversational Gestures from Video 摘要 1 简介 2 相关工作 3 数据集创建 3.1 从视频中创建3D注释 3 ...
iOS三种录制视频方式详细对比
先附上参考资料 http://www.jianshu.com/p/16cb14f53933 https://developer.apple.com/library/content/samplecode ...

一种由视频和音频共同驱动的说话人脸合成方法简介

说话人脸合成的基本框架

由动态姿态控制静态图片姿态的方法

由音频和姿态共同驱动的说话人脸生成

动机

贡献

示例

方法框架

一种由视频和音频共同驱动的说话人脸合成方法简介相关推荐

最新文章

热门文章