最近做作业看到了一篇挺有意思的文章《Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation》。文章开发了一个说话人脸生成工具,可以由视频和音频共同驱动

Zhou, H., Sun, Y., Wu, W., Loy, C. C., Wang, X., & Liu, Z. (2021). Pose-controllable talking face generation by implicitly modularized audio-visual representation. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 4176-4186).

简单记录一下

说话人脸合成的基本框架

Chen, L., Cui, G., Kou, Z., Zheng, H., & Xu, C. (2020). What comprises a good talking-head video generation?: A survey and benchmark. arXiv preprint arXiv:2005.03201.

  • 由静态人脸生成一个人脸特征(向量或矩阵)
  • 由驱动源(人脸特征或者音频特征)生成动作特征(向量或矩阵)
  • 将两个特征融合,再送给某生成式模型(通常是GAN)合成人像

由动态姿态控制静态图片姿态的方法

Burkov, E., Pasechnik, I., Grigorev, A., & Lempitsky, V. (2020). Neural head reenactment with latent pose descriptors. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition (pp. 13786-13795).

  • 将人脸特征嵌入到一个Identity embedding向量,将姿态信息嵌入到Pose embedding向量,
  • 两个向量利用一个MLP融合
  • 将融合向量送入StyleGAN重建具有姿态信息的人像

由音频和姿态共同驱动的说话人脸生成

这部分就是开头那篇文章《Pose-Controllable Talking Face Generation by Implicitly Modularized Audio-Visual Representation》

动机

  • 针对任意人的、以其音频驱动的说话人脸生成研究方向,已实现了较准确的唇形同步,但头部姿势的对齐问题依旧不理想
  • 此前的方法依赖于预先估计的结构信息,例如关键点和3D参数。但极端条件下这种估计信息不准确则效果不佳

贡献

  • 提供了一种由音频控制嘴唇,由视频控制姿态的说话人脸生成方式

示例

环境配置


从左到右依次是

  • 静态人脸
  • 生成结果
  • 姿态信息
  • 语音源

方法框架

  • 对于每个固定的帧,将三种特征向量(Embedding)顺序拼接(concate)为一个长特征(上图中的fcat部分)
  • 由MLP融合后送入GAN重建人脸

一种由视频和音频共同驱动的说话人脸合成方法简介相关推荐

  1. 这些视频转音频软件你知道吗?

      我们平时经常会在网上浏览到各种各样的视频内容,其中就有很多翻唱歌曲的视频.他们的歌声非常有个人特色,就想把这首歌保存下来,这样可以随时播放.那有没有办法将视频转换为音频来收听呢?答案是肯定的.有些 ...

  2. CVPR 2021 | 任何人都能“不讲武德”,姿态可控的语音驱动说话人脸

    作者丨Johann Zhou@知乎 来源丨https://zhuanlan.zhihu.com/p/367525241 编辑丨极市平台 [导读]本文介绍了一篇由香港中文大学MMLab,商汤科技和南洋理 ...

  3. CVPR 2021 | “以音动人”:姿态可控的语音驱动说话人脸

    本文转载自商汤学术 摘要 · 看点 本文不使用任何人为定义的结构信息(人脸关键点或者3D人脸模型),成功实现了人头姿态可控的语音驱动任意说话人脸生成.本文的关键在于,隐式地在潜空间(latent sp ...

  4. 常见的几种视频和音频格式

    视频格式一般分为影像格式(Video Format)和流格式(Stream Video Format) 一.影像格式 1.AVI格式 (audio video interleaved) 播放软件:(W ...

  5. 怎么视频提取音频文件?分享这3种简单实用的提取方法

    不知道大家平时用手机刷视频的时候,会不会被一些好听的背景音乐给吸引了呢?这些背景音乐大多都是网友们自己合成导入视频上传的,可能在许多音乐平台都不能找到音源播放.遇到这样的情况,大家一定都很苦恼吧?但其 ...

  6. macOS如何正确驱动集成显卡HDMI(包括视频和音频)

    聊聊如何正确驱动集成显卡HDMI(包括视频和音频) 必备条件: 1.必须使用AppleHDA驱动声卡(仿冒.clover.applealc都可以的),使用voodoo驱动声卡应该不行的. 2.dsdt ...

  7. 转载:Linux音频驱动-OSS和ALSA声音系统简介及其比较

    Linux音频驱动-OSS和ALSA声音系统简介及其比较 概述 昨天想在Ubuntu上用一下HTK工具包来绘制语音信号的频谱图和提取MFCC的结果,但由于前段时间把Ubuntu升级到13.04,系统的 ...

  8. Java使用JDBC向数据库存取二进制数据(如图片,视频,音频等)

    前言 上次写了一个用JDBC向数据库存取小说等大文本的案例用到了PreparedStatement和io流的相关知识.Java使用JDBC向数据库存取大文本(比如小说等)https://blog.cs ...

  9. 【20220505】文献翻译9:从视频中学习语音驱动的3D对话手势

    Learning Speech-driven 3D Conversational Gestures from Video 摘要 1 简介 2 相关工作 3 数据集创建 3.1 从视频中创建3D注释 3 ...

  10. iOS三种录制视频方式详细对比

    先附上参考资料 http://www.jianshu.com/p/16cb14f53933 https://developer.apple.com/library/content/samplecode ...

最新文章

  1. 看一遍就理解:MVCC原理详解
  2. 判断exception类型_C++核心准则T.44:使用函数模板推断类模板参数类型(如果可能)...
  3. android学习之WebView
  4. python转cython_用Cython加速Python到“起飞”(推荐)
  5. 伪造GPS信号就能把无人车带沟里?百度Apollo工程师实验证明:自动驾驶没那么好骗...
  6. win10安装和配置Maven3.6.3
  7. 手机耗电统计app_Android O新特性:精确统计APP电量消耗
  8. C语言在main中输入2个整数ab,2014年计算机等级二级C语言程序设计习题
  9. idea git 过滤target_IDEA + maven 零基础构建 java agent 项目
  10. Redis 集合(Set)
  11. Java 动态加载类
  12. Atitit.软件按钮与仪表盘(13)--全文索引操作--db数据库子系统mssql2008
  13. js 前端 银行卡图标处理
  14. 计算机算法分析与设计心得体会,算法设计与分析课程的心得体会
  15. 社交网络分析(igraph)
  16. 知网海外版(硕博论文pdf下载方式)
  17. ASDL、以太网、光钎的关系与区别
  18. 编译 pg_repack
  19. 【031902238崔佳雪】
  20. python制作qq登录界面_使用Python编写一个QQ办公版的图形登录界面

热门文章

  1. 斗地主牌型基本算法升级版本
  2. oracle 优化方法总结
  3. 计算机网络VLAN间路由,交换机必学知识 VLAN间路由理论指导
  4. linux文件管理系统答辩ppt,Linux操作系统ppt--第9次文件管理分析.ppt
  5. 控制工程实践(8)——PID四种类型控制器(之比例-积分控制器PI)
  6. NVR宇视云通过免注册功能添加之后如何让已经用APP添加过设备的人停止观看?
  7. 【零知ESP8266教程】快速入门28 六轴传感器模块的使用
  8. jenkins下载插件很慢
  9. 蔡学镛 java_转蔡学镛:该学Java或.NET,欢迎大家讨论,要对事不对人呵 - 第3页
  10. 惩罚函数法例题matlab,外点惩罚函数法例题