文章目录

  • 任务简介
  • 方法
    • 整体框架
    • 交叉重构解耦-数据处理
    • 交叉重构解耦-训练过程
    • 目标自适应人脸合成
      • audio to landmark
      • 3D-Aware Keypoint Alignment
      • edge to video
  • 实验
    • 衡量指标

任务简介

通过将声音分解为与持续时间无关的情绪空间和与持续时间相关的内容空间 可以都得到动态的2d landmark
然后作者提出了 Target-Adaptive Face Synthesis technique(目标自适应人脸合成技术)可以缩小推断的landmark和目标视频的自然头部姿态之间的gap

为了实现交叉重建训练,应该提供相同内容相同长度不同情绪的成对句子, 但是现实场景中是不可能的,为此使用Dynamic Time Warping (DTW) 帮助使用对齐的不等长语料库形成伪训练对。

方法

整体框架


首先从音频信号中提取分离的内容和情感信息。是通过DTW算法生成的伪训练对,然后用交叉重构损失来学习解耦。
算法的第二部分是目标自适应人脸合成, 它将从音频中推断的landmark适配到目标视频中。具体是设计了一种3D-Aware Keypoint Alignment算法, 在三维空间中旋转landmarks,从而使landmarks能够适应各种姿势和运动。最后通过edge合成图片

可以把最后的edge变成cycle形式的

交叉重构解耦-数据处理

从音频信号中提取两个独立的潜在音频空间:i)与持续时间无关的空间情感编码;ii)与持续时间相关的空间,它对音频的语音内容进行编码。

但是这样的训练对比较难得,所以需要首先构建伪训练对。然后再进行交叉重构。
MEAD这个数据集满足相同内容不同情绪, 但是不同的情绪的语音速率是不同的, 所以采用temporal alignment*(时间对齐算法)来对齐长度不均匀的语音。

这块后续看看代码

交叉重构解耦-训练过程


x_im 代表内容i, 情绪m, E_c是内容编码, E_e是情绪编码
假如情绪完全解开的时候, 可以通过对x_im的内容编码 ,即E_c(x_im), 和x_in的情绪编码, 即E_e(x_in)来重构出 x_in, 当然需要通过解码器D.

给定4个样本, 分别如下

情绪和内容互换了两次

用一个损失函数来监督训练过程,包括四个部分:交叉重建损失、自我重建损失、分类损失和内容损失。


使用不同内容, 不同情绪的两个样本分别对情绪和内容进行重构

下面是自我重构:

这个很容易理解.

为了促进情绪编码器EeE_eEe 把具有相同情绪的样本映射到latent space的clustered groups,为情绪embeding增加了一个分类器

N是情绪的个数, p_k是是否使用情感标签,q_k是相应的网络预测概率, 此外还限制内容embedding


总的损失就是这样, 还有参数控制权重

目标自适应人脸合成

一般说来我们通过音频得到的landmark不能直接使用, 因为是通过音频内容得到的, 头部姿态啥的没有, 要是直接用到图像转换上, 看起来就很奇怪.
所以这里先将生成的landmark和3d空间的点对齐(align our generated landmarks with guidance landmarks in the 3D space). 然后将处理过的landmark和目标图像的边缘图合并, 通过图片到图片得到最终结果

audio to landmark

这里的f_a是从对齐的landmark中提取身份信息. 然后f_a和内容编码及情绪编码一块送入这个模块.

通过LSTM预测landmarks位移, 损失如下:

l为真值, l^为预测的

3D-Aware Keypoint Alignment

这部分是使用3D模型进行姿势对齐


l_p是投影后的2d landmark

edge to video

使用边缘检测算法提取人脸区域外的边缘,并用对齐的landmarks替换原始的。然后连接相邻的面部landmarks来创建面部草图。条件GAN架构图片到图片生成。(主要用了pix2pix的升级, video2video)

实验

面部视频为25帧, 音频采样为16khz, 音频是参考论文(Hierarchical cross-modal talking face generation with dynamic pixel-wise loss)里的设计, 提取和视频每帧对应的28*12维MFCC, 这里我可以使用deepspeech, 同时还可以使用3D人脸的预测。

在训练解耦模块之前,通过情绪分类任务对情绪编码器进行预训练
(A new approach of audio emotion recognition.)
内容编码器在LRW数据集进行了预训练。

衡量指标

  • Landmark Distance(LD)
    LD表示生成的landmark和记录的landmark之间的平均欧氏距离。

  • Landmark Velocity Difference(LVD)指连续帧之间地标位置的差异,因此LVD表示两个序列之间地标运动的平均速度差异。

在口腔和面部区域采用LD和LVD来评估合成视频分别代表准确的嘴唇运动和面部表情的程度。

为了进一步评估不同方法生成的图像的质量,我们比较了SSIM、PSNR和FID分数。

论文阅读:Audio-Driven Emotional Video Portraits相关推荐

  1. 【视频目标检测论文阅读笔记】Optimizing Video Object Detection via a Scale-Time Lattice

    1.1 论文信息 标题 Optimizing Video Object Detection via a Scale-Time Lattice 会议 CVPR 2018 原文链接 Optimizing ...

  2. 论文阅读:(2020 AAAI) Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning

    Video Cloze Procedure for Self-Supervised Spatio-Temporal Learning (2020 AAAI) Dezhao Luo, Chang Liu ...

  3. 论文阅读 | Cross-Attention Transformer for Video Interpolation

    前言:ACCV2022wrokshop用transformer做插帧的文章,q,kv,来自不同的图像 代码:[here] Cross-Attention Transformer for Video I ...

  4. 论文阅读笔记:Deep Video Quality Assessor

    论文PDF: Deep Video Quality Assessor: From Spatio-Temporal Visual Sensitivity to a Convolutional Neura ...

  5. 论文阅读 (64):Weakly-supervised Video Anomaly Detection with Robust Temporal Feature Magnitude Learning

    文章目录 1 引入 1.1 题目 1.2 代码 1.3 摘要 1.4 Bib 2 RTFM 2.1 理论动机 2.2 多尺度时间特征学习 2.3 特征量级学习 2.4 RTFM帧级分类器 3 实验 3 ...

  6. 【论文阅读笔记】Real-Time Video Super-Resolution on Smartphones with Deep Learning, Mobile AI 2021 Challenge

    论文地址:https://arxiv.org/abs/2105.08826 论文小结   这比赛的目标是在移动手机上得到实时运行的视频超分算法,目标在480p(实际上是180∗30180*30180∗ ...

  7. 论文阅读【EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching】

    EMScore: Evaluating Video Captioning via Coarse-Grained and Fine-Grained Embedding Matching 发表:CVPR ...

  8. 论文阅读——《Online Photometric Calibration of Auto Exposure Video for Realtime Visual Odometry and SLAM》

    论文阅读--<Online Photometric Calibration of Auto Exposure Video for Realtime Visual Odometry and SLA ...

  9. 论文阅读 - Large-scale weakly-supervised pre-training for video action recognition

    文章目录 1 概述 2 数据的收集方式 3 使用的模型 4 预训练时的一系列问题 4.1 预训练的数据是不是越多越好? 4.2 用于预训练的模型是不是越大越好? 4.3 预训练数据的标签种类和数量是不 ...

  10. CVPR2019|Depth-Aware Video Frame Interpolation【论文阅读笔记】

    CVPR2019|Depth-Aware Video Frame Interpolation[论文阅读笔记] 作者 相关链接 1.前言 2.介绍 3.算法 4.实验 作者 Wenbo Bao, Wei ...

最新文章

  1. 【MaxCompute】学习笔记基础说明
  2. xtraback工具的使用和备份
  3. vim改变与选择字休大小的方法
  4. [置顶] CopyU!v2插件合集 [2013年7月18日更新]
  5. for-each循环
  6. 【Java面试题】19 final,finally和finalize的区别
  7. python stdin read_python 3:使用readahead从stdin管道读取字节
  8. Windows Django 开发环境搭建
  9. Mybatis JdbcType与Oracle、MySql数据类型对应列表
  10. 金蝶财务软件有哪些缺点
  11. wm java 载入jad错误_jad文件的错误代码,分享
  12. SAXReader解析器
  13. 人脸识别打卡项目(7)
  14. c语言编译器 mini,Mini C编译器的设计与实现.ppt
  15. java全栈_java全栈的知识技能
  16. 将html转换为string格式
  17. 跑步蓝牙耳机推荐,适合跑步的蓝牙运动耳机
  18. ubuntu程序莫名崩溃显示killed,程序闪退,排除OOM
  19. 上半年要写的博客文章27
  20. 三相PWM整流器预测直接功率控制

热门文章

  1. endnote找不到国标_实验差距惊人!揭秘雅迪高于新国标的品质标准测试
  2. 【现代密码学】大作业-RSA大礼包
  3. C语言学习教程二C语言初探
  4. CEO如何选拔和留住数字化人才
  5. 机械CAD中如何设置重叠图形消隐?
  6. 【bug解决】上传图片后,取消这次上传 再次执行上传,上次的图片还存在
  7. 张朝阳开课手推E=mc²,李永乐现场狂做笔记!CEO当太久都忘了他是MIT物理博士...
  8. AIL(Android init Language)
  9. UMTS与WCDMA, HSPA
  10. 显示器3d测试软件,挑战3大游戏+3D电影!3D三屏环绕感官测试