[toc】

前言

  • 以往的输出往往都需要借助中间形式, landmarks, 3d models, 这是一个从声音直接映射到视频的方法, 输入是声音和图像, 输出是一段视频。
  • 关键思想是学习到target face 和 speech segment的joint embedding, 这个embedding可以被用于产生和音频同步的帧。

Dataset

整个流程如下:

这里canonical face就类似正面化的脸部, 如下图:

这里需要用到一些变换, 因为输入的人脸要变正, 通过放缩, 旋转和平移实现相似变换。这里变换的是鼻子眼睛啥的, 嘴部没有变化。为了保留嘴部运动信息。


使用了VoxCeleb和LRW数据集, 用DLIB检测landmarks。 作者还提到SyncNet提供了视频中音频和视觉面部序列的联合嵌入, 可以确定好几个人中是谁在讲话, 同时还可以纠正语音同步错误, 我寻思LRW数据集也不用这么折腾····

The Speech2Vid Model

论文中提出的model叫Speech2Vid, 测试时给定两个输入, 音频段, frontal headshot(应该是比较正面的人脸), 结构如下:

这个decoder叫talking face image decoder, 对于给定的输入, model生成了最能代表音频的一系列帧, 该模型通过在音频序列上滑动0.35秒的窗口, 逐帧生成视频。

音频的处理

使用MFCC, 只是用了12个, 0.35s的音频被组合在一起, 采样率是100Hz所以共有35个时间步, 所以输入可以看成12*35的heatmap, 每个列代表特征

identity

对identity encoder的输入是1121123的静止图像, 后来还用多个cat起来的作为输入, 比如1121125

架构解析


主要有三个模块:audio encoder,the identity encoder, and the image decoder, 这三个是同步训练的。

  • Audio encoder是一些卷积层, 然后到256维的向量
  • Identity encoder, 理想情况下应该可以提取出识别面部的独特feature, 所以使用了在VGG Face dataset上预训练的VGG-M 网络, 数据集包括2.6百万张2.6K个不同的身份图像。固定CNN的权重,学习fc层的参数, 然后到256维的向量。
  • Image decoder, 解码器把音频和image编码后cat的向量作为输入, 然后通过反卷积层


网络具有两个跳过连接,以帮助保留目标标识的定义特征 - 这是通过将编码器激活与网络图中显示的位置的解码器串联来完成的。

这是在解码的过程中也输入了图片的信息,也就是解码器输入部分编码器的隐层会有好效果

使用L1 loss

Training

监督图像取0.35s采样窗口的视频中间帧, 输入的image是从不同的时间点随机选取的, 当输入是多张图片时, 就随机从同一个视频中采样多张图片。

  • 这是个单帧生成的网络, 没有什么时间连续上的约束, 当然因为它0.35s对应一帧, 也不用太强的时间约束。

Deblurring module


有10个卷积层, 和ReLu层以及残差模块。 这里提到虽然之前正面化了, 但是输入, ground truth和生成的图像对应并不完美, 所以只用了CNN而不是generator network
输出的结果类似锐化后的:

论文阅读:You said that?相关推荐

  1. 论文阅读工具ReadPaper

    对于搞科研的同学们来说,看论文是要经历的第一关,尤其是要读好多篇论文的时候,更是着实令人头大. 这不,最近无意中发现了个在线论文阅读网站:readpaper.com,号称「论文阅读笔记神器,硕博科研学 ...

  2. 多目标跟踪:CVPR2019论文阅读

    多目标跟踪:CVPR2019论文阅读 Robust Multi-Modality Multi-Object Tracking 论文链接:https://arxiv.org/abs/1909.03850 ...

  3. 快速人体姿态估计:CVPR2019论文阅读

    快速人体姿态估计:CVPR2019论文阅读 Fast Human Pose Estimation 论文链接: http://openaccess.thecvf.com/content_CVPR_201 ...

  4. Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读

    Action4D:人群和杂物中的在线动作识别:CVPR209论文阅读 Action4D: Online Action Recognition in the Crowd and Clutter 论文链接 ...

  5. 深度学习点云语义分割:CVPR2019论文阅读

    深度学习点云语义分割:CVPR2019论文阅读 Point Cloud Oversegmentation with Graph-Structured Deep Metric Learning 摘要 本 ...

  6. 3D目标检测论文阅读多角度解析

    3D目标检测论文阅读多角度解析 一.前言 CNN(convolutional neural network)在目标检测中大放异彩,R-CNN系列,YOLO,SSD各类优秀的方法层出不穷在2D图像的目标 ...

  7. 3D目标检测论文阅读摘要

    3D目标检测论文阅读摘要 2D Object Detection 的研究已经非常成熟了,代表作品有RPN系列的FasterRCNN,One Shot系列的YOLOv1-YOLOv3,这里推荐一个2D ...

  8. 目标检测——Faster R-CNN论文阅读

    论文阅读--Faster R-CNN:Towards Real-Time Object Detection with Region Proposal Networks 文章目录 论文阅读--Faste ...

  9. 【独家】深度学习论文阅读路线图

    如果你是深度学习领域的一名新手,可能会遇到的第一个问题是"应该从哪篇论文开始读起呢?" 这里给出了深度学习论文阅读路线图! 路线图按照下面四个准则构建而成: 从提纲到细节 从经典到 ...

  10. 道路检测 | SNE-RoadSeg论文阅读

    道路检测 | SNE-RoadSeg: Incorporating Surface Normal Information into Semantic Segmentation for Accurate ...

最新文章

  1. zTree第二章,各种常见setting设置和方法
  2. GridView中的RadioButton列之间不能互斥
  3. android 外文期刊_AndroSimilar: Robust signature for detecting variants of Android malware
  4. 合肥学院计算机对口升学2019,15高校招生4340人!2019安徽省对口升学本科招生计划出炉!...
  5. 一次共享内存引起的线上事故分析
  6. 自制最小的无盘网络服务器,无盘网络终极制作2003服务器端安装准备
  7. opendir 从不兼容的指针类型赋值
  8. 云栖大会|十年阿里云存储进化史:今天最好的表现就是明天最低的要求
  9. Spark实战电影点评系统(一)
  10. java swing 窗口事件_Javaswing多类窗口怎么写按钮事件呢?
  11. python组合数据类型包括_第六周 python组合数据类型
  12. 英语句子组织的5个步骤
  13. Java版人脸检测详解上篇:运行环境的Docker镜像(CentOS+JDK+OpenCV)
  14. 结构化思维的理解与思考
  15. 三步掩模行业调研报告 - 市场现状分析与发展前景预测
  16. BGP服务器是什么,BGP服务器跟三线服务器有什么区别
  17. 互联网环境下决策支持系统的发展变迁
  18. 常数除以0的极限是什么_数学常数e的含义 e就是增长的极限
  19. 如何写一个完整的django网站:配置环境啥的不讲(python+mysql+html相关) 叁
  20. 【教程】记录Typecho Joe主题升级与Joe魔改版

热门文章

  1. 【解题报告】Kattis - adjoin 树形dp
  2. 梁宁 产品30讲理解
  3. 百度招聘的一个小彩蛋
  4. jq匹配偶数行_jQuery 偶数选择器(:even )的介绍
  5. 外文图书免费下载网站
  6. 金融学习之四——插值法求远期国债收益率
  7. avr单片机c语言计算log,AVR单片机定时器初值计算公式与方法 - 单片机定时器初值计算公式(51单片机和AVR单片机的初值计算三种方法)...
  8. java版如何使区块常加载,我的世界如何设置加载区块 | 手游网游页游攻略大全...
  9. matplotlib之直方图
  10. STC 数码管显示及74HC573在其中的应用