CVPR 2021 | “以音动人”：姿态可控的语音驱动说话人脸

本文转载自商汤学术

摘要 · 看点

本文不使用任何人为定义的结构信息（人脸关键点或者3D人脸模型），成功实现了人头姿态可控的语音驱动任意说话人脸生成。本文的关键在于，隐式地在潜空间（latent space）中定义了一个12维的姿态编码，用于头部运动控制。

本文相比于之前的方法，避免了关键点或者3D模型计算不准确带来的烦恼，又保持了自由度和鲁棒性。实现了在语音控制准确嘴型的同时，用另一段视频控制头部运动。在这一框架下，我们可以让任何人说出马老师经典的“不讲武德”发言，彩蛋在我们demo video的最后！

本文由香港中文-商汤联合实验室，商汤科技和南洋理工大学S-Lab等合作完成。

生成图像的嘴型由音频控制，与音频源视频同步；

生成图像头部运动由姿态源控制，与下方视频同步。

代码一键能跑。我们的Demo video如下：

Part 1 任务背景

语音驱动的说话人脸生成（Talking face, Talking head generation）这一课题本身有多种不同的实验设置。此方向的综述可以参考 Lele Chen 的 What comprises a good talking-head video generation? : A Survey and Benchmark [1]。

在这里本文Focus的方向为基于单张图像（One-shot），面向任意人脸，语音驱动setting下的说话人脸生成问题。具体来说，我们希望基于一张图片，生成与语音同步的说话人脸视频。

这一setting下的工作包括 VGG 组的You said that? [2] ，CUHK（笔者自己）的DAVS [3]，乐乐的ATVG [4] 以及Adobe周洋和李丁博士的MakeitTalk [5]等等。整体来讲，之前的工作[2][3][4]更多的关注于嘴型的准确性和ID的保存上，从而忽略了头部的自然运动。在本文中我们所试图解决的，是之前说话人脸生成中人头pose难以控制这一问题。

ATVG Paper中的对比图

最近的Makeittalk[5]和乐乐的Rhythmic Head[6] 则关注于和个人ID信息有关的自然头部运动。但是他们的方法都依赖于3D的结构化信息。

想独立控制头部运动，就需要对Head pose和facial expression，identity做一个解耦。通过思考我们可以意识到，这种解耦在2D图像和2D landmark的表征中都很难实现。

而在我们语音驱动的大前提下，嘴型要和audio对齐，头部运动又要自然，可以说是难上加难。另一方面，3D的人脸表征中，head pose和facial expression可以天然地用不同的参数控制，可以说是最佳选择。

因此之前的工作，Makeittalk[5]选择了3D的人脸关键点，而Rhythmic Head[6]则直接依赖于完整地3D重建。但是基于3D的人脸建模，尤其是在极端场景下，开源方法的准确度并无法保证。而基于优化算法的3D fitting还会带来大量的预处理负担。所以本文不使用3D或结构化数据，重新从2D入手解决问题。

Part 2 方法介绍

我们的方法Pose-Controllable Audio-Visual System (PC-AVS)直接在特征学习和图像重建的框架下，实现了对人头pose的自由控制。我们的核心在于隐式地在潜空间（latent space）中定义了一个12维的姿态编码，而这一设计源于对去年CVPR利用styleGAN实现Face Reeanctment[7]的工作（如下图）的参考。

但他们工作中只说明了styleGAN可以使用augmented frame进行图像到图像的控制。而在语音驱动的说话人脸问题中，condition实际来自audio的场景下，直接暴力借用这一框架将难以进行训练，因为语音并不能提供人脸姿态信息。

基于对说话人脸的观察，我们在文中把augmented图像的潜空间，定义为无ID空间（Non-Identity Space）。直观上讲，在此空间中，我们可以重新寻找嘴型与语音关联的说话内容空间（Speech Contant Space），和表示头部运动的姿态空间（Pose Space）。

我们工作的完整pipeline如下图所示，训练数据使用的是大量的含语音视频。我们使用任意的一帧作为ID参考输入，变形另一帧为，并将与对齐的语音的频谱作为condition，试图使用网络恢复。

使用数据集的ID约束，我们可以通过ID encoder 得到Identity Space；借助之前的augmentation，我们通过encder ,得到Non-Identity Space。接下来的问题是如何发挥audio的作用，以及如何让图像只约束Pose而不控制嘴型。

Learning Speech Content Space. 我们希望Non-Identity Space的feature经过一个mapping 映射至speech content space中。而这一latent space的学习，主要依赖音频和视频之间天然的对齐、同步信息（alignment）。在之前的工作中这已经被证明是audio-visual领域用处最广泛的自监督之一[8]。在这里我们使用语音与人脸序列之间的对齐构建contrastive loss进行对齐的约束；对齐的人脸序列和语音特征是正样本，非对齐的为负样本。定义两个feature之间的cos距离为，这一约束可以表达为：

Devising Pose Code. 另一方面，我们借助3D表征中的piror knowledge。一个12维度的向量其实已经足以表达人头的姿态，包括一个9维的旋转矩阵，2维的平移和1维的尺度。所以我们使用一个额外的mapping，从Non-Identity Space中映射一个12维的Pose Code。这个维度上的设计非常重要，如何维度过大，这一latent code所表达的就可能超过pose信息，导致嘴型收到影响。

最后我们把 Identity Space，Speech Content Space 和 Pose code 结合起来，送入基于StyleGAN2[9]改造的Generator。这三者的信息在Generator中通过图像重建训练进行平衡，loss形式使用了pix2pixHD的重建训练loss。

在训练中，pose code起作用的原理是，在ID和pose信息都显式地被约束的前提下，Pose Code最容易学到的信息是改变人头的姿态，以减少重建的loss。在这一目标下，因为姿态逐渐与我们的目标贴合，嘴型的重建约束也会反过来帮助audio feature的学习，从而达到平衡。

Part 3 实验结果

我们在数值上和质量上与之前SOTA的任意语音驱动人脸的方法进行了对比。在数值上，我们对比了LRW和VoxCeleb2两个数据集，重点关注于生成图像还原度（SSIM），图像清晰度（CPDB），生成嘴型landmark的准确度（LMD）和生成嘴型与音频的同步性，使用SyncNet[8]的confidence score评价（）。

我们与之前方法的对比图如下所示：

更多的Ablation和结果可以参考我们的paper和demo video，这边展示了在极端情况（大角度，低分辨率）的生成结果。展示了如果我们把pose code置0，可以实现转正的说话人脸效果。

Part 4 总结

在这个工作中，我们提出了Pose-Controllable Audio-Visual System (PC-AVS)，成功在语音任意说话人的setting下，生成了姿态可控的结果。综合来看我们的方法有以下几个特质值得关注：

我们的方法不借助预定义的结构信息，仅使用一个图像重建的pipeline，成功定义了一个对人脸pose的表征。
由style-based generator平衡的训练模式让唇形生成收到更契合的重建约束，从而提升了唇形对齐的准确度。
我们实现了任意说话人脸下的自由人头姿态控制，使生成的结果更加真实。
我们的模型在极端情况下有很好的鲁棒性，并且实现了转正的说话人脸生成。

相关链接

Paper 地址：https://arxiv.org/abs/2104.11116

Github：https://github.com/Hangz-nju-cuhk/Talking-Face_PC-AVS

Project Page：https://hangz-nju-cuhk.github.io/projects/PC-AVS

References

#What comprises a good talking-head video generation?: A Survey and Benchmark https://arxiv.org/abs/2005.03201
#Joon Son Chung, Amir Jamaludin, and Andrew Zisserman. You said that? In BMVC, 2017. https://arxiv.org/abs/1705.02966
#Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, and Xiaogang Wang. Talking face generation by adversarially disentangled audio-visual representation. In Proceedings of the AAAI ConConference on Artificial Intelligence (AAAI), 2019. https://arxiv.org/abs/1807.07860
#Lele Chen, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2019. https://www.cs.rochester.edu/u/lchen63/cvpr2019.pdf
#Yang Zhou, Xintong Han, Eli Shechtman, Jose Echevarria, Evangelos Kalogerakis, and Dingzeyu Li. Makeittalk: Speaker-aware talking head animation. SIGGRAPH ASIA, 2020. https://arxiv.org/abs/2004.12992
#Lele Chen, Guofeng Cui, Celong Liu, Zhong Li, Ziyi Kou, Yi Xu, and Chenliang Xu. Talking-head generation with rhythmic head motion. European Conference on Computer Vision (ECCV), 2020. https://www.cs.rochester.edu/u/lchen63/eccv2020-arxiv.pdf
#Egor Burkov, Igor Pasechnik, Artur Grigorev, and Victor Lem-pitsky. Neural head reenactment with latent pose descriptors. In Proceedings of the IEEE Conference on Computer Visionand Pattern Recognition (CVPR), 2020.  https://openaccess.thecvf.com/content_CVPR_2020/papers/Burkov_Neural_Head_Reenactment_with_Latent_Pose_Descriptors_CVPR_2020_paper.pdf
#Joon Son Chung and Andrew Zisserman. Out of time: auto-mated lip sync in the wild. In ACCV Workshop, 2016. https://www.robots.ox.ac.uk/~vgg/publications/2016/Chung16a/chung16a.pdf
#Tero Karras, Samuli Laine, Miika Aittala, Janne Hellsten,Jaakko Lehtinen, and Timo Aila. Analyzing and improv-ing the image quality of stylegan. InProceedings of theIEEE/CVF Conference on Computer Vision and PatternRecognition (CVPR), 2020. https://openaccess.thecvf.com/content_CVPR_2020/papers/Karras_Analyzing_and_Improving_the_Image_Quality_of_StyleGAN_CVPR_2020_paper.pdf

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

CVPR 2021 | “以音动人”：姿态可控的语音驱动说话人脸相关推荐

CVPR 2021 | 任何人都能“不讲武德”，姿态可控的语音驱动说话人脸
作者丨Johann Zhou@知乎来源丨https://zhuanlan.zhihu.com/p/367525241 编辑丨极市平台 [导读]本文介绍了一篇由香港中文大学MMLab,商汤科技和南洋理 ...
CVPR 2021 | 姿态可控的语音驱动
点上方计算机视觉联盟获取更多干货仅作学术分享,不代表本公众号立场,侵权联系删除转载于:作者丨Johann Zhou@知乎来源丨https://zhuanlan.zhihu.com/p/36752 ...
【论文解读】CVPR 2021 当之无愧的最佳论文奖：GIRAFFE，一种可控图像合成方法...
CVPR 2021 年度最佳论文奖,颁发给了来自德国马克斯 - 普朗克研究所(Max Planck Institute)的 Michael Niemeyer 和蒂宾根大学(Tubingen)的 And ...
LIVE 预告 | CVPR 2021 预讲 · 旷视专场，覆盖目标检测、蒸馏、图像降噪、人体姿态估计等...
CVPR 2021 大会将于6月19日至 25日线上举行.为促进同行之间的交流与合作,智源社区近期举办了系列CVPR 2021预讲报告,其中实验室系列将汇聚国内顶尖高校和企业实验室的研究人员为大家分享 ...
CVPR 2021 | 微软提出“解构式关键点回归“，刷新COCO自底向上多人姿态检测记录！
随着深度学习的发展,运用计算机视觉中的人体姿态估计技术已经能够高精度地从人体的图片中检测出人体关键点,并恢复人体位姿.在应用端,此技术也已经在人机交互.影视制作.运动分析.游戏娱乐等各领域大放异彩. ...
CVPR 2021 | 微软提出解构式关键点回归，刷新COCO自底向上多人姿态检测记录！...
本文转载自微软研究院AI头条. 编者按:在拥挤的人群的场景下,由于人群过于密集,重合程度太高,所以每个人的位置难以用人体检测框表示,而传统的一些自下而上的人体姿态估计算法也很难检测到人物的关键点.因此 ...
悉尼科技大学入选 CVPR 2021 的 9 篇论文，都研究什么？
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达作者丨Pablo@知乎(已授权) 来源丨https://zhuanl ...
LIVE 预告 | CVPR 2021 预讲 · 悉尼科技大学ReLER实验室专场
CVPR 2021 大会将于6月19日至 25日线上举行.为促进同行之间的交流与合作,智源社区近期举办了系列CVPR 2021预讲报告,其中实验室系列将汇聚国内顶尖高校和企业实验室的研究人员为大家分享 ...
CVPR 2021大奖出炉！何恺明获最佳论文提名，第一届Thomas S. Huang 纪念奖颁发
作者 | 陈大鑫.琰琰.青暮就在刚刚,CVPR 2021最佳论文.最佳学生论文等奖项出炉了! 其实在前不久,CVPR 2021官方推特上就公布了本次CVPR 2021最佳论文奖的32篇候选论文,按照 ...

CVPR 2021 | “以音动人”：姿态可控的语音驱动说话人脸

CVPR 2021 | “以音动人”：姿态可控的语音驱动说话人脸相关推荐

最新文章

热门文章