ICCV 2021 | FACIAL ：动态谈话人脸视频生成，姿态，眨眼皆可控！

来源：AI科技评论

本文是对发表于计算机视觉领域的顶级会议 ICCV 2021的论文“FACIAL: Synthesizing Dynamic Talking Face with Implicit Attribute Learning（具有隐式属性学习的动态谈话人脸视频生成）”的解读。

论文链接：https://arxiv.org/pdf/2108.07938.pdf

视频简介：https://m.youtube.com/watch?v=hl9ek3bUV1E

作者：张晨旭（德克萨斯大学达拉斯分校）；赵一凡（北京航空航天大学）；黄毅飞（华东师范大学）；曾鸣（厦门大学）；倪赛凤（三星美国研究院）；Madhukar Budagavi（三星美国研究院）；郭小虎（德克萨斯大学达拉斯分校）。

研究背景

音频驱动的动态人脸谈话视频生成已成为计算机视觉、计算机图形学和虚拟现实中的一项重要技术。然而这一过程中，生成逼真的人脸视频仍然非常具有挑战性，这不仅要求生成的视频包含与音频同步的唇部运动，同时个性化、自然的头部运动和眨眼等属性也是十分重要的。动态谈话人脸合成所蕴含的信息大致可以分为两个不同的层次：

1）需要与输入音频同步的属性，例如，与听觉语音信号有强相关性的唇部运动；

2）与语音信号具有较弱相关性的属性，即与语音上下文相关、与个性化谈话风格相关的其他属性（头部运动和眨眼）。

归纳总结上述两种不同类型的属性，我们称第一类属性为显式属性，第二类为隐式属性。

图 1 三种典型的音频引导的谈话人脸合成方法。

a）图像输入作为指导，不生成隐式属性，

b）视频输入作为指导，隐式属性是从原视频中复制得到，

c）本方法内容：以视频输入为指导，同时生成隐式和显式特征。

如图1所示，大多数现有生成方法只关注于人脸的显式属性生成，即通过输入语音，合成同步的唇部运动属性。这些方法合成的人脸结果要么不具有隐式属性[1,2]（图1中a所示），要么复制原始视频的隐式属性[3,4]（图1中b所示）。只有少部分工作[5,6]探索过头部姿势与输入音频之间的相关性。

尽管这些工作针对生成属性进行了不同侧面的探究，但是对这些属性的具体研究，仍存在以下问题：（1）显式和隐式属性如何潜在地相互影响？(2) 如何对隐式属性进行建模？例如头部姿势和眨眼等属性不仅取决于语音信号，还取决于语音信号的上下文特征以及与个体相关的风格特征。

方法介绍

图 2 音频驱动的隐式-显式属性联合学习的谈话人脸视频合成框架。

如图2所示，我们提出了一个人脸隐式属性学习（FACIAL）框架来合成动态的谈话人脸视频。

(1)我们的 FACIAL 框架使用对抗学习网络联合学习这一过程中的隐式和显式属性。我们提出以协作的方式嵌入所有属性，包括眨眼信息、头部姿势、表情、个体身份信息、纹理和光照信息，以便可以在同一框架下对它们用于生成说话人脸的潜在交互进行建模。

(2) 我们在这个框架中设计了一个特殊的 FACIAL-GAN网络来共同学习语音、上下文和个性化信息。这一网络将一系列连续帧作为分组输入并生成上下文隐空间向量，该向量与每个帧的语音信息一起由单独的基于帧的生成器进一步编码。因此，我们的 FACIAL-GAN 可以很好地捕获隐式属性（例如头部姿势等）、上下文和个性化信息。

(3) 我们的 FACIAL-GAN 还可以预测眨眼信息，这些信息被进一步嵌入到最终渲染模块的眼部相关的注意力图中，用于在输出视频合成逼真的眼部运动信息。实验结果和用户研究表明，我们的方法可以生成逼真的谈话人脸视频，该生成视频不仅具有同步的唇部运动，而且具有自然的头部运动和眨眼信息。并且其视频质量明显优于现有先进方法。

图 3 本方法提出的FACIAL-GAN网络结构框架

如图3所示，FACIAL-GAN 由三个基本部分组成：时间相关生成器用于构建上下文关系和局部语音生成器用于提取每一帧特征。此外，使用判别器网络来判断生成的属性的真假。（具体的网络细节请参考原文内容）

实验结果分析

定性比较实验

图 4 与现有音频驱动的人脸视频生成方法的定性比较结果

如图4，图5，图6所示，我们与现有音频驱动的人脸视频生成方法进行比较。相比之下，通过显式和隐式属性的协同学习，我们的方法生成具有个性化的头部运动，考虑到不同个体的运动特性，同时可以生成更加逼真眨眼信息的人脸视频。（详细的比较结果请参考上述的视频链接）

图 5 与 Vougioukas，Chen等方法的定性对比

图 6 与 Suwajanakorn，Thies等方法的定性对比

定量比较实验

我们同时通过定量化分析实验，如关键点运动偏移，视听同步置信度进行衡量，具体信息如表1所示。本文所提出的联合隐式和显式属性生成框架，超越了大多数现有方法，在各项属性生成任务中，均具有较优的解析质量。

如表2所示，我们通过进行主观的用户研究（User Study），即从人类观察的角度比较生成的结果，其中更大的数值代表更优的生成质量和用户认可度。

结语

在这项工作中，除传统的唇部运动等显式属性之外，我们以自然头部姿势和眨眼信息等隐式属性作为学习目标，优化谈话人脸视频的生成质量和真实度。但需要注意的是，人脸谈话视频仍然具有其他更细节的隐式属性，例如，眼球运动、身体和手势、微表情等等。这些属性可能受其他更深层次维度信息的引导，可能需要其他网络组件的特定设计，仍有待于未来进一步探究。我们希望本文提出的FACIAL 框架可以为未来探索隐式属性学习提供一种新颖的研究思路和启发。

参考文献

[1] Lele Chen, Ross K Maddox, Zhiyao Duan, and Chenliang Xu. Hierarchical cross-modal talking face generation with dynamic pixel-wise loss. CVPR, 2019.

[2] Hang Zhou, Yu Liu, Ziwei Liu, Ping Luo, and Xiaogang Wang. Talking face generation by adversarially disentangled audio-visual representation. AAAI, 2019.

[3] Supasorn Suwajanakorn, Steven M Seitz, and Ira Kemelmacher-Shlizerman. Synthesizing obama: learning lip sync from audio. TOG, 2017.

[4] Justus Thies, Mohamed Elgharib, Ayush Tewari, Christian Theobalt, and Matthias Nießner. Neural voice puppetry: Audio-driven facial reenactment. ECCV, 2020.

[5] Ran Yi, Zipeng Ye, Juyong Zhang, Hujun Bao, and Yong-Jin Liu. Audio-driven talking face video generation with natural head pose. arXiv preprint arXiv:2002.10137, 2020.

[6] Yang Zhou, Xintong Han, Eli Shechtman, Jose Echevarria, Evangelos Kalogerakis, and Dingzeyu Li. Makelttalk: speaker-aware talking-head animation. TOG, 2020.

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「3D视觉工坊」公众号后台回复：3D视觉，即可下载 3D视觉相关资料干货，涉及相机标定、三维重建、立体视觉、SLAM、深度学习、点云后处理、多视图几何等方向。

下载2

在「3D视觉工坊」公众号后台回复：3D视觉github资源汇总，即可下载包括结构光、标定源码、缺陷检测源码、深度估计与深度补全源码、点云处理相关源码、立体匹配源码、单目、双目3D检测、基于点云的3D检测、6D姿态估计源码汇总等。

下载3

在「3D视觉工坊」公众号后台回复：相机标定，即可下载独家相机标定学习课件与视频网址；后台回复：立体匹配，即可下载独家立体匹配学习课件与视频网址。

重磅！3DCVer-学术论文写作投稿 交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、多传感器融合、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等微信群。

一定要备注：研究方向+学校/公司+昵称，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，可快速被通过且邀请进群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、orb-slam3等视频课程）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近2000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~

ICCV 2021 | FACIAL ：动态谈话人脸视频生成，姿态，眨眼皆可控！相关推荐

单张人像生成视频！中国团队提出FaceAnime：最新3D人脸视频生成模型
点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达转载自:新智元 | 来源:IEEE 编辑:好困 [导读]稀疏人脸特征点生成的人脸图像视频通常会遇到图像质量 ...
学术速递4 | 谷歌混合精度量化 | 清华语音人脸视频生成 | 谭铁牛步态识别对抗攻击 | 北大点云数据
几篇近期的paper: 清华:音频驱动的具有自然头部姿势的语音人脸视频生成谭铁牛:对步态识别的时间稀疏对抗性攻击 Google Brain:无需专用硬件加速的混合精度量化北大:SemanticP ...
单张人像生成视频！中国团队提出最新3D人脸视频生成模型，实现SOTA
来源:IEEE 编辑:新智元 [导读]稀疏人脸特征点生成的人脸图像视频通常会遇到图像质量损失.图像失真.身份改变,以及表情不匹配等问题.为此作者使用重建出的三维人脸动态信息来指导人脸视频的生成.结果显 ...
华人一作登ICCV 2021，实时超分新SOTA！AutoML显神威：1%参数量，超清视频70倍加速...
视学算法报道作者:詹政编辑:好困小咸鱼 [新智元导读]东北大学王言治团队将网络结构搜索与剪枝搜索相结合,提出了全新的自动搜索框架.该AutoML框架得到的稀疏模型能够在移动设备上实时且高 ...
ICCV 2021 | 英伟达新研究：直接通过视频就能捕获3D人体动作！
丰色发自凹非寺来源:量子位(QbitAI) 不靠昂贵的动捕,直接通过视频也能提取3D人体模型然后进行生成训练: 英伟达这项最新研究不仅省钱,效果也不错-- 其合成的样本完全可以用在以往只在动捕数 ...
ICCV 2021 Oral | AdaFocus：利用空间冗余性实现高效视频识别
©原创 · 作者 | 王语霖单位 | 清华大学自动化系研究方向 | 机器学习.计算机视觉本文主要介绍我们被 ICCV 2021 会议录用为 Oral Presentation 的一篇文章:Ada ...
ICCV 2021 oral 重构+预测，双管齐下提升视频异常检测性能
关注公众号,发现CV技术之美本文分享 ICCV 2021 oral 论文『A Hybrid Video Anomaly Detection Framework via Memory-Augmente ...
微软亚洲研究院论文解读：基于动态词表的对话生成研究（PPT+视频）
本文为 12 月 27 日,北京航空航天大学博士生.微软亚洲研究院实习生--吴俣在第 21 期 PhD Talk 中的直播分享实录. 本次 Talk 的主题是基于动态词表的对话生成研究.首先,吴俣博士 ...
ICCV 2021 | 带你了解微软亚洲研究院CV领域前沿进展
关注公众号,发现CV技术之美 (本文阅读时间:21分钟) 编者按:2021年计算机视觉领域顶级会议 ICCV 于10月11日至17日在线上正式召开.此次大会共收到6236篇投稿,其中1617篇论文被接 ...
ICCV 2021 最新200篇ICCV2021论文分方向汇总
ICCV 2021 结果出炉!最新200篇ICCV2021论文分方向汇总(更新中) - 知乎不久前,计算机视觉三大顶会之一ICCV2021接收结果已经公布,本次ICCV共计 6236 篇有效提交论文 ...

ICCV 2021 | FACIAL ：动态谈话人脸视频生成，姿态，眨眼皆可控！

ICCV 2021 | FACIAL ：动态谈话人脸视频生成，姿态，眨眼皆可控！相关推荐

最新文章

热门文章