FaceShifter：北大微软新方法让换脸更惊艳

点击我爱计算机视觉标星，更快获取CVML新技术

本文转载自机器之心。

选自arXiv

作者：Lingzhi Li等

机器之心编译

参与：王子嘉、思

换脸效果不够真实，能让你看出破绽？看看北大和微软的研究者如何生成更加真实的换脸效果，如何解决遮挡、光线等各种问题。

换脸是非常吸引人的一种应用，开发者可以用 VAE 或 GAN 做出非常炫酷的效果。一般而言，换脸会将 A 脸特征换到 B 脸上，同时保留 B 脸的神情或动态。像 FaceSwap 这样开源项目已经能生成非常真实的假脸视频，不过仔细看看仍然会发现有的地方存在模糊，有的地方转换不太自然。

那么怎样才能生成转换更自然，效果更真实的换脸视频？这就是这篇论文的研究目的，研究者新模型不仅感官上更真实，同时还保留了比其它前沿方法更多的个人特征。

下面我们先看看效果：

研究者同时从网络上下载人脸图像以展示 FaceShifter 的强大能力。如图 11 所示，新方法可以处理不同情况下（如夸张的动作、非常见光照以及极其复杂的面部遮挡）的人脸图像。

研究者此次提出了一种新型的两段式框架——FaceShifter。这个框架可以完成高保真的换脸过程，在面部有遮挡时依然可以很好地工作。不像那些只利用有限信息就完成换脸任务的框架，该框架中的第一部分就自适应地整合了目标图像的所有属性以生成高保真的换脸图片。

此外，研究者提出了一种新型的属性编码器以提取人脸图像的多级属性，同时提出了一种基于 Adaptive Attentional Denormalization (AAD) 的新型生成器，自适应地整合人脸合成时所需的特征和属性。

为了解决脸部遮挡的问题，研究者在框架中加入了第二部分——Heuristic Error Acknowledging Refinement Network (HEAR-Net)。这个网络通过自监督的方式，在没有人工标注的情况下实现异常区域的修复。

下面，让我们看看这种高逼真度的换脸到底是怎么样的。

论文：FaceShifter: Towards High Fidelity And Occlusion Aware Face Swapping

论文地址：https://arxiv.org/pdf/1912.13457.pdf

换脸的缺陷与改进

换脸技术就是将目标图像中人脸的面部特征替换为源图像人脸的对应部分，同时还要保留一些如头部动作、脸部表情、光线、背景等基本属性。由于这一技术在电影合成、电脑游戏以及隐私保护等方面有很广泛的应用前景，这一技术已经广泛引起了视觉和图像领域的关注。

最近，基于 GAN 的一些工作已经取得了很不错的结果。但是，如何生成真实且保真的图像依旧是个很大的难题。

因此我们这项工作的重点之一就是提高换脸后图像的保真度。为了让结果在感官上更具吸引力，如何让合成的换脸图像无缝融入新脸，同时保持原有姿势表情，这就是我们要研究的重点。也就是说，换脸图像的渲染应当忠于目标图像的光线（方向，强度，颜色等），被交换的脸也应该跟目标图像有相同的分辨率。

这些都不是仅仅 Alpha 或是 Poisson 混合能够解决的，我们真正需要的是让换脸过程可以自适应地继承目标图像完整属性信息，这样目标图像的属性（亮度、分辨率等）就可以让换脸后的图像变得更加真实。

然而，以前的方法要么忽略了这一需求，要么就是无法自适应或者完整地集成这些信息。具体来说，以往的许多方法仅利用目标图像的姿态和表情来指导换脸过程，然后利用目标人脸 Mask 将人脸混合到目标图像中。这一过程容易产生一些缺陷，因为：

1）在合成换脸图像时，除了姿态和表情外，对目标图像的了解很少，很难保证场景光照或图像分辨率等目标属性不发生变化；2）这样的混合将丢弃位于目标 Mask 外部的源面部特征。

因此，这些方法不能保持源标识的面形，我们在图 2 中展示了一些典型的失败案例。

图 2：之前方法在 FaceForensics++数据集上的失败案例

为了实现高保真的人脸交换结果，在框架的第一阶段，我们设计了一个基于 GAN 的网络以对目标属性进行彻底的自适应集成，并称之为自适应嵌入集成网络（Adaptive Embedding Integration Network，AEI-Net）。我们对网络结构做了两个改进：

1）我们提出了一种新的多级属性编码器，用于提取各种空间分辨率下的目标属性，而不是像 RSGAN[28] 和 IPGAN[5] 那样将其压缩成单个向量；

2）提出了一种有 Adaptive Attentional Denormalization(AAD) 层的新型生成器器，该发生器自适应地学习了在何处集成属性以及特征的嵌入。与 RSGAN[28]、FSNet[27] 和 IPGAN[5] 的单级集成相比，这种自适应集成为结果带来了相当大的改进。

通过这两个改进，我们提出的 AEI-Net 可以解决图 2 中光照不一致和人脸形状不一致的问题。

此外，处理面部的遮挡一直是换脸的挑战。Nirkin 等人的方法中对人脸进行分割并训练以使其能感知到脸部的遮挡部分，我们的方法可以以一种自监督的方式学习恢复人脸异常区域，而且不需要任何人工标注。我们观察到，当把同一张人脸图像同时作为目标图像和源图像，并输入到一个训练良好的 AEI 网络时，重建的人脸图像跟输入图像有多处改变，这些改变所在的位置基本上就是脸部遮挡的区域。

因此，我们提出了一种新的 Heuristic Error Acknowledging Refinement Network (HEAR-Net)，在这种重构误差的指导下进一步精化结果。重要的是，这个方法不止是能修正脸部遮挡，它还可以识别很多其他的异常类型，如眼镜、阴影和反射效应。

我们提出的两段式换脸框架 FaceShifter 与场景无关。一旦训练完成，该模型就可以应用于任何新的人脸对，而不需要像 DeepFakes 和 Korshunova 等人的 [21] 那样找特定的受试者训练。实验结果表明，与其他先进的方法相比，我们的方法获得的结果更真实、更可靠。

FaceShifter 模型什么样

我们的方法需要输入两张图像——提供人脸特征的源图像 X_s 以及提供动作、表情、光线、背景等属性的目标图像 X_t。最终的换脸图像是通过两段式框架 FaceShifter 生成的。在第一阶段中, 我们的 AEINet 自适应地基于集成信息生成了一个高保真的换脸结果

。在第二阶段，我们使用 Heuristic Error Acknowledging Network (HEARNet) 来处理面部遮挡，并对结果进行改进，最后的结果用表示。

自适应嵌入集成网络（Adaptive Embedding Integration Network）

在第一阶段，我们希望生成一个高保真（拥有源图像 X_s 特征，且保留目标图像 X_t 动作等属性）的人脸图像。为了达到这一目标，我们的方法包含三个模块：

i）从源图像中抽取特征的特征编码器 z_id(X_s)；

ii）从目标图像 X_t 抽取属性的多级属性编码器 z_att(X_t)；

iii）基于 Adaptive Attentional Denormalization (AAD) 生成换脸图像的生成器。

启发式误差修正网络（Heuristic Error Acknowledging Refinement Network）

尽管 AEINet 第一阶段的换脸结果已经能很好的获取目标图像的动作、表情、光照等属性，但是当目标脸部图像 Xt 中对脸部有遮挡时，这种遮挡就很难被继承下来。为了解决这个问题，过去的一些方法 [30,29] 加入了一个新的脸部分割网络。这个网络的训练数据需要进行大量标注（哪一部分有遮挡），而且这种有监督方式可能很难识别出未知的遮挡方式。

对于面部遮挡问题，我们提出了一种启发式的方法。如图 4(a) 所示，当目标图像中的脸被遮挡时（头发或是帽子上的铁链），有一部分遮挡会在换脸过程中小时。同时，我们发现，就算我们把同一张图同时作为源图像和目标图像输入给训练好的 AEI-Net，这种遮挡还是会在重建的图像中消失。此时这种输出与输入的误差，就可以作为我们定位面部遮挡的依据，我们把这种依据叫做输入图像的启发式错误，因为这个误差启发性的表征了异常发生的位置。

实验效果怎么样

与过去方法的比较

1. 定性对比

图 5 展示了我们在 FaceForensics++数据集上与 FaceSwap [2], Nirkin et al. [30], DeepFakes [1] 和 IPGAN [5] 的比较。

图 6 则展示了我们的方法与最新方法 FSGAN 的对比。

由于 FaceSwap [2], Nirkin et al. [30], DeepFakes [1] 和 IPGAN [5] 的策略都是先生成脸部区域图像，然后将其嵌入到目标脸中，我们可以从比较中明显的看出这些方法的嵌入误差。

这些方法生成的所有人脸与其目标人脸有着完全相同的人脸轮廓，而且源人脸的形状也被忽略了（图 5 第 1-4 行及图 6 第 1-2 行）。除此之外, 他们的研究结果一定程度上忽略了目标图像的一些重要信息，如光照（图 5 第 3 行，图 6 第 3 - 5 行），图像分辨率（图 5 第 2 行和第 4 行）。由于 IPGAN[5] 的矩阵只描述了单一级别的属性，因此其所有样本都显示出了分辩率下降的问题。同时，IPGAN 也不能很好地保存目标面部的表情，如闭上的眼睛（图 5 第 2 行）。

我们的方法很好地解决了所有这些问题，实现了更高的保真度——保留了源人脸（而非过去的目标人脸）的脸部轮廓，且保证了目标图像（而非过去的源人脸）的光线与图像分辨率。我们的方法在处理面部遮挡问题上的表现甚至可以超过 FSGAN [29]。

2. 定量对比

我们使用不同的人脸识别模型 [41] 提取特征向量，并采用余弦相似度来度量特征差距。我们从 FaceForensics++的原始视频中为每个测试集中的换脸结果匹配了一张最接近的脸，以检查这张脸是否属于正确的源视频。表 1 中的 ID 就是使用该方法获得的平均准确率，这个方法可以用来测试特征保留能力。我们提出的框架获得了更高的 ID 分数，且检索范围很大。

3. 人为评估

我们做了三次用户调研，以评测本模型的表现。我们让用户从以下选项中选择：i）与源脸最相似的图像；ii）与目标图像有最相似动作、表情、光照的图像；iii）最真实的图像。

表 2 展示了每个方法在其研究中的平均被选取率。这个结果现实我们的模型在大范围上超过了其余三个模型。

框架分析

图 7：AEI-Net 与三个 baseline 模型的对比结果

图 8：在不同特征级上，AAD 层中基于注意力机制的 Mask Mk 可视化。

图 9：基于属性嵌入的查询结果

图 10：第二阶段中修正结果展示了 HEAR-Net 在各种误差（遮挡、反光、动作微移、颜色）上的强大能力。

人脸技术交流群

关注最新最前沿的人脸检测、识别、换脸、重建技术，扫码添加CV君拉你入群，（如已为CV君其他账号好友请直接私信）

（请务必注明：人脸）

喜欢在QQ交流的童鞋，可以加52CV官方QQ群：805388940。

（不会时时在线，如果没能及时通过验证还请见谅）

长按关注我爱计算机视觉

FaceShifter：北大微软新方法让换脸更惊艳相关推荐

4月12日云栖精选夜读：阿里云黄海宇：窄带高清2.0——让直播更惊艳的魔术
2018年4月11-12日,2018亚太CDN峰会在北京隆重召开,大会由亚太CDN领袖论坛.电视云论坛.短视频论坛.视频云论坛.新技术论坛.运营商论坛.国际云论坛等7大部分组成.在视频云论坛上,阿里云 ...
阿里云黄海宇：窄带高清2.0——让直播更惊艳的魔术
摘要: 2018年4月11-12日,2018亚太CDN峰会在北京隆重召开,大会由亚太CDN领袖论坛.电视云论坛.短视频论坛.视频云论坛.新技术论坛.运营商论坛.国际云论坛等7大部分组成.在视频云论坛上 ...
渲染新选择——Corona Renderer 7 惊艳发布
2021年7月21日,Chaos Czech发布了适用于3ds Max的Corona Renderer 7,这一更新旨在增强3D场景的真实感并全面提升渲染速度.从逼真的织物到广阔的天空效果,Coron ...
PostFX v2后期处理特效包：升级更惊艳的视觉效果
https://mp.weixin.qq.com/s/BMkLLuagbhRSWspzeGhK7g Post-Processing Stack后期处理特效包能够轻松创建和调整高质量视觉效果,实现更为惊 ...
Adobe秀出十大PS新神技，个个惊艳炸裂！
本文经AI新媒体量子位(公众号ID:qbitai )授权转载,转载请联系出处真的,说到P图,Adobe不是针对谁-- 这家已经发展成全家桶的公司,未来可能依然王旗不倒. 不信?他们刚刚秀出了基于人工 ...
AdvFlow：一种基于标准化流的黑盒攻击新方法，产生更难被发觉的对抗样本 | NeurIPS‘20
本文提出一种新的黑盒对抗攻击方法AdvFlow,通过利用标准化流来建模对抗样本的数据分布,使得生成的对抗样本的分布和正常样本接近,从而让对抗样本更难被检测出来,打破了对抗样本和正常样本的分布大不相同的 ...
微软混合现实设备HoloLens 2惊艳发布，售价2.4万人民币
最强MR硬件?HoloLens 2 强势归来距离HoloLens一代正式发布,已经过去三年多的时间了. 2016年,一款名为HoloLens的头戴式显示器问世,配有深度感应摄像头和光学投影系统,可将 ...
87岁老奶奶用微软自带画图软件绘画惊艳了世人
摘要:到了耄耋之年,一般老奶奶都会选择在公园或者阳台晒太阳打发时间,而 87 岁的 Concha Garcia Zaera 却有一个特殊的爱好--用微软自带微软画图软件 Paint 绘画. 到了耄耋之 ...
参考优秀案例，让你设计的网页更惊艳？
在进行网页设计的过程中,设计师们常常会遇到版式死板,配色单调,整体感染力不足的情况,使得视觉效果相当平淡,现在更多UI设计师选择在集设网www.ijishe.com交流社区进行学习探讨!供各位设计师 ...

FaceShifter：北大微软新方法让换脸更惊艳

FaceShifter：北大微软新方法让换脸更惊艳相关推荐

最新文章

热门文章