[人脸对齐] SAN：Style Aggregated Network for Facial Landmark Detection 论文阅读

转载请注明作者和出处： http://blog.csdn.net/john_bh/

论文链接: Style Aggregated Network for Facial Landmark Detection
作者及团队：悉尼科技大学 & 悉尼大学
会议及时间：CVPR 2018
code: 作者开源github 地址

文章目录

1. 主要贡献
2. SAN
- 2.1 StyleAggregated Face Generation Module
- 2.2 Facial Landmark Prediction Module
3. Experiments
- 3.1 Ablation Studies
- 3.2 Discussions of Benchmark Datasets

1. 主要贡献

作者认为人脸关键点检测中，除了人脸图像本身之间的差异，图像风格的内在差异也是一个待续解决的问题，于是提出了一种基于风格聚合的人脸地标检测方法。

通过生成对抗模块将原始人脸图像转换为风格聚合图像，采用风格聚合图像来保持对环境变化具有更强鲁棒性的人脸图像。
将原始人脸图像与风格聚合的人脸图像一起训练 landmark 检测器，原始图像和聚合图像形成互补，提升检测器性能；
提出 300W-Style 和 AFLW-Style 数据集。

图1显示了人脸图像的三种不同风格，以及使用训练好的检测器时对它们的人脸 landmark 的预测结果。这三幅图像的内容是一样的，但是视觉风格是截然不同的，包括原图、灰度和光线。我们可以观察到，对同一面部地标的位置预测可能会有所不同。

图2展示了在数据集AFLW 和 300W 中的存在不同风格数据对比。

2. SAN

如图3 所示，作者设计了一款对风格变化不敏感的人脸关键点检测网络，包含两个模块：

第一个是样式聚合的人脸生成模块，它将输入图像转换为不同的样式，然后将它们组合为样式聚合的人脸，以对抗风格变化的影响；
第二个是人脸 landmark 检测器模块，该模块以原始图像和风格聚合的图像为输入，得到两个互补的特征，然后将两个特征融合，级联生成热图预测。

2.1 StyleAggregated Face Generation Module

因为公开的数据集并没有特别严格的风格标签，所以不能使用 I2I 和 style-tansfer 直接进行风格转换。作者提出使用无监督的方法：

首先使用PS 为每个原始图像生成3中不同风格的图像；
学习风格信息：将原始图像和生成的3中风格图像，共四种风格一起送到 ResNet-152 模型中，进行微调。这里的 average pool 可以看看作是风格区分特征；(使用四种风格数据再ImagNet 的预训练模型上训练 2 个epoch, learning rate=0.01 )
得到风格信息 Label ：通过k-means自动将整个数据集聚成 kkk 种隐藏风格；(k=3k=3k=3),300W聚类结果如图6所示。
最后，将不同聚类中的人脸图像视为不同的隐藏风格，然后通过CycleGAN训练人脸生成风格聚合的人脸。CycleGAN能够保留输入图像的结构，因为它的循环一致性损失保证了重建图像与输入图像的紧密匹配。

具体流程如图4所示：

2.2 Facial Landmark Prediction Module

人脸关键点预测模块流程如图3所示：绿色流表示聚合风格的人脸，蓝色流表示原始风格中的人脸。蓝色流包含人脸的未失真外观内容，但图像风格可能有所不同。绿色流包含了人脸周围的静止环境，但可能由于GAN造成的保真度较低而缺乏一定的形状信息。所以，通过利用他们互补的信息，可以产生更可靠的预测。

关键点预测模块中，使用VGG-16的前4个卷积块和另外两个卷积层作为特征提取部分，如图3所示。

输入原始图像 IoI_oIo 和风格聚图像 IsI_sIs 到特征提取部分, 输出原始图像特征 FoF_oFo 和风格聚图像特征 FsF_sFs；
生成 2D belief map, 首先FoF_oFo 和 FsF_sFs 经过 g1g_1g1 的 FCFCFC 层，输出HoH_oHo 和 HsH_sHs；
接着，FoF_oFo, FsF_sFs, HoH_oHo, HsH_sHs concate ,经过 g2g_2g2 的 FCFCFC 层，输出H2H_2H2 ：
最后一个stage,和第二个stage 相似，FoF_oFo, FsF_sFs, H2H_2H2 concate ,经过 g3g_3g3 的 FCFCFC 层，输出H3H_3H3 ：

关键点预测模块的损失函数如下：

where H∗H^∗H∗ represents the ideal belief map. 这里的ideal belief map 是什么？

为了生成最终的 landmark 坐标，首先使用 bicubic interpolation 将 belief map H3H_3H3向上采样到原始图像大小；然后在每个 belief map上使用 argmaxargmaxargmax 函数得到每个 landmark 的坐标.

3. Experiments

300W：GT 表示ground truth face bounding box, OD 表示 official detector：

AFLW：

3.1 Ablation Studies

可以看到，如果去除原始的人脸图像或生成的 style aggregate人脸图像，性能会明显下降，说明了以两幅互补的人脸图像作为输入，有利于人脸地标的预测。

图6显示了 k-means 在300-W 上的聚类结果数据集。可以发现，一个聚类中的大多数人脸图像具有相似的风格。由三个聚类生成的平均人脸图像包含不同的风格。如果我们直接使用ImageNet预先训练好的特征进行k-means聚类，我们不能保证将人脸分组成不同的隐藏风格。在实验中，发现ImageNet预先训练的特征倾向于根据性别或其他信息对人脸图像进行分组。

3.2 Discussions of Benchmark Datasets

提出 300W-Style 和 AFLW-Style 数据集，如图7所示：
Can PS-generated images be realistic？
选择了三种具有代表性的滤镜来生成不同风格的图像。这些滤镜已被用户广泛用于编辑他们的照片并上传到互联网上。因此，提出的数据集是现实的。

把探测器训练成轻型的并在不同类型的300-W测试集上对训练良好的检测器进行评估。表3,表4,表5为16种训练与测试风格组合的评价结果。
Effect of SAN for style variances
第一行显示了ground truth landmarks，第二行和第三行分别显示了没有GAN和SAN的SAN的预测。在第一列中，基本检测器无法进行面部轮廓预测，而来自SAN的预测仍保留了整体结构。在第四列中，来自基本检测器的一些异常向右漂移，而SAN则没有。