转载请注明作者和出处: http://blog.csdn.net/john_bh/

论文链接: Style Aggregated Network for Facial Landmark Detection
作者及团队:悉尼科技大学 & 悉尼大学
会议及时间:CVPR 2018
code: 作者开源github 地址

文章目录

  • 1. 主要贡献
  • 2. SAN
    • 2.1 StyleAggregated Face Generation Module
    • 2.2 Facial Landmark Prediction Module
  • 3. Experiments
    • 3.1 Ablation Studies
    • 3.2 Discussions of Benchmark Datasets

1. 主要贡献

作者认为人脸关键点检测中,除了人脸图像本身之间的差异,图像风格的内在差异也是一个待续解决的问题,于是提出了一种基于风格聚合的人脸地标检测方法。

  • 通过生成对抗模块将原始人脸图像转换为风格聚合图像,采用风格聚合图像来保持对环境变化具有更强鲁棒性的人脸图像。
  • 将原始人脸图像与风格聚合的人脸图像一起训练 landmark 检测器,原始图像和聚合图像形成互补,提升检测器性能;
  • 提出 300W-Style 和 AFLW-Style 数据集。

图1显示了人脸图像的三种不同风格,以及使用训练好的检测器时对它们的人脸 landmark 的预测结果。这三幅图像的内容是一样的,但是视觉风格是截然不同的,包括原图、灰度和光线。我们可以观察到,对同一面部地标的位置预测可能会有所不同。

图2展示了在数据集AFLW 和 300W 中的存在不同风格数据对比。

2. SAN

如图3 所示,作者设计了一款对风格变化不敏感的人脸关键点检测网络,包含两个模块:

  • 第一个是样式聚合的人脸生成模块,它将输入图像转换为不同的样式,然后将它们组合为样式聚合的人脸,以对抗风格变化的影响;
  • 第二个是人脸 landmark 检测器模块,该模块以原始图像和风格聚合的图像为输入,得到两个互补的特征,然后将两个特征融合,级联生成热图预测。

2.1 StyleAggregated Face Generation Module

因为公开的数据集并没有特别严格的风格标签,所以不能使用 I2I 和 style-tansfer 直接进行风格转换。作者提出使用无监督的方法:

  1. 首先使用PS 为每个原始图像生成3中不同风格的图像;
  2. 学习风格信息:将原始图像和生成的3中风格图像,共四种风格一起送到 ResNet-152 模型中,进行微调。这里的 average pool 可以看看作是风格区分特征;(使用四种风格数据再ImagNet 的预训练模型上 训练 2 个epoch, learning rate=0.01 )
  3. 得到风格信息 Label :通过k-means自动将整个数据集聚成 kkk 种隐藏风格;(k=3k=3k=3),300W聚类结果如图6所示。
  4. 最后,将不同聚类中的人脸图像视为不同的隐藏风格,然后通过CycleGAN训练人脸生成风格聚合的人脸。CycleGAN能够保留输入图像的结构,因为它的循环一致性损失保证了重建图像与输入图像的紧密匹配。

具体流程如图4所示:

2.2 Facial Landmark Prediction Module

人脸关键点预测模块流程如图3所示:绿色流表示聚合风格的人脸,蓝色流表示原始风格中的人脸。蓝色流包含人脸的未失真外观内容,但图像风格可能有所不同。绿色流包含了人脸周围的静止环境,但可能由于GAN造成的保真度较低而缺乏一定的形状信息。所以,通过利用他们互补的信息,可以产生更可靠的预测。

关键点预测模块中,使用VGG-16的前4个卷积块和另外两个卷积层作为特征提取部分,如图3所示。

  1. 输入原始图像 IoI_oIo​ 和 风格聚图像 IsI_sIs​ 到特征提取部分, 输出原始图像特征 FoF_oFo​ 和 风格聚图像特征 FsF_sFs​;
  2. 生成 2D belief map, 首先FoF_oFo​ 和 FsF_sFs​ 经过 g1g_1g1​ 的 FCFCFC 层,输出HoH_oHo​ 和 HsH_sHs​;
  3. 接着,FoF_oFo​, FsF_sFs​, HoH_oHo​, HsH_sHs​ concate ,经过 g2g_2g2​ 的 FCFCFC 层,输出H2H_2H2​ :
  4. 最后一个stage,和第二个stage 相似,FoF_oFo​, FsF_sFs​, H2H_2H2​ concate ,经过 g3g_3g3​ 的 FCFCFC 层,输出H3H_3H3​ :

关键点预测模块的损失函数如下:

where H∗H^∗H∗ represents the ideal belief map. 这里的ideal belief map 是什么?

为了生成最终的 landmark 坐标,首先使用 bicubic interpolation 将 belief map H3H_3H3​向上采样到原始图像大小;然后在每个 belief map上使用 argmaxargmaxargmax 函数得到每个 landmark 的坐标.

3. Experiments

  • 300W:GT 表示ground truth face bounding box, OD 表示 official detector:

    AFLW:

3.1 Ablation Studies

可以看到,如果去除原始的人脸图像或生成的 style aggregate人脸图像,性能会明显下降,说明了以两幅互补的人脸图像作为输入,有利于人脸地标的预测。

图6显示了 k-means 在300-W 上的聚类结果数据集。可以发现,一个聚类中的大多数人脸图像具有相似的风格。由三个聚类生成的平均人脸图像包含不同的风格。如果我们直接使用ImageNet预先训练好的特征进行k-means聚类,我们不能保证将人脸分组成不同的隐藏风格。在实验中,发现ImageNet预先训练的特征倾向于根据性别或其他信息对人脸图像进行分组。

3.2 Discussions of Benchmark Datasets

  • 提出 300W-Style 和 AFLW-Style 数据集,如图7所示:

  • Can PS-generated images be realistic?
    选择了三种具有代表性的滤镜来生成不同风格的图像。这些滤镜已被用户广泛用于编辑他们的照片并上传到互联网上。因此,提出的数据集是现实的。

    把探测器训练成轻型的并在不同类型的300-W测试集上对训练良好的检测器进行评估。表3,表4,表5为16种训练与测试风格组合的评价结果。


  • Effect of SAN for style variances
    第一行显示了ground truth landmarks,第二行和第三行分别显示了没有GAN和SAN的SAN的预测。 在第一列中,基本检测器无法进行面部轮廓预测,而来自SAN的预测仍保留了整体结构。 在第四列中,来自基本检测器的一些异常向右漂移,而SAN则没有。

[人脸对齐] SAN:Style Aggregated Network for Facial Landmark Detection 论文阅读相关推荐

  1. iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection 论文阅读笔记

    摘要 本文研究场景图中人-物交互问题.其核心思想是人或物体实例的外观包含指示线索,利用这些信息可以注意到图像中可以促进交互预测的部分.为了利用这些线索,研究者提出了一个以实例为中心的注意力模块,学习根 ...

  2. Polysemy Deciphering Network for Human-Object Interaction Detection论文阅读笔记

    笔记 这篇文章作者提出现有的模型没有考虑一词多义的情况,即认为同一个动词的视觉特征差不多,然而实际情况下同一个动词的视觉特征可能会有特别大的变化,本文作者基于此提出了一系列策略和PD-Net模型,来克 ...

  3. Facial Landmark Detecion 论文及代码汇总,持续更新~~~

    转载请注明作者和出处: http://blog.csdn.net/john_bh/ 人脸关键点检测相关文献.持续更新中~~ 文章目录 Arxiv ECCV 2020 CVPR 2020 ICCV 20 ...

  4. [人脸对齐--综述] Facial Landmark Detection: a Literature Survey(2018)

    转载请注明作者和出处: http://blog.csdn.net/john_bh/ 论文链接:Facial Landmark Detection: a Literature Survey 作者及团队: ...

  5. 【人脸对齐】Attention-Driven Cropping for Very High Resolution Facial Landmark Detection 翻译

    转载请注明出处:https://blog.csdn.net/qq_39912997 注意力驱动裁剪技术在超高分辨率人脸关键点检测中的应用 论文链接: Attention-Driven Cropping ...

  6. [人脸对齐] Attention-Driven Cropping for Very High Resolution Facial Landmark Detection

    转载请注明作者和出处: http://blog.csdn.net/john_bh/ 论文链接: Attention-Driven Cropping for Very High Resolution F ...

  7. Facial Landmark Detection(人脸特征点检测)

    原文地址:http://www.learnopencv.com/facial-landmark-detection/#comment-2471797375 作为计算机视觉研究员,我们很早就开始研究人脸 ...

  8. learnOpenCv】Facial Landmark Detection:人脸特征点检测的一些应用

    目前在计算机视觉领域,人脸方向的研究非常之多.人脸分析最常见的应用是人脸识别,但是如果我们想要验证图像中一个人的身份,需要先知道这个图像中人脸的位置.因此,人脸检测(在图像中定位人脸,并返回一个包含人 ...

  9. 解决参考图像分割中的随机性问题:MMNet: Multi-Mask Network for Referring Image Segmentation 论文阅读笔记

    解决参考图像分割中的随机性问题:MMNet: Multi-Mask Network for Referring Image Segmentation 论文阅读笔记 一.Abstract 二.引言 三. ...

最新文章

  1. C++ Primer(第4版)(评注版)
  2. “跟风离职后,找不到工作了!”:好多同事离职,这家公司还值不值得待?...
  3. linux的cat命令
  4. C语言二进制转换为十六进制(附完整源码)
  5. Replacing the ESXi Host Default Certificate with a CA-Signed Certificate
  6. 国产数据库占央采九成份额
  7. 中小企业信息化及市场
  8. 西昌学院计算机,西昌学院
  9. HTTP之Cache-Control基本概念以及实例(C++ Qt实现)
  10. python 获取照片拍摄时间_Python实现获取照片拍摄日期并重命名的方法
  11. 只要掌握了这条法则,你就有赚不完的钱
  12. APM终端用户体验监控分析(下)
  13. 下轮“双一流”将有高校下车?教育部最新说法来了!
  14. 到上海,与陈绪零距离
  15. SAS数据集随机抽样方法
  16. 普渡大学计算机科学本科,美国普渡大学计算机科学CS本科申请条件及案例
  17. MATLAB app designer 制作单选按钮的方法
  18. 《面试技巧-招聘篇》课程笔记
  19. 面阵相机以及相机选型公式
  20. zeros什么意思_matlab中zeros函数是什么含义?MATLAB中zeros表示表示什么意思

热门文章

  1. 电脑为什么丢失msvcp140.dll?msvcp140.dll丢失修复详细教程步骤
  2. 康耐视InSight相机的TCP\IP通讯设置以及字符命令触发
  3. 项目绩效考核体系执行简述
  4. 常用spaceclaim脚本(三)
  5. 自己动手玩转深度学习项目 1
  6. JavaOne 2015继续,Java将永远存在(……也许是长篇大论)
  7. 后向投影算法(BPA)-SAR成像算法系列(二)
  8. 微软苏菲rt能装鸿蒙,微软surfacert平板电脑怎么样 微软surfacert平板电脑性能配置如何...
  9. 友基s400手写板怎么安装_手写板安装,教您电脑手写板怎么安装
  10. 绘图板程序设计及其具体实现 第三篇