[人脸对齐] SAN:Style Aggregated Network for Facial Landmark Detection 论文阅读
转载请注明作者和出处: http://blog.csdn.net/john_bh/
论文链接: Style Aggregated Network for Facial Landmark Detection
作者及团队:悉尼科技大学 & 悉尼大学
会议及时间:CVPR 2018
code: 作者开源github 地址
文章目录
- 1. 主要贡献
- 2. SAN
- 2.1 StyleAggregated Face Generation Module
- 2.2 Facial Landmark Prediction Module
- 3. Experiments
- 3.1 Ablation Studies
- 3.2 Discussions of Benchmark Datasets
1. 主要贡献
作者认为人脸关键点检测中,除了人脸图像本身之间的差异,图像风格的内在差异也是一个待续解决的问题,于是提出了一种基于风格聚合的人脸地标检测方法。
- 通过生成对抗模块将原始人脸图像转换为风格聚合图像,采用风格聚合图像来保持对环境变化具有更强鲁棒性的人脸图像。
- 将原始人脸图像与风格聚合的人脸图像一起训练 landmark 检测器,原始图像和聚合图像形成互补,提升检测器性能;
- 提出 300W-Style 和 AFLW-Style 数据集。
图1显示了人脸图像的三种不同风格,以及使用训练好的检测器时对它们的人脸 landmark 的预测结果。这三幅图像的内容是一样的,但是视觉风格是截然不同的,包括原图、灰度和光线。我们可以观察到,对同一面部地标的位置预测可能会有所不同。
图2展示了在数据集AFLW 和 300W 中的存在不同风格数据对比。
2. SAN
如图3 所示,作者设计了一款对风格变化不敏感的人脸关键点检测网络,包含两个模块:
- 第一个是样式聚合的人脸生成模块,它将输入图像转换为不同的样式,然后将它们组合为样式聚合的人脸,以对抗风格变化的影响;
- 第二个是人脸 landmark 检测器模块,该模块以原始图像和风格聚合的图像为输入,得到两个互补的特征,然后将两个特征融合,级联生成热图预测。
2.1 StyleAggregated Face Generation Module
因为公开的数据集并没有特别严格的风格标签,所以不能使用 I2I 和 style-tansfer 直接进行风格转换。作者提出使用无监督的方法:
- 首先使用PS 为每个原始图像生成3中不同风格的图像;
- 学习风格信息:将原始图像和生成的3中风格图像,共四种风格一起送到 ResNet-152 模型中,进行微调。这里的 average pool 可以看看作是风格区分特征;(使用四种风格数据再ImagNet 的预训练模型上 训练 2 个epoch, learning rate=0.01 )
- 得到风格信息 Label :通过k-means自动将整个数据集聚成 kkk 种隐藏风格;(k=3k=3k=3),300W聚类结果如图6所示。
- 最后,将不同聚类中的人脸图像视为不同的隐藏风格,然后通过CycleGAN训练人脸生成风格聚合的人脸。CycleGAN能够保留输入图像的结构,因为它的循环一致性损失保证了重建图像与输入图像的紧密匹配。
具体流程如图4所示:
2.2 Facial Landmark Prediction Module
人脸关键点预测模块流程如图3所示:绿色流表示聚合风格的人脸,蓝色流表示原始风格中的人脸。蓝色流包含人脸的未失真外观内容,但图像风格可能有所不同。绿色流包含了人脸周围的静止环境,但可能由于GAN造成的保真度较低而缺乏一定的形状信息。所以,通过利用他们互补的信息,可以产生更可靠的预测。
关键点预测模块中,使用VGG-16的前4个卷积块和另外两个卷积层作为特征提取部分,如图3所示。
- 输入原始图像 IoI_oIo 和 风格聚图像 IsI_sIs 到特征提取部分, 输出原始图像特征 FoF_oFo 和 风格聚图像特征 FsF_sFs;
- 生成 2D belief map, 首先FoF_oFo 和 FsF_sFs 经过 g1g_1g1 的 FCFCFC 层,输出HoH_oHo 和 HsH_sHs;
- 接着,FoF_oFo, FsF_sFs, HoH_oHo, HsH_sHs concate ,经过 g2g_2g2 的 FCFCFC 层,输出H2H_2H2 :
- 最后一个stage,和第二个stage 相似,FoF_oFo, FsF_sFs, H2H_2H2 concate ,经过 g3g_3g3 的 FCFCFC 层,输出H3H_3H3 :
关键点预测模块的损失函数如下:
where H∗H^∗H∗ represents the ideal belief map. 这里的ideal belief map 是什么?
为了生成最终的 landmark 坐标,首先使用 bicubic interpolation 将 belief map H3H_3H3向上采样到原始图像大小;然后在每个 belief map上使用 argmaxargmaxargmax 函数得到每个 landmark 的坐标.
3. Experiments
- 300W:GT 表示ground truth face bounding box, OD 表示 official detector:
AFLW:
3.1 Ablation Studies
可以看到,如果去除原始的人脸图像或生成的 style aggregate人脸图像,性能会明显下降,说明了以两幅互补的人脸图像作为输入,有利于人脸地标的预测。
图6显示了 k-means 在300-W 上的聚类结果数据集。可以发现,一个聚类中的大多数人脸图像具有相似的风格。由三个聚类生成的平均人脸图像包含不同的风格。如果我们直接使用ImageNet预先训练好的特征进行k-means聚类,我们不能保证将人脸分组成不同的隐藏风格。在实验中,发现ImageNet预先训练的特征倾向于根据性别或其他信息对人脸图像进行分组。
3.2 Discussions of Benchmark Datasets
提出 300W-Style 和 AFLW-Style 数据集,如图7所示:
Can PS-generated images be realistic?
选择了三种具有代表性的滤镜来生成不同风格的图像。这些滤镜已被用户广泛用于编辑他们的照片并上传到互联网上。因此,提出的数据集是现实的。把探测器训练成轻型的并在不同类型的300-W测试集上对训练良好的检测器进行评估。表3,表4,表5为16种训练与测试风格组合的评价结果。
Effect of SAN for style variances
第一行显示了ground truth landmarks,第二行和第三行分别显示了没有GAN和SAN的SAN的预测。 在第一列中,基本检测器无法进行面部轮廓预测,而来自SAN的预测仍保留了整体结构。 在第四列中,来自基本检测器的一些异常向右漂移,而SAN则没有。
[人脸对齐] SAN:Style Aggregated Network for Facial Landmark Detection 论文阅读相关推荐
- iCAN: Instance-Centric Attention Network for Human-Object Interaction Detection 论文阅读笔记
摘要 本文研究场景图中人-物交互问题.其核心思想是人或物体实例的外观包含指示线索,利用这些信息可以注意到图像中可以促进交互预测的部分.为了利用这些线索,研究者提出了一个以实例为中心的注意力模块,学习根 ...
- Polysemy Deciphering Network for Human-Object Interaction Detection论文阅读笔记
笔记 这篇文章作者提出现有的模型没有考虑一词多义的情况,即认为同一个动词的视觉特征差不多,然而实际情况下同一个动词的视觉特征可能会有特别大的变化,本文作者基于此提出了一系列策略和PD-Net模型,来克 ...
- Facial Landmark Detecion 论文及代码汇总,持续更新~~~
转载请注明作者和出处: http://blog.csdn.net/john_bh/ 人脸关键点检测相关文献.持续更新中~~ 文章目录 Arxiv ECCV 2020 CVPR 2020 ICCV 20 ...
- [人脸对齐--综述] Facial Landmark Detection: a Literature Survey(2018)
转载请注明作者和出处: http://blog.csdn.net/john_bh/ 论文链接:Facial Landmark Detection: a Literature Survey 作者及团队: ...
- 【人脸对齐】Attention-Driven Cropping for Very High Resolution Facial Landmark Detection 翻译
转载请注明出处:https://blog.csdn.net/qq_39912997 注意力驱动裁剪技术在超高分辨率人脸关键点检测中的应用 论文链接: Attention-Driven Cropping ...
- [人脸对齐] Attention-Driven Cropping for Very High Resolution Facial Landmark Detection
转载请注明作者和出处: http://blog.csdn.net/john_bh/ 论文链接: Attention-Driven Cropping for Very High Resolution F ...
- Facial Landmark Detection(人脸特征点检测)
原文地址:http://www.learnopencv.com/facial-landmark-detection/#comment-2471797375 作为计算机视觉研究员,我们很早就开始研究人脸 ...
- learnOpenCv】Facial Landmark Detection:人脸特征点检测的一些应用
目前在计算机视觉领域,人脸方向的研究非常之多.人脸分析最常见的应用是人脸识别,但是如果我们想要验证图像中一个人的身份,需要先知道这个图像中人脸的位置.因此,人脸检测(在图像中定位人脸,并返回一个包含人 ...
- 解决参考图像分割中的随机性问题:MMNet: Multi-Mask Network for Referring Image Segmentation 论文阅读笔记
解决参考图像分割中的随机性问题:MMNet: Multi-Mask Network for Referring Image Segmentation 论文阅读笔记 一.Abstract 二.引言 三. ...
最新文章
- C++ Primer(第4版)(评注版)
- “跟风离职后,找不到工作了!”:好多同事离职,这家公司还值不值得待?...
- linux的cat命令
- C语言二进制转换为十六进制(附完整源码)
- Replacing the ESXi Host Default Certificate with a CA-Signed Certificate
- 国产数据库占央采九成份额
- 中小企业信息化及市场
- 西昌学院计算机,西昌学院
- HTTP之Cache-Control基本概念以及实例(C++ Qt实现)
- python 获取照片拍摄时间_Python实现获取照片拍摄日期并重命名的方法
- 只要掌握了这条法则,你就有赚不完的钱
- APM终端用户体验监控分析(下)
- 下轮“双一流”将有高校下车?教育部最新说法来了!
- 到上海,与陈绪零距离
- SAS数据集随机抽样方法
- 普渡大学计算机科学本科,美国普渡大学计算机科学CS本科申请条件及案例
- MATLAB app designer 制作单选按钮的方法
- 《面试技巧-招聘篇》课程笔记
- 面阵相机以及相机选型公式
- zeros什么意思_matlab中zeros函数是什么含义?MATLAB中zeros表示表示什么意思
热门文章
- 电脑为什么丢失msvcp140.dll?msvcp140.dll丢失修复详细教程步骤
- 康耐视InSight相机的TCP\IP通讯设置以及字符命令触发
- 项目绩效考核体系执行简述
- 常用spaceclaim脚本(三)
- 自己动手玩转深度学习项目 1
- JavaOne 2015继续,Java将永远存在(……也许是长篇大论)
- 后向投影算法(BPA)-SAR成像算法系列(二)
- 微软苏菲rt能装鸿蒙,微软surfacert平板电脑怎么样 微软surfacert平板电脑性能配置如何...
- 友基s400手写板怎么安装_手写板安装,教您电脑手写板怎么安装
- 绘图板程序设计及其具体实现 第三篇