人脸检测：《MTCNN》论文详解2016

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

作者链接：https://kpzhang93.github.io/MTCNN_face_detection_alignment/

论文链接：https://kpzhang93.github.io/MTCNN_face_detection_alignment/paper/spl.pdf

GITHUB地址：https://github.com/kpzhang93/MTCNN_face_detection_alignment

一、摘要

由于各种姿势，照明和遮挡，在无约束环境下的面部检测和对准是具有挑战性的。最近的研究表明，深度学习方法可以在这两项任务上取得令人印象深刻的表现。在这篇论文里，我们取得了深度级联的多任务框架，它利用了检测和对齐之间的内在联系来提高它们的性能。特别地，我们的框架利用三个精心设计的深度卷积网络的级联架构，以粗略到精细的方式以此预测脸部和关键点位置。此外，我们还提出了一种新的在线困难样本挖掘策略，可以进一步提高在实践中的性能。我们的方法在面部检测的具有挑战性的FDDB和WIDER FACE基准以及面部对齐的AFLW基准测试中实现了超过最先进技术的卓越精度，同时保持了实时性能。

关键字：Face detection, Face alignment, Cascaded Convolutional neural network.

Result：

二、介绍

面部检测和对齐在很多面部应用里是必要的，例如人脸识别和面部表情分析。然而，视觉变化对于人脸的影响，加之姿势变化和极端光照的影响，使得在现实世界中对人脸检测和对齐的任务变的极具挑战。

Viola和Jones提出的级联人脸检测器，是利用Harr-Like特征结合AdaBoost去实现高性能的实时训练。然而，相当多的研究显示，该算法在应对大量视觉影响的人脸图片检测时性能极具下降。并且目前讯在的DPM算法也具有一定的缺陷，所以需要新的方法来解决人脸检测和对齐。最近，CNN在视觉方面取得了很好的效果，如图像分类、人脸识别等。受到启发研究人员开始将CNN用于人脸检测，提出一些算法。

面部对齐也吸引了广泛的研究兴趣。该领域的研究大致可以分为两类，基于回归的方法和模板拟合方法（Template fitting approaches）例如：

1、T. F. Cootes, G. J. Edwards, and C. J. Taylor, “Active appearance models,” IEEE Transactions on Pattern Analysis and Machine Intelligence, vol. 23, no. 6, pp. 681-685, 2001.

2、X. Yu, J. Huang, S. Zhang, W. Yan, and D. Metaxas, “Pose-free facial landmark fitting via optimized part mixtures and cascaded deformable shape model,” in IEEE International Conference on Computer Vision, 2013, pp. 1944-1951.

3、X. Zhu, and D. Ramanan, “Face detection, pose estimation, and landmark localization in the wild,” in IEEE Conference on Computer Vision and Pattern Recognition, 2012, pp. 2879-2886.

最近，Zhang et al.提出使用面部属性识别作为辅助任务来使用深度卷积神经网络来增强面部对齐性能。

然而，大多数以前的脸部检测和脸部对齐方法忽略了这两者之间的固有相关性任务。虽然现有的几个算法试图共同解决他们，但在这些算法中仍然有局限性。

另一方面，在训练中挖掘困难样本对于增强检测的能力至关重要。目前的训练样本度分类器的性能提升有一定的阻碍，需要设计一种用于人脸检测的在线样本用于对算法的训练，已达到自适应的训练状态。

在本文中，我么们提出新的级联架构来整合多任务卷积神经网络学习的问题。该算法有三个阶段组成：第一阶段，浅层的CNN快速产生候选窗体；第二阶段，通过更复杂的CNN精炼候选窗体，丢弃大量的重叠窗体；第三阶段，使用更加强大的CNN，实现候选窗体去留，同时显示五个面部关键点定位。

而这篇论文的主要贡献概括为以下三点：

（1）、提出一种新的级联CNN框架，用于联合人脸检测和对齐，并精心设计了轻量级的CNN架构以实现实时性能。

（2）、提出了一种有效的方法来进行在线困难样本挖掘，以提高性能。

（3）、在具有挑战性的基准测试中进行了大量实验，与人脸检测和面部对齐任务中的最新技术相比，显示出该方法的显著性能提升。

三、Approach（核心）

A.Overall Framework(总体框架)

我们的方法总体流程如图所示。给定一个图像，我们最初将其调整到不同的比例以构建图像金字塔，这是以下三级级联框架的输入。

Stage1: