Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

MTCNN

1、四个问题

要解决什么问题？
- 人脸检测（face detection）和人脸对齐（face alignment）。
用了什么方法解决？
- 提出了一个深度级联网络结构，分成了三个阶段，从粗到精对人脸进行检测、定位人脸特征点、对齐。
- 此外，还提出了一个在线的难分样本挖掘策略（online hard sample mining strategy），可以提升训练精度。
效果如何？
- 模型的实时性很好。
- 在FDDB和WIDER FACE两个数据集中的人脸检测以及AFLW数据集中的人脸对齐任务任务达到 state-of-the-art。
还存在什么问题？
- 训练时间较长，收敛较慢。

2、模型结构

2.1、总体结构

MTCNN的三层结构如上图。
- 阶段一：先使用全卷积网络，即P-Net，来获取到获选的人脸框和其对应的向量。随后根据回归框向量对候选框进行校正。之后使用非极大抑制（NMS）来去除高度重合的候选框。
- 阶段二：P-Net得到的回归框都送入R-Net中，随后拒绝大量错误框，再对回归框做校正，并使用NMS去除重合框。
- 阶段三：与阶段二类似，但是这里会额外进行人脸特征点（5个）的检测。

2.2、三个子网络

Proposal Network（P-Net）：
- 原始图片先resize到不同尺度，再输入。因为图片上不同人脸的大小可能不一致。
- 每次取一个12×12×312 \times 12 \times 312×12×3的区域作为输入，输出有三个：
  1. 人脸分类：是否有人脸，2个输出；
  2. 边界框回归：回归得到的框的起始点的xy坐标和框的长宽，4个输出；
  3. 人脸特征点定位：5个人脸特征点的xy坐标，10个输出。

Refine Network（R-Net）：
- 以P-Net预测得到的回归框信息作为输入，先对原始图片进行切片，随后resize到固定尺寸。
- 输入为：24×24×324 \times 24 \times 324×24×3，与P-Net的输出一样。

Output Network（O-Net）：
- 以R-Net预测得到的回归框信息作为输入，对原始图片切片，随后resize到固定尺寸。
- 输入为：48×48×348 \times 48 \times 348×48×3，与R-Net的输出一样。

2.3、损失函数

分类损失，预测输入是否是人脸，采用交叉熵损失：

bounding box回归损失，计算的是预测框和ground truth之间的偏差：

人脸特征点回归误差，预测人脸的5个特征点：双眼、鼻子、两个嘴角。使用L2损失：

由于会使用多个数据集进行训练，对于不同的训练数据，三类误差要有不同的权重，使用下式计算：

Online Hard sample mining：在每个mini-batch中计算所有sample的loss，并按照降序排序，取前70%的sample用来训练。

2.4、训练数据构建

使用四种不同数据注释：
- positives：与ground truth的IOU高于阈值。
- negatives：与ground truth的IOU低于阈值。
- part faces：与ground truth的IOU处于前面两个阈值之间。
- landmark faces：有landmark标签。

3、参考资料

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

论文笔记：MTCNN相关推荐

ORB-SLAM3 论文笔记
ORB-SLAM3 论文笔记这篇博客 ORB-SLAM3系统相机模型的抽象(Camera Model) 重定位的问题图片矫正的问题视觉惯性SLAM的工作原理相关公式 IMU初始化跟踪和建图 ...
【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION
一.简介这篇论文由IBM Watson发表在2016 ICLR,目前引用量92.这篇论文的研究主题是answer selection,作者在这篇论文基础上[Applying Deep Learnin ...
最新图神经网络论文笔记汇总（附pdf下载）
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 [导读]近年来,图神经网络变得非常火热,每年顶会在该领域内都会出现大量的研究论文,本文为大家提 ...
[论文笔记] Fast Quality Driven Selection of Composite Web Services (ECOWS, 2006)
Time: 4.0 hours Jae-Ho Jang, Dong-Hoon Shin, Kyong-Ho Lee, "Fast Quality Driven Selection of Co ...
论文笔记之：Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning
论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning 2017-06-06 21: ...
光流速度_[论文笔记] FlowNet 光流估计
[论文笔记] FlowNet: Learning Optical Flow with Convolutional Networks 说在前面个人心得: 1. CNN的光流估计主要是速度上快,之后的v ...
论文笔记《Maxout Networks》《Network In Network》
原文出处:http://zhangliliang.com/2014/09/22/paper-note-maxout-and-nin/ 论文笔记 <Maxout Networks> & ...
论文笔记：HKMF-T: Recover From Blackouts in TaggedTime Series With Hankel Matrix Factorization
论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts_U ...
论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting
0 abstract 空间时间序列预测问题出现在广泛的应用中,如环境和交通问题.由于存在特定的空间.短期和长期模式,以及维度的诅咒,这些问题具有挑战性. 在本文中,我们提出了一个用于大规模空间时间序列 ...
论文笔记：Autoregressive Tensor Factorizationfor Spatio-temporal Predictions
0 摘要张量因子tensor factorization分解方法在时空数据分析领域很受欢迎,因为它们能够处理多种类型的时空数据,处理缺失值,并提供计算效率高的参数估计程序. 然而,现有的张量因子分解 ...

论文笔记：MTCNN

MTCNN

1、四个问题

2、模型结构

2.1、总体结构

2.2、三个子网络

2.3、损失函数

2.4、训练数据构建

3、参考资料

论文笔记：MTCNN相关推荐

最新文章

热门文章