Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

MTCNN

1、四个问题

  1. 要解决什么问题?

    • 人脸检测(face detection)和人脸对齐(face alignment)。
  2. 用了什么方法解决?
    • 提出了一个深度级联网络结构,分成了三个阶段,从粗到精对人脸进行检测、定位人脸特征点、对齐。
    • 此外,还提出了一个在线的难分样本挖掘策略(online hard sample mining strategy),可以提升训练精度。
  3. 效果如何?
    • 模型的实时性很好。
    • 在FDDB和WIDER FACE两个数据集中的人脸检测以及AFLW数据集中的人脸对齐任务任务达到 state-of-the-art。
  4. 还存在什么问题?
    • 训练时间较长,收敛较慢。

2、模型结构

2.1、总体结构

  • MTCNN的三层结构如上图。

    • 阶段一:先使用全卷积网络,即P-Net,来获取到获选的人脸框和其对应的向量。随后根据回归框向量对候选框进行校正。之后使用非极大抑制(NMS)来去除高度重合的候选框。
    • 阶段二:P-Net得到的回归框都送入R-Net中,随后拒绝大量错误框,再对回归框做校正,并使用NMS去除重合框。
    • 阶段三:与阶段二类似,但是这里会额外进行人脸特征点(5个)的检测。

2.2、三个子网络

  • Proposal Network(P-Net):

    • 原始图片先resize到不同尺度,再输入。因为图片上不同人脸的大小可能不一致。
    • 每次取一个12×12×312 \times 12 \times 312×12×3的区域作为输入,输出有三个:
      1. 人脸分类:是否有人脸,2个输出;
      2. 边界框回归:回归得到的框的起始点的xy坐标和框的长宽,4个输出;
      3. 人脸特征点定位:5个人脸特征点的xy坐标,10个输出。

  • Refine Network(R-Net):

    • 以P-Net预测得到的回归框信息作为输入,先对原始图片进行切片,随后resize到固定尺寸。
    • 输入为:24×24×324 \times 24 \times 324×24×3,与P-Net的输出一样。

  • Output Network(O-Net):

    • 以R-Net预测得到的回归框信息作为输入,对原始图片切片,随后resize到固定尺寸。
    • 输入为:48×48×348 \times 48 \times 348×48×3,与R-Net的输出一样。

2.3、损失函数

  • 分类损失,预测输入是否是人脸,采用交叉熵损失:

  • bounding box回归损失,计算的是预测框和ground truth之间的偏差:

  • 人脸特征点回归误差,预测人脸的5个特征点:双眼、鼻子、两个嘴角。使用L2损失:

  • 由于会使用多个数据集进行训练,对于不同的训练数据,三类误差要有不同的权重,使用下式计算:

  • Online Hard sample mining:在每个mini-batch中计算所有sample的loss,并按照降序排序,取前70%的sample用来训练。

2.4、训练数据构建

  • 使用四种不同数据注释:

    • positives:与ground truth的IOU高于阈值。
    • negatives:与ground truth的IOU低于阈值。
    • part faces:与ground truth的IOU处于前面两个阈值之间。
    • landmark faces:有landmark标签。

3、参考资料

  1. Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks

论文笔记:MTCNN相关推荐

  1. ORB-SLAM3 论文笔记

    ORB-SLAM3 论文笔记 这篇博客 ORB-SLAM3系统 相机模型的抽象(Camera Model) 重定位的问题 图片矫正的问题 视觉惯性SLAM的工作原理 相关公式 IMU初始化 跟踪和建图 ...

  2. 【论文笔记】 LSTM-BASED DEEP LEARNING MODELS FOR NONFACTOID ANSWER SELECTION

    一.简介 这篇论文由IBM Watson发表在2016 ICLR,目前引用量92.这篇论文的研究主题是answer selection,作者在这篇论文基础上[Applying Deep Learnin ...

  3. 最新图神经网络论文笔记汇总(附pdf下载)

    点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 [导读]近年来,图神经网络变得非常火热,每年顶会在该领域内都会出现大量的研究论文,本文为大家提 ...

  4. [论文笔记] Fast Quality Driven Selection of Composite Web Services (ECOWS, 2006)

    Time: 4.0 hours Jae-Ho Jang, Dong-Hoon Shin, Kyong-Ho Lee, "Fast Quality Driven Selection of Co ...

  5. 论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning

    论文笔记之:Action-Decision Networks for Visual Tracking with Deep Reinforcement Learning  2017-06-06  21: ...

  6. 光流 速度_[论文笔记] FlowNet 光流估计

    [论文笔记] FlowNet: Learning Optical Flow with Convolutional Networks 说在前面 个人心得: 1. CNN的光流估计主要是速度上快,之后的v ...

  7. 论文笔记 《Maxout Networks》 《Network In Network》

    原文出处:http://zhangliliang.com/2014/09/22/paper-note-maxout-and-nin/ 论文笔记 <Maxout Networks> & ...

  8. 论文笔记:HKMF-T: Recover From Blackouts in TaggedTime Series With Hankel Matrix Factorization

    论文笔记:Hankel Matrix Factorization for Tagged Time Series to Recover Missing Values during Blackouts_U ...

  9. 论文笔记 A Spatial-Temporal Decomposition Based Deep Neural Network for TimeSeries Forecasting

    0 abstract 空间时间序列预测问题出现在广泛的应用中,如环境和交通问题.由于存在特定的空间.短期和长期模式,以及维度的诅咒,这些问题具有挑战性. 在本文中,我们提出了一个用于大规模空间时间序列 ...

  10. 论文笔记:Autoregressive Tensor Factorizationfor Spatio-temporal Predictions

    0 摘要 张量因子tensor factorization分解方法在时空数据分析领域很受欢迎,因为它们能够处理多种类型的时空数据,处理缺失值,并提供计算效率高的参数估计程序. 然而,现有的张量因子分解 ...

最新文章

  1. 战锤全面战争无法响应服务器,战锤:全面战争打不开 游戏无法启动解决办法...
  2. python解决四舍五入问题
  3. AXI_04 AXI_LITE_MASTER_IP设计与验证
  4. cocos2d-x 2.2 创建项目
  5. C代码写的比Codex还溜的AI神器开源
  6. 解决 Beyond Compare 3 许可证密钥被撤销
  7. 【清单】—— 编程方法、整洁代码与重构
  8. rf接口自动化之结果校验
  9. 计算机多媒体化简笔画,计算器简笔画教程
  10. python将多个txt内容合并_python合并多个txt文件成为一个文件
  11. 主流压缩软件压缩率实测(图文详解,揭秘你不知道的)
  12. 微软服务器安装显卡驱动,微软虚拟机显卡及驱动的设置
  13. 牧神记之后,宅猪新书《临渊行》首日八万排第二,不敌《庆余年》
  14. 安装angular脚手架
  15. 小米手机刷机失败之小米La¥%¥Ji
  16. 新浪微博定位页面代码解析
  17. 2022年全球市场胸腰椎板系统总体规模、主要生产商、主要地区、产品和应用细分研究报告
  18. diyUpload - jQuery多张图片批量上传插件
  19. 什么样的男人能轻松泡到妞?
  20. Teradata金融业仓库逻辑模型(FS-LDM)

热门文章

  1. qt .pro文件
  2. CString比较相等不得不说的故事
  3. Java程序员新手老手都离不开八大开发工具
  4. Java 注解详解 (annotation)
  5. Spring - Java/J2EE Application Framework 应用框架 第 10 章 使用JDBC进行数据访问
  6. 用WinEdt打开.tex文件显示error reading错误
  7. OpenCV之core 模块. 核心功能(1)Mat - 基本图像容器 OpenCV如何扫描图像、利用查找表和计时 矩阵的掩码操作 使用OpenCV对两幅图像求和(求混合(blending))
  8. 简明python教程 --C++程序员的视角(五):面向对象的编程
  9. 2.本征矩阵 基本矩阵以及对极几何之间的约束关系
  10. 智慧校园“手环考勤”已成为学校常态