【论文笔记】：PyramidBox ：A Context-assisted Single Shot Face Detector

&Title

ECCV2018 、 baidu

PyramidBox ：A Context-assisted Single Shot Face Detector
【论文翻译】：PyramidBox: A Context-assisted Single Shot Face Detector

&Problem statement：

基于 anchor 的检测框架致力于在不受控制的环境里检测有难度的面部。

SSH 和 S3FD开发了尺度不变网络在单个网络的不同层中检测不同尺度的面部。
Face R-FCN 对分数映射上的特征响应重新加权，并且通过位置敏感的平均池化消除了每个面部区域中的不均匀分布的影响。
FAN 提出了一个 anchor 级的关注机制，通过高亮面部区域的特征来检测被遮挡的面部。

这些工作给出了设计 anchor 和相关网络来检测不同尺度人脸的有效方式，但是没有重点关注环境信息。然而环境信息在检测难度大的人脸时非常重要。实际上在现实世界中，人脸从不单独出现，而是一般和肩膀或者身体一起，提供了丰富的可利用的环境关联，尤其是面部纹理由于低分辨率，模糊或者遮挡不能被辨别时。

&Methods：

论文提出了一个新的环境辅助的网络框架，充分利用了环境信号，步骤如下：
第一，网络不仅能学习面部特征，还能学习环境特征例如头部和身体。实现这个目标需要额外的标签，需要设计和这些部分匹配的 anchor。本文用半监督的方案来生成环境部分的近似的标签，构造一系列叫做 PyramidAnchors 的 anchors。PyramidAnchors 可以很容易地添加到一般的基于 anchor 的结构中。
第二，高层次的环境特征应该和低层级的充分结合。检测难度高和低的面部的外观非常不同，意味着不是所有高层级的语义特征都对检测小目标有利。作者研究特征金字塔网络 (FPN) 的性能，并把它改成了低层级的特征金字塔网络 (LFPN)，以结合相互有益的特征。
第三，预测分支网络应该充分利用结合了的特征。作者采用环境敏感预测模块 (CPM) 用一个广而深的网络来吸收目标人脸周围的环境信息。同时，为预测模块引入了一个 max-in-out 层进一步提高分类网络的能力。
最后，作者提出了一种训练策略，叫做 data-anchor-sampling，来调整训练集的分布。为了学习更有代表性的特征，困难样本的多样性非常重要，可以通过交叉样本的数据增强实现。

PyramidAnchors

对于每一个目标人脸，PyramidAnchors 生成一系列 anchors，这些 anchors 对应着与人脸相关的更大的区域，包含了更多环境信息，比如头部、肩膀和身体。我们通过匹配区域大小和 anchor 大小来选择设置 anchors 的层，这将会监督更高层级的层为低层级尺寸的人脸学习更有表现力的特征。加上头部、肩膀和身体的额外标签，我们可以准确地匹配 anchors 和 ground truth 来生成损失。但是由于增加额外的标签不公平，我们通过半监督的方式实现，假定不同人脸有着相同比率和偏移的区域的环境特征也相似。换句话说，我们可以用一些统一的box来近似头部、肩膀和身体的实际区域，只要这些box的特征在不同人脸上相似。
例如，尺寸为 128 的最大的紫色人脸在 P3, P4, P5 有 pyramid-anchors，其中 P3是由 conv_fc7 生成的通过人脸本身标注的，P4 P是由 conv6_2 生成的根据目标人脸的头部 (尺寸为256) 标注的，P5是由 conv7_2 生成的通过目标人脸的身体 (尺寸为512) 标注的。类似的，为了检测尺寸为 16 的最小的蓝绿色人脸，你可以从 pyramid-anchors 得到监督的特征，其中 P0 上的 pyramid-anchors 是通过原始人脸标注的，P1上的是通过对应的尺寸为 32 的头部标注的，P2 的是通过对应的尺寸为 64 的身体标注的。

低层级特征金字塔（LFPN）：

DAS（data-anchor-sampling，数据锚采样）：

随机在样本中选择一个尺寸为Sface的人脸，然后在覆盖该人脸的anchors中找一个人脸尺度最接近的anchor，根据放缩比例，缩小原始图片，然后再裁剪大小为640*640的子图片（含有之前的人脸），由此得到新图片。
data-anchor-sampling 改变了训练数据的分布：1) 较小的人脸的比例高于较大的人脸。2)通过较大的人脸生成较小的人脸，提高了样本在小尺度上的多样性。

contest-sensitive：（待补充）

受 Inception-ResNet 启发，设计预测模块来既=获得网络变宽的收益又获得网络变深的收益。在这个模块中，我们用 DSSD 中的残差预测模块替换了 SSH 中的环境模块的卷积层。这让我们的 CPM 既具备 DSSD 模块方法的所有优势，又从 SSH 环境模块中保留了丰富的环境信息。

&conclusion

提出了一个新的环境辅助的单步人脸检测器 PyramidBox，来解决检测不受约束的人脸的问题。我们设计了一个新的环境 anchor，叫做 PyramidAnchor，来监督人脸检测器从面部周围的环境学习特征。此外，我们把特征金字塔网络修改成了低层级的特征金字塔网络，将高层级特征和高分辨率特征结合起来，有利于检测较小的人脸。我们还提出了一个更宽更深的预测模块以充分利用结合了的特征。除此之外，我们采用了 Data-anchor-sampling 来增强训练数据，提高训练数据在较小的人脸上的多样性。实验证明 PyramidBox 在常用的人脸检测基准上达到了顶尖的水平，尤其对于难于检测的人脸。

&Contribution：

提出了一种基于anchor的环境辅助方法，即PyramidAnchors，从而引入有监督的信息来为较小的、模糊的和部分遮挡的人脸学习环境特征。
设计了低层级特征金字塔网络（LFPN）来更好地融合环境和面部特征。同时，该方法可以在单步中较好的处理不同尺度的人脸。
提出了一种环境敏感的预测模型（contest-sensitive），该模型由混合网络结构和max-in-out层组成，从融合的特征中学习准确的定位和分类
提出了一种关注尺度的data-anchor-sampling策略，改变训练样本的分布，重新关注较小的人脸。
在通用的人脸检测基准FDDB和WIDER FACE上，达到了当前的最佳水平

&推荐

对PyramidBox的理解