FaceBoxes: A CPU Real-time Face Detector with High Accuracy（论文解析）

论文：FaceBoxes: A CPU Real-time Face Detector with High Accuracy

代码地址：https://github.com/TropComplique/FaceBoxes-tensorflow

CPU上的高精度实时人脸检测器

综述

人脸识别是计算机视觉和模式识别的基础问题，过去几十年取得了长足进步，但是由于计算量较大，在CPU上的实时检测一直没有很好的被解决。面临的主要问题，一是人脸和背景的可变性都太大（种类太多），二是由于人脸的不同尺寸，使得搜索空间快速上升。
过去的主流方法，一种是基于手动构建的特征（hand-craft features），这种方法在CPU上速度尚可，但是面对种类繁多的图像变体精确度不足。另一种是基于CNN的方法，精确度足够，但是在CPU上过于耗时，很难达到实时效果。
本文受Faster-RCNN中RPN、SSD中多尺度技术的影响，提出了一种名为FaceBoxes的人脸检测器并且可以在CPU上达到实时检测的效果。网络结构是一个完整的CNN架构，可以实现端到端的训练，虽然网络结构轻量，但效果突出。

网络结构

faceboxes的三个spotlight：

设计RDCL层：加速faceboxes在cpu上至实时处理速度，有三个策略：

快速减少feature map尺度：在这个模块中，卷积的滑动步长是很大，属于比较稀疏的滑动卷积。其中conv1滑动步长为4，使得feature map缩小1/4，conv2使得滑动步长为2，使得feature map缩小1/2，pool1,pool2分别缩小1/2，最终feature map缩小1/32。这样就使得feature map减小的比较快，速度也就会提升。
选择合适的卷积核尺度：conv1、conv2、所有的pooling操作中，卷积核尺度为7 x 7、5 x 5、3 x 3，作者认为使用大尺度可以获取更大的感受野，进而获取更多的上下文信息；这个需要和1配合着理解，1快速减少了feature map尺度，丢失了很多信息，2通过更大的卷积核匹配上1中快速下降尺度造成的感受野与feature map尺度不匹配的问题，这样就达到了一个折中的效果；
使用C.Relu替代Relu，可以减少卷积核数目，但经过C.Relu后卷积核数目（对应的就是feature map changel数目）又可以翻倍；论文中作者在 AlexNet 的模型上做了一个有趣的实验，发现：低层卷积层中的一些滤波器核存在着负相关程度很高的滤波器核，而层次越高的卷积层，这一现象越不明显。作者把这一现象称为pairing phenomenon；这样在CNN中较低的层，C.ReLU减少一半输出通道(output channels)的数量，通过简单的连接相同的输出和negation使其变成双倍数量，即达到原来输出的数量，这使得2倍的速度提升而没有损失精度；个人理解，减少一半channel数目是根据conv filters数目降低一半得到的，先减少一半channels的feature map，再通过C.ReLU可以扩充一倍的channels数目，这样就达到了对比原先channel扩充2倍的conv filters的目的；conv filters减少了一倍，自然速度就提升了两倍；

设[⋅]+=max(⋅,0)，则 C.ReLU 定义：CReLU(x)=([x]+,[−x]+)，比如 −3→[0,3] 3→[3,0]；

CReLU有二维输出，而一般的激活函数只有一维输出，因此可以将 CReLU 视作一维输入二维输出的激活函数；

RDCL中使用C.ReLU可以显著提升计算速度，却不影响精度；具体操作方式如下图所示：

设计MSCL层：丰富感受野和离散化anchor至不同的feature map上，在实现原理上很简单：

丰富感受野，使用了googlenet的inception结构,由于Inception包含多个不同的卷积分支，因此可以进一步使得感受野多样化

2. 离散化anchor至不同的feature map：复用了SSD的做法，以处理人脸的大尺度变化

anchor密集采样策略

对浅层feature map(如faceboxes中的inception3)检测的小尺度目标，其对应anchor(小目标对应的anchor一般预定义比较小，如32 x 32、64 x 64等)，做更加密集的anchor采样，使得小目标anchor的采样密集与大目标采样密度一致，这样可以提升对小目标的召回率；-----CVPR2018 ZCC针对anchor密集采样给出了更合理的解释，提出了emo score，从理论上认证了采用anchor密集采样的优点：https://zhuanlan.zhihu.com/p/35856534
SSD和Faster R-CNN此类方法对小目标效果不好，一定程度上是因为小目标所能对应的anchor比较少，导致训练不足。

下图是本文网络三个分支默认anchor的大小，以及每个分支对应的spatial stride。
我们可以据此定义anchor密度为(anchor大小 / stride)。显然，第一个分支的一些anchor密度不足。这也是为什么小目标检测效果不佳的重要原因。

对上图进行一些说明：inception3分支中有三个anchor尺度，3.3小节提到了anchor采样密度不一致的情形，如果32 x 32、64 x 64、128 x 128的anchor都使用stride为32的采样，那么采样密度为1、2、4；为了生成相同的采样密度，将32 x 32、64 x 64改为stride为8、16的采样密度，那么原先feature map上一个位置对应到原图一个anchor，现在feature map上一个位置就对应到原图4 x 4、2 x 2个anchor（横、纵坐标方向均做密集采样）。