点上方蓝字计算机视觉联盟获取更多干货

在右上方 ··· 设为星标 ★，与你不见不散

仅作学术分享，不代表本公众号立场，侵权联系删除

转载于：作者丨船长@知乎

来源丨https://zhuanlan.zhihu.com/p/83220498

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源！可打印版本附pdf下载链接

引言

在深度学习目标检测中，特别是人脸检测中，小目标、小人脸的检测由于分辨率低，图片模糊，信息少，噪音多，所以一直是一个实际且常见的困难问题。不过在这几年的发展中，也涌现了一些提高小目标检测性能的解决手段，本文对这些手段做一个分析、整理和总结。

欢迎探讨，本文持续维护。

实验平台

N/A

传统的图像金字塔和多尺度滑动窗口检测

最开始在深度学习方法流行之前，对于不同尺度的目标，大家普遍使用将原图build出不同分辨率的图像金字塔，再对每层金字塔用固定输入分辨率的分类器在该层滑动来检测目标，以求在金字塔底部检测出小目标；或者只用一个原图，在原图上，用不同分辨率的分类器来检测目标，以求在比较小的窗口分类器中检测到小目标。

在著名的人脸检测器MTCNN（https://arxiv.org/abs/1604.02878）中，就使用了图像金字塔的方法来检测不同分辨率的人脸目标。

不过这种方式速度慢（虽然通常build图像金字塔可以使用卷积核分离加速或者直接简单粗暴地resize，但是还是需要做多次的特征提取呀），后面有人借鉴它的思想搞出了特征金字塔网络FPN，它在不同层取特征进行融合，只需要一次前向计算，不需要缩放图片，也在小目标检测中得到了应用，在本文后面会讲到。

简单粗暴又可靠的Data Augmentation

深度学习的效果在某种意义上是靠大量数据喂出来的，小目标检测的性能同样也可以通过增加训练集中小目标样本的种类和数量来提升。在《深度学习中不平衡样本的处理》[2]一文中已经介绍了许多数据增强的方案，这些方案虽然主要是解决不同类别样本之间数量不均衡的问题的，但是有时候小目标检测之难其中也有数据集中小样本相对于大样本来说数量很少的因素，所以其中很多方案都可以用在小样本数据的增强上，这里不赘述。另外，在19年的论文Augmentation for small object detection（https://arxiv.org/abs/1902.07296）中，也提出了两个简单粗暴的方法：

1. 针对COCO数据集中包含小目标的图片数量少的问题，使用过采样OverSampling策略；

2. 针对同一张图片里面包含小目标数量少的问题，在图片内用分割的Mask抠出小目标图片再使用复制粘贴的方法（当然，也加上了一些旋转和缩放，另外要注意不要遮挡到别的目标）。

在同一张图中有更多的小目标，在Anchor策略的方法中就会匹配出更多的正样本。

特征融合的FPN

不同阶段的特征图对应的感受野不同，它们表达的信息抽象程度也不一样。浅层的特征图感受野小，比较适合检测小目标（要检测大目标，则其只“看”到了大目标的一部分，有效信息不够）；深层的特征图感受野大，适合检测大目标（要检测小目标，则其”看“到了太多的背景噪音，冗余噪音太多）。所以，有人就提出了将不同阶段的特征图，都融合起来，来提升目标检测的性能，这就是特征金字塔网络FPN（https://arxiv.org/abs/1612.03144）。

在人脸领域，基本上性能好一点的方法都是用了FPN的思想，其中比较有代表性的有RetinaFace: Single-stage Dense Face Localisation in the Wild（https://arxiv.org/pdf/1905.00641.pdf）

另外一个思路：既然可以在不同分辨率特征图做融合来提升特征的丰富度和信息含量来检测不同大小的目标，那么自然也有人会进一步地猜想，如果只用高分辨率的特征图（浅层特征）去检测小脸；用中间分辨率的特征图（中层特征）去检测大脸；最后用地分辨率的特征图（深层特征）去检测小脸。比如人脸检测中的SSH（https://arxiv.org/pdf/1708.03979.pdf）。

合适的训练方法SNIP,SNIPER,SAN

机器学习里面有个重要的观点，模型预训练的分布要尽可能地接近测试输入的分布。所以，在大分辨率（比如常见的224 x 224）下训练出来的模型，不适合检测本身是小分辨率再经放大送入模型的图片。如果是小分辨率的图片做输入，应该在小分辨率的图片上训练模型；再不行，应该用大分辨率的图片训练的模型上用小分辨率的图片来微调fine-tune；最差的就是直接用大分辨率的图片来预测小分辨率的图（通过上采样放大）。但是这是在理想的情况下的（训练样本数量、丰富程度都一样的前提下，但实际上，很多数据集都是小样本严重缺乏的），所以放大输入图像+使用高分率图像预训练再在小图上微调，在实践中要优于专门针对小目标训练一个分类器。

在下图中示意的是SNIP训练方法，训练时只训练合适尺寸的目标样本，只有真值的尺度和Anchor的尺度接近时来用来训练检测器，太小太大的都不要，预测时输入图像多尺度，总有一个尺寸的Anchor是合适的，选择那个最合适的尺度来预测。对R-FCN（https://arxiv.org/abs/1605.06409）提出的改进主要有两个地方，一是多尺寸图像输入，针对不同大小的输入，在经过RPN网络时需要判断valid GT和invalid GT，以及valid anchor和invalid anchor，通过这一分类，使得得到的预选框更加的准确；二是在RCN阶段，根据预选框的大小，只选取在一定范围内的预选框，最后使用NMS来得到最终结果。

SNIPER是SNIP的实用升级版本，这里不做详细介绍了。

更稠密的Anchor采样和匹配策略S3FD,FaceBoxes

在前面Data Augmentation部分已经讲了，复制小目标到一张图的多个地方可以增加小目标匹配的Anchor框的个数，增加小目标的训练权重，减少网络对大目标的bias。同样，反过来想，如果在数据集已经确定的情况下，我们也可以增加负责小目标的Anchor的设置策略来让训练时对小目标的学习更加充分。例如人脸检测中的FaceBoxes（https://arxiv.org/abs/1708.05234）其中一个Contribution就是Anchor densification strategy，Inception3的anchors有三个scales(32,64,128)，而32 scales是稀疏的，所以需要密集化4倍，而64 scales则需要密集化2倍。在S3FD（http://openaccess.thecvf.com/content_ICCV_2017/papers/Zhang_S3FD_Single_Shot_ICCV_2017_paper.pdf）人脸检测方法中，则用了Equal-proportion interval principle来保证不同大小的Anchor在图中的密度大致相等，这样大脸和小脸匹配到的Anchor的数量也大致相等了。

另外，对小目标的Anchor使用比较宽松的匹配策略（比如IoU > 0.4）也是一个比较常用的手段。

先生成放大特征再检测的GAN

Perceptual GAN使用了GAN对小目标生成一个和大目标很相似的Super-resolved Feature（如下图所示），然后把这个Super-resolved Feature叠加在原来的小目标的特征图（如下下图所示）上，以此增强对小目标特征表达来提升小目标（在论文中是指交通灯）的检测性能。

利用Context信息的Relation Network和PyramidBox

小目标，特别是像人脸这样的目标，不会单独地出现在图片中（想想单独一个脸出现在图片中，而没有头、肩膀和身体也是很恐怖的）。像PyramidBox（https://arxiv.org/abs/1803.07737）方法，加上一些头、肩膀这样的上下文Context信息，那么目标就相当于变大了一些，上下文信息加上检测也就更容易了。

这里顺便再提一下通用目标检测中另外一种加入Context信息的思路，Relation Networks（https://arxiv.org/abs/1711.11575）虽然主要是解决提升识别性能和过滤重复检测而不是专门针对小目标检测的，但是也和上面的PyramidBox思想很像的，都是利用上下文信息来提升检测性能，可以归类为Context一类。

总结

本文比较详细地总结了一些在通用目标检测和专门人脸检测领域常见的小目标检测的解决方案，后面有时间会再写一些专门在人脸领域的困难点（比如ROP的侧脸，RIP的360度人脸）及现在学术界的解决方案。

参考资料

1. Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks,https://arxiv.org/abs/1604.02878

2. 《深度学习中不平衡样本的处理》,https://github.com/Captain1986/CaptainBlackboard/blob/master/D%230016-深度学习中不平衡样本的处理/D%230016.md

3. Augmentation for small object detection,https://arxiv.org/pdf/1902.07296.pdf

4. Feature Pyramid Networks for Object Detection,https://arxiv.org/abs/1612.03144

5. RetinaFace: Single-stage Dense Face Localisation in the Wild,https://arxiv.org/pdf/1905.00641.pdf

6. SSH: Single Stage Headless Face Detector,https://arxiv.org/pdf/1708.03979.pdf

7. An Analysis of Scale Invariance in Object Detection - SNIP,https://arxiv.org/abs/1711.08189

8. R-FCN: Object Detection via Region-based Fully Convolutional Networks,https://arxiv.org/abs/1605.06409

9. SNIPER: Efficient Multi-Scale Training,https://arxiv.org/pdf/1805.09300.pdf

10. SAN: Learning Relationship between Convolutional Features for Multi-Scale Object Detection,https://arxiv.org/pdf/1808.04974.pdf

11. ScratchDet: Training Single-Shot Object Detectors from Scratch,https://arxiv.org/pdf/1810.08425.pdf

12. FaceBoxes: A CPU Real-time Face Detector with High Accuracy,FaceBoxes: A CPU Real-time Face Detector with High Accuracy

13. S3FD: Single Shot Scale-Invariant Face Detector,http://openaccess.thecvf.com/content_ICCV_2017/papers/Zhang_S3FD_Single_Shot_ICCV_2017_paper.pdf

14. Perceptual Generative Adversarial Networks for Small Object Detection,https://arxiv.org/abs/1706.05274

15. PyramidBox: A Context-assisted Single Shot Face Detector,https://arxiv.org/abs/1803.07737

16.Relation Networks for Object Detection,https://arxiv.org/abs/1711.11575

end

这是我的私人微信，还有少量坑位，可与相关学者研究人员交流学习

目前开设有人工智能、机器学习、计算机视觉、自动驾驶（含SLAM）、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群，备注：CV联盟

王博的公众号，欢迎关注，干货多多

王博的系列手推笔记（附高清PDF下载）：

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机（上）

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机（下）

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类（上）

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类（下）

博士笔记 | 周志华《机器学习》手推笔记第八章（上）

博士笔记 | 周志华《机器学习》手推笔记第八章（下）

博士笔记 | 周志华《机器学习》手推笔记第九章

点个在看支持一下吧

收藏 | 深度学习检测小目标常用方法相关推荐

深度学习检测小目标常用方法
作者丨船长@知乎来源丨https://zhuanlan.zhihu.com/p/83220498 编辑丨极市平台本文仅用于学术分享,如有侵权,请联系后台作删文处理. 引言在深度学习目标检测中,特 ...
干货 | 深度学习检测小目标常用方法
点击上方"视学算法",选择"星标"公众号重磅干货,第一时间送达 github地址:https://github.com/Captain1986/Captain ...
检测到目标服务器启用了trace方法_深度学习检测小目标常用方法
引言在深度学习目标检测中,特别是人脸检测中,小目标.小人脸的检测由于分辨率低,图片模糊,信息少,噪音多,所以一直是一个实际且常见的困难问题.不过在这几年的发展中,也涌现了一些提高小目标检测性能的解决 ...
小目标检测：基于深度学习的小目标检测方法
基于深度学习的小目标检测方法小目标检测的难点:分辨率低.信息少,噪音多.图像模糊解决方法:图像金字塔.特征金字塔.对包含小目标的图像进行oversampling.对小目标进行复制粘贴操作(不遮挡原 ...
深度学习之小目标检测
深度学习之小目标检测深度学习之小目标检测深度学习之小目标检测百度网盘提取码:1234 1.<小目标检测技术研究综述_梁鸿> 小目标检测是针对图像中像素占比少的目标,借助计算机视觉在图像 ...
基于深度学习的小目标检测方法综述
随着深度学习的发展,基于深度学习的目标检测技术取得了巨大的进展,但小目标由于像素少,难以提取有效信息,造成小目标的检测面临着巨大的困难和挑战. 为了提高小目标的检测性能,研究人员从网络结构.训练策略. ...
【深度学习】小目标检测、图像分类、图像识别等开源数据集汇总
编辑丨极市平台导读本文收集整理了多个小目标检测.图像识别.图像分类等方向的开源数据集,本次还有猫咪.斯坦福狗狗数据集以及3D MNIST数字识别等- 宠物图像数据集数据集下载地址:http:// ...
基于深度学习的视觉目标检测技术综述
基于深度学习的视觉目标检测技术综述--阅读曹家乐,李亚利,孙汉卿,谢今,黄凯奇,庞彦伟(天津大学, 天津 300072;清华大学, 北京 100084;重庆大学, 重庆 400044;中国科学院自动 ...
深度学习时代的目标检测算法综述
目标检测VS其他计算机视觉问题分类问题这或许是计算机视觉领域内最著名的问题.它主要指将一张图像归为某种类别.学术界最流行的一类数据集是ImageNet,由数以百万计已分好类的图像组成,(部分)用于 ...

收藏 | 深度学习检测小目标常用方法

引言