点击上方“视学算法”,选择“星标”公众号

重磅干货,第一时间送达

github地址:https://github.com/Captain1986/CaptainBlackboard

来源:opencv学堂 文字编辑:gloomyfish 

引言

在深度学习目标检测中,特别是人脸检测中,小目标、小人脸的检测由于分辨率低,图片模糊,信息少,噪音多,所以一直是一个实际且常见的困难问题。不过在这几年的发展中,也涌现了一些提高小目标检测性能的解决手段,本文对这些手段做一个分析、整理和总结。

传统的图像金字塔和多尺度滑动窗口检测

最开始在深度学习方法流行之前,对于不同尺度的目标,大家普遍使用将原图build出不同分辨率的图像金字塔,再对每层金字塔用固定输入分辨率的分类器在该层滑动来检测目标,以求在金字塔底部检测出小目标;或者只用一个原图,在原图上,用不同分辨率的分类器来检测目标,以求在比较小的窗口分类器中检测到小目标。

在著名的人脸检测器MTCNN中,就使用了图像金字塔的方法来检测不同分辨率的人脸目标。

不过这种方式速度慢(虽然通常build图像金字塔可以使用卷积核分离加速或者直接简单粗暴地resize,但是还是需要做多次的特征提取呀),后面有人借鉴它的思想搞出了特征金字塔网络FPN,它在不同层取特征进行融合,只需要一次前向计算,不需要缩放图片,也在小目标检测中得到了应用,在本文后面会讲到。

简单粗暴又可靠的Data Augmentation

深度学习的效果在某种意义上是靠大量数据喂出来的,小目标检测的性能同样也可以通过增加训练集中小目标样本的种类和数量来提升。在《深度学习中不平衡样本的处理》一文中已经介绍了许多数据增强的方案,这些方案虽然主要是解决不同类别样本之间数量不均衡的问题的,但是有时候小目标检测之难其中也有数据集中小样本相对于大样本来说数量很少的因素,所以其中很多方案都可以用在小样本数据的增强上,这里不赘述。另外,在19年的论文Augmentation for small object detection中,也提出了两个简单粗暴的方法:

方法一

针对COCO数据集中包含小目标的图片数量少的问题,使用过采样OverSampling策略;

方法二

针对同一张图片里面包含小目标数量少的问题,在图片内用分割的Mask抠出小目标图片再使用复制粘贴的方法(当然,也加上了一些旋转和缩放,另外要注意不要遮挡到别的目标)。

在同一张图中有更多的小目标,在Anchor策略的方法中就会匹配出更多的正样本。

特征融合的FPN

不同阶段的特征图对应的感受野不同,它们表达的信息抽象程度也不一样。浅层的特征图感受野小,比较适合检测小目标(要检测大目标,则其只“看”到了大目标的一部分,有效信息不够);深层的特征图感受野大,适合检测大目标(要检测小目标,则其”看“到了太多的背景噪音,冗余噪音太多)。所以,有人就提出了将不同阶段的特征图,都融合起来,来提升目标检测的性能,这就是特征金字塔网络FPN。

在人脸领域,基本上性能好一点的方法都是用了FPN的思想,其中比较有代表性的有:

RetinaFace:Single-stage Dense Face Localisation in the Wild

另外一个思路

既然可以在不同分辨率特征图做融合来提升特征的丰富度和信息含量来检测不同大小的目标,那么自然也有人会进一步地猜想,如果只用高分辨率的特征图(浅层特征)去检测小脸;用中间分辨率的特征图(中层特征)去检测大脸;最后用地分辨率的特征图(深层特征)去检测小脸。比如人脸检测中的SSH。

合适的训练方法SNIP,SNIPER,SAN

机器学习里面有个重要的观点,模型预训练的分布要尽可能地接近测试输入的分布。所以,在大分辨率(比如常见的224 x 224)下训练出来的模型,不适合检测本身是小分辨率再经放大送入模型的图片。如果是小分辨率的图片做输入,应该在小分辨率的图片上训练模型;再不行,应该用大分辨率的图片训练的模型上用小分辨率的图片来微调fine-tune;最差的就是直接用大分辨率的图片来预测小分辨率的图(通过上采样放大)。但是这是在理想的情况下的(训练样本数量、丰富程度都一样的前提下,但实际上,很多数据集都是小样本严重缺乏的),所以放大输入图像+使用高分率图像预训练再在小图上微调,在实践中要优于专门针对小目标训练一个分类器。

在下图中示意的是SNIP训练方法,训练时只训练合适尺寸的目标样本,只有真值的尺度和Anchor的尺度接近时来用来训练检测器,太小太大的都不要,预测时输入图像多尺度,总有一个尺寸的Anchor是合适的,选择那个最合适的尺度来预测。对R-FCN提出的改进主要有两个地方,一是多尺寸图像输入,针对不同大小的输入,在经过RPN网络时需要判断valid GT和invalid GT,以及valid anchor和invalid anchor,通过这一分类,使得得到的预选框更加的准确;二是在RCN阶段,根据预选框的大小,只选取在一定范围内的预选框,最后使用NMS来得到最终结果。

SNIPER是SNIP的实用升级版本,这里不做详细介绍了。

稠密Anchor采样和匹配策略S3FD,FaceBoxes

在前面Data Augmentation部分已经讲了,复制小目标到一张图的多个地方可以增加小目标匹配的Anchor框的个数,增加小目标的训练权重,减少网络对大目标的bias。同样,反过来想,如果在数据集已经确定的情况下,我们也可以增加负责小目标的Anchor的设置策略来让训练时对小目标的学习更加充分。例如人脸检测中的FaceBoxes其中一个Contribution就是Anchor densification strategy,Inception3的anchors有三个scales(32,64,128),而32 scales是稀疏的,所以需要密集化4倍,而64 scales则需要密集化2倍。在S3FD人脸检测方法中,则用了Equal-proportion interval principle来保证不同大小的Anchor在图中的密度大致相等,这样大脸和小脸匹配到的Anchor的数量也大致相等了。

另外,对小目标的Anchor使用比较宽松的匹配策略(比如IoU > 0.4)也是一个比较常用的手段。

先生成放大特征再检测的GAN

Perceptual GAN使用了GAN对小目标生成一个和大目标很相似的Super-resolved Feature(如下图所示),然后把这个Super-resolved Feature叠加在原来的小目标的特征图(如下下图所示)上,以此增强对小目标特征表达来提升小目标(在论文中是指交通灯)的检测性能。

利用Context信息的Relation Network和PyramidBox

小目标,特别是像人脸这样的目标,不会单独地出现在图片中(想想单独一个脸出现在图片中,而没有头、肩膀和身体也是很恐怖的)。像PyramidBox方法,加上一些头、肩膀这样的上下文Context信息,那么目标就相当于变大了一些,上下文信息加上检测也就更容易了。

这里顺便再提一下通用目标检测中另外一种加入Context信息的思路,Relation Networks虽然主要是解决提升识别性能和过滤重复检测而不是专门针对小目标检测的,但是也和上面的PyramidBox思想很像的,都是利用上下文信息来提升检测性能,可以归类为Context一类。

总结

本文比较详细地总结了一些在通用目标检测和专门人脸检测领域常见的小目标检测的解决方案,后面有时间会再写一些专门在人脸领域的困难点(比如ROP的侧脸,RIP的360度人脸)及现在学术界的解决方案。

参考链接

Joint Face Detection and Alignment using Multi-task Cascaded Convolutional Networks
https://arxiv.org/abs/1604.02878Augmentation for small object detection
https://arxiv.org/pdf/1902.07296.pdfFeature Pyramid Networks for Object Detection
https://arxiv.org/abs/1612.03144RetinaFace: Single-stage Dense Face Localisation in the Wild
https://arxiv.org/pdf/1905.00641.pdfSSH: Single Stage Headless Face Detector
https://arxiv.org/pdf/1708.03979.pdfAn Analysis of Scale Invariance in Object Detection - SNIP
https://arxiv.org/abs/1711.08189R-FCN: Object Detection via Region-based Fully Convolutional Networks
https://arxiv.org/abs/1605.06409SNIPER: Efficient Multi-Scale Training
https://arxiv.org/pdf/1805.09300.pdfSAN: Learning Relationship between Convolutional Features for Multi-Scale Object Detection
https://arxiv.org/pdf/1808.04974.pdfScratchDet: Training Single-Shot Object Detectors from Scratch
https://arxiv.org/pdf/1810.08425.pdfFaceBoxes: A CPU Real-time Face Detector with High Accuracy
https://arxiv.org/abs/1708.05234S3FD: Single Shot Scale-Invariant Face Detector
http://openaccess.thecvf.com/content_ICCV_2017/papers/Zhang_S3FD_Single_Shot_ICCV_2017_paper.pdfPerceptual Generative Adversarial Networks for Small Object Detection
https://arxiv.org/abs/1706.05274PyramidBox: A Context-assisted Single Shot Face Detector
https://arxiv.org/abs/1803.07737Relation Networks for Object Detection
https://arxiv.org/abs/1711.11575

- END -

如果看到这里,说明你喜欢这篇文章,请转发、点赞。扫描下方二维码或者微信搜索「perfect_iscas」,添加好友后即可获得10套程序员全栈课程+1000套PPT和简历模板向我私聊「进群」二字即可进入高质量交流群。

扫描二维码进群↓

在看 

干货 | 深度学习检测小目标常用方法相关推荐

  1. 收藏 | 深度学习检测小目标常用方法

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:作者丨船长@知乎 来源丨https://zhuanlan.z ...

  2. 深度学习检测小目标常用方法

    作者丨船长@知乎 来源丨https://zhuanlan.zhihu.com/p/83220498 编辑丨极市平台 本文仅用于学术分享,如有侵权,请联系后台作删文处理. 引言 在深度学习目标检测中,特 ...

  3. 检测到目标服务器启用了trace方法_深度学习检测小目标常用方法

    引言 在深度学习目标检测中,特别是人脸检测中,小目标.小人脸的检测由于分辨率低,图片模糊,信息少,噪音多,所以一直是一个实际且常见的困难问题.不过在这几年的发展中,也涌现了一些提高小目标检测性能的解决 ...

  4. 小目标检测:基于深度学习的小目标检测方法

    基于深度学习的小目标检测方法 小目标检测的难点:分辨率低.信息少,噪音多.图像模糊 解决方法:图像金字塔.特征金字塔.对包含小目标的图像进行oversampling.对小目标进行复制粘贴操作(不遮挡原 ...

  5. 深度学习之小目标检测

    深度学习之小目标检测深度学习之小目标检测深度学习之小目标检测 百度网盘 提取码:1234 1.<小目标检测技术研究综述_梁鸿> 小目标检测是针对图像中像素占比少的目标,借助计算机视觉在图像 ...

  6. 基于深度学习的小目标检测方法综述

    随着深度学习的发展,基于深度学习的目标检测技术取得了巨大的进展,但小目标由于像素少,难以提取有效信息,造成小目标的检测面临着巨大的困难和挑战. 为了提高小目标的检测性能,研究人员从网络结构.训练策略. ...

  7. 【深度学习】小目标检测、图像分类、图像识别等开源数据集汇总

    编辑丨极市平台 导读 本文收集整理了多个小目标检测.图像识别.图像分类等方向的开源数据集,本次还有猫咪.斯坦福狗狗数据集以及3D MNIST数字识别等- 宠物图像数据集 数据集下载地址:http:// ...

  8. 基于深度学习的视觉目标检测技术综述

    基于深度学习的视觉目标检测技术综述--阅读 曹家乐,李亚利,孙汉卿,谢今,黄凯奇,庞彦伟(天津大学, 天津 300072;清华大学, 北京 100084;重庆大学, 重庆 400044;中国科学院自动 ...

  9. 深度学习时代的目标检测算法综述

    目标检测VS其他计算机视觉问题 分类问题 这或许是计算机视觉领域内最著名的问题.它主要指将一张图像归为某种类别.学术界最流行的一类数据集是ImageNet,由数以百万计已分好类的图像组成,(部分)用于 ...

最新文章

  1. SQL2000 N' '的意思
  2. 集成学习(Bagging和AdaBoost和随机森林(random forest))
  3. linux——samba共享以及基础用法
  4. Android-NDK-audio-echo
  5. OnLongClickListener长按事件设置墙纸
  6. python-虚拟环境操作指令-centos环境下
  7. php 逗号千分位,PHP中number_format函数输出数字格式化,增加千分位符号
  8. mysql limit 不起作用_这句mysql中为什么limit起不到作用
  9. Smobiler图片二进制上传处理
  10. MFC程序版本自动升级更新
  11. 中国大学MOOC-陈越、何钦铭-数据结构-习题解答-04 树(中)
  12. 电影光盘的vob格式视频如何转换成mp4格式
  13. 总结在mac电脑上安装brew
  14. Teams app 开发最佳实践
  15. 【RPG黑暗之光】第四章· 物品模块
  16. Java——腐烂的橘子
  17. 手机怎么把几个PDF文件合并到一起?教你一分钟搞定
  18. FPGA niosII 视频笔记--小梅
  19. 黑马程序员——OC语言------类的声明实现、面向对象
  20. DY-SV17F语音播放模块应用篇一 【IO独立模式】

热门文章

  1. 【Codeforces】427B Prison Transfer(别让罪犯跑了...)
  2. 第3次翻译了 Pandas 官方文档,叒写了这一份R万字肝货操作!
  3. 数学很差的人能当程序员吗?
  4. Azure 中国四年扩容 12 倍还不够,微软放话:全球每年新建 50-100 数据中心!
  5. 从谷歌AutoML到百度EasyDL,AI大生产时代,调参师不再是刚需
  6. 教育部:建设100+AI特色专业,500万AI人才缺口要补上!
  7. Yann LeCun等最新研究:如何对未来实例分割进行预测?
  8. 入门深度学习,但你知道哪些情况下不该使用深度学习吗?
  9. 我妈今年 70 岁,受不了Windows蓝屏,用了 21 年的 Linux!YYDS!
  10. 理解 Linux 的虚拟内存