arXiv-2018


文章目录

  • 1 Background and Motivation
  • 2 Advantages / Contributions
  • 3 Method
    • 3.1 Feature Pyramid Backbone
    • 3.2 Anchor-based Branches
    • 3.3 Anchor-free Branch
    • 3.4 Classi cation with IOU
  • 4 Experiments
    • 4.1 Datasets
    • 4.2 Overall performance
    • 4.3 Ablation study
  • 5 Conclusion(own) / Future work

1 Background and Motivation

人脸检测是许多人脸相关应用的基础且必要的步骤,例如,人脸标记(face landmark)和人脸识别(face recognition)

图片来源:iOS 相机流人脸识别(二)-关键点检测(face landmark --Dlib)

随着数码相机行业的发展,4K超高清分辨率相机,如 3840×2160,变得越来越流行!这种超高分辨率的图片给人脸检测带来了很大的挑战,因为人脸的尺寸范围变化巨大,从 10×10 到 2000×2000.

为了解决人脸检测中的 large scale variation,传统方法采用如下两种方式:

  • from input-level:采用图像金字塔,显然,会增加 computational cost,推理速度很慢,而且还需要 post-processing 来合并图像金字塔的结果!
  • from model or feature level:依赖于精心设计的 anchor 策略,但是 vulnerable to dataset distributions,鲁棒性不强。或者基于 anchor-free 的方法,eg:DenseBox 或者 UnitBox,但是定位能力又不够,往往没有 anchor-based 方法定位的准!精度就下去了

作者观察到,anchor-based 方法能在 32×32 到 512×512 范围内提供很好的定位,anchor-free 的方法有利于检测超大尺寸的脸

于是,作者结合 anchor-based 方法和 anchor-free 的方法,提出了 SFace 来缓解人脸检测问题中尺度变化较大(Large Scale Variations)的问题!

2 Advantages / Contributions

  • 提出 SFace 网络,结合 anchor-based 和 anchor-free 方法来解决人脸检测任务中 large scale variation 问题,采用 re-score approach based IoU 来使两个 branch 更好的 unify
  • 制作开源了高分辨率人脸检测数据集,4K-Face
  • ~ 50 fps,80% AP on 公共数据集 WIDER FACE dataset!(速度提升了一个数量级,精度差不多)

3 Method


integrates the anchor-based method and anchor-free
re-score approach based IoU 来融合 anchor-based 和 anchor-free 方法

3.1 Feature Pyramid Backbone

与 FPN 不同点在于,只采用了 P3-P5,作者说这足够了,FPN中 3×3 的平滑卷积被替换成了 1×1 ,256-D 的 channels 缩减到了 32-D
(FPN 的解读可以参考 【FPN】《Feature Pyramid Networks for Object Detection》)

主干采用的是 Xception-39,感受野达到了 1679,在 ImageNet 上,top1 error 44.9%,top5 error 21.4%

3.2 Anchor-based Branches

P3 到 P5 上的 anchor 大小为 1 6 2 16^2 162、 3 2 2 32^2 322 、 6 4 2 64^2 642,每个 anchor 2 个 ratios {1:1,1:1.5},3 个 scales { 2 0 2^0 20, 2 1 / 3 2^{1/3} 21/3, 2 2 / 3 2^{2/3} 22/3}(没想到在 FPN 的结构中还用了不同的 scale),尺度覆盖范围: 1 6 2 16^2 162 to 101.5 9 2 101.59^2 101.592

101.59 计算方法是如下(python)

64*2**(2/3)

分类 sub-net 是二分类,face or background

回归 sub-net 用的 IoU Loss(IoU Loss 的解析可以参考 【IoU Loss】《UnitBox: An Advanced Object Detection Network》),而不是 smooth-L1,回归中心坐标和长宽四个参数的改变量

3.3 Anchor-free Branch


anchor-free 的分支插在了 P3 层上,辅助 anchor-based 分支,用来捕获那些 anchor-based 覆盖不到的尺度!

这里的 anchor-free 的方法借鉴,DenseBox 和 UnitBox 方法,直接回归当前像素到 GT 的四个边界的距离

公式化表达如下,可以用左上角 ( x t , y t ) (x_t,y_t) (xt​,yt​) 和右下角 ( x b , y b ) (x_b,y_b) (xb​,yb​) 坐标表示 target bbox,对于当前像素 ( x i , y i ) (x_i,y_i) (xi​,yi​) 来说,能通过如下 4-D 的 vector 来描述 target bbox(到目标框四个边界的距离)

然后,用 IoU Loss 来回归,计算方式如下

N bbox 的面积,除以 N 是来做尺度归一化的

3.4 Classi cation with IOU

anchor-based 和 anchor-free 的方法在 localization manners 和 confidence scores 上有很大的不同,很难把两种方法合并到一起

anchor-based 和 anchor-free 方法的分类子网络自信度含义不同,都无法表示定位的准确度

  • anchor-based 方法的 classification confidence 主要表示的是 anchor 是否为目标的概率
  • anchor-free 方法的 confidence score mostly indicates whether the corresponding pixel falls on a face(FDDB 数据集,落在椭圆区域中)


    http://vis-www.cs.umass.edu/fddb/samples/

贸然将二者的分类结果合为一体是不合理的,会导致检测性能极具下降!

作者把分类分支表示成 IoU 得分,将 anchor-free 和 anchor-based 方法融合在一起,具体如下,anchor-based 和 anchor-free 的方法训练完成后都会产生 bbox prediction,计算这些 prediction 与 GT 的 IoU,IoU > 0.5 的anchor(anchor-based)或 pixel(anchor-free)视为 positive,其它视为 negative,用 binary cross entropy 分类!(作者试过用regression 的方式来训练分类分支,效果没有用 binary cross entropy 好

这样一来,原来 anchor-based 和 anchor-free 分类分支的作用会被强制替换成表示定位精度的得分!可以理解为是一种后处理操作!

作者也采用了 focal loss 来缓解正负样本不均衡!

论文中,anchor-based 和 anchor-free 方法的回归分支都采用的是 IoU loss(positive 的 IoU 才计算 Loss),anchor-free 回归分支中的 IoU Loss 好理解,和 UnitBox 一样,anchor-based 方法应该就是,回归出 delta,作用在 anchor 上,得出 prediction,然后 -log IoU

这样两个分支就完全统一了,分类分支表示的是定位的精度,回归分支都采用 IoU Loss,表示的是定位坐标!

4 Experiments

4.1 Datasets

  • A new dataset called 4K-Face:5012 张超高分辨率的图像 with extremely large face scale variations,30,000+ face,3840×2160
  • WIDER FACE dataset:32,203 images and 393,703 annotated faces,
    • 158,989,train
    • 39,496,validation
    • rest,test(验证集和测试集分为 easy,medium 和 hard,样本逐渐增多,hard 包含所有)

两个数据集尺度分布方面的比较(我有点比较奇怪,4K-Face 人脸比较少,怎么画出来比 WIDER FACE 的人脸还多,把纵坐标画成百分比不好吗?)



可以看到,作者制作的 4K-Face 数据集,尺度分布更广

WIDER FACE 数据集中,1%的人脸 size 大于 512 pixels,30% 以上的图片尺寸小于 32 pixels

4.2 Overall performance



可以看到,easy 上不是表现的最好,medium 和 hard 上傲视群雄,hard 好才是真的好

4.3 Ablation study

和 RetinaNet 和 UnitBox 比较一下,

AP(hard)最猛,就说明了一切

输入尺寸,推理时间和精度的比较

最后来感受一下检测效果




5 Conclusion(own) / Future work

  • anchor-free 的方法,DenseBox,UnitBox(IoU loss),这两种方法是 trained in a segmentation-like way,有椭圆的 seg-map
  • 在 IoU Loss 基础上,做了个尺度归一化
  • 通过把分类分支表示成定位精度 IoU score,来合并 anchor-based 和 anchor-free 的方法!两类方法的回归分支都采用的是 IoU Loss
  • 3.4 小节要仔细品读

【SFace】《SFace: An Efficient Network for Face Detection in Large Scale Variations》相关推荐

  1. 【Mimic】《Mimicking Very Efficient Network for Object Detection》

    CVPR论文解读:非常高效的物体检测Mimic方法 二次学习(周志华教授).knowledge distilling(Geoffrey Hinton) 实验比较多,但是抓住重点 比用imagenet ...

  2. 【D2Det】《 D2Det:Towards High Quality Object Detection and Instance Segmentation》

    CVPR-2020 Pytorch Code: https://github.com/JialeCao001/D2Det. 文章目录 1 Background and Motivation 2 Rel ...

  3. 【原创】【推荐】《ASP.NET 3.5+SQL Server网站模块化开发全程实录》出版记

    进过半年多的努力,<ASP.NET 3.5+SQL Server网站模块化开发全程实录>一书终于得以由清华大学出版社顺利出版. 第一次出版此类图书,不免其中会有诸多纰漏,还望广大读者不吝指 ...

  4. 【IPhone】《每个iPhone用户都该知道这些神级功能!》- 知识点目录

    <每个iPhone用户都该知道这些神级功能!> 1. 扫描文稿 操作路径:文件 ⇒ 浏览(右下角)⇒ 三点圆圈按钮(右上角)⇒ 扫描文稿 打开[文件] 选择[浏览]选项卡(右下角) 2. ...

  5. 【笔记】《Federated Learning With Blockchain for Autonomous Vehicles Analysis and Design Challenges》精读笔记

    论文信息 DOI: 10.1109/TCOMM.2020.2990686 目录 1.摘要 2.背景 3.本文贡献 4.BFL模型详述 4.1 模型概述 4.2模型问题与解决 4.3 两个算法 5.BF ...

  6. 【RCNN】《Rich feature hierarchies for accurate object detection and semantic segmentation 》

    2014 CVPR   之前刚开始接触目标检测算法的时候,老是分不清deep learning中,物体检测和图片分类算法上的区别,弄得我头好晕,终于在这篇paper上,看到了解释.物体检测和图片分类的 ...

  7. 【政策】《国家智能制造标准体系建设指南(2018年版)》印发

    导 读 工业和信息化部.国家标准化管理委员会日前印发<国家智能制造标准体系建设指南(2018年版)>,明确提出到2018年,累计制修订150项以上智能制造标准,基本覆盖基础共性标准和关键技 ...

  8. 【CutMix】《CutMix:Regularization Strategy to Train Strong Classifiers with Localizable Features》

    arXiv-2020 文章目录 1 Background and Motivation 2 Related Work 3 Advantages / Contributions 4 Method 5 E ...

  9. gcms基峰有什么用_【秘藏】《气相色谱、气相质谱仪维修蓝宝书》(GC、GCMS维修宝典)...

    实验新人哎呀,我的气相色谱进样后咋不出色谱峰?咦,怎么气相色谱基线又出现漂移问题了?气相色谱出了小故障,维修工程师不愿来,我这实验数据得马上出,咋办啊!?亲是不是快被各种莫名其妙的气相色谱故障逼疯了? ...

最新文章

  1. VTK:PolyData之CellPointNeighbors
  2. WNEWS 专题系统
  3. angular 内容投影
  4. java-JSON: Expected value at 1:0 错误
  5. Ubuntu12环境下Thin+rails(4)+ruby(2)+nginx+mysql 配置
  6. 随想录(再论内存屏障)
  7. linux常见问题解决方法,Ubuntu 下2个常见问题解决方法
  8. 第一次作业:对于Linux2.6.0源码中进程模型的分析
  9. 为什么K8s会成为主流?
  10. 查看Wordpress数据表关系
  11. 不使用随机数的洗牌算法
  12. 劳务派遣计算机信息管理系统,劳务派遣人员信息管理系统
  13. 在Excel表格中隐藏行或列
  14. 请编程序将china译成密码,密码规律是:用原来的字母后面第4个字母代替原来的字母。例如:字母A后面4个字母为E,因此,China应译为Glmre。
  15. 怎么写好文案?这些工具很好用
  16. 托运行李安检系统行业研究及十四五规划分析报告
  17. 数据缓存层及相关知识
  18. TSINGSEE青犀视频开发安全帽智能检测识别经验分享
  19. 连接校园网没有弹出登录界面或者连接手机热点上不了网
  20. 被印在纸币上的七大科学家

热门文章

  1. 微信编辑器——构思编辑器教你如何学好图文排版
  2. 黄金搭档:老虎+猫头鹰+孔雀+考拉
  3. 中国自然地理分区数据集 (含农业区划、森林工程、生态保护区、九大流域等)
  4. 房地产泡沫,经济发展的真正毒瘤
  5. 一个可以免费下载表情包的小程序
  6. 看完牛客网19年测试全部面筋,有了这篇测试面试100问的博客
  7. 微信界面Android实现
  8. AP计算机科学第12版5-6章参考答案
  9. centos shell基础 alias 变量单引号 双引号 history 错误重定向 21 jobs 环境变量 .bash_history source配置文件 nohup ...
  10. icns文件_感染phobos家族勒索病毒文件后缀.phobos如何应对处理?