论文分析了 one-stage 网络训练存在的类别不平衡问题，提出能根据 loss 大小自动调节权重的 focal loss，使得模型的训练更专注于困难样本。同时，基于 FPN 设计了 RetinaNet，在精度和速度上都有不俗的表现

论文:Focal Loss for Dense Object Detection

论文地址：http://arxiv.org/abs/1708.02002^[1]
论文代码：http://github.com/facebookresearch/Detectron^[2]

Introduction

目前 state-of-the-art 的目标检测算法大都是 two-stage、proposal-driven 的网络，如 R-CNN 架构。而 one-stage 检测器一直以速度为特色，在精度上始终不及 two-stage 检测器。因此，论文希望研究出一个精度能与 two-stage 检测器媲美的 one-stage 检测器通过分析，论文认为阻碍 one-stage 精度主要障碍是类别不平衡问题(class imbalance)：

在 R-CNN 架构检测器中，通过 two-stage 级联和抽样探索法(sampling heuristics)来解决类别不平衡问题。proposal 阶段能迅速地将 bndbox 的数量缩小到很小的范围(1-2k)，过滤了大部分背景。而第二阶段，则通过抽样探索法来保持正负样本的平衡，如固定的正负样本比例(1:3)和 OHEM
one-stage 检测器通常需要处理大量的 bndbox(~100k)，密集地覆盖着各位置、尺度和长宽比。然而大部分 bndbox 都是不含目标的，即 easy background。尽管可以使用类似的抽样探索法(如 hard example mining)来补救，但这样的效率不高，因为训练过程仍然被简单的背景样本主导，导致模型更多地学习了背景而没有很好地学习检测的目标

在解决以上问题的同时，论文产出了两个成果：

新的损失函数 focal loss，该函数能够动态地调整交叉熵大小。当类别的置信度越大，权重就逐渐减少，最后变为 0。反之，置信度低的类别则得到大的权重

设计了一个简单的 one-stage 检测器 RetinaNet 来演示 focal loss 的有效性。该网络包含高效的特征金字塔和特别的 anchor 设定，结合一些多种近期的 one-stage detectgor 的 trick(DNN/FPN/YOLO/SSD)，达到 39.1 的 AP 精度和 5fps 的速度，超越了所有的单模型，如图 2 所示

FocalLoss

Balanced Cross Entropy

交叉熵损失函数如图 1 最上曲线，当置信度大于 0.5 时，loss 的值也不小。若存在很多简单样本时，这些不小的 loss 堆积起来会对少样本的类别训练造成影响

一种简单的做法是赋予不同的类不同的权重，即-balanced 交叉熵。在实际操作中，属于一个预设的超参，类别的样本数越多，则设置越小

Focal Loss Definition

-balanced 交叉熵仅根据正负样本的数量进行权重的平衡，没有考虑样本的难易程度。因此，focal loss 降低了容易样本的损失，从而让模型更专注于难的负样本

focal loss 在交叉熵的基础上添加了调节因子，其中是超参数。的 loss 曲线如图 1 所示，focal loss 有两个特性：

当一个样本被误分且置信度很低时，调节因子会接近 1，整体的 loss 都很小。当置信度接近 1 的时候，调节因子会接近于 0，整体的 loss 也被降权了
超参数平滑地调整了简单样本的降权比例。当，Focal loss 与交叉熵一致，随着增加，调节因子的影响也相应增加。当时，置信度为 0.9 的样本的 loss 将有 100 倍下降，而 0.968 的则有 1000 倍下降，这变相地增加了误分样本的权重

实际使用时中，focal loss 会添加-balanced，这是从后面的实验中总结出来的

Class Imbalance and Model Initialization

二分类模型初始化时对于正负样本预测是均等的，而在训练时，样本数多的类别会主导网络的学习，导致训练初期不稳定。为了解决这问题，论文在模型初始化的时候设置先验值(如 0.01)，使模型初始输出偏向于低置信度来加大少数(正)样本的学习。在样本不平衡情况下，这种方法对于提高 focal loss 和 cross entropy 训练稳定性有很大帮助

RetinaNet Detector

Architecture

RetinaNet 是 one-stage 架构，由主干网络和两个 task-specific 子网组成。主干网络用于提取特征，第一个子网用于类别分类，第二个子网用于 bndbox 回归

Feature Pyramid Network Backbone

RetinaNet 采用 FPN 作为主干，FPN 通过自上而下的路径以及横行连接来增强卷积网络的特征提取能力，能够从一张图片中构造出丰富的以及多尺度特征金字塔，结构如图 3(a)-(b)。 FPN 构建在 ResNet 架构上，分别在 level -，每个 level l 意味着的尺度缩放，且每个 level 包含 256 通道

Anchors

level到对应的 anchor 尺寸为到，每个金字塔层级的的长宽比均为，为了能够预测出更密集的目标，每个长宽比的 anchor 添加原设定尺寸的大小的尺寸，每个 level 总共有 9 个 anchor 每个 anchor 赋予长度为 K 的 one-hot 向量和长度为 4 的向量，K 为类别数，4 为 box 的坐标，与 RPN 类似。IoU 大于 0.5 的 anchor 视为正样本，设定其 one-host 向量的对应值为 1，的 anchor 视为背景，的 anchor 不参与训练

Classification Subnet

分类子网是一个 FCN 连接 FPN 的每一 level，分类子网是权值共享的，即共用一个 FPN。子网由 4xCx(3x3 卷积+ReLU 激活层)+KxA(3x3 卷积)构成，如图 3(c)，C=256，A=9

Box Regression Subnet

定位子网结构与分类子网类似，只是将最后的卷积大小改为 4xAx3x3，如图 3(d 所示)。每个 anchor 学习 4 个参数，代表当前 bndbox 与 GT 间的偏移量，这个与 R-CNN 类似。这里的定位子网是类不可知的（class-agnostic），这样能大幅减少参数量

Inference and Training

Inference

由于 RetinaNet 结构简单，在推理的时候只需要直接前向推算即可以得到结果。为了加速预测，每一个 FPN level 只取置信度 top-1k bndbox()，之后再对所有的结果进行 NMS()

Focal Loss

训练时，focal loss 直接应用到所有～ 100k anchor 中，最后将所有的 loss 相加再除以正样本的数量。这里不除以 achor 数，是由于大部分的 bndbox 都是 easy 样本，在 focal loss 下仅会产生很少 loss。权值的设定与存在一定的关系，当增加时，则需要减少，(表现最好)

Initialization

Backbone 是在 ImageNet 1k 上预训练的模型，FPN 的新层则是根据论文进行初始化，其余的新的卷积层（除了最后一层）则偏置，权重为的高斯分布

最后一层卷积的权重为的高斯分布，偏置（偏置值的计算是配合最后的激活函数来推），使得训练初期的前景置信度输出为，即认为大概率都是背景。这样背景就会输出很小的 loss，前景会输出很大的 loss，从而阻止背景在训练前期产生巨大的干扰 loss

Optimization

RetinaNet 使用 SGD 作为优化算法，8 卡，每卡 batchSize=2。learning rate=0.01，60k 和 80k 轮下降 10 倍，共进行 90k 迭代，Weight decay=0.0001，momentum=0.9， training loss 为 focal loss 与 bndbox 的 smooth L1 loss

Experiments

Training Dense Detection

Network Initialization

论文首先尝试直接用标准交叉熵进行 RetinaNet 的训练，不添加任何修改和特殊初始化，结果在训练时模型不收敛。接着论文使用先验概率对模型进行初始化，模型开始正常训练，并且最终达到 30.2AP，训练对的值不敏感

Balanced Cross Entropy

接着论文进行平衡交叉熵的实验，结果如 Table1a，当时，模型获得 0.9 的 AP 收益

Focal Loss

接着论文进行了 focal loss 实验，结果如 Table 1b，当时，模型在-balanced 交叉熵上获得 2.9AP 收益。论文观察到，与成反向关。整体而言，带来的收益更大，此外，的值一般为(从中实验得出)

Analysis of the Focal Loss

为了进一步了解 focal loss，论文分析了一个收敛模型(，ResNet-101)的 loss 经验分布。首先在测试集的预测结果中随机取个正样本和个负样本，计算其 FL 值，再对其进行归一化令他们的和为 1，最后根据归一化后的 loss 进行排序，画出正负样本的累积分布函数(CDF)，如图 4

不同的值下，正样本的 CDF 曲线大致相同，大约 20%的难样本占据了大概一半的 loss，随着的增大，更多的 loss 集中中在 top20%中，但变化比较小不同的值下，负样本的 CDF 曲线截然不同。当时，正负样本的 CDF 曲线大致相同。当增大时，更大的 loss 集中在难样本中。当时，很大一部分的 loss 集中在很小比例的负样本中。可以看出，focal loss 可以很有效的减少容易样本的影响，让模型更专注于难样本

Online Hard Example Mining (OHEM)

OHEM 用于优化 two-stage 检测器的训练，首先根据 loss 对样本进行 NMS，再挑选 hightest-loss 样本组成 minibatches，其中 NMS 的阈值和 batch size 都是可调的。与 FL 不同，OHEM 直接去除了简单样本，论文也对比了 OHEM 的变种，在 NMS 后，构建 minibatch 时保持 1:3 的正负样本比。实验结果如 Table 1d，无论是原始的 OHEM 还是变种的 OHEM，实验结果都没有 FL 的性能好，大约有 3.2 的 AP 差异。因此，FL 更适用于 dense detector 的训练

Model Architecture Design

Anchor Density

one-stage 检测器使用固定的网格进行预测，一个提高预测性能的方法是使用多尺度/多长宽比的 anchro 进行。实验结果如 Table 1c，单 anchor 能达到 30.3AP，而使用 9 anchors 能收获 4AP 的性能提升。最后，当增加到 9anchors 时，性能反而下降了，这说明，当 anchor 密度已经饱和了

Speed versus Accuracy

更大 Backbone 和 input size 意味着更高准确率和更慢的推理速度，Table 1e 展示了这两者的影响，图 2 展示了 RetinaNet 与其它主流检测器的性能和速度对比。大尺寸的 RetinaNet 比大部分的 two-stage 性能要好，而且速度也更快

Comparison to State of the Art

与当前的主流 one-stage 算法对比，RetinaNet 大概有 5.9 的 AP 提升，而与当前经典的 two-stage 算法对比，大约有 2.3 的 AP 提升，而使用 ResNeXt32x8d-101-FPN 作为 backbone 则能进一步提升 1.7AP

Conclusion

论文认为类别不平衡问题是阻碍 one-stage 检测器性能提升的主要问题，为了解决这个问题，提出了 focal loss，在交叉熵的基础上添加了调节因子，让模型更集中于难样本的训练。另外，论文设计了 one-stage 检测器 RetinaNet 并给出了相当充足的实验结果

END

联盟学术交流群

扫码添加联盟小编，可与相关学者研究人员共同交流学习：目前开设有人工智能、机器学习、计算机视觉、自动驾驶（含SLAM）、Python、求职面经、综合交流群扫描添加CV联盟微信拉你进群，备注：CV联盟

目标检测 | RetinaNet：Focal Loss for Dense Object Detection相关推荐

目标检测--Focal Loss for Dense Object Detection
Focal Loss for Dense Object Detection ICCV2017 https://arxiv.org/abs/1708.02002 本文算是用简单的方法解决复杂的问题了,好 ...
RetinaNet——《Focal Loss for Dense Object Detection》论文翻译
<Focal Loss for Dense Object Detection> 摘要迄今为止最高精度的对象检测器基于由R-CNN推广的 two-stage 方法,其中分类器应用于稀疏的候 ...
RetinaNet论文详解Focal Loss for Dense Object Detection
一.论文相关信息 1.论文题目:Focal Loss for Dense Object Detection 2.发表时间:2017 3.文献地址:https://arxiv.org/pdf ...
【翻译】Focal Loss for Dense Object Detection(RetinaNet)
[翻译]Focal Loss for Dense Object Detection(RetinaNet) 目录摘要 1.介绍 2.相关工作 3.Focal Loss 3.1 平衡的交叉熵损失 3.2 ...
Focal Loss for Dense Object Detection（整理后转载）
@[TOC](Focal Loss for Dense Object Detection 论文目标核心思想 focal loss的提出交叉熵损失函数 focal loss的重要性质 focal l ...
Focal Loss for Dense Object Detection(RetinaNet)(代码解析)
转自:https://www.jianshu.com/p/db4ccd194109 转载于:https://www.cnblogs.com/leebxo/p/10485740.html
【目标检测】Focal Loss详解
论文题目:<Focal Loss for Dense Object Detection> 论文链接:https://arxiv.org/pdf/1708.02002.pdf 1. 前言我 ...
一种新的无监督前景目标检测方法 A New Unsupervised Foreground Object Detection Method
14.一种新的无监督前景目标检测方法 A New Unsupervised Foreground Object Detection Method 摘要:针对基于无监督特征提取的目标检测方法效率不高的问 ...
【目标检测】cvpr2021_VarifocalNet: An IoU-Aware Dense Object Detector
文章目录一.背景二.动机三.方法 3.1 IACS--IoU-Aware Classification Score 3.2 Varifocal loss 3.3 Star-Shaped Box ...

目标检测 | RetinaNet：Focal Loss for Dense Object Detection