导读

GFL之后，又来了VarifocalNet，而且效果更好，一起来关注一下。

代码：https://github.com/hyz-xmaster/VarifocalNet

论文：https://arxiv.org/abs/2008.13367

1. 介绍

现在的物体检测方法中的其中一个问题是，目标的分类得分无法代表对于其位置预测的质量，这导致有些位置预测很准的框的置信度不高，在做NMS的时候会被抑制掉。为了解决这个问题，也提出了很多的方法，比如用一个额外的IoU得分或者centerness的得分来对位置的预测质量进行评估，然后在做NMS的时候，把分类得分和位置质量得分相乘起来使用。但是这种方法并不是最优的，甚至会导致更差的结果，后面会说。如果是用一个小的网络去预测位置评分的话，这种方法不够优雅，需要额外的计算量。

为了克服这些缺点，我们可以思考一个问题：我们能不能将这个位置的质量预测合并到分类得分里面，而不是单独去预测一个定位的质量？也就是说，预测一个和定位相关的分类得分，或者是IoU相关的分类得分，叫做IACS。

我们的贡献如下：

1、我们展示了使用合适的分数对大量的候选框进行准确的排序是提升dense目标检测器表现的关键因素。

2、我们提出了Varifocal Loss来训练dense目标检测器，去回归IACS。

3、我们提出了一种新的星型的目标框的特征表示方式来预测IACS并对框进行优化。

4、我们基于FCOS开发了一种新的目标检测器，叫做VarifocalNet或者VFNet，我们的方法的示意图如下。

2. 动机

这部分中，我们研究了FCOS+ATSS的performance的上限，展示了将IoU-aware的分类得分作为排序bias的重要性。在研究FCOS+ATSS的上限的时候，在做NMS之前，我们把dense的预测分类得分，距离的offset以及centerness的得分都换成了ground truth值，然后在coco val2017上进行评估。对于分类概率向量，我们有两种选择，一个是直接把对应的类别置为1，另一个方法是置为gt和预测框的gt-IoU的值。对于centerness值，我们也考虑使用其真实值或者是gt-IoU的值。结果如表1，原始的FCOS+ATSS的AP是39.2，当我们在推理的时候对centerness得分使用gt值（gt_ctr）的时候，只提升了2个点，类似的，我们把centerness值替换为gt_IoU（gt_ctr_iou）的值之后，也只是提升到了43.5。这表明用类别概率和centerness相乘并不能得到显著的提升。

相比之下，使用gt包围框的FCOS+ATSS在没有centerness的情况下，达到了56.1的AP。但是，如果将gt_label位置的类别概率(gt_cls)设为1，是否使用centerness就变得很重要了（43.1 AP vs 58.1 AP），因为centerness可以在某种程度上区分开正确和不正确的包围框。

最令人惊讶的是，如果把分类得分替换为gt_IoU（gt_cls_iou），也就是IACS，在推理的时候不需要centerness，可以得到74.7的AP。上面的结果表明，对于大多数的gt目标，在庞大的候选结果的池子里是存在准确定位的包围框的，那么，关键就是如何把这些高质量的检测结果从候选池子里挑选出来，上面的结果显示了，IACS就是选择候选结果的最佳的度量方法。

3. VarifocalNet

基于上面的发现，我们提出去学习一个IoU-aware的分类得分（IACS）来排序检测结果，然后我们基于FCOS+ATSS，去掉了centerness分支，构建了一个新的dense物体检测器，叫做VarifocalNet或者VFNet。相比于FCOS+ATSS，有3个新东西：varifocal loss，星型包围框以及包围框优化。

3.1 Varifocal Loss

我们设计了Varifocal Loss用来训练IACS，这是从Focal Loss演化而来的。Focal Loss的定义如下：

其中，α是用来平衡正负样本的权重，和用来调制每个样本的权重，使得困难样本有较高的权重，避免大量的简单的负样本主导了训练时候的loss。我们借用了Focal Loss中的这种加权的思想，我们用Varifocal Loss来训练回归连续的IACS，和Focal Loss不一样的是，Focal Loss对于正负样本的处理是相同的，而我们这里是不对等的，我们的Varifocal Loss定义为：

其中p是预测的IACS，q是目标IoU得分，对于正样本，q是预测包围框和gt框之间的IoU，对于负样本，q为0。见上面的图1。

从式子中可以看到，VFL只对负样本进行了的衰减，这是由于正样本太少了，我们希望充分利用正样本的监督信号。另一方面，受到PISA和IoU-balanced Loss的启发，我们对正样本使用q进行了加权，如果正样本具有很高的gt_iou，那么，loss的贡献就要大一些，这样使得训练可以聚焦在那些质量高的样本上。为了平衡总体的正负样本，我们同样使用了α进行了负样本的加权。

3.2 星型包围框的特征表示

我们还设计了一种高效的星型的包围框的表示方法来预测IACS，使用了固定的9个采样点（图1中的黄色圆圈），通过可变形卷积来表示包围框。这种表示方法可以获取包围框的几何信息以及附近的上下文的信息，这对于预测框和gt框在编码时的不对齐问题很重要。

具体来说，给定一个采样点（x，y），我们首先使用一个3x3的卷积回归一个初始框，和FCOS一样，包围框编码为4D向量(l’, t’, r’, b’)，表示采样点到四条边的距离，使用这个距离向量，我们启发式的选择了9个采样点：(x, y), (x-l’, y), (x, y-t’), (x+r’, y), (x, y+b’), (x-l’, y-t’), (x+l’, y-t’), (x-l’, y+b’) 和 (x+r’, y+b’)，然后，这9个点被映射到特征图上，使用可变形卷积来表示包围框，由于这些点是手工选取的，不需要额外的预测，所以计算上非常高效。

3.3 包围框优化

我们通过包围框的优化步骤进一步提升了物体的定位准确率。包围框的优化在dense的物体检测中并不常用，但是，使用星型的包围框的表示，我们可以在dense的物体检测器中利用包围框优化而不损失计算效率。

我们将包围框的优化建模为一个残差学习的问题。对于初始的回归框(l’, t’, r’, b’)，我们首先提取星型的表示并编码，然后，我们学习4个距离缩放因子，(△l, △t, △r, △b)来缩放这个距离向量，这样优化后的包围框可以表示为(l, t, r, b) = (△l×l’,△t×t’, △r×r’, △b×b’)，更加接近gt。

3.4 VarifocalNet

加上上面的三个组件，然后去掉centerness分支，就得到了VarifocalNet，图3显示了VarifocalNet的结构，主干和FCOS一样，区别就在于检测头上。定位子网络需要进行包围框的回归和refine。

3.5 损失函数和推理

损失函数如下：

其中，bbox‘和bbox分别表示初始的和refine之后的预测包围框，我们使用训练的target的qi进行加权。

推理：推理就是直接图像的前向传播然后NMS去除冗余框。

4. 实验

训练细节：初始学习率0.01，使用线性warmup策略，warmup比例是0.1，使用了8个V100 GPU，batchsize为16。输入图像的最大尺寸为1333x800，数据增强方面只使用了水平翻转。

4.1 消融实验

4.1.1 Varifocal Loss

不同超参数(α，γ)以及损失加权的效果，如表2，效果最好的是γ=2，α=0.75。

4.1.2 每个组件的贡献

每个组件的影响见表3：

4.2 和其他最先进方法的对比

4.3 通用性和优势

和GFL进行了对比，将VFL用到其他的方法上看是否有效果：

—END—

论文链接：https://arxiv.org/abs/2008.13367

往期精彩回顾适合初学者入门人工智能的路线及资料下载机器学习及深度学习笔记等资料打印机器学习在线手册深度学习笔记专辑《统计学习方法》的代码复现专辑
AI基础下载机器学习的数学基础专辑
本站qq群704220115，加入微信群请扫码：

【论文解读】VarifocalNet：如何对候选框排序的最优方案相关推荐

直播预告 | AAAI 2022论文解读：基于锚框排序的目标检测知识蒸馏
「AI Drive」是由 PaperWeekly 和 biendata 共同发起的学术直播间,旨在帮助更多的青年学者宣传其最新科研成果.我们一直认为,单向地输出知识并不是一个最好的方式,而有效地反馈和 ...
【论文解读】KDD2020最佳论文: 关于个性化排序任务评价指标的大讨论
前段时间还跟实验室同学专门讨论了下关于个性化排序中的评价指标问题,即我们在实验的过程中究竟使用哪一种实验设置才能较好的反映模型的泛化能力,比如采用全量测试数据进行排序,但该方法需要的测试时间较长:比如 ...
ACL 2018论文解读 | 基于排序思想的弱监督关系抽取选种与降噪算法
在碎片化阅读充斥眼球的时代,越来越少的人会去关注每篇论文背后的探索和思考. 在这个栏目里,你会快速 get 每篇精选论文的亮点和痛点,时刻紧跟 AI 前沿成果. 点击本文底部的「阅读原文」即刻加入社区 ...
faster rcnn论文_【论文解读】精读Faster RCNN
Faster R-CNN论文链接: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks 推荐代 ...
YOLOv4论文解读
论文原文: https://arxiv.org/pdf/2004.10934.pdf 代码实现: https://github.com/AlexeyAB/darknet 一.介绍原文名称:<Y ...
R-FCN论文解读及难点理解
原文:R-FCN:https://arxiv.org/abs/1605.06409 Github链接:https://github.com/daijifeng001/r-fcn(https://git ...
论文解读 | Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation
论文地址:Rich Feature Hierarchies for Accurate Object Detection and Semantic Segmentation GitHub地址: http ...
目标检测论文解读1：（RCNN解读）Rich feature hierarchies for accurate object detection...
一.番外说明大家好,我是小P,今天和大家一起学习目标检测领域的经典文章-RCNN,希望大家支持和喜欢.此外,对"目标检测/模型压缩/语义分割"感兴趣的小伙伴,欢迎加入QQ群 81 ...
AAAI 2020论文解读：商汤科技提出新弱监督目标检测框架
来源 | Object Instance Mining for WeaklySupervised Object Detection 编辑 | Carol 出品 | AI科技大本营(ID:rgznai1 ...

【论文解读】VarifocalNet：如何对候选框排序的最优方案