全卷积单级目标检测器

摘要：

1.介绍

2.相关工作

3.方法

3.1. 全卷积单级目标探测器

3.2. FCOS的FPN多级预测

3.3. Center-ness for FCOS

4. 实验

4.1. 消融实验

4.1.1 基于FPN的多级预测

4.1.2 有或无 Center-ness

4.2. 与最先进探测器的比较

5.区域提案网络的扩展

6.结论

References

摘要：

提出了一种完全卷积的一级目标检测器（FCOS），以pixel-pixel预测的方式解决目标检测问题，类似于语义分割。几乎所有最先进的物体探测器，如RetinaNet、SSD、YOLOv3和Faster R-CNN，都依赖于预定义的anchor。相比之下，我们提出的检测器FCOS是无锚框的，也无proposal。通过消除预定义的anchor boxes，FCOS完全避免了与anchor相关的复杂计算，例如在训练期间的重叠计算。更重要的是，我们还避免了与anchor boxes相关的所有超参数，这些参数通常对最终检测性能非常敏感。通过唯一的后处理-非极大抑制（NMS），带有ResNeXt-64x4d-101的FCOS在AP中通过单模型和单比例测试达到44.7%，超过了以前的单级探测器，结构非常简单。我们首次展示了一个更简单、更灵活的检测框架，实现了更高的检测精度。我们希望提议的FCOS框架可以作为许多其他实例级任务的简单而强大的替代方案。

1.介绍

在计算机视觉中，目标检测是一项基本但具有挑战性的任务，它要求算法为图像中的每个感兴趣的实例预测一个带有类别标签的边界框。目前所有主流探测器，如faster R-CNN[24]、SSD[18]和YOLOv2、v3[23]都依赖于一组预定义的anchor boxes，长期以来，人们一直认为锚盒的使用是探测器成功的关键。尽管取得了巨大的成功，但需要注意的是，基于锚的探测器存在一些缺点：

1）探测性能对锚箱的尺寸、纵横比和数量非常敏感。例如，在RetinaNet[15]中，在COCO基准测试中，改变这些超参数会影响AP中高达4%的性能[16]。因此，这些超参数需要在基于anchor 的检测器中细心调整。

2）即使经过精心设计，由于锚框的比例和纵横比保持不变，探测器在处理形状变化较大的候选对象时也会遇到困难，尤其是对于小对象。预定义的锚盒还妨碍了检测器的泛化能力，因为它们需要针对具有不同对象大小或纵横比的新检测任务进行重新设计。

3）为了实现高召回率，需要基于锚的检测器在输入图像上密集放置锚盒（例如，对于短边为800的图像，特征金字塔网络（FPN）[14]中的锚盒超过180K）。在培训期间，大多数锚箱都被标记为负样本。负样本过多加剧了训练中正负样本的不平衡。4）锚定框还涉及复杂的计算，例如使用GT边界框计算联合交集（IoU）分数。

最近，全卷积网络（FCN）[20]在语义分割[20,28,9,19]、深度估计[17,31]、关键点检测[3]和计数[2]等密集预测任务中取得了巨大成功。作为高级视觉任务之一，目标检测可能是唯一偏离齐整的完全卷积单像素预测框架的任务，这主要是因为使用了锚盒。自然地会产生疑问：我们能否以每像素预测的方式解决目标检测问题，例如，在语义分割方面类似于FCN？这些基本的任务可以（几乎）统一在一个框架中？我们证明答案是肯定的。此外，我们首次证明，更简单的基于FCN的检测器比基于锚的检测器实现了更好的性能。

在文献中，一些工作试图利用基于FCNs的目标检测框架，如DenseBox[12]。具体来说，这些基于FCN的框架直接预测4维向量加上特征图级别上每个空间位置的类别。如图1（左）所示，4维向量描绘了从边界框的四边到位置的相对偏移。这些框架与用于语义分割的FCNs相似，只是每个位置都需要回归4维的连续向量。然而，为了处理不同大小的边界框，DenseBox[12]将训练图像裁剪并调整大小至固定比例。因此，DenseBox必须对图像金字塔进行检测，这与FCN一次计算所有卷积的原理背道而驰。此外，更重要的是，这些方法主要用于特殊领域的目标检测，如场景文本检测[33,10]或人脸检测[32,12]，因为人们认为这些方法在应用于具有高度重叠边界框的通用对象检测时效果不佳。如图1（右）所示，高度重叠的边界框会导致难以解决的模糊性：对于重叠区域中的像素，不清楚要回归哪个边界框。

图1—如左图所示，FCOS通过预测4维矢量（l、t、r、b）来工作，该矢量编码每个前景像素处边界框的位置（在训练期间由GT边界框信息监督）。右图显示，当一个位置位于多个边界框中时，该位置应该回归哪个边界框可能模糊。

在续集中，我们将更仔细地研究这个问题，并表明使用FPN可以在很大程度上消除这种模糊性。因此，我们的方法已经可以获得与传统基于锚的检测器相当的检测精度。此外，我们观察到，我们的方法可能会在远离目标对象中心的位置产生大量低质量的预测边界框。为了抑制这些低质量检测，我们引入了一个新的“center-ness”分支（仅一层）来预测像素到其相应边界框中心的偏差，如等式（3）所定义。然后，该分数用于降低检测到的低质量边界框的权重，并将检测结果合并到NMS中。简单而有效的center-ness分支允许基于FCN的检测器在完全相同的训练和测试设置下优于基于锚的检测器。

这种新的检测框架具有以下优点:

•检测现在与许多其他可解决的任务（如语义分割）相结合，从而更容易复用这些任务中的想法

•检测变得无需proposal，无需anchor，这大大减少了设计参数的数量。设计参数通常需要启发式调整，为了获得良好的性能，需要用到很多技巧。因此，我们的新检测框架使检测器，尤其是它的训练，变得相当简单

•通过消除anchor -box，我们的新检测器完全避免了与锚盒相关的复杂计算，如训练期间的IOU计算以及锚盒和GT盒之间的匹配，从而实现了更快的训练和测试，以及比基于锚盒的检测器更少的训练内存占用

•在没有过多花哨的情况下，我们在单级探测器中实现了最先进的结果。我们还表明，所提出的FCOS可以用作两级检测器中的区域建议网络（RPN），并且可以实现比基于anchor的RPN对等网络更好的性能。鉴于更简单的无锚探测器的性能更好，我们鼓励社区重新考虑在目标检测中使用锚盒的必要性，目前，anchor boxes被认为是检测的标准

•所提出的检测器可以立即扩展到解决其他视觉任务，只需很少的修改，包括实例分割和关键点检测。我们相信，这种新方法可以成为许多实例预测问题的新基线。

2.相关工作

Anchor-based Detectors。基于锚的检测器继承了传统滑动窗口检测器和基于proposal的检测器（如Fast R-CNN[6]）的思想。在基于锚的检测器中，anchor boxes可以被视为预定义的滑动窗口或proposal，这些滑动窗口或proposal被分类为正样本或负样本，并带有额外的bbox回归以优化边界盒位置的预测。因此，这些探测器中的anchor boxes可被视为训练样本。与以前的检测器（如快速RCNN）不同，faster RCNN反复计算每个滑动窗口的图像特征，锚盒利用CNN的特征映射，避免重复特征计算，显著加快了检测过程。更快的R-CNN在其RPN[24]、SSD[18]和YOLOv2[22]中推广了anchor boxes的设计，并已成为现代探测器的惯例。

然而，如上所述，锚箱会导致过多的超参数，通常需要仔细调整这些参数，以实现良好的性能。除了上述描述锚形状的超参数外，基于锚的检测器还需要其他参数超参数将每个锚定框标记为正样本、忽略样本或负样本。在以前的工作中，他们通常使用锚盒和GT盒之间的联合交集（IOU）来确定锚盒的标签（例如，如果其IOU在[0.5,1]中，则为正锚）。这些超参数对最终精度有很大影响，需要进行启发式调整。同时，这些超参数是特定于检测任务的，这使得检测任务偏离了用于其他密集预测任务（如语义分割）的整洁的FCN网络结构。

Anchor-free Detectors。最流行的无锚探测器可能是YOLOv1[21]。YOLOv1不使用定位框，而是在对象中心附近的点处预测边界框。仅使用中心附近的点，因为它们被认为能够产生更高质量的检测。然而，由于只有靠近中心的点被用来预测边界框，正如YOLOv2[22]所述，YOLOv1的召回率较低。因此，YOLOv2[22]也使用了锚箱。与YOLOv1相比，FCOS利用GT bbox中的所有点来预测bbox，并且提出的“center-ness”分支抑制了检测到的低质量bbox。因此，正如我们的实验所示，FCOS能够提供与基于锚的检测器相当的召回率。

CornerNet[13]是最近提出的一种单级无锚点检测器，它检测边界框的一对角，并将它们分组以形成最终检测到的边界框。CornerNet需要更复杂的后处理来对属于同一实例的角点对进行分组。为了分组，学习一个额外的距离度量.

另一系列无锚探测器（如[32]）基于DenseBox[12]。由于难以处理重叠的边界框，且召回率相对较低，该系列检测器被认为不适用于一般的目标检测。在这项工作中，我们表明，这两个问题可以用多级FPN预测在很大程度上缓解。此外，我们还表明，与我们提出的center-ness分支一起，更简单的检测器可以实现比锚定检测器更好的检测性能。

图2–FCOS的网络架构，其中C3、C4和C5表示主干网的特征图，P3到P7是用于最终预测的特征层。H×W是特征图的高度和宽度。‘/s’（s=8，16，…，128）是输入图像在该级别的特征映射的下采样率。例如，所有数字都是用800×1024的输入来计算的。

3.方法

在本节中，我们首先以逐像素预测的方式重新定义对象检测。接下来，我们展示了如何利用多层预测来提高召回率，并解决边界框重叠导致的模糊。最后，我们提出了我们提出的“center-ness”分支，它有助于抑制检测到的低质量边界框，并大幅度提高整体性能。

3.1. 全卷积单级目标探测器

令Fi∈RH*W*C 是主干CNN第i层的特征图，s是该层之前的总步长stride。输入图像的GT边界框定义为{Bi}，Bi= （x0i,y0i,x1iy1i , c i ）∈R4 *{1,2,..c}.（x0i,y0i ）和（x1i,y1i ）表示边界框左上和右下角的坐标。c i 是边界框中的对象所属的类。C是类的个数，比如MS-COCO数据集的C为80。

对于特征图Fi 上的每个位置（x，y），我们将其映射回输入图像，对应坐标为(s/2+xs,s/2+ys ),它位于该位置的感受野中心附近。不同于基于anchor的检测器，它考虑在输入图像上的位置作为多个anchor boxes的中心，并以这些anchor boxes作为参考来回归目标anchor boxes，我们直接在位置上回归目标的anchor boxes。换句话说，我们的检测器直接将位置视为训练样本，而不是基于anchor的检测器中的anchor boxes，这与用于语义分割的FCN相同[20]。

具体来说，如果位置（x，y）落入任何GT框中，就视为正样本，给出该位置属于Bi的分类预测c*。否则为负样本，并且c* = 0（背景类）。除了用于分类的标签，我们还有一个4维实向量t∗ = （l∗, t∗, r∗, b∗) 是该位置的回归目标。l∗, t∗, r∗, b∗是从该位置到边界框四边的距离，如图1（左）所示。如果一个位置落入多个边界框中，则将其视为模糊的样本。我们只需选择面积最小的边界框作为回归目标。在下一节中，我们将展示通过多级预测，模糊样本的数量可以显著减少，因此它们几乎不会影响检测性能。形式上，如果位置（x，y）与边界框Bi相关联，则该位置的训练回归目标可以表示为

值得注意的是，FCOS可以利用尽可能多的前景样本来训练回归器。它不同于基于锚的探测器，它只考虑GT框上具有足够高IOU的anchor boxes作为正样本。我们认为，这可能是FCOS优于anchor方式的原因之一。

网络输出。对应于训练目标，我们网络的最后一层预测分类标签的80维向量p和4维向量t=（l，t，r，b）边界框坐标。在[15]之后，我们没有训练多类分类器，而是训练C个二分类器。与[15]类似，我们在主干网络的特征图之后分别添加了四个卷积层，用于分类和回归分支。此外，由于回归目标总是正的，我们使用exp（x）将任何实数映射至（0，∞) 到回归分支的顶部。值得注意的是，FCOS的网络输出变量比流行的每个位置有9个anchor box的基于锚的检测器[15,24]少9倍。

损失函数。我们将训练损失函数定义如下：

其中，Lcls是[15]中的focal loss，Lreg是UnitBox[32]中的IOU loss。Npos表示正样本数，本文中λ为1，代表Lreg的平衡权重。在特征图Fi上的所有位置计算总和。I{ci* >0}是指示符函数，如果ci*>0 它就是1，否则为0。

推论。给定一个输入图像，通过网络前向传播，并获得特征图Fi上每个位置的分类分数px，y和回归预测tx，y。在[15]之后，我们选择px，y>0.05的位置作为正样本，并反转等式（1）以获得预测的边界框。

3.2. FCOS的FPN多级预测

在这里，我们展示了如何通过FPN的多级预测解决FCOS的两个可能问题[14]。

1） CNN中最终特征图的stride（例如16×）可能导致相对较低的best

possible recall（BPR）（检测器可以达到的召回率上限）。对于基于anchor的检测器，由于大步长而导致的低召回率可以通过降低正样本anchor box所需的IOU分数在一定程度上得到补偿。对于FCOS，乍一看，人们可能会认为BPR比基于锚点的检测器低得多，因为由于步幅较大，所以无法召回由于步幅太大，最终特征图上没有位置编码的对象。在这里，我们的经验表明，即使有很大的步长，基于FCN的FCOS仍然能够产生良好的BPR，甚至可以比官方实现Detectron[7]中基于锚的检测器RetinaNet[15]的BPR更好（参见表1）。因此，BPR实际上不是FCOS的问题。此外，通过多级FPN预测[14]，BPR可以进一步改进，以匹配基于anchor的RetinaNet可以实现的最佳BPR。

2） GT框中的重叠可能会导致难以解决的模糊性，即重叠中的某个位置应该回归哪个边界框？这种模糊性导致基于FCN的检测器性能下降。在这项工作中，我们表明，多层次预测可以大大解决模糊性，FCN为基础的检测器可以获得PAR，有时甚至更好的性能，相比基于anchor的方法。

根据FPN[14]，我们在不同级别的特征图上检测不同大小的对象。具体来说，我们使用了五个级别的特征图：{P3，P4，P5，P6，P7}。P3、P4和P5由主干CNN的特征图C3、C4和C5生成，之后是1×1卷积层，并有[14]中的自上而下连接，如图2所示。P6和P7是通过在P5和P6上分别施加一个步长为2的卷积层而产生的。因此，特征层P3、P4、P5、P6和P7分别具有8、16、32、64和128的步长。

与基于锚的检测器不同，基于锚的检测器将不同大小的锚框分配给不同的特征层，我们直接限制每个层的边界框回归范围。更具体地说，我们首先计算回归目标l∗, t∗, r∗, b∗ 适用于所有特征层上的每个位置。接下来，如果一个位置满足max（l∗, t∗, r∗, b∗) > mi或max（l∗, t∗, r∗, b∗) < mi−1，（这里mi是特征层i需要回归的最大距离）那它就被设置为负样本，不再需要回归。在这项工作中，m2、m3、m4、m5、m6和m7被设置为0、64、128、256、512和∞,因为具有不同大小的对象被指定给不同的特征层，大多数重叠发生在大小相差较大的对象之间。如果一个位置即使用了多级预测，仍然被分配给多个GT box，我们只需选择面积最小的GT box作为目标。实验表明，多级预测可以在很大程度上缓解上述模糊性，并将基于FCN的检测器提高到与基于锚的检测器相同的水平。

最后，在[14,15](FPN、focal loss)之后，我们在不同的级别的特征之间共享头部，不仅使检测器参数更高效，还提高了检测性能。然而，我们观察到，不同的特征层需要回归不同的大小范围（例如，P3的大小范围为[0,64]，P4的大小范围为[64,128]），因此，对于不同的特征层使用相同的头部是不合理的。因此，我们没有使用标准的exp（x），而是使用带有可训练标量si的exp（six）来自动调整特征层Pi的指数函数的基，这略微提高了检测性能。

3.3. Center-ness for FCOS

在FCOS中使用多级预测后，FCOS与基于锚的检测器之间仍然存在性能差距。我们观察到，这是由于远离对象中心的位置产生了大量低质量的预测边界框。

我们提出了一种简单而有效的策略来抑制这些低质量的bbox，而不引入任何超参数。具体来说，我们添加了一个单层分支，与分类分支并行（如图2所示）以预测位置的“center-ness”。

center-ness描绘了从该位置到该位置所负责的对象中心的标准化距离，如图3所示。对于一个位置的回归目标l∗, t∗, r∗, b∗，center-ness目标定义为

我们在这里使用开根号来减缓center-ness的衰退。center-ness从0到1不等，因此使用二进制交叉熵（BCE）损失进行训练。损失被加到损失函数式（2）中。测试时，通过将预测的center-ness乘以相应的分类分数来计算最终分数（用于对检测到的边界框进行排序）。因此，center-ness可以降低远离对象中心的边界框的分数。结果，在很大概率的情况下，这些低质量的边界框会被最终的非最大抑制（NMS）过程过滤掉，从而显著提高检测性能。

图3—center-ness(中心度)。红色、蓝色和其他颜色分别表示1、0和它们之间的值。中心度由公式（3）计算，随着位置偏离对象中心，中心度从1衰减到0。测试时，网络预测的中心度与分类分数相乘，从而可以降低由远离对象中心的位置预测的低质量边界框的权重。

4. 实验

我们的实验是在大规模检测基准COCO[16]上进行的。按照惯例[15,14,24]，我们使用COCO trainval35k split（115K图像）进行训练，minival split（5K图像）作为我们消融研究的验证。我们通过将检测结果上传到评估服务器来报告测试开发拆分（20K图像）的主要结果。

训练细节。除非另有规定，否则将ResNet-50[8]用作我们的主干网络，并使用与视网膜网[15]相同的超参数。特别的，我们采用随机梯度下降法（SGD）对网络进行90K次迭代训练，初始学习率为0.01， 16幅图像的mini-batch。在迭代60K和80K时，学习率分别降低了10倍。权重衰减和动量分别设置为0.0001和0.9。我们使用在ImageNet上预先训练的权重初始化骨干网络[4]。对于新添加的层，我们按照[15] 将其初始化。除非指定，否则输入图像的大小将调整为短边为800，长边小于或等于1333。

推理细节。首先将输入图像通过网络前向传播，得到具有预测类的预测bbox。除非另有说明，以下后处理与RetinaNet完全相同[15]，我们直接使用RetinaNet的相同后处理超参数。我们使用与训练中相同大小的输入图像。我们假设，如果我们仔细调整超参数，检测器的性能可能会进一步提高。

4.1. 消融实验

4.1.1 基于FPN的多级预测

如前所述，基于FCN的检测器的主要问题是召回率低，并且由于GT边界框中的重叠而导致样本模糊。在本节中，我们展示了这两个问题可以通过多层次预测在很大程度上得到解决。

BPR。基于FCN的检测器的第一个问题是，它可能无法提供良好的最佳召回（BPR）。在这一节中，我们表明这种担忧是没有必要的。在这里，BPR被定义为检测器最多能召回的GT bbox数除以所有GT bbox数的比值。如果在培训期间至少将GT bbox分配给一个样本（即FCOS中的一个位置或基于锚的探测器中的锚盒），则视为召回。如表1所示，只有当特征层P4的步幅为16（即无FPN）时，FCOS才能获得95.55%的BPR。BPR远高于官方实现Detectron中90.92%基于锚的检测器视网膜网的BPR，后者只有低质量的匹配，使用IOU≥ 0.4。在FPN的帮助下，FCOS可以实现98.40%的BPR，这非常接近基于锚的检测器通过使用所有低质量匹配可以实现的最佳BPR。由于当前检测器的最佳召回率远低于90%，FCOS和基于锚的检测器之间的小BPR差距（小于1%）实际上不会影响检测器的性能。表3中也证实了这一点，在相同的训练和测试设置下，FCOS比其基于锚的对手实现了更好的AR。因此，对低BPR的担忧可能没有必要。

表1—各种匹配规则下基于锚定的RetinaNet的BPR和基于FCN的FCOS的BPR。基于FCN的FCOS的召回率与基于最佳锚的FCOS非常相似，并且比Detectron[7]中的官方实现有更高的召回率，后者只有低质量匹配并考虑IOU≥0.4。

模糊样本。关于基于FCN的检测器的另一个担忧是，由于地面真值边界框中的重叠，它可能有大量模糊样本，如图1（右）所示。在表2中，我们显示了minival split上模糊样本与所有正样本的比率。如表所示，如果不使用FPN，而只使用特征层P4，则确实存在大量模糊的样本（23.16%）。然而，使用FPN，由于大多数重叠对象被分配到不同的特征层，该比率可以显著降低到仅7.14%。此外，我们认为，由同一类别的对象之间的重叠导致的模糊样本并不重要。例如，如果具有相同类别的对象A和B具有重叠，则无论重叠中的位置预测哪个对象，预测都是正确的，因为它始终与相同类别匹配。漏掉的目标只能通过属于它的位置来预测。因此，我们只计算不同类别边界框之间重叠的模糊样本。如表2所示，多级预测将模糊样本的比率从17.84%降低到3.75%。为了进一步证明GT框中的重叠不是我们基于FCN的FCOS的问题，我们在推断有多少检测到的边界框来自模糊位置进行了计算。我们发现，只有2.3%检测到的边界框是由模糊的位置产生的。通过进一步只考虑不同类别之间的重叠，该比率降低至1.5%。请注意，这并不意味着有1.5%的地方FCOS无法工作。如前所述，这些位置与面积最小的GT box相关联。因此，这些位置只承担丢失一些较大对象的风险。实验表明这个问题不会使我们的FCOS不如基于锚的探测器

表2-Amb.samples表示模糊样本与所有正样本的比率。Amb.samples（diff.）与前者相似但不包括重叠区域中的那些模糊样本，但属于同一类别，因为在推断时，模糊的类型并不重要。我们可以看到，使用FPN时，模糊样本的比例很小（3.75%）

表3—以ResNet-50-FPN为主干的minival split上的FCOS与RetinaNet的对比。直接使用RetinaNet的训练和测试设置，我们的无锚FCOS在AP和AR中都比基于锚的RetinaNet实现了更好的性能。当头部的组标准化（GN）和NMS阈值为0.6时，FCOS在AP中可以达到37.1。我们提交后，对FCOS进行了一些几乎无成本的改进，性能得到了大幅提高，如下面的“改进”行所示。

“ctr.on reg.”将“中心”分支移动到“回归”分支。

“ctr.采样”：仅将地面真相盒的中心部分作为正样本进行采样。

“GIoU”：在IoU损失中惩罚外接矩形区域上的联合区域。

“标准化”：用FPN水平的步幅标准化等式（1）中的回归目标。有关详细信息，请参阅我们的代码。

4.1.2 有或无 Center-ness

如前所述，我们提出“中心度”来抑制由远离对象中心的位置产生的低质量检测边界框。如表4所示，Center-ness分支可以将AP从33.5%提高到37.1%，使无锚定的FCOS优于锚定的RetinaNet（35.9%）。请注意，基于锚定的RetinaNet使用两个IoU阈值将锚定框标记为正/负样本，这也有助于抑制低质量的预测。提出的中心度可以消除这两个超参数。然而，在我们首次提交后，它表明，使用中心度和阈值可以产生更好的性能，如表3中的“+ctr.sampling”行所示。人们可能会注意到，在不引入额外的中心度分支的情况下，也可以使用预测回归向量计算中心度。然而，如表4所示，根据回归向量计算的中心度不能改善性能，因此需要单独的中心度。

表4–minival split上center-ness分支的消融研究。“无”表示不使用中心度。“中心度†”表示使用根据预测回归向量计算的中心度。“中心度”是指使用建议的中心度分支预测的中心度。Center-ness分支提高了所有度量下的检测性能。

4.1.3 FCOS与基于锚定的探测器

上述FCOS与标准RetinaNet有两个微小差异。

1）除了最后的预测层之外，我们在新添加的卷积层中使用了组归一化（GN）[29]，这使我们的训练更加稳定。

2）我们使用P5来生产P6和P7，而不是标准RetinaNet中的C5。我们观察到，使用P5可以略微提高性能。

为了证明我们的FCOS可以作为锚基探测器的简单而强大的替代品，为了公平比较，我们去除了GN（梯度被剪裁以防止它们爆炸），并在检测器中使用C5。如表3所示，在完全相同的设置下，我们的FCOS仍然优于基于锚的检测器（36.3%对35.9%）。此外，值得注意的是，我们直接使用RetinaNet的所有超参数（例如，学习率、NMS阈值等），这些参数已针对基于锚的检测器进行了优化。我们认为，如果调整超参数，FCOS的性能可以进一步提高。

值得注意的是，如表3所示，通过一些几乎无成本的改进，我们的无锚探测器的性能可以大幅度提高。鉴于无锚探测器的优越性能和优点（例如，比基于锚的探测器简单得多，超参数更少），我们鼓励社区重新考虑在目标检测中使用锚盒的必要性。

4.2. 与最先进探测器的比较

我们在MS-COCO的test-dev split基准上将FCOS与其他最先进的物体检测器进行了比较。在这些实验中，我们在训练过程中随机缩放图像的短边，范围从640到800，并将迭代次数加倍到180K（学习率变化点按比例缩放）。其他设置与表3中AP 37.1%的模型完全相同。如表5所示，使用ResNet-101-FPN，我们的FCOS在AP中的性能比使用相同主干ResNet-101-FPN的RetinaNet高出2.4%。这是第一次使用无锚探测器，比基于锚的探测器有很大的优势。FCOS的性能也大大优于其他经典的两级锚定检测器，如Faster R-CNN。以ResNeXt-64x4d-101-FPN[30]为主干，FCOS在AP中实现43.2%。它比最近最先进的无锚探测器CornerNet[13]有很大的优势，但要简单得多。请注意，CornerNet需要使用嵌入向量对角进行分组，这需要对检测器进行特殊设计。因此，我们认为FCOS更有可能成为当前主流的基于锚的检测器的强大而简单的替代品。此外，表3中改进的FCOS在单模型和单尺度测试的AP中达到44.7%，大大超过了以前的检测器

表5—FCOS与其他最先进的两级或一级探测器（单模型和单比例结果）的对比。在具有相同主干的AP中，FCOS比基于锚的对应RetinaNet的性能好2.4%。FCOS的性能也优于最近推出的无锚单级探测器CornerNet，其设计复杂度要低得多。有关“改进”的详细信息，请参阅表3

5.区域提案网络的扩展

到目前为止，我们已经证明，在单级探测器中，我们的FCOS可以实现比锚定探测器更好的性能。直观地说，FCOS还应该能够用FPN[14]替换RCNN中的区域提案网络（RPN）中的anchor boxes。在这里，我们通过实验证实了这一点。

与带有FPN的RPN[14]相比，我们使用FCOS中的方法替换anchor box。此外，我们将GN添加到FPN头部的层中，这可以使我们的训练更加稳定。所有其他设置与官方代码[7]中带有FPN的RPN完全相同。如表6所示，即使没有center-ness分支机构，我们的FCOS也已经显著提高了AR100和AR1k。通过center-ness分支，FCOS进一步将AR100和AR1k分别提升至52.8%和60.3%，与FPN RPN相比，AR100的相对改善率为18%，AR1k的绝对改善率为3.4%。

表6—作为区域提案网络的FCOS与带有FPN的RPN。ResNet-50用作主干网。FCOS将AR100和AR1k分别提高8.1%和3.4%。GN：Group Normalization。

6.结论

我们提出了一种无锚和无提案的单级检测器FCOS。实验表明，FCOS与流行的基于anchor的单级探测器（包括RetinaNet、YOLO和SSD）相比具有优势，但设计复杂度要低得多。FCOS完全避免了与锚盒相关的所有计算和超参数，并以每像素预测方式解决了对象检测问题，类似于语义分割等其他密集预测任务。FCOS还可以在单级探测器中实现最先进的性能。我们还表明，FCOS可以用作两级检测器中的RPN，比R-CNN更快，并且比RPN有很大的优势。鉴于其有效性和效率，我们希望FCOS可以作为当前主流基于锚的探测器的一个强大而简单的替代方案。我们还认为，FCOS可以扩展到解决许多其他即时级别的识别任务

附录略...

References

[1] https://github.com/yqyao/FCOS_PLUS, 2019.

[2] Lokesh Boominathan, Srinivas SS Kruthiventi, and

R V enkatesh Babu. Crowdnet: A deep convolutional

network for dense crowd counting. In Proc. ACM Int. Conf.

Multimedia, pages 640–644. ACM, 2016.

[3] Y u Chen, Chunhua Shen, Xiu-Shen Wei, Lingqiao Liu, and

Jian Y ang. Adversarial PoseNet: A structure-aware convo-

lutional network for human pose estimation. In Proc. IEEE

Int. Conf. Comp. Vis., 2017.

[4] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li,

and Li Fei-Fei. ImageNet: A large-scale hierarchical im-

age database. In Proc. IEEE Conf. Comp. Vis. Patt. Recogn.,

pages 248–255. IEEE, 2009.

[5] Cheng-Yang Fu, Wei Liu, Ananth Ranga, Ambrish Tyagi,

and Alexander Berg. DSSD: Deconvolutional single shot de-

tector. arXiv preprint arXiv:1701.06659, 2017.

[6] Ross Girshick. Fast R-CNN. In Proc. IEEE Conf. Comp. Vis.

Patt. Recogn., pages 1440–1448, 2015.

[7] Ross Girshick, Ilija Radosavovic, Georgia Gkioxari, Piotr

Dollár, and Kaiming He. Detectron. https://github.

com/facebookresearch/detectron, 2018.

[8] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.

Deep residual learning for image recognition. In Proc. IEEE

Conf. Comp. Vis. Patt. Recogn., pages 770–778, 2016.

[9] Tong He, Chunhua Shen, Zhi Tian, Dong Gong, Changming

Sun, and Y ouliang Y an. Knowledge adaptation for efficient

semantic segmentation. In Proc. IEEE Conf. Comp. Vis. Patt.

Recogn., June 2019.

[10] Tong He, Zhi Tian, Weilin Huang, Chunhua Shen, Y u Qiao,

and Changming Sun. An end-to-end textspotter with explicit

alignment and attention. In Proc. IEEE Conf. Comp. Vis.

Patt. Recogn., pages 5020–5029, 2018.

[11] Jonathan Huang, Vivek Rathod, Chen Sun, Menglong Zhu,

Anoop Korattikara, Alireza Fathi, Ian Fischer, Zbigniew Wo-

jna, Y ang Song, Sergio Guadarrama, et al. Speed/accuracy

trade-offs for modern convolutional object detectors. In

Proc. IEEE Conf. Comp. Vis. Patt. Recogn., pages 7310–

7311, 2017.

[12] Lichao Huang, Yi Y ang, Y afeng Deng, and Yinan Y u. Dense-

box: Unifying landmark localization with end to end object

detection. arXiv preprint arXiv:1509.04874, 2015.

[13] Hei Law and Jia Deng. Cornernet: Detecting objects as

paired keypoints. In Proc. Eur . Conf. Comp. Vis., pages 734–

750, 2018.

[14] Tsung-Yi Lin, Piotr Dollár, Ross Girshick, Kaiming He,

Bharath Hariharan, and Serge Belongie. Feature pyramid

networks for object detection. In Proc. IEEE Conf. Comp.

Vis. Patt. Recogn., pages 2117–2125, 2017.

[15] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and

Piotr Dollár. Focal loss for dense object detection. In Proc.

IEEE Conf. Comp. Vis. Patt. Recogn., pages 2980–2988,

2017.

[16] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays,

Pietro Perona, Deva Ramanan, Piotr Dollár, and Lawrence

Zitnick. Microsoft COCO: Common objects in context. In

Proc. Eur . Conf. Comp. Vis., pages 740–755. Springer, 2014.

[17] Fayao Liu, Chunhua Shen, Guosheng Lin, and Ian Reid.

Learning depth from single monocular images using deep

convolutional neural fields. IEEE Trans. Pattern Anal. Mach.

Intell., 2016.

[18] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian

Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C

Berg. SSD: Single shot multibox detector. In Proc. Eur .

Conf. Comp. Vis., pages 21–37. Springer, 2016.

[19] Yifan Liu, Ke Chen, Chris Liu, Zengchang Qin, Zhenbo Luo,

and Jingdong Wang. Structured knowledge distillation for

semantic segmentation. In Proc. IEEE Conf. Comp. Vis. Patt.

Recogn., June 2019.

[20] Jonathan Long, Evan Shelhamer, and Trevor Darrell. Fully

convolutional networks for semantic segmentation. In Proc.

IEEE Conf. Comp. Vis. Patt. Recogn., pages 3431–3440,

2015.

[21] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali

Farhadi. Y ou only look once: Unified, real-time object de-

tection. In Proc. IEEE Conf. Comp. Vis. Patt. Recogn., pages

779–788, 2016.

[22] Joseph Redmon and Ali Farhadi. YOLO9000: better, faster,

stronger. In Proc. IEEE Conf. Comp. Vis. Patt. Recogn.,

pages 7263–7271, 2017.

[23] Joseph Redmon and Ali Farhadi. Y olov3: An incremental

improvement. arXiv preprint arXiv:1804.02767, 2018.

[24] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.

Faster R-CNN: Towards real-time object detection with re-

gion proposal networks. In Proc. Adv. Neural Inf. Process.

Syst., pages 91–99, 2015.

[25] Abhinav Shrivastava, Rahul Sukthankar, Jitendra Malik, and

Abhinav Gupta. Beyond skip connections: Top-down mod-

ulation for object detection. In Proc. IEEE Conf. Comp. Vis.

Patt. Recogn., 2017.

[26] Ke Sun, Bin Xiao, Dong Liu, and Jingdong Wang. Deep

high-resolution representation learning for human pose esti-

mation. In Proc. IEEE Conf. Comp. Vis. Patt. Recogn., 2019.

[27] Christian Szegedy, Sergey Ioffe, Vincent V anhoucke, and

Alexander A Alemi. Inception-v4, inception-resnet and the

impact of residual connections on learning. In Proc. National

Conf. Artificial Intell., 2017.

[28] Zhi Tian, Tong He, Chunhua Shen, and Y ouliang Y an. De-

coders matter for semantic segmentation: Data-dependent

decoding enables flexible feature aggregation. In Proc. IEEE

Conf. Comp. Vis. Patt. Recogn., pages 3126–3135, 2019.

[29] Y uxin Wu and Kaiming He. Group normalization. In Proc.

Eur . Conf. Comp. Vis., pages 3–19, 2018.

[30] Saining Xie, Ross Girshick, Piotr Dollár, Zhuowen Tu, and

Kaiming He. Aggregated residual transformations for deep

neural networks. In Proc. IEEE Conf. Comp. Vis. Patt.

Recogn., pages 1492–1500, 2017.

[31] Wei Yin, Yifan Liu, Chunhua Shen, and Y ouliang Y an. En-

forcing geometric constraints of virtual normal for depth pre-

diction. In Proc. IEEE Int. Conf. Comp. Vis., 2019.

[32] Jiahui Y u, Y uning Jiang, Zhangyang Wang, Zhimin Cao, and

Thomas Huang. Unitbox: An advanced object detection net-

work. In Proc. ACM Int. Conf. Multimedia, pages 516–520.

ACM, 2016. 9635

[33] Xinyu Zhou, Cong Y ao, He Wen, Y uzhi Wang, Shuchang

Zhou, Weiran He, and Jiajun Liang. EAST: an efficient and

accurate scene text detector. In Proc. IEEE Conf. Comp. Vis.

Patt. Recogn., pages 5551–5560, 2017.

[34] Chenchen Zhu, Yihui He, and Marios Savvides. Feature se-

lective anchor-free module for single-shot object detection.

In Proc. IEEE Conf. Comp. Vis. Patt. Recogn., June 2019.

FCOS：Fully Convolutional One-Stage Object Detection 论文翻译（非解读）相关推荐

A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记
A Survey of Deep Learning-based Object Detection论文翻译 + 阅读笔记 //2022.1.7 日下午16:00开始阅读双阶段检测器示意图单阶段检测器 ...
EGNet: Edge Guidance Network for Salient Object Detection 论文及代码解读
EGNet: Edge Guidance Network for Salient Object Detection 论文及代码解读注:本文原创作者为Jia-Xing Zhao, Jiang-Jian ...
Feature Pyramid Networks for Object Detection论文翻译——中英文对照
文章作者:Tyan 博客:noahsnail.com | CSDN | 简书声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 翻译论文汇总:https://github.com ...
Feature Pyramid Networks for Object Detection论文翻译——中文版
文章作者:Tyan 博客:noahsnail.com | CSDN | 简书声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 翻译论文汇总:https://github.com ...
stitcher:Feedback-driven Data Provider for Object Detection论文翻译
作者知乎说明原文链接:https://pan.baidu.com/s/14Cx0U8aW32t4ir8ZFtbGHw 密码:969g 原文链接参考:我爱计算机视觉公众号摘要: 对象检测器通常根据 ...
CenterNet: Keypoint Triplets for Object Detection ----- 论文翻译理解
Abstract 在对象检测中,基于关键点的方法经常遇到大量不正确的对象边界框,这可能是由于缺少对裁剪区域的额外检查.本文提出了一种有效的解决方案,以最小的代价探索每个裁剪区域内的视觉模式.在一个具有 ...
孤读Paper——《FCOS: Fully Convolutional One-Stage Object Detection》
<FCOS: Fully Convolutional One-Stage Object Detection> 简单.鲁棒的Anchor free目标检测算法,核心思想是利用FCNs- ...
深度学习——3D Fully Convolutional Network for Vehicle Detection in Point Cloud模型实现
1. 参考文献 3D Fully Convolutional Network for Vehicle Detection in Point Cloud 2. 模型实现 ''' Baidu Inc. R ...
快速多尺度人脸检测2--Multi-Scale Fully Convolutional Network for Face Detection in the Wild
Multi-Scale Fully Convolutional Network for Face Detection in the Wild CVPRW2017 上一篇文献的姊妹篇吧,如何能够快速的实 ...

FCOS：Fully Convolutional One-Stage Object Detection 论文翻译（非解读）

摘要：

1.介绍

2.相关工作

3.方法

3.1. 全卷积单级目标探测器

3.2. FCOS的FPN多级预测

3.3. Center-ness for FCOS

4. 实验

4.1. 消融实验

4.1.1 基于FPN的多级预测

4.1.2 有或无 Center-ness

4.2. 与最先进探测器的比较

5.区域提案网络的扩展

6.结论

References

FCOS：Fully Convolutional One-Stage Object Detection 论文翻译（非解读）相关推荐

最新文章

热门文章