Sparse R-CNN: End-to-End Object Detection with Learnable Proposals论文翻译

摘要
1.介绍
2.相关工作
3.Sparse R-CNN
- 3.1 Pipeline
- 3.2 Module
- 4.实验
- 4.1 主要结果
- 4.2 模块分析
- 4.3 提议框的表现
5. 结论
参考文献

论文地址：Sparse R-CNN: End-to-End Object Detection with Learnable Proposals
代码地址：https://github.com/PeizeSun/SparseR-CNN

摘要

我们提出了Sparse R-CNN，一种纯稀疏的方法用于图像中的目标检测。现有的目标检测工作很大程度上依赖于密集候选目标，如在大小为H×W的图像特征图的所有网格上预先定义k个锚。而在我们的方法中，我们为目标识别头提供了一个固定的学习对象建议稀疏集，总长度为N，用于分类和定位。通过将HW k(多达数十万)手工设计的对象候选减少到N个(例如100)可学习的建议，Sparse R-CNN完全避免了所有与对象候选设计和多对一标签分配相关的努力。更重要的是，最终的预测是直接输出的，没有非最大抑制后处理。Sparse R-CNN在精确度、运行时间和训练收敛性能上与在具有挑战性的COCO数据集上建立的良好的检测器基线相当，例如，使用ResNet-50 FPN模型在标准3x训练计划中实现44.5 AP和22 fps运行。我们希望我们的工作能够启发人们对目标检测器中稠密先验约定的重新思考。

1.介绍

目标检测的目的是在图像中定位一组目标并识别它们的类别。密集先验一直是检测器成功的基石。在经典的计算机视觉中，滑动窗口范例中，一个分类器被应用在一个密集的图像网格上，主导了检测方法数十年。现代主流的one-stage检测器预先定义密集特征图网格上的标记，如图1a所示的anchor[23,29]或参考点[35,44]，并预测物体与边界框的相对比例和偏移量，以及相应的类别。虽然two-stage管道工作在一个稀疏的提案集合上，但它们的提案生成算法仍然建立在密集的候选对象上[11,30]，如图1b所示。
这些行之有效的方法概念直观，并提供鲁棒性能[8,24]，以及快速训练和推理时间[40]。除了它们的巨大成功之外，需要注意的是密集先验检测器也存在一些局限性：

这样的管道通常会产生冗余和近似重复的结果，因此使得非最大抑制(non-maximum suppression, NMS)[1,39]后处理成为必要的组成部分。
训练中的多对一标签分配问题[2,42,43]使得网络对启发式分配规则非常敏感。
最终的性能很大程度上受到尺寸、长宽比和anchor数量[23,29]、参考点密度[19,35,44]和提案生成算法[11,30]的影响。

尽管稠密约定在目标检测器中得到了广泛的认可，但一个自然要问的问题是：是否可能设计一个稀疏检测器？最近，DETR提出将目标检测重构为一个直接稀疏集的预测问题[3]，其输入仅为100个学习对象查询[37]。最后一组预测直接输出，不需要任何手工设计的后处理。尽管它的框架简单而奇妙，但DETR需要每个对象查询与全局图像上下文交互。这种密集性不仅降低了[45]的训练收敛速度，而且阻碍了它建立一个完全稀疏的管道进行目标检测。
我们认为稀疏属性应该包括两个方面：稀疏框和稀疏特征。稀疏框是指少量的启动框(例如100个)足以预测图像中的所有对象。而稀疏特征表示每个框的特征不需要与全图像上的所有其他特征交互。从这个角度看，DETR不是一个纯粹的稀疏方法，因为每个对象查询都必须与完整图像上的密集特征交互。
在本文中，我们提出了Sparse R-CNN方法，这是一种纯稀疏的方法，不需要所有(密集)图像网格上的对象位置候选枚举，也不需要与全局(密集)图像特征交互的对象查询。如图1c所示，给定目标候选对象，用4-d坐标表示的固定的小组可学习边界框。例如COCO dataset[24]，总共需要100 boxes和400 parameter，而不是Region Proposal Network (RPN)[30]中成百上千候选的预测。这些稀疏的候选作为区域提议通过RoIPool [10] 或者RoIAlign [13]来提取RoI特征。
可学习的建议框是对图像中潜在目标位置的统计。而四维坐标仅仅是对物体的粗略表示，缺乏大量的信息细节，如姿态和形状。这里我们引入另一个概念，称为提案特征，它是一个高维(例如，256)的潜在向量 。与粗糙边界框相比，期望编码丰富的实例特征。特别地，提案特征为其独有的目标识别头生成一系列自定义参数。我们称这种操作为Dynamic Instance Interactive Head，因为它与最近的动态方案有相似之处[18,34]。与[30]中共享的2-fc层相比，我们的Head更灵活，在精度上也有显著领先。在实验中，我们证明了以独特的提案特征而不是固定的参数为条件的Head的形成是Sparse R-CNN成功的关键。提议框和提议特征在整个网络中与其他参数一起随机初始化和优化。
在我们的Sparse R-CNN中最显著的性质是它在整个时间内的Sparse-in -Sparse-out范式。初始输入是一组稀疏的提案框和提案特征，以及一对一的动态实例交互。管道中既不存在稠密候选特征[23,30]，也不存在与全局(稠密)特征[3]交互的情况。这种纯粹的稀疏性使得Sparse R-CNN成为R-CNN家族的一个新成员。
Sparse R-CNN在具有挑战性的COCO数据集[24]上证明了其准确性、运行时和训练收敛性能与成熟的检测器[2,30,35]相当，例如，在标准3x训练计划中实现44.5 AP，使用ResNet-50 FPN模型以22 fps运行。据我们所知，提出的Sparse R-CNN是第一个证明一个相当稀疏的设计是合格的。我们希望我们的工作能够启发人们对稠密先验在目标检测中的必要性进行反思，并探索下一代的目标检测器。

2.相关工作

Dense method：滑动窗口模式在目标检测中已经流行多年。受经典特征提取技术的限制[6,38]，该算法的性能已经停滞了几十年，应用场景也受到限制。深度卷积神经网络(CNNs)的发展[14,17,20]培养了通用的目标检测方法，并取得了显著的性能提升[8,24]。主流的方法之一是one-stage检测器，它可以直接预测锚的类别和位置，用 single-shot的方式密集地覆盖空间位置、尺度和纵横比，例如OverFeat [32]，YOLO [29]，SSD [25] 和RetinaNet [23]。最近，人们提出了anchor-free算法[16,21,35,44]，通过用参考点代替手工制作的锚，使这条管道变得更加简单。以上方法都建立在密集候选的基础上，对候选对象直接进行分类和回归。这些候选对象在训练时根据预定义的原则被分配到ground-truth对象框中，例如锚点是否与其对应的ground truth的IoU高于阈值，或者参考点是否落在其中一个目标框中。此外，NMS后处理[1,39]需要在推理期间去除冗余的预测。

Dense-to-sparse method ：Two-stage检测器是另一个主流管道，并已主导现代目标检测多年[2,4,10,11,13,30]。这个范例可以看作是稠密检测器的扩展。该算法首先从密集区域候选方案中获取稀疏的前景方案框，然后细化每个方案的位置并预测其具体类别。在这two-stage的方法中，区域建议算法在第一阶段起着重要的作用，如R-CNN中的选择性搜索[36]和Faster R-CNN中的区域建议网络(RPN)[30]。与密集管道相似，它也需要NMS后处理和手工标记分配。在成千上万的候选方案中，只有少数的前景方案，因此这些检测器可以归结为 dense-to-sparse方法。

最近，DETR[3]的提出直接输出预测，而不需要任何手工制作的组件，从而获得非常有竞争力的性能。DETR利用一组稀疏的对象查询，与全局（稠密）图像特征进行交互，在这种情况下，它可以看作是另一种dense-to-sparse的表示。

Sparse method ：稀疏目标检测有可能消除设计密集候选对象的努力，但已落后于上述检测器的准确性。G-CNN[27]可以看作是这组算法的先驱。它首先在图像上创建一个多尺度的规则网格，然后迭代更新方框来覆盖和分类对象。这种手工设计的规则先验显然是次优的，不能达到最佳性能。相反，我们的Sparse R-CNN采用了可学习的方案，取得了更好的性能。同样的，Deformable-DETR[45]的引入，限制每个对象查询关注参考点周围的一小组关键采样点，而不是feature map中的所有点。我们希望稀疏方法可以作为坚实的基础，帮助简化未来的研究在对象检测社区。

3.Sparse R-CNN

Sparse R-CNN框架的中心思想是使用一个小集合的提议框(例如100)替换来自RPN的数十万个候选对象。在本节中，我们首先简要介绍所提议的方法的总体架构。然后详细描述每个组件。

3.1 Pipeline

Sparse R-CNN是一个简单、统一的网络，由一个骨干网络、一个动态实例交互头和两个特定任务的预测层组成(图3)。共有三种输入，一幅图像，一组提案框和提案特性。后两者是可学习的，可以在网络中与其他参数一起优化。

3.2 Module

骨干网络 ：采用基于ResNet架构的特征金字塔网络(Feature Pyramid Network, FPN)[14,22]作为骨干网络，从输入图像生成多尺度特征图。在[22]之后，我们构造了从P2到P5的金字塔，其中l表示金字塔级别，Pl的分辨率比输入低2^l。所有金字塔级别有C = 256个通道。详情请参阅[22]。实际上，Spare R-CNN有可能从更复杂的设计中获益，从而进一步提高其性能，比如堆叠的编码器层[3]和可变形卷积网络[5]，最近的一个作品就是在这个基础上构建的。但是，我们将设置与Faster R-CNN[30]对齐，以显示我们的方法的简单性和有效性。
可学习的提议框 ：一组固定的可学习的建议框(n4)被用作区域建议，而不是从区域建议网络(RPN)的预测。这些建议框由0到1的4-d参数表示，表示归一化中心坐标、高度和宽度。训练过程中，建议框的参数将通过反向传播算法进行更新。多亏了可学习的特性，我们在实验中发现初始化的效果是最小的，从而使框架更加灵活。

从概念上讲，这些学习的建议框是训练集中潜在目标位置的统计数据，可以看作是对图像中最有可能包含目标的区域的初步猜测，而不管输入是什么。然而，RPN的建议与当前图像有很强的相关性，并提供了粗糙的目标位置。我们认为，第一阶段的定位是丰富的，然后在后面的stage优化校准框的定位。相反，一个合理的统计数据可能已经是合格的候选人了。在这个视图中，Sparse R-CNN可以归类为目标检测器范式从完全dense[23,25,28,35]到dense-to-sparse[2,4,11,30]到完全sparse的扩展，如图1所示。

可学习的提议特征 ：4-d 提议框虽然是描述物体的一种简洁而明确的表达方式，但它提供了物体的粗略定位，丢失了很多信息细节，比如物体的姿态和形状。这里我们引入了另一个概念，称为提案特征(N d)，它是一个高维(例如，256)的潜在向量，用于编码富实例特征。提案特性的数量和方框一样，我们接下来将讨论如何使用它。

动态实例交互式头 ：对于N个建议盒，Sparse R-CNN首先利用RoIAlign操作来提取每个建议盒的特征。然后每一个框的特征会用来生成我们预测头使用的最终预测。

图4展示了由动态算法驱动的预测头，称为动态实例交互模块[18,34]。
每个RoI的特征被输入到单独的头中进行目标定位和分类，每个头根据具体的建议特征进行条件设置。在我们的设计中，提案特征和提案框是一对一的。对于N个提案框，使用N个提案特征。每个RoI特征fi (S×S ×C)将与相应的提案特征pi( C )过滤掉无效的部分和输出最终的目标特征©。最终的回归预测采用带有ReLU激活函数和隐含维数C的3层感知层，分类预测采用线性投影层。
为了轻量设计，我们进行连续的带ReLU激活函数的1×1卷积，实现交互过程。将每个特征pi与RoI区域特征进行卷积，得到更具有鉴别性的特征。更多详情，请参阅我们的代码。我们注意到，只要支持并行操作以提高效率，交互式head的实现细节并不重要。
我们的提案特征可以被看作是注意力机制的实现，用于处理大小为S × S的RoI中的bin。提案特征生成卷积的核参数，然后将生成的卷积对RoI特征进行处理，得到最终的特征 。这样，具有最多前景信息的bins对最终目标的位置和分类产生影响。

为了进一步提高性能，我们还采用了迭代结构。新生成的对象框和对象特征将作为迭代过程中下一阶段的提案框和提案特征。由于稀疏特性和轻量的动态头，它只引入了很少计算开销。在动态头中嵌入自我注意模块[37]，对目标之间的关系进行推理。我们注意到关系网络[15]也使用了注意力模块。但它除了需要目标特征外，还需要几何属性和复杂等级特征。我们的模块要简单得多，只接受目标特征作为输入。

在DETR[3]中提出的对象查询具有类似的设计特性。然而，对象查询是学习的位置编码。Feature map在与对象查询交互时需要添加空间位置编码，否则会导致显著下降。我们提出的特性与位置无关，我们证明了我们的框架在没有位置编码的情况下也能工作得很好。我们在实验部分提供了进一步的比较。

设置预测损失 ：Sparse R-CNN将集合预测损失[3,33,41]应用于分类和边框坐标预测的固定大小的集合。基于集合的损失产生一个预测对象和GT之间的最佳二分匹配，匹配代价的定义如下：

其中L_cls为预测分类和ground truth类别标签的focal loss [23]， L_L1和L_giou分别为预测框和ground truth之间的归一化中心坐标与高度、宽度的L1 loss和generalized IoU loss[31]。其中，λ_cls, λ_L1 和λ_giou分别为各个系数。训练损失和匹配代价是一样的，除了只在匹配对上执行。最终的损失是按照训练批内的对象数量归一化的所有对的总和。
R-CNN家族[2,43]一直被标签分配问题困扰，因为多对一匹配仍然存在。这里我们提供了新的可能性，直接绕过多对一匹配，引入基于集的损失的一对一匹配。这是对探索端到端目标检测的一次尝试。

4.实验

数据集 ：我们的实验是在具有挑战性的MS COCO基准[24]上进行的，使用目标检测的标准度量。所有的模型都在COCO train2017(118k图像)上进行训练，并使用val2017 (5k图像)进行评估。
训练细节 ：除非另有说明，否则默认使用ResNet-50[14]被用作主干网。优化器是AdamW[26]并且重量衰减0.0001。mini-batch是16，所有模型都是在8张GPU上训练的。默认的训练计划是36 epoch，初始学习率设置为2.5x10^-5，在epoch 27和33分别除以10。主干用ImageNet[7]上预先训练好的权重进行初始化，其他新添加的层用Xavier[12]进行初始化。数据增强包括调整输入图像大小的随机水平、规模抖动，使最短边至少为480像素，最多为800像素，最长边最多为1333像素。按照[3,45]，λ_cls = 2, λ_L1 = 5, λ_giou = 2。建议框、建议特征和迭代的默认数量分别为100、100和6。
推理细节 ：在Sparse R-CNN中，推理过程非常简单。给定一个输入图像，Sparse R-CNN直接预测100个与得分相关的边界框。分数表示框中包含一个物体的概率。为了评估，我们直接使用这100个框，没有任何后期处理。

4.1 主要结果

我们提供了两个版本的Sparse R-CNN用于不同检测器的公平比较。第一种是采用100个可学习的proposal boxes，没有随机裁剪的数据增增强，用来和主流的目标检测器做比较，例如Faster R-CNN和RetinaNet[40]。第二种方法利用了300个proposal boxes，且带有随机裁剪数据扩充的，用于与DETR系列进行比较[3,45]。

如表1所示，Sparse R-CNN大幅度优于主流的稳定检测器，如RetinaNet，Faster R-CNN。令人惊讶的是，基于ResNet-50的Sparse RCNN达到了42.3 AP，这已经在精度上与ResNet-101上Faster R-CNN竞争。
我们注意到DETR和Deformable DETR通常采用较强的特征提取方法，如编码层堆叠和可变形卷积。采用更强的Sparse R-CNN实现，与这些检测器进行了更公平的比较。即使使用简单的FPN作为特征提取方法，Sparse R-CNN也具有较高的准确率。此外，Sparse R-CNN对小目标的检测性能优于DETR(26.9 AP vs. 22.5 AP)。
Sparse R-CNN的训练收敛速度比DETR快10，如图2所示。自提出以来，DETR一直遭受缓慢收敛，这促使了Deformable DETR的提出。与Deformable DETR相比，Sparse R-CNN在准确性(44.5 AP vs. 43.8 AP)和运行时间(22 FPS vs. 19 FPS)方面表现更好，训练时间也更短(36 epoch vs. 50 epoch)。

Sparse R-CNN的推理时间与其他检测器相当。我们注意到，带有100个提案的模型的运行速度为23帧/秒，而300个提案的运行速度仅降至22帧/秒，这要归功于动态实例交互头的轻设计。

4.2 模块分析

在这一节中，我们分析Sparse RCNN中的每个分量。所有的模型都是基于ResNet50-FPN骨干，100个提案，3x的训练计划，除非另有说明。

可学习的提议框 ：从Faster R-CNN开始，我们仅用一组稀疏的可学习提案框替换了RPN。性能从40.2 AP(表1第3行)下降到18.5 AP(表2)。我们发现，即使堆叠了更多全连接层，也没有明显的改进。

迭代架构 ：迭代地更新方框是一种提高性能的直观想法。但是，我们发现简单的级联体系结构并没有太大的区别，如表3所示。我们分析了原因，与[2]中精炼的proposal boxes(主要定位在对象周围)相比，我们的case候选的更加粗糙，使得它很难被优化。我们观察到，一个建议框的目标对象在整个迭代过程中通常是一致的。因此，可以重用前一阶段的对象特征，对下一阶段起到强烈的暗示作用。 对象特征编码了对象姿态、位置等丰富的信息。在原有的级联架构的基础上，这一特征重用的微小变化使AP大幅提高了11.7。最后，迭代架构带来了13.7的AP改进，如表2的第二行所示。

动态头 ：动态头以不同的方式使用了前一阶段的对象特征，采用了前面讨论的迭代架构。不是简单的拼接，而是先用自注意力模块对前一阶段的对象特征进行处理，然后作为提案特征实现当前阶段的实例交互 。将自注意力模块应用于对象特征集，对对象之间的关系进行推理。表4显示了 自注意力和动态实例交互 的好处。最后，Sparse R-CNN获得了42.3 AP的准确率。

提议框的初始化 ：密集检测器总是严重依赖于候选对象的设计，而Sparse R-CNN中的候选对象是可学习的，因此避免了所有与手工制作锚设计相关的努力。然而，有人可能会担心提议框的初始化在稀疏RCNN中扮演着关键角色。在这里，我们研究了不同方法初始化建议框的效果：

“Center”是指所有的提案框都位于图片开始的中心位置，高度和宽度设置为图片大小的0.1。
“Image”意味着所有的建议框被初始化为整个图像的大小。
“Grid”是指在image中将提议框初始化为常规网格，也就是GCNN[27]中的初始框。
“Random”表示提议框的中心，高度和宽度随机初始化为高斯分布。

从表5中我们可以看出Sparse R-CNN的最终性能对于proposal box的初始化是相对稳健的。

提议的数量 ：提议的数量对稠密检测器和稀疏检测器都有很大影响。原来Faster R-CNN使用300提议[30]。后来它增加到2000[40]，获得更好的性能。我们也在表6中研究了提议数对Sparse R-CNN的影响。将提议数量从100个增加到500个会带来持续的改进，这表明我们的框架很容易在各种情况下使用。而500个方案需要更多的训练时间，所以我们选择100个和300个作为主要配置。

迭代架构的stage数量 ：迭代架构是一种被广泛应用的提高目标检测性能的技术[2,3,38]，特别是对于Sparse RCNN。表7显示了迭代架构中阶段数量的影响。在没有迭代架构的情况下，性能只有21.7 AP。考虑到第一阶段的输入建议是对可能的对象位置的猜测，这个结果并不令人惊讶。增加到2个阶段，可以增加14.5个AP，达到有竞争力的36.2个AP。逐渐增加阶段的数量，在6个阶段表现饱和。我们选择6个阶段作为默认配置。

动态头vs多头注意力 ：如第3节所述，dynamic head使用proposal feature来过滤RoI feature，最后输出目标feature。我们发现，多头注意模块[37]为实例交互提供了另一种可能的实现。我们在表8中进行了对比实验，其性能落后于6.6 AP。与线性多头注意力相比，动态多头注意力更加灵活，它的参数取决于其特定的建议特征，更容易引入更多的非线性能力。

提议特征vs对象查询 ：在这里，我们将DETR中提出的对象查询[3]与我们的提议特征进行比较。如[3]中所述，对象查询是通过学习位置编码，引导解码器与图像特征图的求和和空间位置编码交互。只使用图像特征图会导致显着下降。但是，我们的提议特征可以看作是一个特征过滤器，它与位置无关。比较如表9所示，如果去掉空间位置编码，DETR下降7.8 AP。相反，位置编码在Sparse R-CNN中没有增益。

4.3 提议框的表现

图5显示了收敛模型的学习建议框。这些方框随机分布在图像上，覆盖整个图像区域。这保证了候选稀疏条件下的召回性能。此外，每一阶段的级联头逐渐细化边框位置并且移除重复的框。这导致了高精度的性能。图5还显示了Sparse RCNN在罕见和拥挤场景中都表现出了健壮的性能。对于极少数情况下的对象，它的复制框在几个阶段内被移除。人群场景需要花费更多的阶段来细化，但最终每个对象都能被精确且唯一地检测到。

5. 结论

我们提出了Sparse R-CNN，一种纯稀疏的方法用于图像中的目标检测。给出了一组固定的稀疏学习对象方案，用于动态头的分类和定位。最后的预测是直接输出，没有非最大抑制后程序。Sparse R-CNN在准确性、运行时间和训练收敛性能上与成熟的检测器相当。我们希望我们的工作能够启发我们重新思考之前密集的惯例，并探索下一代的目标探测器。

参考文献

[1] Navaneeth Bodla, Bharat Singh, Rama Chellappa, and
Larry S. Davis. Soft-NMS – improving object detection with
one line of code. In ICCV, 2017. 2, 3
[2] Zhaowei Cai and Nuno Vasconcelos. Cascade R-CNN: Delving into high quality object detection. In CVPR, 2018. 2, 3,
4, 5, 6, 7
[3] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas
Usunier, Alexander Kirillov, and Sergey Zagoruyko. End-toEnd object detection with transformers. In ECCV, 2020. 2,
3, 4, 5, 7, 8
[4] Jifeng Dai, Yi Li, Kaiming He, and Jian Sun. R-FCN: Object
detection via region-based fully convolutional networks. In
NeurIPS, 2016. 3, 4
[5] Jifeng Dai, Haozhi Qi, Yuwen Xiong, Yi Li, Guodong
Zhang, Han Hu, and Yichen Wei. Deformable convolutional
networks. In ICCV, 2017. 3
[6] Navneet Dalal and Bill Triggs. Histograms of oriented gradients for human detection. In CVPR, 2005. 2
[7] Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li,
and Li Fei-Fei. ImageNet: A large-scale hierarchical image
database. In CVPR, 2009. 5
[8] Mark Everingham, Luc. Van Gool, Christopher K. I.
Williams, John Winn, and Andrew Zisserman. The pascal visual object classes (VOC) challenge. IJCV, 88(2):303–338,
2010. 2
[9] Pedro Felzenszwalb, Ross Girshick, David McAllester, and
Deva Ramanan. Object detection with discriminatively
trained part based models. T-PAMI, 32(9):1627–1645, 2010.
2
[10] Ross Girshick. Fast R-CNN. In ICCV, 2015. 2, 3
[11] Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra
Malik. Rich feature hierarchies for accurate object detection
and semantic segmentation. In CVPR, 2014. 2, 3, 4
[12] Xavier Glorot and Yoshua Bengio. Understanding the difficulty of training deep feedforward neural networks. In Proceedings of the thirteenth international conference on artificial intelligence and statistics, pages 249–256, 2010. 5
[13] Kaiming He, Georgia Gkioxari, Piotr Dollar, and Ross Girshick. Mask R-CNN. In ICCV, 2017. 2, 3
[14] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.
Deep residual learning for image recognition. In CVPR,
2011. 2, 3, 5
[15] Han Hu, Jiayuan Gu, Zheng Zhang, Jifeng Dai, and Yichen
Wei. Relation networks for object detection. In CVPR, 2018.
4
[16] Lichao Huang, Yi Yang, Yafeng Deng, and Yinan Yu. DenseBox: Unifying landmark localization with end to end object
detection. arXiv preprint arXiv:1509.04874, 2015. 3
[17] Sergey Ioffe and Christian Szegedy. Batch normalization:
Accelerating deep network training by reducing internal covariate shift. In ICML, 2015. 2
[18] Xu Jia, Bert De Brabandere, Tinne Tuytelaars, and Luc V
Gool. Dynamic filter networks. In NIPS, pages 667–675,
2012. 2, 4
[19] Tao Kong, Fuchun Sun, Huaping Liu, Yuning Jiang, Lei Li,
and Jianbo Shi. Foveabox: Beyound anchor-based object detection. IEEE Transactions on Image Processing, 29:7389–
7398, 2020. 2
[20] Alex Krizhevsky, Ilya Sutskever, and Geoffrey E Hinton.
ImageNet classification with deep convolutional neural networks. In NeurIPS, 2012. 2
[21] Hei Law and Jia Deng. CornerNet: Detecting objects as
paired keypoints. In ECCV, 2018. 3
[22] Tsung-Yi Lin, Piotr Dollar, Ross Girshick, Kaiming He,
Bharath Hariharan, and Serge Belongie. Feature pyramid
networks for object detection. In CVPR, 2017. 3
[23] Tsung-Yi Lin, Priya Goyal, Ross Girshick, Kaiming He, and
Piotr Dollar. Focal loss for dense object detection. In ICCV,
2013. 1, 2, 3, 4, 5
[24] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays,
Pietro Perona, Deva Ramanan, Piotr Dollar, and C. Lawrence ´
Zitnick. Microsoft COCO: Common objects in context. In
ECCV, 2014. 1, 2, 5
[25] Wei Liu, Dragomir Anguelov, Dumitru Erhan, Christian
Szegedy, Scott Reed, Cheng-Yang Fu, and Alexander C.
Berg. SSD: Single shot multibox detector. In ECCV, 2016.
3, 4
[26] Ilya Loshchilov and Frank Hutter. Decoupled weight decay regularization. In International Conference on Learning
Representations, 2018. 5
[27] Mahyar Najibi, Mohammad Rastegari, and Larry S Davis.
G-cnn: an iterative grid based object detector. In Proceedings of the IEEE conference on computer vision and pattern
recognition, pages 2369–2377, 2016. 3, 7
[28] Joseph Redmon, Santosh Divvala, Ross Girshick, and Ali
Farhadi. You only look once: Unified, real-time object detection. In CVPR, 2016. 4
[29] Joseph Redmon and Ali Farhadi. YOLO9000: Better, faster,
stronger. In CVPR, 2017. 2
[30] Shaoqing Ren, Kaiming He, Ross Girshick, and Jian Sun.
Faster R-CNN: Towards real-time object detection with region proposal networks. In NeurIPS, 2015. 1, 2, 3, 4, 7
[31] Hamid Rezatofighi, Nathan Tsoi, JunYoung Gwak, Amir
Sadeghian, Ian Reid, and Silvio Savarese. Generalized intersection over union: A metric and a loss for bounding box
regression. In CVPR, 2019. 5
[32] Pierre Sermanet, David Eigen, Xiang Zhang, Michael Mathieu, Robert Fergus, and Yann Lecun. OverFeat: Integrated
recognition, localization and detection using convolutional
networks. In ICLR, 2014. 2
[33] Russell Stewart, Mykhaylo Andriluka, and Andrew Y Ng.
End-to-end people detection in crowded scenes. In Proceedings of the IEEE conference on computer vision and pattern
recognition, pages 2325–2333, 2016. 4
[34] Zhi Tian, Chunhua Shen, and Hao Chen. Conditional
convolutions for instance segmentation. arXiv preprint
arXiv:2003.05664, 2020. 2, 4
[35] Zhi Tian, Chunhua Shen, Hao Chen, and Tong He. FCOS:
Fully convolutional one-stage object detection. In ICCV,
2014. 2, 3, 4
[36] Jasper RR Uijlings, Koen EA Van De Sande, Theo Gevers, and Arnold WM Smeulders. Selective search for object
recognition. IJCV, 104(2):154–171, 2013. 3
[37] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia
Polosukhin. Attention is all you need. In Advances in neural
information processing systems, pages 5998–6008, 2017. 2,
4, 7
[38] Paul Viola and Michael Jones. Rapid object detection using
a boosted cascade of simple features. In Proceedings of the
2001 IEEE computer society conference on computer vision
and pattern recognition. CVPR 2001, volume 1, pages I–I.
IEEE, 2001. 2, 7
[39] Xinlong Wang, Rufeng Zhang, Tao Kong, Lei Li, and Chunhua Shen. Solov2: Dynamic and fast instance segmentation.
In NIPS, 2020. 2, 3
[40] Yuxin Wu, Alexander Kirillov, Francisco Massa, Wan-Yen
Lo, and Ross Girshick. Detectron2. https://github.
com/facebookresearch/detectron2, 2019. 2, 5, 7
[41] Bo Yang, Jianan Wang, Ronald Clark, Qingyong Hu, Sen
Wang, Andrew Markham, and Niki Trigoni. Learning object bounding boxes for 3d instance segmentation on point
clouds. In Advances in Neural Information Processing Systems, pages 6740–6749, 2019. 4
[42] Hongkai Zhang, Hong Chang, Bingpeng Ma, Naiyan Wang,
and Xilin Chen. Dynamic R-CNN: Towards high quality object detection via dynamic training. In ECCV, 2020. 2
[43] Shifeng Zhang, Cheng Chi, Yongqiang Yao, Zhen Lei, and
Stan Z. Li. Bridging the gap between anchor-based and
anchor-free detection via adaptive training sample selection.
In CVPR, 2020. 2, 5
[44] Xingyi Zhou, Dequan Wang, and Philipp Krahenb ¨ uhl. Ob- ¨
jects as points. arXiv preprint arXiv:1904.07850, 2019. 2,
3
[45] Xizhou Zhu, Weijie Su, Lewei Lu, Bin Li, Xiaogang
Wang, and Jifeng Dai. Deformable detr: Deformable transformers for end-to-end object detection. arXiv preprint
arXiv:2010.04159, 2020. 2, 3, 5