Few-Shot Object Detection with Attention-RPN and Multi-Relation Detector 论文翻译

文章前一部分是自己翻译的，后一部分是用软件翻译的，根据自己理解进行了改动，存在诸多问题，还请各位不吝赐教。

文章链接：https://arxiv.org/pdf/1908.01998

实现代码：https://github.com/fanq15/FSOD-code

摘要：

传统的而目标检测方法需要足量的训练数据，而准备这些高质量的数据却是一件耗费精力的事。在这篇论文中，我们提出了一个新的小样本目标检测网络，目标是通过少量带有标注的样本能够检测到未知种类的对象。我们方法的核心是我们的attention-RPN，多关系检测器和限制训练策略，在抑制背景中的错误检测期间，他们利用少量的支持集和查询集的相似性去检测新的目标。为了训练我们的网络，我们贡献了一个新的涵盖1000类带有高质量的数据集。据我们所知，这是第一个明确为了少样本目标检测设计的数据集。一旦我们的少样本网络被训练，无需进一步的训练和微调，他就能够检测未知种类的目标。我们的方法是通用的并具有广泛的应用范围。在少样本集合中我们得到了一个在不同数据集上更优的性能表现。数据集的链接是：https://github.com/fanq15/Few-Shot-Object-Detection-Dataset

1.介绍：

现有的目标检测方法都依赖于大量的标注数据并且要求长时间的训练。这推进了最近的小样本目标检测的发展。鉴于光照，形状，纹理等巨大的偏差，小样本学习极具挑战。尽管进行了一些相关的研究并取得了进步，但这些方法都是集中在图像分类方面，少有涉及小样本检测方面问题，最可能是因为从小样本分类迁移到小样本检测是一件艰巨的任务。

只有少量样本的目标检测的核心是如何在一个混乱的背景中定位一个未知的对象，事后看来就是在新类别中，对少量带有注释的样本进行定位的一般问题。潜在的边界框很容易导致未知对象的丢失，或者导致背景中错误检测的发生。我们认为，这是由于区域提案网络（RPN）输出的良好边界框得分不当而导致难以检测到新物体。这使得小样本目标检测本质上不同于小样本分类。另一方面，最近用于小样本对象检测的工作都需要微调，因此不能直接应用于新类别。

在本文中，我们解决了小样本目标检测的问题：给定一些新目标对象的支持图像，我们的目标是检测测试集中属于目标对象类别的所有前景对象，如图1所示。为此，我们提出两项主要贡献：

首先，我们提出了一种通用的小样本目标检测模型，该模型可用于检测新物体而无需重新训练和微调。通过我们精心设计的对比训练策略、RPN上的注意力模型和检测器，我们的方法在多个网络阶段利用权重共享网络中的对象对之间的匹配关系。这使我们的模型可以对不需要精细训练或无需进一步调整网络的新类别的对象执行在线检测。实验表明，我们的模型可以从提议质量得到显着提高的早期阶段的注意力模块中受益，而在后期阶段可以从混乱的背景中抑制并滤除错误检测的多重关系检测器模块中受益。我们的模型在少样本设置下就在ImageNet检测数据集和MS COCO数据集上实现了最新的性能。

第二个贡献包括带有1000个类别的大型注释数据集，每个类别仅包含几个示例。总体而言，与现有的大型数据集如 CoCo相比，我们的方法通过这个数据库得到了更好的性能。据我们所知，这是具有空前数量的对象类别（1000）的第一批少样本目标检测数据集之一。使用该数据集，即使没有任何微调，我们的模型也可以在不同的数据集上实现更好的性能。

2.相关工作：

常规目标检测。 目标检测是计算机视觉中的经典问题。早些年，通常使用手工特征将目标检测公式化为滑动窗口分类问题。随着深度学习的兴起，基于CNN的方法已成为目标检测的主导解决方案。大多数方法可以进一步分为两种通用方法：无提议检测器和基于提议的检测器。第一种的工作遵循一个阶段的训练策略，并且未明确生成建议框。另一方面，第二种是由RCNN 开创，首先从给定图像中提取潜在对象的类别不可知区域建议。然后，通过特定的模块进一步完善这些框并将其分类为不同的类别。该策略的优势在于，它可以通过RPN模块过滤掉许多负位置，从而方便了下一步的检测任务。因此，基于RPN的方法通常比无提议的方法具有更好的检测任务结果。然而，上述方法以密集的监督方式工作，并且仅通过几个示例就很难将其扩展到新颖的类别。

小样本学习。 对于传统的机器学习算法而言，仅从几个训练示例中进行学习，在经典环境中进行少样本学习就具有挑战性。较早的工作试图学习一般的先验知识，例如手工设计的strokes（不知道该怎么翻译才好）和可以在各个类别之间共享的部分。一些工作着重于度量学习，以手动设计不同类别之间的距离公式。最近的趋势是设计一种通用代理/策略，以指导每个任务中的监督学习。通过积累知识，网络可以捕获跨不同任务的结构变化。该研究方向通常被称为元学习。在这一领域，[37]提出了一个级联网络，该网络由共享权重的双网络组成，其中每个网络分别被提供一个支持图像和一个查询。查询与查询的支持之间的距离自然是通过逻辑回归来学习。这种匹配策略可以捕获支持和查询之间的固有差异，而不管它们的类别如何。在匹配框架领域，后续工作着重于增强功能嵌入，其中一个方向是构建内存模块以捕获支持中的全局上下文。许多工作利用局部描述符从有限的数据中获取更多的知识。在[43，44]中，作者引入了图形神经网络（GNN）来建模不同类别之间的关系。在[45]中，遍历给定的整个支持集以识别与任务相关的功能，并使在高维空间的度量学习更加有效。其他工作，例如[2，46]，致力于学习通用代理以指导参数优化。

到目前为止，小样本学习没有取得突破性的进展，该研究主要集中在分类任务上，而很少关注其他重要的计算机视觉任务，例如语义分割[47，48，49]，人体运动预测[50]和物体检测 [9]。在[51]中，使用了未标记的数据，并且在没有框的图像上交替优化了多个模块。但是，该方法可能会因监督不力而被错误检测误导，并需要对新类别进行重新训练。在LSTD [9]中，作者提出了一种新的小样本物体检测框架，该框架可以通过最小化源域和目标域之间的后验概率分类的差距，将知识从一个大型数据集迁移到另一个较小的数据集。但是，此方法在很大程度上取决于源域，并且很难扩展到不同的方案。最近，已经提出了一些其他用于小样本检测的著作[9、10、11、12]，但是它们学习特定于类别的嵌入并且需要针对新类别进行微调。

我们的工作是由匹配网络[37]率先提出的研究路线所推动的。我们提出了一个通用的小样本目标检测网络，该网络基于Faster R-CNN框架来学习图像对之间的匹配度量，该框架配备了我们新的注意力RPN和使用我们的对比训练策略训练的多关系检测器。

3.FSOD：高度多样化的少样本目标检测数据集

进行少样本学习的关键在于当出现新类别时相关模型的泛化能力。因此，具有大量对象类别的高多样性数据集对于训练可以检测未见对象的通用模型以及执行令人信服的评估是必要的。但是，现有的数据集[13、52、53、54、55]包含的类别非常有限，并且并非在小样本评估设置中设计的。因此，我们建立了一个新的小样本目标检测数据集。

数据集构建。 我们从现有的大规模目标检测数据集构建数据集以进行监督学习，即[54，56]。但是，由于以下原因，这些数据集无法直接使用：1）不同数据集的标签系统不一致，其中某些语义相同的对象在数据集中用不同的单词进行注释； 2）由于标签不正确和缺失，重复的框，对象太大，因此现有注释的很大一部分都是嘈杂的; 3）他们的训练/测试组包含相同的类别，而对于小样本设置，我们希望训练/测试组包含不同的类别，以评估其在看不见的类别上的通用性。

为了开始构建数据集，我们首先从[54，56]中总结标签系统。我们将叶子标签合并到其原始标签树中，方法是将具有相同语义（例如，冰熊和北极熊）的叶子标签归为一类，并删除不属于任何叶子类别的语义。然后，我们删除标签质量差的图像和带有不合适尺寸框的图像。具体而言，删除的图像具有小于图像大小的0.05％的框，这些框通常具有较差的视觉质量，因此不适合用作支持示例。接下来，我们按照几次学习设置将数据分为训练集和测试集，而没有重叠的类别。如果研究人员更喜欢预训练阶段，我们将在MS COCO数据集中构建具有类别的训练集[13]。然后，我们通过选择现有训练类别中距离最大的类别来划分包含200个类别的测试集，其中距离是连接is-a分类法中两个短语的含义的最短路径[57]。其余类别将合并到总共包含800个类别的训练集中。总而言之，我们构建了一个包含1000个类别的数据集，其中明确地划分了类别以进行训练和测试，其中531个类别来自ImageNet数据集[56]，而469来自开放图像数据集[54]。

数据集分析。 我们的数据集是专为小样本学习和评估新类别模型的泛化性而设计的，该模型包含1000个类别，分别用于训练和测试集的800/200分割，总共约66,000张图像和182,000个边界框。表1和图3显示了详细的统计信息。我们的数据集具有以下属性：

类别的高度多样性：我们的数据集包含83种父级语义，例如哺乳动物，衣服，武器等，这些语义进一步细分为1000个叶子类别。我们的标签树如图2所示。由于严格的数据集划分，我们的训练/测试集包含非常不同的语义类别的图像，因此给要评估的模型带来了挑战。

具有挑战性的设置：我们的数据集包含对象在大小和纵横比上差异很大，组成数据集测试集的图像中有26.5%的图像中的对象不少于3个。我们的测试集包含大量未包含在我们的标签系统中的类别的框，因此对小样本模型提出了巨大挑战。

尽管我们的数据集具有大量类别，但是训练图像和框的数量比其他大规模基准数据集（例如MS COCO数据集）少得多，MS COCO数据集包含123,287张图像和约886,000个边界框。我们的数据集被设计为紧凑的，同时对小样本学习有效。

4.我们的方法

在本节中，我们首先定义我们的小样本检测任务，然后详细描述我们新的小样本目标检测网络。

4.1问题的定义

给定一个带有目标对象特写的支持图像 $s_{c}$ 和一个可能包含支持类别c的对象的查询图像 $q_{c}$ ，任务是在查询中找到属于支持类别的所有目标对象，并用紧密边框将它们标记出来。如果支持集包含N个类别，每个类别包含K个样本，则称为N-way K-shot检测问题。

4.2深度注意小样本检测

我们提出了一种新的注意力网络，它可以学习支持集与在RPN模块和检测器上的查询之间的一般匹配关系。图4显示了我们网络的整体架构。具体来说，我们构建了一个由多个分支组成的权重共享框架，其中一个分支用于查询集，其他的分支用于支持集（为简单起见，我们在图中仅显示了一个支持分支）。权重共享框架的查询分支是Faster R-CNN网络，其中包含RPN和检测器。我们利用此框架来训练支持和查询功能之间的匹配关系，以使网络学习相同类别之间的常识。在此框架的基础上，我们引入了一种新的注意力RPN和具有多关系模块的检测器，以在查询中的支持框和潜在框之间产生准确的解析。

4.2.1基于注意力的区域提议网络

在小样本目标检测中，RPN可用于产生可能相关的框，以促进接下来的检测任务。特别是，RPN不仅应区分对象还是非对象，还应过滤掉不属于支持类别的否定对象。然而，在没有任何支持图像信息的情况下，RPN会漫无目的地活跃在每一个不属于支持类别的潜在的objectness分高的对象中，从而给后续检测器的分类任务增加大量不相关对象的负担。为了解决这个问题，我们提出了attention RPN(图5) ，它使用支持信息来过滤掉大多数背景框和那些不匹配的类别。因此，生成了一组较小且更精确的候选提议，其中包含潜在的目标对象。

我们通过关注机制向RPN引入支持信息，引导RPN生成相关提案，同时抑制其他类别的提案。具体来说，我们以深度的方式计算支持特征图和查询特征图之间的相似性。然后利用相似度映射构建建议生成。特别地，我们将

支持特性表示为： X $\in$ $t^{s*c*c}$ ，

查询的特征图定义为：Y $\in$ $t^{H*W*C}$ ,

相似性定义为：

其中G为合成的注意特征图。这里使用支持特性X作为内核，以深度交叉相关方式[60]在查询特性图上滑动[58,59]。在我们的工作中，我们采用了RPN模型的顶层特征，即ResNet50中的res4_6。我们发现，在我们的例子中，S = 1的内核性能很好。这与全局特征可以为对象分类提供良好的对象先验的[25]一致。在我们的例子中，内核是通过在支持特征图上求平均来计算的。对注意力图进行3×3卷积处理，然后进行对象分类层和框回归层。将有损失 $L_{rpn}$ 的注意力RPN与网络联合训练，如[25]。

4.2.2多关系检测器

在R-CNN框架中，RPN模块后将是一个检测器，该检测器的重要作用是重新评分建议和类别识别。因此，我们希望检测器具有很强的区分不同类别的能力。为此，我们提出了一种新颖的多重关系检测器，可以有效地测量来自查询和支持对象的提议框之间的相似性，见图6。该检测器包括三个注意模块，分别是用于学习深度嵌入以进行全局匹配的全局关系头，用于学习支持和查询建议之间的像素方向和深度方向互相关的局部相关头，用于学习非线性度量以进行块匹配的块关系头。我们通过实验表明，三个匹配的模块可以相互补充以产生更高的性能。有关三个头的实现细节，请参阅补充材料。

我们需要哪些relation head？我们遵循RepMet [61]中提出的N-way K-shot评估协议来评估我们的relation head和其他组件。表2显示了我们在FSOD数据集的简单1-way 1-shot训练策略和5-way 5-shot评估下对我们提出的多关系检测器的消融研究。此后，我们对FSOD数据集上的所有消融研究使用相同的评估设置。对于单个relation head，local-relation head 在AP50和AP75评估中均表现最佳。出人意料的是，尽管patch-relation head对图像之间更复杂的关系进行建模，但其性能却比其他关系头差。我们认为，复杂的relation head使模型难以学习。当组合任何两种类型的关系头时，我们获得的性能要优于单个relation head。通过组合所有relation head，我们获得了完整的多重关系检测器，并获得了最佳性能，表明三个提出的relation head相互补充，可以更好地区分目标与非匹配对象。因此，以下所有实验均采用完整的多关系检测器。

4.3两种对比训练策略

普通训练策略是通过构造一个训练对(qc, sc)来匹配同一个类别对象，其中查询图像qc和支持图像sc都在同一个类别对象中。
然而，一个好的模型不仅要匹配相同的类别对象，还要区分不同的类别。为此，我们提出了一种新的双向对比训练策略。

根据图7中不同的匹配结果，我们提出了两种方法的对比训练，在匹配相同类别的同时区分不同类别。我们随机选择一个查询图像qc,支持图像包含相同c类别的sc对象和另一个支持图像sn包含不同n类对象,构建训练三元组(qc、sc，sn),c != n。在训练三元组,只有c类别查询图像中的对象标记为前景,而所有其他对象被当作背景。

在训练过程中，模型学习将查询图像中的注意力RPN生成的每一个提案与支持图像中的对象进行匹配。这样，模型不仅学会了在(qc, sc)之间匹配相同类别的对象，而且学会了在(qc, sn)之间区分不同类别的对象。然而，有大量的背景的提议通常在训练占主导地位，特别是负面的支持图像。出于这个原因，我们在查询建议和支持之间平衡这些匹配对的比例。我们将前景建议与正支持对(pf, sp)、背景建议与正支持对(pb, sp)、建议(前景或背景)与负支持对(p, sn)的比例保持为1:2:1。选取所有的N (pf, sp)对，根据匹配分数分别选取top 2N (pb, sp)对和top N (p, sn)对，计算所选对的匹配损失。在训练过程中，我们将每个采样方案的多任务损失设为L = Lmatching + Lbox，边界盒损失Lbox定义在[24]中，匹配损失为二叉交叉熵。

哪种训练策略更好?参见表3。我们使用2-way 1-shot 对比训练策略训练我们的模型，与普通的1-way 1-shot训练策略相比，AP50提高了7.9%，说明了在训练过程中学习如何区分不同类别的重要性。通过5-shot训练，我们取得了进一步的进步，[1]也证实了少样本训练有利于少样本测试。将我们的双向训练策略扩展到多路训练策略是很简单的。但是从表3可以看出，5路训练策略并没有比2路训练策略产生更好的效果。我们认为，在训练用于区分不同类别的模型时，只有一个负面支持类别就足够了。因此，我们的全模型采用了2-way 5-shot对比训练策略。

哪个RPN更好?我们在不同的评价指标上评价我们的注意力RPN。为了评估提案质量，我们首先对超过0.5 IoU阈值的100个提案的召回在普通的RPN和我们提出的attention-RPN分别进行评估。我们的attention-RPN比常规RPN表现出更好的召回性能(0.9130 vs. 0.8804)。然后我们评估这两个RPNs在地面真值框上的平均最佳重叠率(ABO[62])。注意力RPN的ABO值是0.7282，而相同的标准下的RPN值是0.7127。这些结果表明，attention-RPN可以产生更多高质量的提案。

表3进一步比较了不同训练策略下，有attentionRPN的模型和一般的RPN的模型。在AP50和AP75评估中，带有attention-RPN的模型始终比常规RPN表现更好。在AP50/AP75评估中，attention-RPN在1-way 1-shot训练策略中产生0.9%/2.0%的增益，在2-way 5-shot训练策略中产生2.0%/2.1%的增益。这些结果证实了我们的attention-RPN产生了更好的提议，有利于最终的检测预测。因此，我们的整个模型采用了attention RPN。

5. 实验

在实验中，我们比较我们的方法与先进(SOTA)方法在不同的数据集。我们通常在FSOD训练集上训练我们的整个模型，然后直接对这些数据集进行评估。为了与其他方法进行公平比较，我们可以放弃FSOD上的训练，而采用与这些方法相同的训练/测试设置。在这些情况下，我们使用multi-way few-shot 训练，更多细节将在微调阶段描述。

5.1. 训练细节

我们的模型使用批次大小为4(用于查询图像)的SGD在4个Tesla P40 gpu上进行端到端训练。前56000次迭代的学习率为0.002，后4000次迭代的学习率为0.0002。我们观察到在ImageNet[56]和MS COCO[13]上进行预训练可以提供稳定的低级特征，并且可以得到更好的收敛点。鉴于此，除非另有说明，我们默认从[13,56]上预先训练好的ResNet50训练我们的模型。在训练过程中，我们发现过多的训练迭代会损害性能，过多的训练迭代会使模型过度拟合到训练集上。我们固定Res1-3块的权重，只训练高层利用低层基本特征，避免过拟合。将查询图像的较短边调整为600像素;长边的上限是1000。支持图像以16像素的图像上下文围绕目标对象裁剪，零填充，然后调整大小为320×320的正方形图像。对于小样本的训练和测试，我们通过对同一类别的目标特征进行平均来融合特征，然后将它们输入到attention-RPN和多关系检测器中。我们采用典型的度量标准[21]，如AP、AP50和AP75进行评估。

5.2.与先进方法的比较

5.2.1 ImageNet检测数据集

在表4中，我们将我们的结果与LSTD[9]和RepMet[61]在具有挑战性的基于ImageNet的50-way 5-shot 检测场景中的结果进行了比较。为了公平比较，我们使用他们的评估协议和测试数据集，我们使用相同的MS COCO训练集来训练我们的模型。在评估期间，我们还使用soft-NMS[63]作为RepNet。与最先进的技术评估相比，我们的方法在AP50上获得了1.7%的性能提升。

为显示我们的方法的泛化能力,我们直接应用模型在FSOD训练数据集的测试集上训练,在AP50评价上我们获得41.7%，这是是比我们的调整模型(表4)令人惊讶的好。需要注意的是,我们的模型在FSOD数据集上训练集上训练后可以直接应用于测试集，无需微调就能实现最先进的（SOTA）性能。此外，虽然我们在FSOD数据集上训练的模型在AP50性能上略优于在MS COCO数据集上的微调模型，但在AP75评估上，我们的模型比微调模型高出6.4%，这表明我们提出的FSOD数据集在小样本目标检测方面有显著优势。通过对测试集上的FSOD训练模型进行进一步微调，我们的模型获得了最佳性能，同时注意到，与SOTA相比，我们的不进行微调的方法已经工作得最好。

5.2.2 MS COCO数据集

在表5中,我们比较我们的带有特征权重[10]和元R-CNN[12]方法在MS COCO minival集。我们遵循他们的数据分割和使用相同的评估协议:我们设置了20个包含在 PASCAL VOC数据集里的类别作为评价的新类，并使用其他来自MS COCO 数据集中的60类作为训练类。我们使用相同MS COCO训练数据集的优化模型在AP/AP50/AP75指标上的表现比Meta R-CNN高出2.4%/1.3%/4.0%。
这说明了我们的模型具有很强的学习和泛化能力，而且，在较少的场景中，学习一般匹配关系比尝试学习分类特定的嵌入更有前景[10,12]。我们采用FSOD训练的模型在AP/AP50/AP75指标上取得了7.9%/12.2%/9.5%的显著改善。值得注意的是，我们在FSOD数据集上训练的模型直接应用于新的类别，而没有任何进一步的微调，而所有其他方法都使用10个微调支持来适应新的类别。同样，在不进行微调的情况下，我们的fsodtraining模型已经在sota中工作得最好了。

5.3. 现实的应用

我们在不同的实际应用场景中应用我们的方法来展示它的泛化能力。图8给出了我们测试集中对新类别的定性1-shot目标检测结果。我们将该方法进一步应用于野生企鹅的检测[64]，图9给出了样本定性5-shot目标检测结果。

新类检测.考虑这种常见现实应用场景:给定一个大量在相册或电视连续剧中的图片，这些图片没有任何标签，标注的任务是一种新的目标对象(例如,火箭)在给定的大规模收集不知道哪些图像包含目标对象,如果存在，它们的大小和位置也是不同的。为了减少人工劳动，一种解决方案是手动查找少量包含目标对象的图像，对它们进行标注，然后应用我们的方法自动对图像集合中的其余图像进行标注。这个设置之后,我们执行评估如下:我们混合FSOD数据集上所有测试图片,并对每个对象类别,选5张包含目标对象的图片来在整个测试集上执行新类目标检测。注意,不同于标准的对象检测评价,在这个评价中,该模型分别评估每个类别并且不知道完整类别。

我们与LSTD[9]进行了比较，它需要通过将知识从源域转移到目标域来训练新的类别。然而，我们的方法可以应用于检测新的类别中的对象，而不需要任何进一步的再训练或微调，这与LSTD有根本的不同。为了比较经验，我们将LSTD调整为基于更快的R-CNN，并在公平配置下分别对每个测试类别的5个固定支撑物进行再训练。结果如表6所示。在所有200个测试类别的AP50/AP75上，我们的方法比LSTD的性能高出3.3%/5.9%，比它的骨干Faster R-CNN快4.5%/6.5%。更具体地说，在没有对我们的数据集进行预先训练的情况下，Faster R-CNN的性能会显著下降。注意，因为模型只知道支持类别，基于finetuning的模型需要分别训练每个类别，这很费时间。

wild car 检测。我们将我们的方法应用于KITTI[52]和Cityscapes[65]数据集上的wild car检测，这些数据集是用于驾驶应用的城市场景数据集，图像由车载摄像机捕捉。我们用7481幅图像在KITTI训练集和500幅图像在Cityscapes验证集上评估Car类别的性能。
DA Faster R-CNN[66]使用来自源域(KITTI/Cityscapes)的大量标注数据和来自目标域(Cityscapes/KITTI)的未标记数据来训练域自适应Faster R-CNN，并评估目标域上的性能。无需任何进一步的再训练或微调，我们的10-shot支持模型在野外汽车检测任务中获得了与AP50相当甚至更好的性能(37.0% vs 38.5%的Cityscapes和67.4% vs 64.1%的KITTI)。值得注意的是DA - Faster R-CNN是专门为野外汽车检测任务设计的，它们在类似领域使用更多的训练数据。

5.4.更多的类别vs.更多的样本?

我们提出的数据集有大量的目标类别，但每个类别的图像样本很少，我们声称这有利于小样本目标检测。为了证实这一益处，我们在MS COCO数据集上训练我们的模型，该数据集有超过11.5万张图像，只有80个类别。然后在分类数不同的FSOD数据集上对模型进行训练，同时保持相似的训练图像数目。表7总结了实验结果,我们发现尽管MS COCO有最多的训练图像,但其模型性能表现是最糟的,而FSOD模型训练数据集有更好的性能随着类别数量的逐步增加,同时保持同样数量的训练图像,表明有限数量的类别与太多的图像可能阻碍few-shot目标检测，而大量的分类可以持续地使任务受益。因此，我们得出类别多样性对于小样本目标检测是很重要的。

6. 结论

我们提出了一种基于attention-RPN，多关系检测器和对比训练策略的小样本目标检测网络。我们贡献了一个新的FSOD，其中包含1000个带有高质量标注的各种对象类别。我们的模型在FSOD上训练可以不需要预先训练或进一步的网络自适应就能检测出新的类别目标。我们的模型已被广泛的定量和定性结果在不同的数据集上验证。本文对小样本目标检测做出了贡献，我们相信通过我们的大规模FSOD数据集和检测网络可以衍生出值得研究的相关工作。