Intrinsic Relationship Reasoning for Small Object Detection

我们提出了一种新的用于小对象检测的上下文推理方法，该方法对对象之间内在的语义和空间布局关系进行建模和推断。

传统的CNN是深度的卷积伴随着不可忽略的空间信息衰减，对小物体检测不大行。

因此，小目标检测的一个关键挑战是如何捕获语义强的特征，同时最小化空间信息衰减。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-x3nAgmcD-1636683152267)

它使用超分辨率网络对模糊的低分辨率图像进行上采样，以精细缩放高分辨率图像，并对检测结果进行细化

这种方法从根本上解决了空间信息衰减问题，但代价是计算量大。

在具有多个小对象的复杂场景中，属于同一类别的小对象往往具有相似的语义共生信息，同时往往具有相似的纵横比、比例，并在空间布局中以簇的形式出现。

人们不会把这些单独拿来看。而是整合所有物体的内在联系。这种现象启发我们探索如何建模和推断内在的语义和空间布局关系，以促进小对象检测。

全局上下文是一个方法。PSP Net[48]和DenstASPP[46]通过结合多尺度特征来模拟全局关系，从而扩大了卷积层的感受野。

可变形CNN[9]学习卷积采样位置的偏移量，可自适应确定尺寸或感受野大小。

此外，挤压和激励网络[19]（SENet）通过全局平均池操作对全局信息进行编码，以在每个阶段合并图像级描述符。

然而，这些方法仅仅依赖于坐标空间中的卷积来隐式地建模并在不同区域之间传递信息，如果他们能有效地处理这个问题，就有望挤出更好的性能。

相反，==图卷积网络（GCN）==通常被视为特征聚合/传播和特征变换的组合[44]，实现了一种全局推理能力，允许更远的地区彼此直接交流信息。

因此，GCN适合于从图像本身建模和推理成对的高阶对象关系，这有望有助于提高小对象检测。

重点：

本文提出了一种基于GCN的小目标检测上下文推理方法，对隐含的成对区域关系进行编码，并在区域之间传播语义和空间布局上下文信息

关系构建的流程图如图1（b）所示：

包含三个模块：

从初始区域特征建模稀疏语义关系的语义模块
空间布局模块，用于根据对象的位置和形状信息建模稀疏空间布局关系；
上下文推理模块，用于集成稀疏语义和空间布局上下文信息，以生成动态场景图并传播场景对象之间的上下文信息

贡献：

我们提出了一种上下文推理方法，可以有效地在区域之间传播上下文信息并更新初始区域特征，从而提高小目标检测的效率
我们设计了一个语义模块和一个空间模块，分别从图像本身建模语义和空间布局关系，而不引入外部手工语言知识。这种关系有助于识别在同一场景中属于相同类别的小对象
综合实验表明，本文提出的方法能够有效地提高小目标检测的效率。

RELATED WORK:

现有的对象检测器在具有多个小对象的复杂场景中存在性能瓶颈，因为它们很难在捕获语义强的特征和保留更多空间信息之间取得平衡

尽管SOD-MTGAN和野外人脸GAN的性能令人印象深刻，但由于引入了额外的超分辨率网络，它们的计算负担很高。

它们无法挖掘区域之间的相关性，这限制了它们小目标检测性能的提高。

关系挖掘的目的是使对象和场景之间的信息合理地交互、传播和变化。

在以前的作品[1, 2, 22，31 ]中的一个常见做法是考虑对象之间的手动设计关系和共享属性。

图形结构[6,7,21,30]还展示了其融合外部知识的惊人能力。

在[10]中，Deng等人从标签构造关系图来指导分类。类似地，Chen等人[6]设计了一个迭代推理框架，该框架利用基于局部区域的推理和全局推理来促进对象识别。

然而，这些作品依赖于外部手工语言知识，这需要艰苦的注释工作。

此外，由于语言和视觉语境之间存在差异，手工知识图通常不被重视。一些作品[18,28,32]建议从图像本身构建隐含关系。特别是，Liu等人[28]通过构造结构推理网络（SIN）对关系进行编码，该网络隐式学习具有堆叠GRU单元的完全连通图。然而，完全连通图所带来的冗余信息和效率低下使得该方法停滞不前。

我们希望通过挖掘每幅图像内在的语义和空间布局关系，模仿人类的视觉机制，构建动态场景图，以便于小目标检测

PROPOSED APPROACH：

我们的方法模仿了这种人类视觉机制，并捕获了小对象之间的对象间关系（语义和空间布局）。它的目的是通过测量难以检测的小物体与其他易于检测的物体的相关性来推断它们的存在

首先，我们构建了一个语义模块，用于从初始区域特征编码内部语义关系，并构建了一个空间布局模块，用于从对象的位置和形状信息编码空间布局关系。
然后，语义和空间布局关系都被输入到上下文推理模块中，并生成区域到区域的无向图G=⟨N、 E⟩，其中N是区域节点，每条边eij ∈ E对节点之间的语义和空间布局关系进行编码。
最后，上下文推理模块集成了对象之间的上下文信息和稀疏关系，并与原始区域特征进一步融合。

Semantic Module：

本模块是可学习的，旨在模仿人类视觉机制，对对象之间的内在语义关系进行建模。

如图3所示，属于相同类别的提案往往具有相似的语义共现信息，导致高关联性，如果没有，则低关联性

语义关联度计算流程图。来自这些建议的初始区域特征被输入语义编码器以产生潜在的表示。用于从可学习的语义关联度函数计算关联度。属于同一类别的提案往往具有相似的语义共现信息，从而导致高关联性和低关联性。

更直观地说，语义信息不明确的难以检测的小对象，如果与同一场景中的一些易于检测的时钟具有最高的语义相似性，则更可能是时钟。

这些易于检测的时钟的语义上下文信息往往有利于识别这种难以检测的对象。

我们定义了一个动态无向图Gsem = ⟨N, Esem⟩ ：对每个图像的语义关系进行编码。注意，N中的每个节点对应于区域建议，而每个边eij∈ Esem表示节点之间的关系。

给定Nr=| N |个建议节点，我们首先构造一个完全连通图，在它们之间包含O（N²_r）条可能的边。然而，由于现实世界中对象交互的规律性，大多数连接都是无效的。解决这个问题的直接方法是计算全连通图之间的语义关联度，然后保留高关联度的关系，同时修剪低关联度的关系。

相关度计算的流程图如图3所示。灵感来源于[45]，给定初始区域特征池，P^o ∈ R^Nr×D，其中D是初始区域特征的维数。

我们定义了一个可学习的语义关联函数：f (·, ·)从原始全连通图中的每个成对初始区域特征⟨p^o i ,p^o j ⟩ ∈ P^o计算语义关联度。

语义关联性s’ij可以表述为:

δ（i，j）是一个指示函数，如果第i个和第j个区域彼此高度重叠，则等于0，否则等于1。

Φ（·）是一个投影函数，用于将初始区域特征投影到潜在表示。由于不同的区域是平行的，并且没有主客体分割，因此本文将其设置为多层感知器（MLP）来编码无向关系。

对分数矩阵S′={S′ij}应用一个sigmoid函数，以规范化从0到1的所有分数。然后，我们将分数矩阵S’按行排序，并保留每行中的前K个值。与保留值相对应的成对区域关系被设置为选定关系。如果选择了相应的区域间关系，则相邻边e′ij的值设置为1，否则设置为0。

语义模块通过MLP架构将包含丰富语义和位置信息的原始区域特征映射到新的特征空间中，并保留具有高度相似性的区域。

在训练过程中，位置信息往往被忽略，语义信息往往被保留，因为位置信息的高度相似性将导致保留具有高重叠率的区域，并且这些区域将被NMS算法抑制。

因此，它对语义信息进行编码。通过这种方式，我们可以得到一个稀疏的语义关系Esem，该Esem保留了大部分信息边缘，并修剪了噪声边缘。

Spatial Layout Module：

例如，场景中属于相同类别的小对象往往具有相似的空间纵横比和比例。这不是一个一刀切的规则，我们可以很容易地在图4（b）中找到一些故障案例。

空间布局相关性计算流程图。将每个成对区域的空间布局输入空间布局模块，计算空间相似性和空间距离权重，计算空间布局相关性。

应该再次探讨如何有效地建模小对象之间的空间布局关系以更好地识别的问题。我们可以发现椅子之间的距离比它们与大多数鸟类之间的距离更近，而鸟类的情况也类似。

这一现象可以推广到大多数场景中，即相同类别的小对象在空间布局中往往以簇的形式出现。

我们构建了空间布局模块，从空间相似性和空间距离两个方面对内在的空间布局关系进行建模。其流程图如图4（a）所示。

我们定义了一个空间布局动态无向图Gspa：⟨N, Espa⟩ 对空间布局关系进行编码的步骤。与语义模块中的相似，我们定义了一个空间布局关联度函数Ф（·，·）来计算原始全连通图中的关联度。

空间布局关联性s′'ij∈ S′可以表示为：

C ^o _i = (xi ,yi ,wi ,hi)，C ^o _j = (xj ,yj ,wj ,hj)是分别对应于区域i和j的区域坐标。

mrij和wrij分别是空间相似度和空间距离权重。

式中，λ用作scale参数，根据经验设置为5e− 4。mdij是两个区域中心之间的空间距离。
我们将分数矩阵S′按行排序，并保留每行中的前K值（参数）。与保留值相对应的成对区域关系被设置为选定关系。最后，我们设置相邻边e′'ij∈ Espa的方式与语义模块中的方式相同。构建的空间布局图如图4（b）所示。

Context Reasoning Module：

上下文推理模块用于集成对象之间的上下文信息和稀疏关系。

考虑到初始的区域特征f∈ R^Nr×D与编码的语义和空间布局关系，我们需要选择彼此高度相关的关系，语义或空间布局。

我们通过以下方式融合语义和空间布局关系：

区域之间的连接是非欧几里德数据和高度不规则的，通常CNN无法系统可靠地处理这些数据。

图卷积网络（GCN）能够更好地估计融合关系图E顶点之间的边强度，从而导致个体之间更精确的连接。

直观地说，具有高度相关性的区域之间的信息通信能够提供更有效的上下文信息，这将有效地促进小目标检测。

因此，我们构建了一个用于区域上下文推理的轻量级GCN。其流程图如图5所示。它由L>0层组成，每个层具有如下定义的相同传播规则。

我们定义H（l）∈ R^Nr×D作为第l层的隐藏特征矩阵，H（0）=f。H（l）可以表示为：

其中，D是E的度矩阵，而E＝D− E是G的组合拉普拉斯矩阵。

这是GCN的原来的公式。层与层之间传播的公式。不用理解吧。。。

使用GCN的输出更新初始区域特征f：其中f~和⊕ 分别表示更新的特征和元素添加操作。通过这种方式，共生语义和空间布局信息可以有效地相互传播，使得模型比以前具有更好的自校正能力，并且减少了错误和遗漏检测的问题。

实验：

Experimental Settings：

COCO数据集。

Implementation Details：

我们重新实现了Faster R-CNN[39]，以ResNet-50和ResNet-101作为主干，作为PyTorch[33]中的基线方法。请注意，我们的网络主干是在ImageNet[40]上预先训练的，然后在检测数据集上进行微调。

MLP体系结构和上下文推理模块中的参数是随机初始化的，并且是从头开始训练的。整个网络以端到端的方式进行训练，其输入图像的大小调整为800像素的短边。采用随机梯度下降法（SGD）对其进行训练。我们使用超过4个GPU的同步SGD，每个小批量总共有16个图像（每个GPU 4个图像）。

该模型经过90k次迭代的训练，初始学习率为0.02。我们在60k处衰减学习速率，然后在80k处再次衰减，衰减速率为0.1。

我们使用0.0001的重量衰减和0.9的动量。关系图构造中的K=64，上下文推理模块中的L=2。

与SOTA的对比。

我们展示了带有主干网ResNet-50和ResNet-101的IR R-CNN的结果。

最佳、亚军和季军两级车型分别标有红色、绿色和蓝色。

图6显示了由我们的IR R-CNN生成的检测结果的一些定性示例。

Detailed Performance Analysis：

我们进行了一个实验来评估{16,32,64,96}中的参数K（前K个）。表1总结了不同K值下所提出方法的性能。2.从该表中，我们发现总体检测性能保持相对稳定，而小对象检测的性能随着K的增长而显著提高，并在K=64时达到峰值。

然而，当K继续增长时，小对象检测的性能会下降。这可以解释为，低K将导致提出的语义和空间布局模块无法分别编码足够的语义和空间布局关系。

这小K限制了可以在区域之间传播的语义和空间布局上下文信息，并导致较差的小对象检测性能。相反，大K增加了不必要的关系被编码的风险。换句话说，可能会引入噪声，这对小目标检测的改进有负面影响。

总之，当适当的K能够编码足够的关系并且在避免引入噪声的同时有效地在区域之间传播上下文信息时，可以最大限度地提高性能。

消融研究主要包括两种不同的设置，旨在验证所提出的语义和空间布局模块的有效性。

在第一个设置中，我们只考虑语义关系，而忽略上下文推理的空间布局关系。这样，只有语义相似度高的区域才能相互传播上下文信息。
在第二个设置中，我们忽略区域之间的语义关系，只将空间布局关系输入上下文推理模块进行进一步推理。
-
对小目标检测都有提升，但与完整模型相比，它们各自的改进相当有限。

这可以解释为语义模块能够从语义相似性编码语义关系，使上下文推理模块能够在对象之间传播高阶语义共生上下文信息，从而提高性能。

然而，对于难以提取语义强特征但属于相同类别的小对象来说，这并不是很有利。

空间布局模块将语义相似性放在一边，从空间布局中构建关系，为空间布局中具有高度空间相似性并以集群形式出现的小对象提供相互传播空间布局上下文信息的机会。这可以缓解语义模块中的问题，但引入噪声的风险很高。

由于这两个模块可以相互补充，它们的融合自然会使性能获得最大的提高。特别是Tab。3表明我们的上下文推理方法可以在minival子集上提高1.9个点的小目标检测性能。

结论：

我们提出了一种新的用于小对象检测的上下文推理方法，该方法对对象之间内在的语义和空间布局关系进行建模和推断。它从语义相似性中构造稀疏语义关系，从空间相似性和空间距离中构造稀疏空间布局关系。

上下文推理模块以语义和空间布局关系为输入，传播语义和空间布局上下文信息以更新初始区域特征，使对象检测器能够缓解小对象的错误和遗漏检测问题。实验的COCO的结果验证了所提出方法的有效性方法。

我们相信IR R-CNN可以通过关系建模和推理来帮助当前的小目标检测。在未来的工作中，我们将尝试性地探索在上下文推理模块中引入方向信息的可行性，以及结合内在关系和外部手工语言知识进一步提高小目标检测性能的可行性。