摘要

1. 引言

2. 相关工作

3. 提出的方法

A. Polarization Attention Module（PAM）

B. 旋转锚框精炼模块

C. 动态锚定学习

4. 实验

A. 数据集

B. 实施细节

C. 消融研究

D. 主要结果和分析

5. 结论

第二次笔记

【论文小结】CFC 分类回归不一致问题_Clark-dj的博客-CSDN博客

摘要

光学遥感图像中的目标检测是一项重要且具有挑战性的任务。近年来，基于卷积神经网络的方法取得了良好的进展。然而，由于目标尺度、纵横比和任意方向变化较大，检测性能难以进一步提高。在本文中，我们讨论了鉴别特征在目标检测中的作用，然后提出了一个关键特征捕获网络（CFCNet），从三个方面提高检测精度：构建强大的特征表示、细化预设锚和优化标签分配。具体地说，我们首先将分类和回归特征解耦，然后通过极化注意模块（PAM）构建适合各自任务的鲁棒关键特征。利用提取的判别回归特征，旋转锚优化模块（R-ARM）对预设水平锚进行定位优化，以获得更好的旋转锚。接下来，给出了动态锚学习（DAL）策略，根据锚捕获关键特征的能力自适应地选择高质量的锚。该框架为遥感图像中的目标创建了更强大的语义表示，实现了高性能的实时目标检测。在HRSC2016、DOTA和UCAS-AOD三个遥感数据集上的实验结果表明，与许多最先进的方法相比，我们的方法实现了更好的检测性能。代码和模型可在https://github.com/ming71/CFC Net。

关键词：目标检测、深度学习、卷积神经网络（CNN）、关键特征

1. 引言

光学遥感图像中的目标检测是一项重要的计算机视觉技术，旨在对遥感图像中的目标进行分类和定位。它被广泛应用于作物监测、资源勘探、环境监测、军事侦察等领域。随着可用遥感数据的爆炸性增长，从海量遥感图像中识别感兴趣的目标逐渐成为一项具有挑战性的任务。大多数传统方法使用手工制作的特征来识别对象[1]–[5]。虽然已经取得了很大进展，但仍然存在效率低、鲁棒性不足和性能差等问题。

近年来，神经网络（CNNs）的发展极大地提高了卷积对象的检测性能。大多数基于CNN的检测框架首先通过卷积运算提取特征，然后在特征图上预设一系列先验框（锚）。随后，将对这些锚进行分类和回归，以获得对象的边界框。CNN强大的自动提取特征的能力使得在海量图像上实现高效的目标检测成为可能。目前，基于CNN的模型已广泛应用于遥感图像中的目标检测，如道路检测[6]、车辆检测[7]、机场检测[8]和船舶检测[9]、[10]。

尽管基于CNN的方法已经取得了很好的进展，但它们通常直接来自通用的目标检测框架。这些方法很难在遥感图像中检测出具有多种尺度、宽高比和方向的目标。例如，在遥感图像中，物体的方向变化很大，而主流的通用探测器利用预定义的水平锚来预测这些旋转的地面真相（GT）盒。水平框通常包含大量背景，这可能会误导检测。有一些方法使用旋转锚定位任意方向的对象[11]–[17]。但是，旋转锚很难与GT框实现良好的空间对齐，并且不能确保为分类和回归提供足够好的语义信息。

图1。说明关键特征在分类任务中的作用。预测的边界框（绿色）从预定义的锚框（红色）回归。
（a）和（b）的地面真值类别分别标记为a和b，而预测的对象类别均为a。
只有捕获识别对象所需的关键特征（如此处的岛屿和船首）的锚才能实现正确的分类预测。

最近的一些研究通过设计更强大的特征表示来解决上述问题[16]–[21]。然而，他们只关注遥感目标的特定类型的特征，例如旋转不变特征[18]，[19]和尺度敏感特征[20]，[21]。它们无法自动提取和利用更复杂、更具辨别力的特征。另一种常用方法是手动设置大量锚，覆盖不同的纵横比、比例和方向，以实现与目标的更好空间对齐。通过这种方式，可以获得足够的高质量锚具，并获得更好的性能。然而，过多的预设锚带来了三个问题：（1）大多数锚都是不能用于边界盒回归的背景，这导致了严重的冗余计算。（2）之前的锚的参数需要小心手动设置，否则，它们将无法与GT箱良好对齐。（3）过多铺设的锚中存在大量低质量的负样本，不利于网络融合。上述问题导致密集预设的锚仍然无法有效处理遥感目标检测的困难。

为了弄清遥感对象的复杂多变性如何使其难以实现高性能检测，本文引入了关键特征这一基本概念，它表示准确分类或定位所需的鉴别特征。以分类任务为例，大多数基于锚的检测器将图1（a）和图1（b）中的锚视为正样本，即这些锚和GT盒之间的IoU大于0.5.但图1（b）中的锚没有捕捉到识别船b所需的岛屿和船首的区别特征。

虽然该锚实现了精确定位，但它会导致错误的分类结果，从而降低检测性能。此外，通过可视化CNN提取的特征，可以发现识别分类和回归对象所需的关键特征并不总是均匀分布在对象上，而是可能分布在局部区域，如船首和船尾（见图2（a）和图2（b））。预设锚需要捕捉这些关键特征，以实现准确检测。这与之前的一些工作[9]，[22]的结论类似。然而，主流旋转检测器更可能选择具有高IoU和GT盒的锚定为正，但忽略包含关键特征的高质量锚定，这最终导致训练过程不稳定和性能差。图2（c）显示了所有候选者的定位能力分布，以支持这一观点。可以看出，回归后只有74%的阳性锚能够实现高质量检测（输出IoU大于0.5），这表明即使是阳性锚也无法保证精确定位。我们将这种现象归因于这样一个事实，即一些选定的阳性锚没有捕获回归任务所需的关键特征。此外，如图2（d）所示，令人惊讶的是，实现准确检测的锚定中有一半以上（本例中约58%）是从划分为负片的样本中回归的。这意味着大量负面锚很好地捕捉了关键特征，但根本没有得到有效利用。训练样本划分与回归结果之间的不一致将进一步导致分类分数与检测定位精度之间的差距。基于以上观察，我们得出结论，遥感图像中目标检测的关键问题之一是锚能否捕捉到目标的关键特征。

感觉：一定意义上也是在解决分类回归不一致问题，标签分配问题，训练不稳定问题，换一种角度思考问题，解决问题。

本文基于上述关键特征重要性的观点，提出了关键特征捕获网络（CFC-Net）来实现光学遥感图像中的高性能目标检测。具体来说，CFC Net首先使用设计良好的极化注意模块（PAM）为分类和回归任务生成不同的特征金字塔，然后我们可以获得更具辨别力且易于捕获的任务特定关键特征。接下来，旋转锚优化模块 (R-ARM)优化预设水平锚，以更好地捕获回归关键特征，从而获得高质量的旋转锚。最后，在训练过程中，采用动态锚学习（DAL）策略来选择高质量的锚，将关键特征捕获为正，以确保训练后的优异检测性能。由于关键特性的正确构造和利用，CFC Net仅使用一个锚就实现了最先进的检测性能，这使得它成为一种高性能和节省内存的方法。该代码可用于促进未来的研究。

本文的贡献总结如下：

我们通过实验指出了关键特征的存在，并从这个角度解释了遥感图像中目标检测的常见挑战。

提出了一种新的目标检测框架CFC-Net，用于提取关键特征，并利用高质量的锚来捕获关键特征，以获得优异的检测性能。

两极分化注意被用来构建任务特定的关键特征。解耦的关键特征为单个任务提供了更有用的语义信息，有利于准确的分类和回归。

动态锚选择策略选择高质量的锚，捕获关键的回归特征，以消除分类和回归之间的不一致性，从而大大提高检测性能。

本文的其余部分组织如下。第二节介绍了目标检测的相关工作。第三节阐述了建议的方法。第四节给出了实验结果和分析。最后，在第五节中得出结论。

2. 相关工作

遥感图像中的目标检测有着广泛的应用场景，近年来受到了广泛的关注。大多数早期的传统方法使用手工特征来检测遥感对象，例如形状和纹理特征[1]、[4]、[5]、尺度不变特征[2]和显著性[3]。例如，Zhuet等人[4]实现了基于形状和纹理特征的精确船舶检测。Eikvilet al.[5]利用空间几何特性和灰度特征在卫星图像中进行车辆检测。这些方法在特定场景下取得了令人满意的性能，但它们的效率低，泛化能力差，难以在复杂场景中检测目标。

近年来，随着卷积神经网络的巨大成功，通用目标检测得到了大力推广。基于CNN的主流目标检测方法可分为两类：一级检测器和两级检测器。两级检测器首先生成一系列建议，然后对这些区域进行分类和回归，以获得检测结果[23]–[25]。这些算法通常具有较高的精度，但推理速度较慢。单级探测器，如YOLO系列[26]–[28]和SSD[29]，直接对之前的锚进行分类和回归，而无需生成区域建议。与两级检测器相比，一级检测器的精度相对较低，但速度更快，可以实现实时目标检测。

深度学习方法在遥感图像目标检测中得到了广泛的应用。提出了一系列基于CNN的方法，并取得了良好的效果。然而，一些方法是直接从通用对象检测框架[20]，[30]开发的，该框架使用水平边界框检测对象。水平盒难以区分密集排列的遥感目标，容易被误判。为了解决这个问题，一些研究引入了一个额外的方向维度来实现定向对象检测[11]–[13]。例如，Liuet等人[11]将角度回归集成到YOLOv2[27]中，以检测旋转的船舶。R2PN[12]通过生成倾斜感兴趣区域（RoI）来检测旋转的船舶。RR-CNN[13]使用旋转的RoI池层，使RoI特征更好地与对象的方向对齐，以确保准确检测。但是，为了与旋转的对象有更高的重叠，这些方法预设了密集排列的旋转锚点。大多数锚与目标没有相交，这带来了大量的冗余计算和严重的不平衡问题。一些工作通过设置较少的锚来缓解问题，但仍保持检测性能[14]，[31]。RoI Transformer[14]采用水平定位通过空间变换学习旋转的RoI，因此一些水平定位可以很好地用于定向对象检测。R3Det[31]通过级联回归实现最先进的性能，并在水平锚上执行特征对齐。尽管这些方法取得了成功，但水平锚仍然难以匹配旋转对象，并且预设锚的数量仍然很大。与之前的工作不同，我们的CFC网络仅使用一个锚，以实现更快的推理，并实现高质量的旋转目标检测。

也有一些方法试图构建更好的特征表示，以缓解大规模、形状和方向变化导致的锚匹配困难[15]、[17]–[19]、[21]、[32]。例如，ORN[19]通过旋转卷积核进行特征提取，以实现旋转不变性。RICNN[18]通过学习旋转不变层来优化特征表示。FMSSD[21]将不同尺度的背景信息进行聚合，以应对大规模遥感图像中的多尺度对象。Liet al.[15]提出了一种形状自适应池来提取具有不同长宽比的船舶的特征，然后结合多级特征来生成用于船舶检测的紧凑特征表示。RRD[16]观察到，由于分类和回归任务的不兼容性，共享特征会降低性能，因此分别为分类和回归任务构造旋转不变和旋转敏感特征。但这些工作只关注目标特征的某一方面，不能全面涵盖目标检测所需的鉴别特征。根据提出的关键特征概念，我们认为检测性能取决于先验锚是否有效捕获这些关键特征，而不限于旋转不变特征或尺度不变特征。因此，清晰且易于捕获的强大关键特征表示对于目标检测非常重要。提出的CFC网络分别为分类和回归任务提取和利用任务敏感的关键特征，从而使检测器从更具区分性的关键特征表示中获得实质性的性能改进。

3. 提出的方法

CFC网络的整体结构如图3所示。它使用ResNet-50作为主干网。首先，我们通过FPN[33]构建多尺度特征金字塔，然后通过提出的PAM生成对分类和回归敏感的解耦特征。随后，通过R-ARM进行锚定细化，以基于关键回归特征获得高质量的候选旋转。最后，通过DAL策略，动态选择捕捉关键特征的锚定作为训练的正样本。这样可以减少分类和回归之间的不一致性，从而有效地提高检测性能。下文详细阐述了拟议CFC网络的细节。

A. Polarization Attention Module（PAM）

在大多数目标检测框架中，分类和回归都依赖于共享的特征。然而，正如[16]，[34]中提到的，由于两个任务之间的不兼容性，共享功能会降低性能。例如，探测器的回归分支需要对角度的变化敏感，以便实现准确的方向预测，而分类分支则应该对不同角度有相同的响应。因此，旋转变异特征有利于分类任务，但不利于边界盒回归。

为了避免不同任务之间的特征干扰，有效地提取特定任务的关键特征，我们提出了极化注意模块（PAM）。PAM的整体结构如图4所示。首先，我们为不同的任务构建不同的特征金字塔，称为双FPN。其次，采用设计良好的极化注意机制来增强特征的表示能力。通过极化函数，不同的分支生成各自任务所需的鉴别特征。

具体来说，对于分类，我们倾向于选择高响应全局特征来减少噪声干扰。对于回归，我们更加关注对象边界的特征，并抑制不相关的高激活区域的影响。

给定输入特征F∈ $R^{C\times H\times W}$ ，我们构建任务敏感特性如下：

$\bigotimes$ 和 $\bigodot$ 分别表示张量积和元素乘法。σ表示sigmoid函数。首先，我们通过卷积运算从输入特征中提取通道注意图 $M_{c}$ 和空间注意图 $M_{s}$ 。
通道注意的目的是提取特征地图的通道关系。通过全局平均池和完全连接层提取每个通道的权重，如下所示：

其中， $F_{gap}$ 从输入特性F全局平均池获得， $W_{0}$ ∈ $R^{C/r\times C}$ 和 $W_{1}$ ∈r $R^{C\times C/r}$ 表示完全连接层的重量。σ表示sigmoid函数。

相应地，空间注意被用来建模输入图像像素之间的依赖关系。计算如下：

其中 $C^{3\times3}$ 表示3×3滤波器的卷积。 $c^{1\times3}_{d}$ 、 $c^{3\times1}_{d}$ 、 $c^{3\times3}_{d}$ 分别表示不同核大小的扩张卷积。cat表示特征的串联。这里采用扩张卷积来扩展卷积核的感受野。

同时，采用不同纵横比的卷积核来更好地检测船舶和桥梁等细长物体。

接下来，将两个注意力图相乘，得到特定任务的注意力反应图M。在此基础上，我们进一步通过特定于任务的极化函数ψ（·）构建了强大的任务敏感关键特征表示。

对于分类，期望特征更多地关注特征图上的高响应部分，而忽略可能用于定位或可能带来干扰噪声的不太重要的线索部分。我们使用以下激励功能来实现该功能：

其中η是用于控制特征激活强度的调制因子（在我们的实验中设置为15）。由于关键分类特征的高响应区域足以实现准确分类，因此无需追求太多信息。因此，高响应临界分类特征的效果被激发，而注意权重小于0.5的无关特征则被抑制。通过这种方式，分类器能够较少关注难以分类的区域，并减少过度拟合和误判的风险。

同时，对于回归分支，关键特征往往分散在对象的边缘。我们期望特征图关注尽可能多的视觉线索来进行对象定位，例如对象轮廓和上下文信息。为此，我们使用了以下不同于分类任务的方法，对一小块物体边缘的强烈反应不利于定位整个物体。在等式（5）中，抑制函数抑制回归特征中具有高响应的区域，这迫使模型寻找潜在的视觉线索以实现精确定位。极化函数ψ（·）的曲线如图4所示。

最后，将极化注意加权特征与原始特征金字塔相结合，更好地提取关键特征。如式（1）所述，注意力加权特征、输入特征SF和注意力响应映射通过元素求和进行合并，以获得用于精确目标检测的强大特征表示。该PAM通过优化关键特征的表示，极大地提高了检测性能。可解释的可视化结果如图5所示。可以看出，PAM可以有效地提取不同任务所需的关键特性。例如，提取的回归临界特征均匀分布在目标上，这有助于识别目标边界并准确定位目标。分类关键特征更多地集中在对象最可识别的部分，以避免来自对象其他部分的干扰，从而使分类结果更准确。

图5 检测管线中拟议模块的功能说明。黄色区域代表高质量锚的中心

B. 旋转锚框精炼模块

在现有的基于锚点的目标检测器中，分类和回归是在密集预设的锚点上执行的。由于遥感对象的尺度和方向变化较大，很难实现锚定和旋转对象之间的对齐。为了解决这个问题，我们提出了一个旋转锚点细化模块（R-ARM）来基于关键回归特征生成高质量的候选点，以减少对锚点先验几何知识的依赖。给定PAM提取的回归敏感特征图，R-ARM细化初始锚，以获得与关键回归特征更好对齐的旋转锚。这些高质量锚定的区域捕捉对象边界的区分性和语义特征，这有助于实现精确定位。

图6。R-ARM模块的图示。A表示在特征图的每个位置预设的锚数量，在CFC网络中设置为1。

R-ARM的架构如图6所示。我们在特征地图的每个位置预先设置了初始水平锚定，表示为（x，y，w，h）。（x，y）是中心坐标，W，H分别是锚的宽度和高度。R-ARM 对附加角度θ和先前锚的框偏移进行回归，得到旋转锚，表示为（x，y，w，h，θ）。R-ARM使锚能够生成精确的旋转框，这些旋转框与ground-truth物体对齐，同时有助于捕捉后续探测层的更关键特征。具体来说，我们预测锚定细化的偏移量str=（tx，ty，tw，th，tθ），如下所示：

其中x和 $x^{a}$ 分别代表精制box和锚

在CFC网络中，我们设定A=1。这意味着只使用一个初始锚点，因此我们不需要像当前基于锚点的方法那样仔细设置锚点的角度、纵横比和比例等超参数，因为PAM后R-PAM的特殊设计。还要注意的是，我们并没有像一些级联回归方法[31]，[35]那样将分类预测集成到R-ARM中。这是出于以下考虑：

细化阶段的分类不够准确，因此很容易错误地排除潜在的高质量候选对象，导致检测结果的召回率很低。

如第一节所述，分类和回归之间存在差距。高分类分数不能保证准确定位。基于分类可信度的训练样本选择将进一步降低检测性能。

与以前的单级探测器相比，CFC网络需要更少的预定义锚，但使用R-PAM可以实现更好的检测性能。如图5所示，在PAM生成的关键回归特征的指导下，初始方形锚通过R-PAM生成更精确的旋转候选。经过优化的锚定与捕捉关键特征的高响应区域很好地匹配，这为后续定位提供了有效的语义优先。

C. 动态锚定学习

在前面的章节中，我们介绍了CFC网络中的关键特征提取结构和高质量锚生成。然而，分类和回归任务之间仍然存在偏差，即高分类分数不能保证检测的准确定位。这一问题在许多研究[36]–[39]中得到了广泛讨论，一些工作将其归因于回归不确定性[37]，[39]，这表明回归得到的本地化结果并不完全可信。我们认为分类和回归之间的差距主要来自不合理的训练样本选择[40]，并从关键特征的角度进一步解决了这个问题。

现有检测器通常根据锚和GT盒之间的IoU，在标签分配中选择正锚进行训练。为了简单起见，我们将锚和GT框之间的IoU表示为输入，而将预测框和GT框之间的IoU表示为输出。选择的积极锚应该具有良好的语义信息，这有助于目标定位。然而，尽管分类分数和输入之间存在正相关（见图7（a）），但高输入并不能保证锚的良好定位潜力，如图7（b）所示，分类置信度和预测框的定位能力之间只有微弱的相关性。我们认为，其中一个主要原因是，根据意向选择的样本与对象的关键特征不一致。

图7。使用输入IoU进行标签分配的锚的分类和回归能力分析

为了解决上述问题，在训练阶段采用动态锚学习（DAL）方法选择关键特征捕获能力强的样本。DAS（动态选择）和 MSL（匹配敏感损失）由两部分组成。本节其余部分将详细介绍这两个战略的实施情况。

对公式的详细阐述

（1）首先，我们采用了一个新的标准“匹配度”来指导训练样本。其定义如下：

其中，在回归前和回归后，锚箱和GT箱之间的IOU分别为零。α和γ是用来衡量不同项目影响的超参数。u是用于抑制回归过程中不确定性的惩罚项。

匹配度结合空间对齐的先验信息、关键特征对齐能力和锚的回归不确定性来衡量其定位能力。

具体来说，对于预定义的锚点及其指定的GT框，IoUin是初始空间对齐的度量，而IoUout可以用来表示关键的特征对齐能力。

直观地说，较高的IoUout意味着锚能够更好地捕捉关键的回归特征，并具有更强的本地化潜力。

然而，由于回归的不确定性，这个指标实际上是不可靠的。有可能会将一些具有高IOU但低IOU的高质量锚错误地判断为阴性样本[40]。

因此，在公式（7）中，我们进一步引入惩罚项u，以减轻回归不确定性的影响。其定义如下：

回归后IoU的变化表明了不正确锚评估的可能性，我们用它来测量回归不确定性。不确定性抑制项对回归后IoU变化过大的样本施加不信任惩罚，以确保合理的训练样本选择。我们将在实验部分确认，抑制回归过程中的不确定性是利用关键特征信息的关键。

（2）通过对匹配度的评估，我们可以进行更好的训练样本选择。

我们首先计算图像中所有锚和GT框之间的匹配度，然后选择匹配度高于某个阈值（在我们的实验中设置为0.6）的候选对象作为阳性样本，其余为阴性样本。

接下来，对于未分配任何阳性的目标，将选择匹配度最高的候选人作为阳性样本。

匹配度衡量特征对齐的能力，因此正负样本的划分更为合理，这将缓解分类和回归之间的不一致。从图5中可以看出，DAL动态选择捕捉关键回归特征的锚，用于边界盒回归。这些高质量的候选对象可以在回归后获得准确的定位性能，从而缓解回归前后的不一致性，并缓解分类和回归任务之间的不一致性。

我们进一步将匹配度集成到训练过程中，构造匹配敏感损失（MSL），以实现高性能检测。损失分类如下：

其中，与指定分别表示所有负锚点和正锚点的数量。ψn和ψp代表负样本和正样本。FL（·）是定义为RetinaNet的focal loss[41]。P∗是锚的分类标签（p∗= 1如果是阳性，则∗= 否则）。wj代表权重因子，用于区分具有不同定位能力的积极候选框。对于给定的目标，我们首先计算其与所有预设锚的匹配度（以MD表示），然后从中选择正匹配度。假设mdpos的最大值为dmax，我们定义了一个补偿值∆主要内容如下：

随后∆将MDI添加到所有阳性候选的匹配度中，以获得权重因子：

权重因子改善了正样本对训练过程中损失的贡献。通过这种方式，分类分支可以区分具有不同能力的锚，以捕获关键特征。与通常使用的对所有阳性锚点一视同仁的方法相比，这种区分方法有助于区分具有不同定位能力的阳性样本。通过将锚的定位信息纳入分类损失中，分类器可以输出更可靠的分类置信度，以选择具有良好定位的检测，从而弥合分类和回归之间的差距。

由于可以使用匹配度较高的本地化措施，因此可以进一步提高本地化能力。匹配敏感回归损失定义如下：

其中，Smooth1表示平滑损失[24]。t和t∗ 分别是预测框和目标框的偏移。加权回归损失可以自适应地更多地关注具有高定位潜力的样本，而不是良好的初始空间对齐，从而在训练后获得更好的检测性能。从图8（a）可以看出，使用正常平滑损失训练的检测器在分类分数和检测的定位能力之间表现出弱相关性，这导致分类置信度选择的预测不可靠。在使用匹配敏感损失函数进行训练后，如图8（b）所示，定位性能更好的检测也将获得更高的分类可信度，便于根据分类分数选择高质量的检测。上述分析证实了匹配敏感损失的有效性。

动态锚选择策略和匹配敏感损耗也可用于锚优化阶段，因此CFC Net的多任务损耗定义如下：

其中Lcls（p，p∗), Lref（tr，t∗), 和Lreg（t，t∗)分别是分类损失、锚优化损失和回归损失。tr，t分别表示精制锚和检测箱的预测偏移量。T∗表示GT框的偏移量。这些损失项通过参数λ1和λ2进行平衡（我们在实验中设置了λ1=λ2=0.5）。

4. 实验

A. 数据集

实验在三个公共遥感数据集上进行：HRSC2016、DOTA和UCAS-AOD。这些数据集中的 ground-truth boxes 用定向边界框标注。

HRSC2016[42]是一个高分辨率遥感船舶检测数据集，共有1061幅图像。图像大小从300×300到1500×900不等。整个数据集分为训练集、验证集和测试集，分别包括436、181和444幅图像。在我们的实验中，图像被调整为416×416和800×800两个尺度。

DOTA[43]是用于遥感图像中定向目标检测的最大公开数据集。DOTA包括2806张航空图像和188282个注释实例。共有15个类别，包括飞机（PL）、棒球场（BD）、桥梁（BR）、地面田径场（GTF）、小型车辆（SV）、大型车辆（LV）、船舶（SH）、网球场（TC）、篮球场（BC）、储罐（ST）、足球场（SBF）、环岛（RA）、港口（HA）、游泳池（SP）和直升机（HC）。请注意，DOTA中的图像太大，我们将原始图像裁剪为800×800块，步幅为200，用于训练和测试。

UCAS-AOD[44]是一个空中飞机和汽车检测数据集，包含从谷歌地球收集的1510张图像。它总共包括1000架飞机和510辆汽车的图片。因为这个数据集没有正式的划分。我们将其随机分为训练集、验证集和测试集，按5:2:3进行。实验中将UCAS-AOD中的所有图像调整为800×800。

B. 实施细节

我们CFC网络的主干是ResNet-50[45]。该模型在ImageNet上进行预训练，并在遥感图像数据集上进行微调。我们利用P3、P4、P5、P6、P7的特征金字塔来检测多尺度对象。对于要素地图的每个位置，仅设置一个定位点以回归附近的对象。我们使用随机翻转、旋转和HSV抖动来增强数据。我们将正片的匹配度阈值设为0.4用于细化阶段，而0.6用于高质量检测的检测阶段。

PASCAL VOC目标检测挑战[46]中定义的平均精度（mAP）被用作所有实验的评估指标。为了与其他方法进行公平比较，HRSC2016数据集和UCAS-AOD数据集使用PASCAL VOC 2007 挑战赛中定义的mAP度量，而DOTA采用PASCAL VOC 2012定义。我们的烧蚀研究是在HRSC2016数据集上进行的，因为遥感船通常具有较大的纵横比和尺度变化，这是光学遥感图像中目标检测的主要挑战。在消融研究中，所有图像均缩放至416×416，无需增加数据。

我们在RTX 2080Ti GPU上训练批量设置为8的模型。网络由Adam 优化器进行训练。学习率设置为1e-4，并在每个衰减步骤除以10。HRSC2016、UCAS-AOD和DOTA的总迭代次数分别为10k、5k和40k。

C. 消融研究

不同组件的评估：我们在HRSC2016数据集上进行了组件实验，以验证提议组件的贡献。实验结果如表一所示。由于只预设了一个锚点，因此很难捕捉识别对象所需的关键特征，因此基线模型只能获得70的地图。5%. 使用PAM，检测性能提高了5%。7%，表明PAM模块有效地构建了更强大的功能表示，因此，即使是一个预设的锚也可以充分利用关键特征来实现精确检测。模型的性能提高了8.2%使用DAL，因为它能够在学习过程中选择具有良好关键特征对齐的高质量锚。DAL和PAM的同时使用实现了83.8%的mAP，表明两种方法没有冲突，可以有效提高检测性能。拟议的R形臂改进了水平锚，以获得高质量的旋转锚。它将性能进一步提高了2.5%. 最终，CFC网络达到86.3%，增加15.8%与naive模型相比，证明了我们的框架的有效性。

PAM评估：为了验证所提出的PAM的效果，我们在HRSC2016数据集上进行了一些对比实验。结果如表二所示。通过使用双FPN提取分类和回归分支的独立特征，检测性能提高了1.6%与基线模型相比为。尽管双FPN将不同任务的功能分开并提高了性能，但这些功能并未得到充分利用。当我们采用基于双FPN的注意机制时，进一步改进了2.8%实现了。这表明，注意机制能够使不同分支的特征更好地响应对象的区分部分。通过对极化函数的处理，增强了关键分类特征的判别部分，同时抑制了关键回归特征中的高响应区域，以找到更多线索，进一步提高定位结果。1.3%的改进。基于注意力模型的证实了我们的观点。这些实验证明，所提出的PAM组件可以有效地提高检测性能。
一些可视化结果如图9所示。可以看出，PAM诱导的热图准确地响应了任务敏感关键特征的区域。分类所需的区分区域通常集中在物体的局部区域，如船尾和船首。同时，回归所需的线索更可能分布在对象的边缘或上下文信息上。

DAL的评估：我们进行组件实验，以验证DAL的贡献。实验结果如表三所示，其中输入IoU、输出IoU和回归不确定度分别用公式（7）中的三项表示。对于具有输出IoU的变体，α设置为0.8用于稳定训练，检测性能从70.5%略有提高。71.3%对这表明，单独使用输出IoU对于训练样本选择是不重要的。在抑制回归不确定性的情况下，先验空间对齐和后验关键特征对齐可以协同工作，与基线相比,将性能显著提高5.7%。此外，匹配度引导损失函数有效地区分了具有差异定位能力的锚，因此使用匹配灵敏度损失函数建立的模型实现了78.7%.

R-ARM的评估：在DAL和PAM的基础上，我们进一步进行实验，以验证所提出的R-ARM的效果，并探索细化阶段数的影响。对于没有R-ARM的模型，我们将正匹配度阈值设置为0.4.对于单阶段细化模型，细化阶段和检测阶段的阈值设置为0.4和0.6分别为。阈值设置为0.4, 0. 6和0.8用于两阶段细化模块。如表四所示，采用R-ARM，性能提高了2.5%. 这可以归因于这样一个事实，即从水平锚中学习到的优化方案提供了高质量的样本，并且这些候选方案更好地与对象的关键特征保持一致。然而，采用两级R-ARM会使性能下降1.8%与单级R-ARM相比为。这可能是因为，随着检测阶段阈值的增加，高于当前匹配度阈值的正样本数量急剧减少，导致正样本不足，正样本和负样本严重失衡。因此，我们在CFC网络中使用单级R-ARM。

超参数：为了找到合适的超参数设置，我们进行了参数敏感性实验，结果如表V所示。随着α的适当减小，特征对齐的效果增加，映射增加。例如，在γ等于4的条件下，α从0.9减小比0.5，地图从72.1%增加对78.7%. 结果表明，在不确定性抑制的前提下，以IoUout表示的特征对齐有助于选择具有高定位能力的锚。然而，当α非常小时，性能急剧下降（如γ=4），因为主导输出IoU选择的锚可能包含太多假阳性样本。在这种情况下，事先的空间对齐可以帮助缓解这个问题，并使锚点选择更加稳定。此外，随着γ的减小，抑制干扰样本的能力更强，但它也可能抑制潜在正片的挖掘，从而导致性能下降。

D. 主要结果和分析

HRSC2016的结果：HRSC2016包含大量长宽比、尺度和任意方向的遥感定向船舶。我们的方法在HRSC2016数据集上取得了有竞争力的性能。如表六所示，“aug”表示使用数据增强，“ms”表示多尺度训练和测试，NA表示特征地图每个位置的预设锚数量。建议的CFCNet实现了86.3%的地图。当输入图像被重新缩放到416×416而无需增加数据时，这与以前的许多先进方法相当。通过数据扩充和输入图像大小调整为800×800，我们的方法达到了88.6%，这比许多最近的方法都好。进一步使用多尺度训练和测试，我们的方法在对比方法中的HRSC2016数据集上实现了最先进的性能，达到89.7%.
值得一提的是，我们的方法在特征映射的每个位置只使用一个水平锚，但优于具有大量锚的框架。这些结果表明，无需为定向对象检测预设大量旋转锚。取而代之的是，更重要的是选择高质量的锚，并捕捉关键特征，以便进行对象识别。例如，图10中的锚与图像中的目标具有较低的IOU，并且在大多数检测器中将被视为负片。但它们实际上有很强的精确定位潜力。CFCNet有效地利用这些锚来实现高效准确的预测。请注意，我们的模型是一个单级检测器，使用的特征映射是P3−P7。与2相比−对于两级探测器，需要设置锚点的位置总数较少，因此推断速度更快。当输入图像大小调整到800×800时，我们的模型在RTX 2080 Ti GPU上达到28 FPS。

DOTA结果：我们将所提出的方法与DOTA数据集上的其他最新方法进行了比较。如表八所示，我们实现了73的地图。50%，在比较的方法中性能最好。DOTA的一些检测结果如图11所示。从图中可以看出，即使只使用了一个锚，我们的CFC网络仍然能够准确地检测密集排列的小物体（如船舶、小型车辆和第三排的大型车辆）。此外，该检测器还能够很好地适应尺度变化，准确定位不同尺度的目标。以第二排的第二个（从左起）为例，通过特征金字塔，在每个位置仅使用一个先验锚，即可实现对不同规模的大型环岛和小型车辆的精确检测。此外，如第一行的第三个图和第五个图所示，我们的方法可以使用几个方形锚来检测具有非常大纵横比的对象（例如这里的桥梁和港口），这些检测表明预设锚不一定要与对象具有良好的空间对齐，而关键是有效地识别和捕捉对象的关键特征。利用匹配度度量锚的关键特征捕获能力，在此基础上，DAL策略对训练样本进行更合理的选择，以实现高质量的检测。

在UCAS-AOD上的结果：表VII中的实验结果表明，我们的CFC网络在比较的探测器中实现了最好的性能，达到了89.49%的mAP. 请注意，最初的YOLOv3[28]和RetinaNet[41]是为通用对象检测而提出的，并且对象使用水平边界框进行注释。为了进行公平比较，我们引入了一个额外的角度维度，并执行角度预测来实现旋转目标检测。我们的方法优于其他单级检测器，甚至优于一些先进的两级检测器。此外，对小型车辆的检测性能也很好，这表明我们的方法对密集排列的小目标具有鲁棒性。

5. 结论

在本文中，我们引入了关键特征的概念，并通过实验和观察证明了其对高性能目标检测的重要性。在此基础上，提出了一种关键特征捕获网络（CFC-Net），从特征表示、锚定细化和训练样本选择三个方面对单级检测器进行优化。具体来说，通过基于双FPN的极化注意机制模块提取解耦分类和回归关键特征。接下来，对一个预设锚点执行旋转锚点细化，以获得高质量的旋转锚点，该锚点可以更好地与关键特征对齐。最后，采用匹配度来衡量锚点捕捉关键特征的能力，从而选择具有较高定位潜力的积极候选点。因此，分类和回归之间的不一致性得到了缓解，并且可以获得高质量的检测性能。在三个遥感数据集上的大量实验验证了该方法的有效性。

小技巧巧

打个空格就正常了

【论文阅读】CFC-Net 关键特征捕获网络相关推荐

【论文阅读】多粒度特征融合的维度语音情感识别方法
陈婧, 李海峰, 马琳, et al. 多粒度特征融合的维度语音情感识别方法[J]. 信号处理, 2017(3). 主要内容:针对传统维度语音情感识别系统采用全局统计特征造成韵律学细节信息丢失以及特征 ...
经典论文复现 | PyraNet：基于特征金字塔网络的人体姿态估计
过去几年发表于各大 AI 顶会论文提出的 400 多种算法中,公开算法代码的仅占 6%,其中三分之一的论文作者分享了测试数据,约 54% 的分享包含"伪代码".这是今年 AAAI ...
论文阅读笔记【3】：网络表示学习
内容导航基本信息数学形式应用场景研究方法已有模型基本信息作者:涂存超题目:面向社会计算的网络表示学习关键词:社区发现数学形式 f:G=(V,E)→Rkf:G=(V,E) \to R ...
论文阅读-20220904
开学第一周论文阅读总结本周阅读了两篇英文文献,第一篇是陈铿的一种基于自适应特征调整的室内场景三维点云多目标检测方法,另一篇是林在超的一种基于特征增强的改进点云补全方法. 目录开学第一周论文阅读总结 ...
【行为识别】论文阅读笔记2|C3D：使用3D卷积网络学习时空特征
Learning Spatiotemporal Features with 3D Convolutional Networks 摘要提出了一个简单但有效的学习时空特征的方法,利用在大规模监督视频数据 ...
BiSeNet:用于实时语义分割的双边分割网络-7min精简论文阅读系列-Leon
BiSeNet: Bilateral Segmentation Network for Real-time Semantic Segmentation BiSeNet:用于实时语义分割的双边分割网络 ...
【论文阅读】Learning Traffic as Images: A Deep Convolutional ... [将交通作为图像学习: 用于大规模交通网络速度预测的深度卷积神经网络]（2）
[论文阅读]Learning Traffic as Images: A Deep Convolutional Neural Network for Large-Scale Transportation ...
StyleGAN-基于样式的生成对抗网络（论文阅读总结）（精）
2 研究背景 NVIDIA在2017年提出的ProGAN解决了生成高分辨率图像(如1024×1024)的问题.ProGAN的关键创新之处在于渐进式训练--从训练分辨率非常低的图像(如4×4)的生成器和 ...
论文阅读笔记：《EIGENGAME: PCA AS A NASH EQUILIBRIUM》（特征博弈：主成分分析就是纳什均衡）
论文阅读笔记:<EIGENGAME: PCA AS A NASH EQUILIBRIUM>(特征博弈:主成分分析就是纳什均衡) 声明摘要 1 简介 2 PCA as an Eigen-G ...

【论文阅读】CFC-Net 关键特征捕获网络

摘要

1. 引言

2. 相关工作

3. 提出的方法

A. Polarization Attention Module（PAM）

B. 旋转锚框精炼模块

C. 动态锚定学习

4. 实验

A. 数据集

B. 实施细节

C. 消融研究

D. 主要结果和分析

5. 结论

【论文阅读】CFC-Net 关键特征捕获网络相关推荐

最新文章

热门文章