Domain Adaptation for Object Detection using SE Adaptors and Center Loss 论文翻译

- 摘要：

尽管人们对目标检测的兴趣日益浓厚，但很少有工作能够解决跨域健壮性这一极其实际的问题，特别是对于自动化应用而言。为了防止域移位导致的性能下降，我们在faster-RCNN的基础上引入了一种无监督域适应方法，该方法包含两个域适应组件，分别处理实例级和图像级的移位，并对两者进行一致性正则化。我们还引入了一个适应层家族，利用挤压激励机制称为SE Adaptors来提高领域关注，从而提高性能，而无需任何新的目标领域知识的先验要求。最后，我们在实例级和图像级表示中加入中心损失来改善类内方差。我们以Cityscapes为源域，以Foggy Cityscapes为目标域报告所有结果的表现超过了之前的基线。
代码:https://github.com/shreyasrajesh/DAObject-Detection

1. Introduction
对象检测是计算机视觉的早期问题之一，人们一直在努力从各种具有挑战性的数据集(如COCO[16]、KITTI[8]、Cityscapes[4]等)中识别和定位图像中各种类别的对象的所有实例。深度cnn已经被证明在这一进程中极其重要，大大提高了性能，特别是基于区域本地化的方法，如Faster-RCNN[19]。然而，这些方法中的大多数都是为在单个域/数据集上表现良好而设计的，并且需要对新的和不可见的标记数据进行完全的再训练，这是非常昂贵的。这种低适应性显著地降低了这些方法的影响，因为它们在实际应用中变得不可用，特别是在汽车用例中。光线、天气条件、时间、位置等的小变化是非常常见的，但需要对模型进行全面的重新训练。因此，开发能够使对象检测适应于这些在视觉上与原始域不同的新条件(域)的模型是非常可取的。
在这项工作中，我们考虑一个这样的方法来执行无监督域适应跨域对象检测。我们使用来自一个域的标记数据作为源数据，而来自一个新域的未标记数据作为目标数据，目的是调整我们的对象检测模型，以便在两个域上都有良好的表现。为了实现这一点，我们构建了一个端到端域适应模型，如图1所示，将实例级和图像级的两个域适应组件合并到Faster-RCNN[19]架构，减少两个域之间的h散度。每个组件学习一个领域分类器，并采用对抗策略学习领域不变特征。我们加入一致性正则化损失，以学习域不变区域建议。进一步，我们引入了挤压-激励适配器(由Wang等人引入，[22]用于领域特定注意)来改进我们的模型，并纳入了由Wen等人提出的中心损耗([24])在每个领域适应分量中，以减少源和目标领域特征空间中的类内方差。我们在城市景观和大雾城市景观数据集来证明我们的方法的优越性。
图1：Domain-adaptive Faster-RCNN网络结构

2. Relate Work

2.1.目标检测
在众多的深度学习方法中，基于区域的cnn因其有效性受到了极大的关注。这项工作是由RCNN[10]首创的，它从图像中提取区域建议，并训练一个网络来对每个感兴趣的区域进行分类
独立(ROI)。Fast R-CNN[9]和Faster R-CNN[19]探测器两阶段检测框架近年来取得了很大的成功，为R-FCN[5]、FPN等后续工作奠定了基础[15], MS-CNN[2]。另外，单阶段目标检测框架，例如YOLO，SSD因为他们的性能和速度而变得流行。然而，这些作品只能在它们所训练的领域中表现良好。在大多数实际情况下，我们面临着训练数据和测试数据之间的域差距。对于跨多个数据集的对象检测，考虑域适配问题是很重要的。

2.2.域自适应
深度域适配技术已经成功地应用于许多实际应用中，包括图像分类和样式转换。传统的域适应方法包括非对称度量学习[13]、子空间对齐[6]、协方差矩阵对齐[20][23]等。然而，很少有论文讨论分类和识别之外的适应性，如对象检测、人脸识别、语义分割和人再识别。在本文中，我们将关注跨多个领域的对象检测。
2.3.域自适应目标检测
最近针对对象检测的领域适配的工作可以根据[14]所使用的方法进行分类。基于差异的方法[1]通过对带有标记或未标记目标数据的深度网络检测模型进行微调来减少域漂移。基于对抗性的方法[3][25]利用域鉴别器进行对抗性训练，以鼓励源域和目标域之间的域混淆。基于重构的方法[12]认为对源样本或目标样本进行重构有助于提高域适应对象检测的性能。我们将以Chen等人的工作为基础
在野外使用对抗性学习来解决对象检测问题的[3]。
2.4.Domain Attention
在[22]中，Wang等人构建了一个通用的目标检测系统，能够处理各种图像域。与多领域模型不同，这种通用模型不需要兴趣领域的先验知识。他们引入了一种新的适应层家族，基于挤压和激励原理[11]，以及一种新的领域注意机制。通用SE库捕获所有数据集所跨域的特征子空间，注意[21]机制对USE投影进行软路由。我们引入领域注意机制来改进适应任务。
2.5.Center Loss
在[24]中，Wen等人提出了一种新的损失函数——中心损失，以有效地增强神经网络中深度学习特征的鉴别能力。具体来说，为每个类的深度特征学习一个中心(一个与特征相同维数的向量)。在本文中，我们在域分类器损耗的基础上加入了中心损耗。
3. 方法
我们使用[3]中提出的域自适应Faster-RCNN模型作为我们的基线。本文在Faster-RCNN模型中引入了两个域自适应组件来对齐图像和实例层的特征分布。此外，我们还在这个基准模型中引入了通用的挤压和激励(SE)适配器组。我们还在图像和实例级分类器中添加了一个中心丢失组件，以实现对类内方差的更严格限制。中心损失只反向传播到梯度反转层。
3.1. Image-level adaptation
用基于补丁的域分类器在图像层面消除域分布不匹配。域分类器为图像中的每个补丁输出一个域标签。这个想法是为了解决全球层面的转变，如图像风格，照明，规模等。
3.2. Instance-level adaptation
在将基于roi的特征向量输入到最后一个全连接层之前，对其进行实例级适配。这样做是为了解决局部层面的转移，如对象外观，视点等。训练一个域分类器来在实例级对齐特征向量。在域分类器之前加入梯度反转层，以纳入对抗训练策略。
3.3. H-Divergence
在图像和实例层使用域适应组件来减少两个域之间的h -散度。H-Divergence定义了两个域之间的距离为:

其中x为特征向量，h: x→{0,1}为域分类器，errS和errT分别为h(x)对源和目标域样本的预测误差。
为了使两个域对齐，我们需要最小化dH(S, T)：

利用对抗性训练优化了这一目标。

3.4. Domain Attention
我们采用[22]中提出的域关注模块来解决非平凡域转移问题。域注意模块由一个通用的挤压和激励(SE)适配器组组成。在特征提取器的几个卷积层中引入了适配器库，并将区域提议网络作为一种基于特征的注意机制。SE适配器库使模块能够学习特定于域的激活。
3.4.1 SE Adaptor bank
E Networks[11]在几乎没有额外计算成本的情况下改善了通道之间的依赖关系。这是一种“内容感知”机制，在创建输出特征图时为不同通道分配权重。SE适配器块，如图2所示，由以下组件组成:一个全局池层(压缩输入中的每个通道)，2。一个完全连接的层，后面是添加必要非线性的ReLU, 3。第二个完全连接的层，然后是Sigmoid激活。E块输出输入中不同通道的权值。因此，SE网络执行的计算如下:

其中Favg是一个全局平均池操作符，FSE是FC1与ReLU激活和FC2与Sigmoid激活。正如[22]中提出的，我们将SE块到适配器组，如图2所示。
3.5. Image and Instance level Center loss
中心损耗的主要目的是减小源域和目标域特征空间的类内方差。这可以通过在域分类器丢失的基础上增加中心丢失来实现。域分类器具有最小最大目标函数，因为它遵循对抗性方法。该特性被用于softmax损失函数，该函数试图将域适应层中的两个域分离，并使用GRL层将它们结合到骨干网中。
另一方面，无论是域适应层还是骨干层，都希望类内方差较小。这就要求把所有的中心损失最小化。在我们的简化方法中，我们只在域适应层中最小化中心损失。我们掩盖梯度由于中心损失在骨干网络。
在图像级和实例级域适应层都采用了中心损耗。在这两个地方，我们分别初始化表示源域和目标域的两个适当维中心。图级中心损耗可以表示为：

Cimg代表第yi类中心，M表示当前迭代的批大小。对于图像级域适应，我们尝试将图像作为一个整体进行分类。
在实例级域适应组件中，由于我们试图对每个rpn提议进行分类，因此每个图像将有n个样本进行分类。这里n表示锚框提议的数量。实例级中心丢失可以如下所示：

M表示当前迭代的批大小。Cinst代表第yi类中心。

这种损失的掩蔽效果是通过使用一个单独的优化器，只跨越权重的领域适应层实现的。此优化器与主优化器同步使用。在反向传播任何优化之前，对这两个优化器的梯度进行估计。
图2：SE网络
3.6. Instance and Image level Cross Entropy loss
对于域分类器，采用[3]中提出的交叉熵损失。图像级交叉熵损失可以写成：

其中Di = 0表示源域，Di = 1表示目标域。这里对域分类器输出的每个像素进行分类。因此，(u, v)跨越了域分类器输出特征图的所有位置。实例级交叉熵损失可以写成:

其中第i个图像中第j个域的实例级域分类器的输出是pi,j。

3.7. Consistency loss
与[3]中一样，我们需要在图片级和实例级域分类器之间强制一致性。一种方法是强制这两个分类器为给定的图像提供类似的预测类。由于图像级域分类器产生像素级输出，我们考虑所有输出的平均作为图像级概率。一致性损失可以写成:

其中|I|表示每幅图像的像素预测总数。
两步的总损失表达式可以表示为：

中心损失可以写成：
其中λce和λ中心分别为交叉熵和中心损失的权值。
4. Experimental Setup
4.1. Datasets

我们使用Cityscapes[4]作为源域，主要在晴朗的天气下获取图像。对于目标域，我们使用了Foggy Cityscapes数据集。它是一个合成雾数据集，因为它在真实场景中模拟雾。这些图片是使用Cityscapes的图片和深度地图渲染的。的语义注释和数据分割雾天城市景观继承了城市景观，使其成为研究由天气条件引起的领域转移的理想场所。

4.2. Training Details
代码是使用PyTorch框架开发的。Faster R-CNN网络架构采用了一个ResNet 50骨干。[7]中提出的GRL层用于反转梯度进行对抗性训练。使用ImageNet上训练的权值对模型进行初始化。
除非提及，以下设置用于两个建议的优化器。最初，lr = 0.001用于50K次迭代。然后在接下来的20k次迭代中衰减到0.0001。此外，所有迭代都使用动量=0.9。批大小= 2用于训练。
每个图像256个锚框，大小为(32,64,128,256，512)和宽高比(1.0,2.0,3.0)。所有实验中，NMS threshold = 0.3, confidence threshold =0.8使用。图像级和实例级域分类器交叉熵损失的权重固定为0.1。为寻找中心损失的最优权重进行了实验。COCO格式mAP值的报告采用0.5 ~ 0.95的IOU，步骤为0.05。
5. Results & Discussion
将基线与3种模型进行比较。SE+DAFRCNN是通过在da - fastrcnn的ResNet50骨干的第三阶段加入域注意模块进行训练的。Center+DA-FRCNN使用中心损失作为域分类器损失。SE+Center+DA-FRCNN在骨干的第3阶段中包含了域注意模块，并利用中心损失进行域混淆。定量结果见表1。我们观察到，域注意和中心丢失的个人使用导致mAP的小幅度改善。然而，当域注意和中心丢失同时用于训练模型时，模型的性能会下降。
我们在图中比较了4个模型的定性结果。我们看到，与基线相比，SE+DA-FRCNN为我们提供了更有信心的预测，并提高了整体的检测性能。我们还注意到，当独立使用时，中心损耗提高了检测性能。然而，在定性的结果SE+Center+DA-FRCNN，我们注意到性能下降。
5.1. Ablation study: Effect of USE Bank
通过两个实验来分析在ResNet50骨干网中使用USE库的效果。在第一个实验中，USE bank被用于所有三个阶段的骨干。在第二个实验中，USE bank仅在骨干的第三阶段使用。结果，如表2所示，与在ResNet50骨干中不包含任何USE bank的基线进行比较。可以观察到，在所有阶段都有USE库，就像在实验中一样1、造成性能下降。这可能是因为主干的早期阶段包含低级特征，比如边缘，它们不依赖于域。因此，阶段1和阶段2不需要进行domain attention，因为它们是CNN的早期层。在实验2中，USE库处于第三阶段，我们观察到与基线相比有改善。这些结果给了我们两个关键的启示。首先，在早期使用领域注意可能会导致性能下降。其次，在包含高级特性的后期阶段应用域关注可以提高性能。
5.2. Ablation study: Effect of Center Loss
为了研究中心损失的影响，进行了两个实验。以λ中心>、>、λce为中心损失重量，对中心损失进行了研究。此处以λ中心= 1.0为例。另一个实验与适度的中心减重，以平衡两种损失的影响。此处以λ中心= 0.5为例。
观察到，两种模型的mAP值都比基线模型有所增加。这种改进的性能可以在表3中看到。增加更多的重量到中心损失显然是改善mAP值。这证明了在域适应层中使用中心损耗背后的理论。通过减少类内方差，非常硬/噪声负号的数量正在减少。这反过来又有助于为整个网络产生更好的训练信号。
6. Conclusion
实验结果表明，加入USE bank和中心损失有利于领域自适应目标检测模型。添加USE适配器库允许模型更加关注领域。它允许网络根据输入图像的域在子分支之间切换。利用中心损耗可以减少噪声的影响，从而产生更好的训练信号/硬底片。但USE bank和Center loss在一起使用时似乎并不互补。这可能是由于不适当的重量中心损失。另外，SE适配器也可能不希望进行域对齐，因为它们为不同的域维护独立的分支，而中心丢失只是试图帮助域对齐。未来的工作包括分析USE bank和Center loss的综合效应，以发现它们是否确实相辅相成。

Domain Adaptation for Object Detection using SE Adaptors and Center Loss 论文翻译相关推荐

《Soft-NMS – Improving Object Detection With One Line of Code》论文翻译
前言 <Soft-NMS – Improving Object Detection With One Line of Code>发表于2017年ICCV 资源论文下载论文题目及作者摘 ...
TGRS2022/云检测：Unsupervised Domain Adaptation for Cloud Detection Based on Grouped Features Alignment
TGRS2022/云检测:Unsupervised Domain Adaptation for Cloud Detection Based on Grouped Features Alignment ...
ExtremeNet:Bottom-up Object Detection by Grouping Extreme and Center Points
论文:<Bottom-up Object Detection by Grouping Extreme and Center Points> CVPR2019 论文地址:https://ar ...
【6Dof位姿估计】DPVL:6DoF Object Pose Estimation via Differentiable Proxy Voting Loss论文理解
6DoF Object Pose Estimation via Differentiable Proxy Voting Loss论文理解解决什么问题本文创新点\贡献本文IDEA来源方法方向向 ...
[论文阅读] Unsupervised Domain Adaptive Salient Object Detection Through Uncertainty-Aware Pseudo-Label
论文地址:https://arxiv.org/abs/2202.13170 代码:https://github.com/Kinpzz/UDASOD-UPL 发表于:AAAI 22 Abstract 深 ...
Domain Adaptation and Adaptive Information Fusion for Object Detection on Foggy Days
参考 Domain Adaptation for Object Detection on Foggy Days - 云+社区 - 腾讯云目录摘要 1.简介 2.相关工作 2.1.图像处理 2.2 ...
Domain Adaptive Object Detection for Autonomous Driving under FoggyWeather（翻）
Title:Domain Adaptive Object Detection for Autonomous Driving under FoggyWeather 雾天环境下自动驾驶领域自适应目标检测 ...
Object Detection Made Simpler by Eliminating Heuristic NMS
Object Detection Made Simpler by Eliminating Heuristic NMS论文翻译摘要 1.介绍 2.相关工作 3.论文方法 3.1 整个训练目标 3.1. ...
对比学习系列论文SimROD（二）: A Simple Adaptation Method for Robust Object Detection
0.Abstract 0.1逐句翻译 This paper presents a Simple and effective unsupervised adaptation method for Rob ...

Domain Adaptation for Object Detection using SE Adaptors and Center Loss 论文翻译

Domain Adaptation for Object Detection using SE Adaptors and Center Loss 论文翻译相关推荐

最新文章

热门文章