基于目标感知双分支提取的跨域目标检测

摘要

在野外,跨领域目标检测是一项现实而具有挑战性的任务。由于数据分布的巨大变化和目标域中缺乏实例级注释,它的性能会下降。现有的方法主要关注这两个困难中的任何一个,即使它们在跨域对象检测中紧密耦合。为了解决这个问题,我们提出了一个新的目标感知双分支蒸馏框架。通过将源领域和目标领域的检测分支集成在一个统一的师生学习方案中,可以减少领域转移并有效地产生可靠的监督。特别地,我们首先在两个域之间引入一个不同的目标提议感知者。通过利用来自迭代交叉注意的目标提议上下文,它可以自适应地增强源检测器以感知目标图像中的对象。然后,我们设计了一个简洁的双分支自升华模型训练策略,通过在两个分支中的自升华,逐步整合来自不同领域的互补对象知识。最后,我们对跨领域目标检测中广泛使用的场景进行了大量的实验。结果表明,在所有基准测试中,我们的TDD明显优于最先进的方法。我们的代码和模型可以在这里找到。https://github.com/Feobi1999/TDD

1.介绍

在高级深度神经网络的帮助下,目标检测取得了显著的成功[2,12–14,26,28–31,36]。然而,在自动驾驶和移动机器人等实际应用中,由于天气、光照、物体外观等各种条件,数据方差往往很大,因此它仍然面临挑战。近年来,跨领域目标检测引起了广泛关注。总的来说,这个问题有两个难点。首先,对象检测更容易受到域转移的影响。主要原因是,对象检测侧重于实例级预测,这对于各种图像风格和内容中的对象变化更敏感。第二,获得对象注释更加昂贵和劳动密集,导致在新的领域中缺乏有区别的对象监督。这两者都不可避免地恶化了目标域的检测性能。

最近,已经提出了几种用于跨域对象检测的方法[5,24,32,34,49]。不幸的是,它们中的大多数集中在域移位或标签缺失上,这限制了它们在跨域对象检测中的能力。例如,领域适应方法[5,34,49]提出通过对抗训练来减少领域转换。除了不稳定的模型优化之外,在这种对立的设计中,网络的辨别能力是有限的。如图1所示,基于对抗的GPA [49]倾向于在目标域特征显著的区域产生错误的预测。或者,基于自训练的方法[1,16,22,23,55]从半监督学习的角度研究该问题,并提出通过标签提取生成伪对象监督。这样,许多先进的半监督方法可以转移到这个任务。然而,这些方法通常不足以处理复杂的域转换。在图1中,像UBT [27]这样的半监督方法很难意识到目标域中的对象。因此,这两种类型的解决方案在跨域对象检测中都不令人满意。

在这些讨论的基础上,我们提出了一个新的目标感知的双分支提取(TDD)框架,它可以通过目标感知和知识提取在一个简洁的双分支检测网络中有效地解决域转移和标签缺失问题。具体地说,我们的网络由一个源自适应分支和一个目标类分支组成,这两个分支都被精心设计为面向目标以减少畴变。对于源自适应分支,我们引入了一个独特的目标提议感知者,它利用迭代交叉注意来发现每个提议的目标域上下文。因此,它可以自适应地增强源分支以感知目标域图像中的对象。对于类目标分支,我们将源图像转换成类目标图像。通过用这些标记图像训练这个分支,我们可以可靠地学习目标领域的有区别的对象知识。最后,我们为网络训练设计了一个简洁的双分支自升华策略。这是一个定制的均值-教师风格的框架,从源自适应和目标类分支生成目标图像的伪注释。通过三个精心设计的训练步骤,即联合领域预训练、跨领域提炼和双师提炼,我们可以逐步整合来自不同领域的互补对象知识,以促进跨领域对象检测。

综上所述,本文有以下贡献
首先,我们开发了一个新的目标感知双分支提取(TDD)框架,该框架利用两个不同的检测分支以统一的师生学习方式解决域转移和标签缺失问题。
其次,我们引入了一个智能目标提议感知模块,通过提议上下文的交叉注意式转换,该模块可以自适应地引导源检测分支感知目标域对象。最后,我们在一些广泛使用的基准上进行了大量的实验,我们的TDD比最先进的方法有很大的优势。

2.相关工作

物体检测。目标检测是计算机视觉的基本任务之一。得益于深度神经网络强大的表示能力,目标检测近年来获得了令人鼓舞的性能。先前的工作可以大致分为两级[2,12–14,31]和一级[28–30,36]检测器。最近,一些基于无锚[10,40,51,53]和变压器[3,45,58]的方法也在检测任务中脱颖而出
跨域对象检测。[5]首先提出图像和实例级域分类器,以对抗的方式实现特征对齐。在此之后,[34]分别对局部和全局特征施加强-弱对齐策略。[15]和[47]采用多级域特征比对。[48]在多标签分类模型的帮助下,利用图像级和实例级预测之间的分类一致性。[17]提出一种中心感知特征对准方法,以允许鉴别器聚焦于来自对象区域的特征。一些其他作品[16,24,32,38,57]在对抗学习阶段增加了额外的约束。[54,56]强调处理前景和背景特征的不同策略。
另一种主流方法[1,16,22,23,55]致力于解决目标域标签不准确的问题。[22]使用目标域中的原始标记数据和精炼的机器生成的注释来重新训练对象检测器。[1]从半监督学习的角度研究该问题,并将对象关系融入到教师和学生模块之间的一致性代价的度量中。[9]提出了一种跨域提取方法,该方法利用了类源图像和类目标图像。它使用软标签和实例选择来修复Mean-Teacher中的模型偏差。与文献[9]不同的是,我们的方法提出了一个具有跨领域感知者的师生交互学习的双分支框架。
半监督目标检测。半监督对象检测试图解决当训练集只有一部分注释时的问题。在这种设置中[20]提出了一种基于一致性的方法,在输入图像及其翻转版本之间实施预测一致性。[37]使用少量标记数据预训练检测器,并在未标记数据上生成伪标记,以微调预训练的检测器。[27]提出使用强和弱增强来改进均值-教师方法,并且可以通过EMA训练获得更准确的伪标签。由于相似的数据设置,这些方法可以很容易地应用于跨领域目标检测问题。但是它们没有考虑领域差异,这不可避免地限制了它们的检测性能。

3.提出的方法

3.1 总览
如图2所示,我们提出了一个新的目标感知双分支蒸馏框架(TDD),其在跨域对象检测任务中一起处理域偏移和标签缺失。


图二。目标感知双枝蒸馏框架综述。为了简化描述,ROI指的是获得每个图像的建议特征的操作。首先,将源域图像转换到类目标域。来自三个领域的所有图像被馈送到一个共享的提议提取器,以获得提议和提议特征。然后,源图像和目标图像的建议特征被用于在地面真实的监督下训练相应的分支。此外,我们将真实目标领域图像的建议特征馈送到两个分支,用于从源和目标类领域学习对象知识。由于来自目标域的图像没有被标注,该模型通过自蒸馏进行优化。

首先,我们从输入图像的角度介绍了一个风格转换模块。它用于将源图像转换成接近目标域的样式。在这种情况下,我们可以通过这种类似靶的结构域来弥补结构域之间的差距。此外,由于类目标图像从相应的源图像继承标签注释,它们可以在类目标域中用作额外的对象监督。在本文中,我们主要使用一种简洁有效的傅里叶变换[50]方法作为这个模块。

其次,我们从模型结构的角度设计了一种新颖的双分支检测网络。通过这样的设计,我们可以有效地从不同的领域提取互补的目标知识,以促进目标图像上的目标检测。基本上,我们的网络由一个共享的建议提取器和两个独立的检测分支组成。前者允许我们构造所有图像的领域不变特征空间用于领域概括,而后者保留每个图像的领域特定对象特征用于领域辨别

具体地,两个检测分支分别是源自适应(SA)和类目标(TL)分支。我们提供源图像的建议来训练SA分支,同时提供目标图像的建议来训练TL分支。此外,真实目标图像的建议被发送到两个分支,用于从源和目标类域学习对象知识。然而,源域可能与目标域显著不同。在这种情况下,在没有任何面向目标的引导的情况下,不能在SA分支中准确地检测目标图像的建议。为了解决这个问题,我们设计了一种新颖的目标提议感知器。受[19]中感知者的启发,它巧妙地在两个分支中的提议特征之间使用迭代交叉注意。在这种情况下,我们利用目标语分支的上下文建议作为指导,这可以有效地指导SA分支感知目标域中的对象建议。我们将在3.2中解释这个模块的细节。

最后,我们从监督的角度介绍了一个简洁的双分支自蒸馏方法。如前所述,所有图像在目标域中都没有任何注释。因此,在这个领域产生可靠的监督是至关重要的。由于我们的双分支网络,我们可以从协作的SA和TL分支中构造每个目标图像的有区别的伪标签。为了有效地利用这些伪标签,我们的自我升华基于师生相互学习,这可以在培训过程中动态调整教师,以逐步促进我们两个分支的目标领域监督。我们将在3.3中解释细节。

3.2.建议目标感知器
正如在我们的TDD框架中所讨论的,我们将每个目标域图像的建议特征分别馈送到SA和TL分支,用于从两个域学习对象知识。然而,SA分支不善于从这些特征中挖掘对象,因为源域和真实目标域之间有很大的偏移。为了引导SA分支发现目标领域对象,我们在SA分支和TL分支之间提出了一种新的建议目标感知器,它可以逐步利用TL分支中的对象上下文来增强SA分支中的提议(建议)特征。

请注意,我们从[19]继承了感知者的名称,因为我们的动机也是模仿人类和其他动物从许多来源获取数据并无缝集成。但不同于一般的感知者[19]架构,我们的目标提议感知者是为跨域对象检测精心定制的,通过迭代使用变压器式交叉注意来减少实例级的域转移。


图3。我们的目标提议感知者的结构。探索SA和TL之间的交叉注意,以帮助源分支感知目标领域对象。

如图3所示,我们将目标域图像Xt输入到提议提取器中,并生成其提议特征Pt。随后,我们将这些提议特征分别放入SA和TL分支,其中目标提议感知者利用交叉注意在处理它们:

首先,为了从SA和TL分支中提取对象知识,我们使用FC层FSA(。)和FT L(。)将Pt编码为等式(1)-(2)中的源特征φSA和类目标特征φTL。其次,我们在等式中的φSA和φTL之间引入了一种新颖的多头建议交叉注意(MHPCA)。(3).这允许我们利用类似目标的提议特征φT L作为上下文指导,用于增强源提议特征φSA来感知目标图像中的对象。
提出的交叉关注。具体来说,我们的MHPCA是一个带有查询键值的简洁的转换器样式。在每个交叉注意头中,我们使用FC层将φSA编码为查询,将φT L编码为键和值。使用关键字和查询之间的相似性来发现φSA和φT L之间的相似性。然后,我们使用这种相似性作为指导来聚集类似目标的特征V(φT L)作为SA分支的跨域上下文。

其中Query、Key和V alue分别为Q(φSA)、K(φT L)和V(φT L),类同的函数是w。通常,缩放的点积用作transformer [41]中的w,Ai,j = Qi(φSA)kj(φTL)/σ,其中σ是缩放参数,它是查询特征向量的维数的平方根。然而,我们考虑一个对象检测问题,其中空间位置信息对于描述提议之间的相似性可能是重要的。在本文中,[18]中的几何权重用于描述任意两个建议框之间的位置相似性。我们使用这个几何权重U来增强特征相似性A,并在等式4中描述提议相似性。通过softmax的加权公式,即W(Q(φSA),K(φT L))= W:

其中Wi,j是指SA分支中的提议I和TL分支中的提议j之间的相似度分数。

迭代MHPCA。在从每个交叉注意头获得类似目标的上下文HT L之后,我们使用FC层G(。)总结所有这些从L个注意力头来构造MHPCA的上下文,记为ψSA =φSA+G([H(1)~T L~,…,H(L) TL])。在这种情况下,我们将源提议特征φSA增强为目标感知特征ψSA,这允许SA分支知道目标图像中的相关对象上下文。此外,我们以迭代的方式执行MHPCA,通过它我们的目标提议感知者可以逐步利用来自目标语分支的类似目标的提议上下文来提高SA分支的学习能力。通常,在更快的RCNN中有两个FC层来编码提议特征。因此,在我们的设计中,我们迭代地使用MHPCA两次,如图3所示。

3.3.双分支自蒸馏
在介绍了我们的网络之后,我们解释了如何训练它进行跨域对象检测。如前所述,图像在目标域中是未标记的。因此,为有效的训练生成这些图像的可靠伪注释是至关重要的。为了实现这个目标,我们设计了一个通用的双分支自提取方法,它可以从SA和TL分支生成伪标签,通过自训练来协同增强我们的检测网络。具体来说,它是基于教师学生相互学习的一般程序[27,39],但精心设计的跨领域对象检测。如图4所示,它由三个关键阶段组成,即联合域预训练、跨域提炼和双教师提炼。

联合域预训练。这个阶段是为了生成双分支网络的可靠初始化。如前所述,类似目标的图像具有从源图像继承的相同注释。因此,我们通过对源域和类目标域的标记图像进行多任务学习来联合预训练我们的双分支网络。具体来说,这一阶段的训练损失由三项组成。


图4。我们的双分支自蒸馏模型的整个训练过程。首先,在联合领域预训练阶段,我们通过对源领域和目标领域的标记图像进行多任务学习来联合预训练我们的双分支网络。第二,在跨领域提取阶段,我们将一个目标领域图像输入到固定且训练有素的教师,该教师可以从SA和TL分支生成伪对象注释。最后,为了生成更稳定的伪标注,我们通过指数移动平均(EMA)从学生逐步提炼教师。

首先,RPN在所有域之间共享,以产生域不变特征。我们使用源数据和类似目标的数据来训练这个模块,即L(S+TL) RPN = LRPN(Xs,Ys) + LRPN (Xtl,Ytl),其中RP N损失包含更快的RCNN中的RP N分类和回归损失[31]。然后,使用不同的检测分支来学习不同的领域特定对象知识。因此,我们分别使用源和目标类数据来训练SA和TL分支,即L(S) SA = LSA(Xs,Ys)和L(TL) TL = LTL(Xtl,Ytl ),其中每个分支损失包含更快RCNN中的ROI分类和回归损失。

跨域蒸馏。在联合域预训练之后,我们利用初始化良好的网络来生成目标域中未标记图像的伪标注。在这种情况下,我们可以进一步调整我们的网络,而无需目标域地面真实标签。如图4所示,这一阶段是一个简明的自我升华过程,其中教师和学生都基于双重分支网络.具体来说,我们将一个目标域图像提供给固定的、训练有素的教师,它可以从SA和TL分支生成伪对象注释。我们使用NMS去除重复的盒子,然后设置阈值以获得可靠的盒子预测,作为每个分支中该目标图像的对象注释。随后,我们还将这个目标图像输入到可学习的学生中,并通过教师的伪注释来训练学生。

由于伪标签ˇYtSA和ˇYtT L来自SA和T L分支,RPN损失包含两项L(T ) RPN = LRPN (Xt,ˇYtSA)+LRPN(Xt,ˇYtTL)。此外,SA和TL分支也用目标域图像的伪标签训练,即L(T ) SA = LSA(Xt,YtSA)和L(T )~ TL~ = LTL(Xt,YtTL)。此外,重要的是要增加学生的多样性,以完善教师。如[27]中所建议的,对于每个目标图像,我们使用其强增强作为学生的输入来预测对象框,而使用其弱增强作为教师的输入来提供可靠的伪注释。最后,我们也用等式(6)在这一阶段用源图像和目标图像训练学生网络,降低两个检测分支的学习难度。

双教师微调。为了生成更稳定的伪注释,我们通过指数移动平均(EMA) [27,39]从学生逐渐细化教师:

其中θteacher和θstudent是教师和学生模型中的可学习参数。请注意,我们以迭代的方式执行提取和细化,这可以通过相互学习来促进跨域对象检测,即,教师生成伪标签来训练学生,学生通过其学习来更新教师。

最后,我们解释了如何在这个过程中训练目标提议感知者。我们只在最后两个阶段训练它。在跨域提取阶段,我们使用预训练的网络作为教师,使用随机初始化目标提议感知者的预训练网络作为学生。经过这一阶段的多次训练迭代,我们可以获得训练有素的目标提议感知者。随后,在细化阶段,我们从整个学生网络中更新教师,在该网络中,所有模块都经过全面培训。从那时起,蒸馏和提炼可以毫无困难地反复进行。而且TPR只是在培训阶段用来指导SA分公司。在双分支框架中,我们仅使用SA分支教师在推理过程中获得检测结果。因为它已经被学生和TL分支很好地提炼了。

4.实验

在本节中,我们对具有不同域偏移的流行跨域对象检测基准进行了实验,包括不利天气条件适应、合成到真实适应和跨相机适应。
4.1实施细节

5.结论

在这项工作中,我们提出了一个新的目标感知双分支蒸馏框架。通过目标提议感知者和我们的双分支自提纯过程,我们一起处理跨域对象检测中的域移动和标签缺失。在多个基准上进行了大量的实验,结果清楚地表明我们的TDD优于现有的最先进的模型。

【论文笔记_目标检测_2022】Cross Domain Object Detection by Target-Perceived Dual Branch Distillation相关推荐

  1. 【论文笔记_目标检测_2022】Proper Reuse of Image Classification Features Improves Object Detection

    图像分类特征的适当重用改善了目标检测 摘要 迁移学习中的一个常见做法是通过对数据丰富的上游任务进行预训练来初始化下游模型权重.具体而言,在对象检测中,特征主干通常用ImageNet分类器权重来初始化, ...

  2. 【论文笔记_目标检测_2022】POLYLOSS: A POLYNOMIAL EXPANSION PERSPECTIVE OF CLASSIFICATION LOSS FUNCTIONS

    多元损失:分类损失函数的多项式展开观点 摘要 交叉熵损失和焦点损失是为分类问题训练深度神经网络时最常见的选择.然而,一般来说,一个好的损失函数可以采取更加灵活的形式,并且应该针对不同的任务和数据集进行 ...

  3. 论文笔记 Object-Aware Instance Labeling for Weakly Supervised Object Detection - ICCV 2019

    Object-Aware Instance Labeling for Weakly Supervised Object Detection Kosugi ICCV, 2019 (PDF) (Citat ...

  4. 目标检测20年(Object Detection in 20 Years)

    Object Detection in 20 Years: A Survey Zhengxia Zou, Zhenwei Shi, Member, IEEE, Yuhong Guo, and Jiep ...

  5. 论文笔记 Feature Selective Anchor-Free Module for Single-Shot Object Detection - CVPR 2019

    2019 FSAF Feature Selective Anchor-Free Module for Single-Shot Object Detection Chenchen Zhu, Yihui ...

  6. 【论文笔记_知识蒸馏_2022】Masked Generative Distillation

    摘要 知识提炼已经成功地应用于各种任务.当前的蒸馏算法通常通过模仿老师的输出来提高学生的表现.本文表明,教师也可以通过指导学生的特征恢复来提高学生的表征能力.从这个角度出发,我们提出了掩蔽生成蒸馏(M ...

  7. 【论文阅读】【3d目标检测】Group-Free 3D Object Detection via Transformers

    论文标题:Group-Free 3D Object Detection via Transformers iccv2021 本文主要是针对votenet等网络中采用手工group的问题提出的改进 我们 ...

  8. 【论文笔记】Multi-Content Complementation Network for Salient Object Detection in Optical RSI

    论文 论文:Multi-Content Complementation Network for Salient Object Detection in Optical Remote Sensing I ...

  9. 论文笔记-YOLOv4: Optimal Speed and Accuracy of Object Detection

    论文地址:https://arxiv.org/pdf/2004.10934v1.pdf code:https://github.com/AlexeyAB/darknet. 摘要 有大量的技巧可以提高C ...

  10. 【3D目标检测】Monocular 3D Object Detection with Pseudo-LiDAR Point Cloud

    目录 概述 整体流程 伪点云vs点云 2D-3D边界框的一致性约束 概述 本文的输入数据仅仅是单目图像,在方法上是融合了伪点云(Pseudo-LiDAR)的深度信息表示方法与Frustum Point ...

最新文章

  1. 产品经理的必经之路:搭建属于自己的成长模型
  2. 最新临床肿瘤学文献精选(2021.12.5-2021.12.11)
  3. 与陆毅擦肩而过。。。
  4. java实验检查危险品代码_2019JAVA第六次实验报告
  5. 算法小讲堂之你真的会双指针吗?
  6. Hibernate组件作为复合主键(五)
  7. C Primer Plus 第七章 第九题
  8. 在计算机中打开word2010三种方法,Word2019中打开文档的三种方式
  9. Qt5配置opencv4.5.4
  10. 微型计算机原理8255跑马灯,单片机+74LS138译码器+跑马灯+8255A+8253方波实验详解
  11. vue+mintUI-------mintUI中indicator报错
  12. 手动更新HomeAssistant版本
  13. python 生物信息学_生物信息学算法之Python实现
  14. Windows API ShowWindow和UpdateWindow
  15. maptalks+three.js+vue webpack项目实现二维地图上贴三维模型
  16. 计算机基本键盘应用,计算机键盘基础知识
  17. android APK 中英文对比(转)
  18. 突然发现高中时候的“概率”老师都讲的太复杂了
  19. 石头扫地机器人卡顿_小帅慢评 篇三:石头扫地机器人S50半年使用体验新品T65简评...
  20. 1-编程基础及Python环境部署

热门文章

  1. 【光学】基于矩阵法和等效界面法分析光学薄
  2. Linux的一些常用操作命令
  3. PDA只需扫描条码能够完成库存盘点
  4. 微服务落地,我们在考虑什么?\n
  5. 009-Dockerfile-MAINTAINER(deprecate)-使用 LABEL 代替
  6. 计算机产品可以进项抵扣,企业购入的软件产品可以全额抵扣进项税吗?
  7. 2021iGEM感想
  8. 大学生川菜网页制作教程 学生HTML静态美食菜品网页设计作业成品 简单网页制作代码 学生美食网页作品免费设计
  9. Android Debug Bridge(安卓调试桥) tools
  10. 希尔伯特变换求包络原理