论文地址：https://ieeexplore.ieee.org/document/8953252

源码地址：https://github.com/xinge008/SCDA

1 Focus of Attention

将关注焦点放在可能包含感兴趣目标的局部区域上，先找出要找的地方，再想怎么对齐。过往的工作把输入图像看作是一个整体，却忽略了目标的局部性质，且降低img-level的域间差异会遇到根本性的困难（结构和外表上的变化），也即局部目标没有得到完全的照顾。因此将自适应过程的焦点从全局到局部，提出一个框架包括两个关键部分：region mining和region-level alignment，分别解决where to look和how to align两个问题。前者是一个“grouping”策略，识别出最重要的局部regions，同时后者使用源域的region proposals来re-weight目标域的region proposals，以解决缺乏target标注的问题；然后用对抗训练的方式实现region-level的域对齐

2 Framework Overview

为了得到一个domain-invariant的feat representation，在两个域都能work。提出一个基于region patches的有选择性自适应框架。大意是一个额外的模块重构feats的img patches，然后将重构后的patches进行对齐。在这个模块的训练过程中，可以通过back-propogation实现特征的学习，以减少域间的差异。训练好之后，这个模块就没用了，只用基本网络来测试。

2.1 Region-Mining

2.1.1 Grouping

想要找出那些覆盖着object of interest的区域，自然能想到利用RPN得到的region proposals来解决问题。但会面临两种挑战：

我们想要固定尺寸的regions，以方便后续的处理，但RPN出来的region proposals尺寸是随机的；
而且RPN出来的region proposals含有很多的噪声；

我们通过centroid-based grouping（形心法）来解决这个问题，RPN得到个region proposals，并以的方式展示，然后对中心点坐标用K-means方法得到K个簇，每个簇的平均值可以看成组合后的regions的形心，且每个区域的尺寸是固定的。通过这个方法可以识别出那些含有目标的regions。

2.1.2 Feature Reassignment

通过把对应的RoI特征堆叠起来，可以获得一个矩阵，代表第k个region，这里的m_k是对应第k簇的region proposals数量，d是特征的维度。但由于m_k变幻莫测，所以采用“select-or-copy”方法，给定一个预训练的参数m，当m_k不足m时，把指定的特征进行复制；反之，则挑出top-m个特征，即得到。

3 Adjusted Region-level Alignment

3.1 Region-Level Adversarial Alignment

用两个生成器G_s和G_t来基于重构k个regions，同时用两个判别器D_s和D_t来判断真/假输入，并施加域对齐约束。标准的联合目标函数包含了域内以及域外的损失：

理论基础（域内/域外损失）：

☆（自重建）

D_s和D_t对重构的regions和元时输入对应的regions进行判别

==》fake source/true source | fake target/true target

☆（交叉重建）

将源域的Kmd特征输入到右下分支，生成目标域风格的重建regions，用D_t判别；

==》fake target/true target

将目标域的Kmd特征输入到右上分支，生成源域风格的重建regions，用D_s判别；

==》fake source/true source

每一项都是一个标准的对抗形式，此处的P代表基于簇中心Ψ得到的真实image regions：

因此，判别器D_s和D_t的目标是使单个域内的real输入识别成real；生成器G_s和G_t的目标是使单个域内的fake 输入识别成real（和判别器相反）；而检测器F的目标是不同域的，使fake source识别成real target（即给目标域判别器喂fake source），这代表了检测模型在域对齐中遇到的约束。

3.2 Weighting Estimator D_w

原因：target domain没有标注，可以凭借source domain的gt bbox，给target domain提供帮助。

做法：引出一个估计项，根据目标域region和source的相似度来给目标域regions加权。训练这个估计项，来判别介于source region proposals（标签为1）和target proposals（标签为0）的表征。用BCE loss来训练：

是reassignment后的各簇region表征。在这里，D_w的分数可以很好地表明一个target的region有多匹配source的region。然后用这个分数来给target regions加权：先sigmoid后平均得到W_t。分数越高，表明target region更有可能包含感兴趣的目标，且更相似source patched的分布。其中W_t只应用于target domain项：

3.3 Total Objective Function

4 网络优化过程

更新判别器D_s和D_t：；

更新权重估计项D_w：；

更新生成器G_s和G_t：；

更新检测器F：

论文笔记：Adapting Object Detectors via Selective Cross-Domain Alignment相关推荐

论文解读：Adapting Object Detectors via Selective Cross-Domain Alignment
论文题目:Adapting Object Detectors via Selective Cross-Domain Alignment(CVPR2019) 论文主要贡献:以往的域自适应的方法在分类和分 ...
《SCDA：Adapting Object Detectors via Selective Cross-Domain Alignment》论文笔记
参考代码:SCDA 1. 概述导读:在之前的Domain Adaption文章中主要是针对分类/分割场景任务,对于检测场景下的挖掘不够,这是由于分类/分割场景关注的是整个特征图范围上的表现,而检测却 ...
Adapting Object Detectors via Selective Cross-Domain Alignment
https://blog.csdn.net/qq_24548569/article/details/105017990
【论文笔记之 MDF】Multidelay Block Frequency Domain Adaptive Filter
本文对 JIA-SIEN SOO 和 KHEE K. PANG 于 1990 年在 IEEE Transactions on Acoustics, Speech, and Signal Process ...
论文笔记：Harmonizing Transferability and Discriminability for Adapting Object Detectors
论文地址:https://ieeexplore.ieee.org/document/9157147 源码地址:https://github.com/chaoqichen/HTCN 1 Main Ide ...
论文简读《Harmonizing Transferability and Discriminability for Adapting Object Detectors》
CVPR2020 | Code 思想:首先文章提出当前基于对抗的方法 image and instance levels alignment [7], strong-local and weak-gl ...
论文笔记：Object Detection in 20 Years: A Surve（目标检测20年研究综述）
文章目录 1.介绍 2.目标检测的20年发展历程 2.1.目标检测路线 2.1.1.里程碑:传统检测器 2.1.2.基于CNN的两阶段检测器 2.1.3.基于CNN的单阶段检测器 2.2.目标检测数据 ...
搭建目标检测模型之Harmonizing Transferability and Discriminability for Adapting Object Detectors
搭建环境准备数据集下载数据集数据集1:PASCAL_VOC 07+12 and Clipart 数据集2:cityscapes and foggy_cityscapes 修改数据集配置信息预训 ...
【论文笔记】：DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution
&Title DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolu ...

论文笔记：Adapting Object Detectors via Selective Cross-Domain Alignment