论文笔记:Adapting Object Detectors via Selective Cross-Domain Alignment
论文地址:https://ieeexplore.ieee.org/document/8953252
源码地址:https://github.com/xinge008/SCDA
1 Focus of Attention
将关注焦点放在可能包含感兴趣目标的局部区域上,先找出要找的地方,再想怎么对齐。过往的工作把输入图像看作是一个整体,却忽略了目标的局部性质,且降低img-level的域间差异会遇到根本性的困难(结构和外表上的变化),也即局部目标没有得到完全的照顾。因此将自适应过程的焦点从全局到局部,提出一个框架包括两个关键部分:region mining和region-level alignment,分别解决where to look和how to align两个问题。前者是一个“grouping”策略,识别出最重要的局部regions,同时后者使用源域的region proposals来re-weight目标域的region proposals,以解决缺乏target标注的问题;然后用对抗训练的方式实现region-level的域对齐
2 Framework Overview
为了得到一个domain-invariant的feat representation,在两个域都能work。提出一个基于region patches的有选择性自适应框架。大意是一个额外的模块重构feats的img patches,然后将重构后的patches进行对齐。在这个模块的训练过程中,可以通过back-propogation实现特征的学习,以减少域间的差异。训练好之后,这个模块就没用了,只用基本网络来测试。
2.1 Region-Mining
2.1.1 Grouping
想要找出那些覆盖着object of interest的区域,自然能想到利用RPN得到的region proposals来解决问题。但会面临两种挑战:
- 我们想要固定尺寸的regions,以方便后续的处理,但RPN出来的region proposals尺寸是随机的;
- 而且RPN出来的region proposals含有很多的噪声;
我们通过centroid-based grouping(形心法)来解决这个问题,RPN得到个region proposals,并以的方式展示,然后对中心点坐标用K-means方法得到K个簇,每个簇的平均值可以看成组合后的regions的形心,且每个区域的尺寸是固定的。通过这个方法可以识别出那些含有目标的regions。
2.1.2 Feature Reassignment
通过把对应的RoI特征堆叠起来,可以获得一个矩阵,代表第k个region,这里的m_k是对应第k簇的region proposals数量,d是特征的维度。但由于m_k变幻莫测,所以采用“select-or-copy”方法,给定一个预训练的参数m,当m_k不足m时,把指定的特征进行复制;反之,则挑出top-m个特征,即得到。
3 Adjusted Region-level Alignment
3.1 Region-Level Adversarial Alignment
用两个生成器G_s和G_t来基于重构k个regions,同时用两个判别器D_s和D_t来判断真/假输入,并施加域对齐约束。标准的联合目标函数包含了域内以及域外的损失:
理论基础(域内/域外损失):
☆(自重建)
D_s和D_t对重构的regions和元时输入对应的regions进行判别
==》fake source/true source | fake target/true target
☆(交叉重建)
将源域的Kmd特征输入到右下分支,生成目标域风格的重建regions,用D_t判别;
==》fake target/true target
将目标域的Kmd特征输入到右上分支,生成源域风格的重建regions,用D_s判别;
==》fake source/true source
每一项都是一个标准的对抗形式,此处的P代表基于簇中心Ψ得到的真实image regions:
因此,判别器D_s和D_t的目标是使单个域内的real输入识别成real;生成器G_s和G_t的目标是使单个域内的fake 输入识别成real(和判别器相反);而检测器F的目标是不同域的,使fake source识别成real target(即给目标域判别器喂fake source),这代表了检测模型在域对齐中遇到的约束。
3.2 Weighting Estimator D_w
原因:target domain没有标注,可以凭借source domain的gt bbox,给target domain提供帮助。
做法:引出一个估计项,根据目标域region和source的相似度来给目标域regions加权。训练这个估计项,来判别介于source region proposals(标签为1)和target proposals(标签为0)的表征。用BCE loss来训练:
是reassignment后的各簇region表征。在这里,D_w的分数可以很好地表明一个target的region有多匹配source的region。然后用这个分数来给target regions加权:先sigmoid后平均得到W_t。分数越高,表明target region更有可能包含感兴趣的目标,且更相似source patched的分布。其中W_t只应用于target domain项:
3.3 Total Objective Function
4 网络优化过程
更新判别器D_s和D_t:;
更新权重估计项D_w:;
更新生成器G_s和G_t:;
更新检测器F:
论文笔记:Adapting Object Detectors via Selective Cross-Domain Alignment相关推荐
- 论文解读:Adapting Object Detectors via Selective Cross-Domain Alignment
论文题目:Adapting Object Detectors via Selective Cross-Domain Alignment(CVPR2019) 论文主要贡献:以往的域自适应的方法在分类和分 ...
- 《SCDA:Adapting Object Detectors via Selective Cross-Domain Alignment》论文笔记
参考代码:SCDA 1. 概述 导读:在之前的Domain Adaption文章中主要是针对分类/分割场景任务,对于检测场景下的挖掘不够,这是由于分类/分割场景关注的是整个特征图范围上的表现,而检测却 ...
- Adapting Object Detectors via Selective Cross-Domain Alignment
https://blog.csdn.net/qq_24548569/article/details/105017990
- 【论文笔记之 MDF】Multidelay Block Frequency Domain Adaptive Filter
本文对 JIA-SIEN SOO 和 KHEE K. PANG 于 1990 年在 IEEE Transactions on Acoustics, Speech, and Signal Process ...
- 论文笔记:Harmonizing Transferability and Discriminability for Adapting Object Detectors
论文地址:https://ieeexplore.ieee.org/document/9157147 源码地址:https://github.com/chaoqichen/HTCN 1 Main Ide ...
- 论文简读《Harmonizing Transferability and Discriminability for Adapting Object Detectors》
CVPR2020 | Code 思想:首先文章提出当前基于对抗的方法 image and instance levels alignment [7], strong-local and weak-gl ...
- 论文笔记:Object Detection in 20 Years: A Surve(目标检测20年研究综述)
文章目录 1.介绍 2.目标检测的20年发展历程 2.1.目标检测路线 2.1.1.里程碑:传统检测器 2.1.2.基于CNN的两阶段检测器 2.1.3.基于CNN的单阶段检测器 2.2.目标检测数据 ...
- 搭建目标检测模型之Harmonizing Transferability and Discriminability for Adapting Object Detectors
搭建环境 准备数据集 下载数据集 数据集1:PASCAL_VOC 07+12 and Clipart 数据集2:cityscapes and foggy_cityscapes 修改数据集配置信息 预训 ...
- 【论文笔记】:DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolution
&Title DetectoRS: Detecting Objects with Recursive Feature Pyramid and Switchable Atrous Convolu ...
最新文章
- TiDB 在知乎万亿量级业务数据下的实践和挑战
- Facebook高管解读财报 加大对视频业务的投资
- Winform中实现ZedGraph新增自定义Y轴上下限、颜色、标题功能
- ActionScript 3 作用域内部细节介绍
- solr安装笔记与定时器任务
- java map 优化_java.util.map和java.util.set的优化实现?
- Adobe Photoshop/Adobe Dreamwear/您此时无法使用此产品。您必须问题解决办法FLEXnet Licensing Service服务
- DMA驱动开发(6,参考资料)有用链接
- 三维计算机学校,什么是三维虚拟校园系统?
- ubuntu安装freeradius3, freeradius3-mysql并配置
- UnityMMO资源整合服务器部署
- 【深度学习计算机视觉实战】给深度学习计算机视觉初学者的学习和求职建议,这个行业还缺人
- Google浏览器简体中文版下载
- CANoe开发从入门到精通-基础篇-1.1车载网络起源
- 怎样做出完美的高达模型
- 面试题目:2个鸡蛋100层楼问题
- DS1042C数字示波器的波形截图流程
- 这年头居然还有用360卫士清理垃圾的?那玩意就是最大的...Python自动清理不香吗?
- SOA(面向服务的架构)
- PGM:无向图模型:马尔可夫网(随机场)MRF