CVPR 2020 | 北航提出:通过由粗到精特征自适应进行跨域目标检测,表现SOTA!
性能优于PDA、MDA和SWDA等网络。
作者团队:北京航空航天大学
1
引言
近年来,在基于深度学习的目标检测中见证了巨大的进步。但是,由于domain shift问题,将现成的检测器应用于未知的域会导致性能显著下降。为了解决这个问题,本文提出了一种新颖的从粗到精的特征自适应方法来进行跨域目标检测。
在粗粒度阶段,与文献中使用的粗糙图像级或实例级特征对齐不同,采用注意力机制提取前景区域,并通过多层对抗学习根据边缘分布对边缘区域进行对齐。
在细粒度阶段,通过最小化具有相同类别但来自不同域的全局原型的距离来进行前景的条件分布对齐。
由于这种从粗到细的特征自适应,前景区域中的领域知识可以有效地传递。在各种跨域检测方案中进行了广泛的实验,结果证明了所提出方法的广泛适用性和有效性。
2
主要思路及贡献
针对的问题:
目前的CNN模型在直接应用于新场景时,由于存在所谓的"域移位"或"数据集偏置"现象,导致性能下降。
主要思路
本文作者提出了一个由粗到精的跨域目标检测的特征自适应框架。如下图所示:
问题一:考虑到与背景相比,不同域之间的前景具有很多的共同特征。
作者提出了一个基于注意力的区域转移(ART)模块来突出前景的重要性,它以一种不区分类的粗糙方式工作。利用高级特征中的注意机制提取感兴趣的前景目标,并在特征分布对齐时对其进行标记。通过多层对抗性学习,利用复杂的检测模型可以实现有效的领域交叉。
问题二:对象的类别信息会进一步细化前面的自适应特征,在这种情况下,需要区分不同种类的前景目标。不过这在某些batch中可能会出现目标不匹配的情况,这使得UDA的语义匹配比较困难。
作者使用了一个基于原型的语义对齐(PSA)模块来构建跨域的每个类别的全局原型。原型在每次迭代中都进行自适应更新,从而抑制了假伪标签和类不匹配的负面影响。
主要贡献:
•设计了一种新的由粗到精的自适应方法,用于跨域两阶段目标检测,逐步准确地对齐深度特征。
•提出了两个自适应模块,基于注意的区域转移(ART)和基于原型的语义对齐(PSA)方法,利用类别信息学习前景区域的领域知识。
•针对一些典型的场景,在三个主要的基准上进行了大量的实验,结果是最先进的,证明了所提方法的有效性。
3
网络架构
如上图所示,介绍了本文用于跨域对象检测的功能适配框架,包含一个检测网络和两个适配模块。
3.1 检测网络 backbone
作者选了功能强大的Faster R-CNN 作为基础检测器backbone。Faster R-CNN 是一个两阶段的检测器,由三个主要组件组成:1)提取图像特征的骨干网络G,2)同时预测对象范围和对象得分的区域提议网络(RPN),以及3)兴趣(RoI)头,包括边界框回归器B和分类器C以进行进一步细化.Faster R-CNN的整体损失函数定义为:
3.2 适配模块 Adaptation Modules
思路来源:
与大多数现有研究(通常会减少整个特征空间中的域偏移)不同,作者采用的方法是在各个域之间共享更多共同属性的前景上进行特征对齐。同时,与当前将所有目标的样本视为一个整体的方法相反,作者认为类别信息有助于完成此任务,从而突出显示每个类别的分布以进一步细化特征对齐。
为此,设计了两个自适应模块,即基于注意力的区域转移(ART)和基于原型的语义对齐(PSA),以实现前景中从粗到精的知识转移。
3.2.1 ART:Attention-based Region Transfer
ART模块旨在引起更多关注,以在前景区域内对齐两个域之间的分布。它由两部分组成:域分类器和注意机制。
Domain 分类器
为了对齐跨域的特征分布,作者将多个域分类器D集成到主干网络G的最后三个卷积块中,在这里构建了一个二人极大极小博弈。具体来说,域分类器D试图区分特征来自哪个域,而主干网络G旨在混淆分类器。在实践中,G和D之间通过梯度反向层(Gradient Reverse Layer, GRL)进行连接,梯度反向层可以逆转流过G的梯度。当训练过程收敛时,G倾向于提取域不变的特征表示。在形式上,第l-th卷积块中对抗性学习的目标可以表示为:
Attension 机制
要使用检测任务对对目标进行本地化和分类,roi通常比背景更重要。然而,域分类器在没有聚焦的情况下对整个图像的所有空间位置进行对齐,这可能会降低自适应性能。为了解决这一问题,作者又提出了一个注意机制来实现前向感知的分布对齐,利用RPN中的高级特征来生成注意力地图,如图3所示。
具体来说:
给定任意域中的图像x,将Frpn(x)∈RH×W×C作为FPN模块中卷积层的输出特征图,其中H×W和C分别为特征图的空间维数和通道数。
通过对激活值进行跨通道的平均来构建一个空间注意图。
过滤(设置为零)那些小于给定阈值的值,这些值更有可能属于背景区域。
由于注意图的大小与不同卷积块的特征不一致,采用双线性插值进行上采样,从而得到相应的注意图。
由于注意力地图可能并不总是那么准确,如果一个前地区域被误认为背景,它的注意力权重被设置为零,则无法起到效果。因此,这里在注意图中添加了一个跳跃连接以增强其性能。
注意图A(x)∈RH×W可以表示为:
最终的ART模块的目标函数可以表示为:
3.2.2 PSA:Prototype-based Semantic Alignment
PSA不是直接训练分类器,而是尝试最小化跨领域具有相同类别的一对原型(PSk,PTk)之间的距离,从而保持特征空间中的语义一致性。形式上,原型可以定义为:
原型的好处有两方面:
(1) 原型没有额外的可训练参数,可以在线性时间内计算出来;
(2) 伪标签的负面影响可以被原型生成时数量大得多的正确伪标签所抑制。
注意:为了解决同一批源图像和目标图像的前景目标可能存在类别不一致使得该batch中所有类的类别对不齐的问题,需要动态地维护全局原型,每个小批的本地原型类型自适应地更新这些原型,如下所示:
注意:不能直接对齐本地原型,而是缩小源全局原型GPSk和目标全局原型GPTk之间的距离,以实现语义对齐。在i-th迭代时,PSA模块的目标可以表述为:
3.3 网络优化 Network Optimization
训练的伪代码如下图所示:
主要包括三个parts:
监督学习。监督检测损耗Ldet只适用于带标记的源域DS。
粗粒度的适应。利用注意机制来提取图像中的前景。然后,重点通过优化LART调整这些区域的特征分布。
细粒度的适应。首先,在目标域中预测伪标签。然后,进一步自适应地更新每个类别的全局原型。最后,通过优化LPSA实现了前台对象的语义对齐。
因此,全局的目标函数可以统一为:
4
实验及结果
4.1 模型评估
在以下三种适应场景评估:
Normal-to-Foggy (Cityscapes→Foggy Cityscapes)
Synthetic-to-Real(SIM10k→Cityscapes)
Cross-Camera(Cityscapes→KITTI).
4.2 深入分析
前景特征分布差异
最高可信度检测的误差分析:
定性结果:
论文地址:
https://arxiv.xilesou.top/pdf/2003.10275.pdf
备注:检测
目标检测交流群
2D、3D目标检测等技术,
若已为CV君其他账号好友请直接私信。
我爱计算机视觉
微信号:aicvml
QQ群:805388940
微博知乎:@我爱计算机视觉
投稿:amos@52cv.net
网站:www.52cv.net
在看,让更多人看到
CVPR 2020 | 北航提出:通过由粗到精特征自适应进行跨域目标检测,表现SOTA!相关推荐
- 超越EfficientNet,GPU上加速5倍,何恺明组CVPR 2020论文提出新型网络设计范式
选自arXiv 作者:Ilija Radosavovic等 机器之心编译 机器之心编辑部 近日,何恺明大神组又发了一篇新论文,提出了一种新的网络设计范式.与以往研究不同,他们没有专注于设计单个网络实例 ...
- NeurIPS 2020 | 清华大学提出:通用、高效的神经网络自适应推理框架
来源:人工智能AI技术 本文约3400字,建议阅读7分钟 本文介绍我们被NeurIPS 2020会议录用的一篇文章. 本文主要介绍我们被NeurIPS 2020会议录用的一篇文章:Glance and ...
- CVPR 2020 论文开源项目一页看尽,附代码论文
十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI CVPR 2020中选论文放榜后,最新开源项目合集也来了. 本届CPVR共接收6656篇论文,中选1470篇,"中标率" ...
- CVPR 2020论文开源项目一页看尽,附代码论文
十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI CVPR 2020中选论文放榜后,最新开源项目合集也来了. 本届CPVR共接收6656篇论文,中选1470篇,"中标率" ...
- CVPR 2020 | 自适应聚合网络AANet:更高效的立体匹配
©PaperWeekly 原创 · 作者|张承灏 单位|中科院自动化所硕士生 研究方向|双目深度估计 本文介绍的是中科大团队在 CVPR 2020 上提出的一种高效立体匹配网络--自适应聚合网络 ...
- CVPR 2020 论文大盘点-目标检测篇
本文盘点CVPR 2020 所有目标检测相关论文,总计64篇论文,感觉最大的特点是3D目标检测研究工作很多有21篇,尤其是工业界单位,可能是自动驾驶热带来的.2D目标检测依然很热,神经架构搜索也开始在 ...
- CVPR 2020 | 港中文提出3D目标检测新框架DSGN
©PaperWeekly 原创 · 作者|张承灏 学校|中科院自动化所硕士生 研究方向|双目深度估计 本文介绍的是香港中文大学贾佳亚团队在 CVPR 2020 上提出的 3D 目标检测新框架--深度立 ...
- 多篇开源CVPR 2020 语义分割论文
多篇开源CVPR 2020 语义分割论文 前言 DynamicRouting:针对语义分割的动态路径选择网络 Learning Dynamic Routing for Semantic Segment ...
- 做目标检测,这6篇就够了:CVPR 2020目标检测论文盘点
点击上方,选择星标或置顶,不定期资源大放送! 阅读大概需要15分钟 Follow小博主,每天更新前沿干货 来源:机器之心 CVPR 2020 会议上,有哪些目标检测论文值得关注? 目标检测是计算机视觉 ...
最新文章
- 多线程实现生产者消费者模型
- 【WPF】MeshGeometry3D中的Normals和TextureCoordinates属性
- 好几天没戴工牌坐地铁了,受不了!
- 微软计划2008年初发布Windows Server2008
- redis源码之main()函数剖析
- 新一代数据库技术在双11中的黑科技
- 又一批长事务,P0故障谁来背锅?
- arm上移植iconv命令
- OpenCV 头像训练与识别
- IT之路,从迷茫“愤青”到团队项目经理,他是如何一步步走出来的?
- 使用JS和CSS实现图片的3D透视效果及动画
- 用什么软件测试高考成绩,优志愿、知涯升学等志愿填报软件测评出来啦!最好用的是这个...
- 【GPS】GPS测试环境
- IE浏览器兼容性模式
- 如何单页面Vue应用转化成多页面的Vue应用
- html格式发邮件,怎么用HTML格式发送邮件.既怎么发HTML格式的邮件?
- 计算机软件著作权侵权行为的认定,计算机软件著作权侵权行为认定方法探讨.doc...
- 【pwnable.kr】day8:leg
- word页面顺序倒过来_Word文字倒过来将每一个文字颠倒显示即更改文字显示方向...
- 基于Linux_ARM板的驱动烧写及连接、挂载详细过程(附带驱动程序)
热门文章
- toj 4317 多连块拼图
- 鼎信诺oracle_鼎信诺审计系统操作说明
- python的read函数调用报错_从零开始学Python(七):文件存储I/O流和异常捕捉
- thinkphp中mysql添加数据_thinkphp添加数据 add()方法
- 复制assert目录文件到私有目录_在电脑上复制目录的方法
- java实现远程系统控制_java实现电脑远程控制完整源代码
- python返回函数值并退出函数_Python函数的返回值和作用域
- 火箭联盟服务器维护中怎么办,《火箭联盟》出现服务器问题 官方致歉并承诺会尽快修复...
- 100个囚犯和灯泡C语言,关于国王和100个囚犯
- (网页)java数组去重总结(转)