作者 | Han-Kai Hsu、Chun-Han Yao、Yi-Hsuan Tsai、Wei-Chih Hung、Hung-Yu Tseng、Maneesh Singh、Ming-Hsuan Yang
译者 | 刘畅
编辑 | Jane
出品 | AI科技大本营(ID:rgznai100)
【导读】目标检测的最新深度学习方法依赖于大量的边界框标注信息。收集这些标注既费力又费钱,而且在对来自不同分布的图像进行测试时,受监督的模型不能很好地泛化。域自适应方法是通过使现有标签去适应目标测试数据。但是,两个域之间的巨大差距可能会使自适应成为一项艰巨的任务,从而导致训练过程不稳定和结果欠佳。
本文中,作者提出了用中间域来连接不同域,并逐步解决更容易的自适应子任务。方法是通过转换源图像以模仿目标域中的图像来构造此中间域。为了解决域转移(domain-shift)问题,作者采用对抗学习在特征级去调整分布。另外,还应用了加权任务损失函数去处理中间域中的图像质量不平衡问题。实验结果表明,在目标域的效果上,本文的方法优于最新(SOTA)方法。
论文地址:
https://arxiv.org/abs/1910.11319

引言
目标检测是一项重要的计算机视觉任务,它旨在对图像中的目标进行定位和分类。最新的神经网络方法已大大提高了目标检测的性能。但是,这样的深度模型通常需要大规模的带标注的数据集以进行监督学习,并且当训练集和测试集不同时,不能很好地泛化。例如,两个域可能在场景,天气,光照条件和相机设置方面有所不同。此类域差异或域转移(domain-shift)可能会引起模型泛化问题。尽管增加同属于一个目标域的其他训练数据可以提高性能,但是收集标注信息是耗时耗力的。
图1
图1很好的描述了渐进域自适应方法。传统的域自适应是解决从源域到目标域的域迁移问题,用IS→T表示。这里使用了一个中间合成域来填补这个间隙,该域让我们可以逐步解决具有更小间隙的独立子任务(如lS→F和lF→T)。此外,根据目标域数据的质量(黄色三角形的大小代表它们的权重),对合成域中的每个数据进行不平等处理(越接近目标,权重越大)。
无监督域自适应方法解决了在不使用目标域的地面真值标签的情况下的域转移问题。自给定源域注释的情况下,目标是以无监督的方式对齐源分布和目标分布,以便模型可以在无需注释的情况下推广到目标数据。在图像分类中,人们开发了大量的方法,但在语义分割和目标检测等复杂任务上的研究却很少。这种域自适应任务非常具有挑战性,因为通常在源域和目标域之间存在很大的差异性。
在本文中,作者的目标是简化不同数据域之间的协调工作。该方法通过对齐中间特征表示,解决了域偏移问题。通过利用位于源域和目标域之间的中间域,避免了在两个分布之间存在显着差异的直接映射。
具体来说,源图像首先由一个图像到图像的迁移网络进行转换,使其具有与目标图像相似的外观。这里将包含合成目标图像的域称为中间域。然后,去对齐源域和中间分布来构造中间特征空间,这比对齐最终目标域要简单得多。一旦这个中间域对齐后,就将它拿去连接目标域的桥梁。
因此,通过提出的中间域渐进自适应方法,将源域和目标域之间的初始对齐分解为两个子任务,这两个子任务都能以较小的域间隙解决较简单的问题。
在对齐过程中,由于中间空间是以无监督方式构造的,所以存在一个潜在的问题,那就是在基于迁移质量的基础上,每个合成目标图像可能会有不对等的结果。为了减少低质量图像的离群影响,在本文方法中提出了一个加权版本,该版本的权值是根据到目标分布的距离来确定的。也就是说,更接近目标域的图像应该被认为是更重要的样本。在实际应用中,在图像平移模型中获取到的鉴别器距离,会将其作为任务损失的权重纳入检测框架。
本文作者使用了许多的数据集,来评估该方法在各种不同适应场景下的效果,这些数据集包括包括KITTI, Cityscapes, Foggy Cityscapes和BDD100k。本文作者在多个现实世界的不同情况下进行实验,例如天气变化、相机差异和对大规模数据集的适应。通过提出的渐进域自适应算法,证明了本文方法在目标领域的精度中,优于当前最先进的算法。
主要贡献如下:(1)提出的自适应框架中,引入一个中间域为目标检测定位 (2)基于中间域中样本的重要性,提出了域对齐过程中的加权任务损失。(3)进行广泛的适应实验在不同对象检测场景,实现先进的性能。在多个真实世界的差异情况下进行实验,例如天气变化、相机差异和对大规模数据集的适应。
方法
简单说一下渐进域自适应方法,该方法将域自适应问题分解成两个更小的子任务,由位于源域和目标域分布之间的中间域来当桥接。利用此合成域,作者采用了一种渐进式适应策略,该策略逐渐缩小了中间域的差距。
作者将源域,合成域和目标域分别表示为S,F和T。从标记域S到未标记域T的常规自适应表示为S→T,而提出的自适应子任务表示为S→F和F→T。图2展示了渐进式自适应框架。
图2
该算法包括适应的两个阶段,如图2中的a和b所示。首先使用通过CycleGAN [36]获悉的生成器G转换源图像以生成合成图像。之后,使用标记的源域并执行对合成域的第一阶段自适应。然后在(b)中,模型应用第二阶段自适应,该阶段采用具有标签合成域,并使合成域特征与目标分布对齐。另外,从CycleGAN中的鉴别器Dcycle获得权重w,以平衡检测损失中的合成图像质量。
图2中的(c)显示来自适应网络的整体结构。带标签的图像和未带标签的图像都通过编码器网络E来提取CNN特征featL和featU。然后,将它们作用于从featL中使用检测器网络学习监督对象检测,以及将两个特征都转发给GRL和域鉴别器,以对抗性方式学习域不变特征。
实验
作者在不同域差异的三种现实条件下,来评估本文方法的性能。这三种条件分别是跨相机适应,天气适应和对大规模数据集的适应。同时,本文作者分别使用了ITTI, Cityscapes, Foggy Cityscapes和BDD100k数据集,来评估本文方法在各种适应场景下的效果。图3展示了自这三种条件下,使用本文的域自适应方法前后的检测结果。
图3
图3是本文实验的三个自适应任务的检测结果示例。前两行分别是任务KITTI→城市景观和城市景观→有雾的城市景观,而后两行是任务Cityscapes→BDD100k。
总结
在本文中,作者提出了一种渐进的自适应方法,该方法使用中间域来弥合域间隙,从而将较困难的任务分解为具有较小间隙的两个较简单的子任务。通过将源图像转换为目标图像来获得中间域。使用此域后,该方法通过从源域适应到中间域,然后最终适应目标域,逐步解决适应子任务。另外,该方法的第二阶段引入了加权损失,以平衡中间域中的不同图像质量。实验结果表明,本文的方法与最新方法相比具有良好的性能,并且可以在跨场景,天气条件和适应大规模数据集等各种情况下进一步减少域差异。

(*本文为 AI科技大本营编译文章,转载请微信联系 1092722531

精彩推荐

2019 中国大数据技术大会(BDTC)再度来袭!豪华主席阵容及百位技术专家齐聚,15 场精选专题技术和行业论坛,超强干货+技术剖析+行业实践立体解读,深入解析热门技术在行业中的实践落地。5 折票倒计时 4 天!

推荐阅读

目标检测的渐进域自适应,优于最新SOTA方法相关推荐

  1. CV之OD:计算机视觉之目标检测(Object Detection)方向的简介、使用方法、案例应用之详细攻略

    CV之OD:计算机视觉之目标检测(Object Detection)方向的简介.使用方法.案例应用之详细攻略 目录 OD目标检测的简介 1.Selective Search for Object Re ...

  2. 睿智的目标检测28——YoloV4当中的Mosaic数据增强方法

    睿智的目标检测28--YoloV4当中的Mosaic数据增强方法 学习前言 代码下载 什么是Mosaic数据增强方法 实现思路 全部代码 1.数据增强 2.调用代码 学习前言 哈哈哈!我又来数据增强了 ...

  3. CVPR 2021 目标检测、跟踪和姿态估计最新进展分享

    微软亚洲研究院 2021 CVPR 论文分享会已完美结束.今日起,CV君将根据不同类别的分享主题进行逐一分享,欢迎查收! 今日分享的主题为:目标检测.跟踪和姿态估计 论文一 论文名称:Bottom-U ...

  4. 何恺明大神新作:一种用于目标检测的主流ViT架构,效果SOTA

    链接:https://arxiv.org/abs/2203.16527 作者单位:Facebook AI Research 1导读 3月30日,何恺明大神团队在ArXiv上发布了最新研究工作,该工作主 ...

  5. 《目标检测蓝皮书》第7篇 模型优化方法及思路

    本专栏将系统性地讲解计算机视觉基础知识.包含第1篇机器学习基础.第2篇深度学习基础.第3篇卷积神经网络.第4篇经典热门网络结构.第5篇目标检测基础.第6篇网络搭建及训练.第7篇模型优化方法及思路.第8 ...

  6. 亮风台提出用完全可训练的图匹配方法,优于最新SOTA | CVPR 2020

    出品 | AI科技大本营(ID:rgznai100) 6月14日-19日,CVPR 2020在线上举行,据了解,本届大会共收到6656篇投稿,接收论文1470篇,录用率约22%,低于ICCV 2019 ...

  7. 目标检测各类数据集格式互转以及处理方法(VOC, COCO, txt)

    数据集互转目录 coco转voc格式 voc转coco格式 voc数据格式的处理 txt注释格式转coco 在做目标检测时,我个人比较喜欢VOC格式的数据集,所以遇到COCO格式的数据集习惯转为VOC ...

  8. 史上最全综述:3D目标检测算法汇总!

    来源:自动驾驶之心 本文约16000字,建议阅读10+分钟 本文将演示如何通过阈值调优来提高模型的性能.本文的结构安排如下:首先,第2节中介绍了3D目标检测问题的定义.数据集和评价指标.然后,我们回顾 ...

  9. 3D目标检测学习笔记

    博主初学3D目标检测,此前没有相关学习背景,小白一枚-现阶段的学习重点是点云相关的3D检测. 本文是阅读文章:3D Object Detection for Autonomous Driving: A ...

最新文章

  1. 传感器融合-数据篇(自动驾驶)
  2. Li‘s 影像组学视频学习笔记(10)-T检验+lasso+随机森林、Li‘s have a solution and plan.
  3. POJ2594 Treasure Exploration[DAG的最小可相交路径覆盖]
  4. 【Extjs】large按钮,图片全部覆盖按钮
  5. Ubuntu - 安装 jdk 、配置 Java 环境变量、编辑 Test.java 文件并输出 Hello World!
  6. c++ c6386 缓冲区 溢出_Office 远程溢出漏洞测试与分析
  7. Silverlight三维透视+倒影效果
  8. c# list 自定义排序
  9. 禁用CMFCRibbonApplicationButton的单击和双击事件
  10. ApacheCN 安卓译文集 20211225 更新
  11. pycharm操作指北
  12. 达观杯文本智能处理挑战赛冠军解决方案
  13. Wannafly挑战赛25 A.因子
  14. 我们公司使用了 6 年的分布式锁,很是牛逼啊!
  15. linux各种常用源码网站
  16. QCC3040---PIO的配置方法
  17. 1.余弦定理、两角和公式公式复习
  18. 不登录微信怎么查看电脑里的微信聊天DAT图片
  19. 【Python】Python中pip命令的使用(超级详细,命令大全)
  20. 在 MySQL 数据库中删除重复记录的步骤

热门文章

  1. JavaScript作用域原理——预编译
  2. AD rodc扩展报错
  3. mutt使用小技巧 指定发件人 添加附件
  4. 医院数据中心机房建设资料汇总(31篇)
  5. 《xUnit Test Patterns》学习笔记3 - Philosophy of Test Automation
  6. Mysql sq优化(二)
  7. Python读取文件夹下的所有文件,并获得文件中的2-10行的信息
  8. 终端打不开(右键和快捷键)?因为phthon?
  9. jQuery Mobile的学习时间bottonbutton的事件学习
  10. Java的Clone