作者 | III  编辑 | 汽车人

原文链接:https://zhuanlan.zhihu.com/p/547671620

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心技术交流群

后台回复【数据集下载】获取计算机视觉近30种数据集!

【文章信息】

Bidirectional Self-Training with Multiple Anisotropic Prototypes for Domain Adaptive Semantic Segmentation

Yulei Lu , Yawei Luo, Li Zhang, Zheyang Li, Yi Yang, Jun Xiao (ACM MM 2022)

论文:https://arxiv.org/abs/2204.07730

代码:github.com/luyvlei/BiSMAPs

【任务介绍】

近年来,随着深度神经网络的发展,语义分割任务取得了显著的进展。然而,令人满意的性能却伴随着昂贵标注代价,缓解标注成本问题的一个有效解决方法便是使用图形学仿真或者游戏引擎生成合成数据集。然而,域偏移(domain-shift)阻碍了在合成图像上训练的模型进一步部署在实际环境中。为了解决这个问题,领域适应(DA)方法提出了弥合源域和目标域之间的差距。在实际应用中,无监督域适应(unsupervised domain adaptation, UDA)由于不需要来自目标域的任何标记样例,最终将人工工作量降至最低而备受关注。

【本文动机】

图1

首先,现有方法利用整个源域信息进行适应,忽略了一些困难和受干扰源域样本对目标域性能没有贡献甚至阻碍的事实。例如,GTA5的数据集包含大量关于山区的场景,而cityscape则没有。为了实现区域对齐,引入这些像场景的样本反而会使目标分布发生偏移。

第二,传统方式传统方法假设每个类别服从具有相同方差的各向同性分布,因此简单地使用单个特征质 作为原型,采用欧氏距离作为度量来评估候选特征与当前原型的相似度。通过这种方式,与原型足够接近的特性将被分配一个伪标签。然而,这一假设并不一定适用于语义分割的像素级特征。例如,“vegetation”是一个类,但它实际上包括树干树冠等不同的部分。当使用单一的原型来表示“vegetation”时,树干的特征可能会不恰当地映射到更接近“pole”的原型,如图1(a)所示。此外,简单地使用欧氏距离作为度量,而忽略每个类的方差,可能会进一步恶化相似类别之间的伪标签分配,如图1(c)所示。

【本文方法】

1. 双向自训练框架

图2

双向的思想如图所示。它包括一个“前向过程”——利用源域原型在目标域内选择可靠的伪标签;一个互补的“反向过程”——利用目标域原型对源域的困难样本或干扰性样本进行“降级”。

在前向过程,我们改进了传统的自训练方法,引入“多重各向异性原型”来生成更准确的伪标签。在反向过程,我们生成源域可转移图(STM)来表示每个源样本在适应中的重要性,并相应地调整训练损失映射的权重。下面分别介绍前向过程和反向过程。

2. 前向过程——多重各向异性原型

图3

为了缓解传统单质心的表示能力的不足,我们使用高斯混合模型来代替传统的单质心模型如图3所示。高斯混合模型的对数概率密度由如下公式得出:

在源域上我们使用预训练过的语义分割模型抽取像素级特征,然后基于高斯混合模型求解各个类别的原型。在目标域上,基于同样的原型抽取出像素级特征后,我们基于公式(4)求解每个像素属于各个高斯混合模型的对数似然值作为特征与原型的相似度度量。最后使用公式(6)基于对数概率密度阈值来筛选出高置的样本。

3. 反向过程——源域样本降级

在目标域基于无监督聚类生成原型,对于源域特征,我们使用计算他与目标域原型最小的距离:

这里D(x)衡量了任意一个源域特征到目标域的距离,A代表聚类出来的目标域原型。

但是由于长尾分布的影响,头部类会得到一个比较高的权重,因此我们引入类别熵来平衡类别级的可迁移性,具体来说,我们使用归一化类别熵和特征距离的和求解出综合可迁移性:

其中e代表类别熵,d_mean代表平均特征距离。

4. 训练流程

图5

训练遵循预训练+自训练的二阶段范式:

对于源域,基于可迁移图做加权的监督训练:

对于目标域,使用对称交叉熵和伪标签做监督训练:

另外领域数据增强和EMA模型,对训练施加一致性正则化:

最终损失由这3项构成,在预训练阶段,仅包含公式(10)的损失:

【实验结果】

1. 与其他方法对比

与其他SOTA方法比较,本文方法在GTA5->Cityscape任务上蒸馏前取得了57.7的性能,蒸馏后达到了61.2的性能,达到了SOTA的效果。

2. 消融分析

在预训练阶段,源域可迁移图(STM)的引入相比baseline带来了1.9的性能增益,自训练阶段多重各向异性原型带来了9.1的性能提升。综合一致性正则和蒸馏技术,最终的性能达到了61.2.

自动驾驶之心】全栈技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、多传感器融合、SLAM、光流估计、轨迹预测、高精地图、规划控制、AI模型部署落地等方向;

加入我们:自动驾驶之心技术交流群汇总!

自动驾驶之心【知识星球】

想要了解更多自动驾驶感知(分类、检测、分割、关键点、车道线、3D目标检测、多传感器融合、目标跟踪、光流估计、轨迹预测)、自动驾驶定位建图(SLAM、高精地图)、自动驾驶规划控制、领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球(三天内无条件退款),日常分享论文+代码,这里汇聚行业和学术界大佬,前沿技术方向尽在掌握中,期待交流!

ACM MM 2022 | 浙大提出BiSMAP:语义分割UDA 新SOTA!相关推荐

  1. ACM MM 2022 | 基于GMM的多重prototype,助力UDA语义分割新SOTA

    ©作者 | 陆裕磊 单位 | 浙江大学 研究方向 | 图像分割领域自适应 论文标题: Bidirectional Self-Training with Multiple Anisotropic Pro ...

  2. ICCV2019语义分割/UDA:ACE: Adapting to Changing Environments for Semantic SegmentationACE:适应变化环境下的语义分割

    ACE: Adapting to Changing Environments for Semantic Segmentation ACE:适应变化环境下的语义分割 0.摘要 1.概述 2.相关工作 2 ...

  3. 2022年的有关语义分割的论文,含CVPR、ECCV、ICLR、AAAI

    TransRAC: Encoding Multi-scale Temporal Correlation with Transformers for Repetitive Action Counting ...

  4. ACM MM 2022最佳论文奖出炉!哈工大聂礼强团队与快手合作斩获

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入-> CV 微信技术交流群 为检索没有文本描述的短视频寻求解法. 转载自:AI科技评论    ...

  5. 微软亚研院提出用于语义分割的结构化知识蒸馏 | CVPR 2019

    作者 | CV君 来源 | 我爱计算机视觉 今天跟大家分享一篇关于语义分割的论文,刚刚上传到arXiv的CVPR 2019接收论文<Structured Knowledge Distillati ...

  6. ECCV2020 | 北京大学提出RGB-D语义分割新网络,多模态信息融合

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 这篇文章收录于ECCV2020,由北京大学.商汤科技.香港中文大学提出的基于RGB-D图像的语义分割算 ...

  7. Dynamic Routing-中科院西交旷视(孙剑团队)提出用于语义分割的动态路由网络,精确感知多尺度目标,代码已开源!...

    关注公众号,发现CV技术之美 ▊ 写在前面 近年来,大量手工设计和基于搜索的网络被用于语义分割.然而,以前的工作(如FCN.U-Net和DeepLab系列)希望在预定义的静态网络结构中处理不同规模的输 ...

  8. CVPR 2019 | 微软亚研院提出用于语义分割的结构化知识蒸馏

    点击我爱计算机视觉标星,更快获取CVML新技术 今天跟大家分享一篇关于语义分割的论文,刚刚上传到arXiv的CVPR 2019接收论文<Structured Knowledge Distilla ...

  9. ACM MM 2022 Call for Papers

    关注公众号,发现CV技术之美 Overview ACM Multimedia is the premier conference in the multimedia research field, w ...

最新文章

  1. 系统进程管理及用户登陆监控
  2. MA5680T跨板聚合
  3. Introduction to Algorithm 6.3-3[Second Version]
  4. 【九度OJ】题目1078-二叉树遍历
  5. HTML JQuery 技巧总结
  6. 移动端照片上传、头像裁剪完整功能,兼容iphone,android (一)
  7. keras系列︱keras是如何指定显卡且限制显存用量(GPU/CPU使用)
  8. ajax取消重复请求
  9. 读书笔记(十五)--将才
  10. SpringBoot集成身份证认证
  11. led动态显示 c语言,单片机LED点阵的横向移动(动态显示)
  12. 菜刀,蚁剑,冰蝎,哥斯拉的流量特征
  13. python爬虫实现豆瓣模拟登录
  14. 考研英语 各种阅读/翻译/新题型/完形填空技巧
  15. 副连长是什么级别_连长相当于地方上什么级别的干部
  16. 串口流控(CTS/RTS)使用详解
  17. 怎样用C语言编写病毒(二)
  18. 硬件学习-无线网卡、无线上网卡
  19. 二进制数字调制器的设计
  20. Fully Connected Neural Network

热门文章

  1. Vue中,有哪些烂熟于心的知识
  2. 操作系统形式化验证实践教程(7) - C代码的自动验证(转载)
  3. 几种开源虚拟产品的介绍及性能比较
  4. uniapp微信小程序引入第三方字体库
  5. C语言——leetcode69——X的平方根
  6. 用 .NET / C# 实现录屏小程序并保存为视频文件
  7. pineapple的学习笔记(第一、二讲)-CVA高校精英计划(第三期)
  8. 天啊!吃饭用的勺子都联网了~手把手带你DIY一款智能百味勺子
  9. vue H5移动端项目使用高德地图定位/标点并点击导航跳第三方app且实现导航路线——实例
  10. 服务器宕机记录16.12.14