这篇论文是CLIP模型较早的在弱监督分割上应用的论文。

论文标题:

Cross Language Image Matching for Weakly Supervised Semantic Segmentation

作者信息:

代码地址:

https://github.com/CVI-SZU/CLIMS

Abstract

(CAM的缺点)CAM只激活个别类别的对象区域,并且经常错误的把很多相似的区域也包含进来。
(WSSS的缺点)传统的WSSS只給一个标签,无法抑制其他物体的边界。
作者提出了 Cross Language Image Matching (CLIMS),核心想法就是通过NLP的监督(和CLIP相同)获得更完整的CAM的物体图像,并且抑制近似类别但属于背景的区域。
作者设计了三个损失函数,分别是 1.object region loss 2.background region loss 3. label matching loss

Introduction


(现存框架的问题)常规WSSS任务三段:1.生成CAM.2细化CAM.3训练完整的分割模型。
仅有固定的物体类别能进行训练,在产生CAM的过程中出现了不必要的背景信息的激活。

(作者方法的优势)CLIMS是基于CLIP的,CLIP可以从NLP中学习更广阔的语义的概念,而不仅仅只是预先确定好的类别,那么CLIMS就有潜力学习到多个类别的高质量的CAM,剔除一些无关的背景。

(关键做法)作者使用卷积层替换掉了GAP和全连接,让后面的CLIP层直接引导CAM的生成。又提出三个损失函数:
L O T M L_{OTM} LOTM​:Object region and Text label Matching Loss (目标区域和text label的匹配损失)
L B T M L_{BTM} LBTM​:Back ground region and Text label Matching Loss(背景区域和text label的匹配损失)
L C B S L_{CBS} LCBS​:Co-occurring Background Suppression loss(目标相似类别区域和text label的匹配损失)

Methodology

3.1. Revisiting the Conventional CAM

常规的CAM的生成:图像卷积后输入GAP,FCN训练分类模型。然后对特征层应用1×1的卷积,生成CAM。
交叉熵训练分类模型:

应用卷积:

传统CAM无法很难区分需要激活和不必要激活的对象背景部分。

3.2. Cross Language Image Matching Framework

作者去除了GAP,直接从卷积+sigmoid生成一个初始的一个包含前景信息的特征 P k P_k Pk​:

根据 P k P_k Pk​进行在图像上选取前景 P k P_k Pk​和背景区域 1 − P k 1-P_k 1−Pk​,输入的CLIP的图像编码中获得representation
vectors:

同时应用CLIP中对标签的处理方法,生成text prompts,输入到CLIP中的文本编码中:

3.3 Object region and Text label Matching

设计损失函数学习前景区域 V k i o V_k^{io} Vkio​和前景的文本 V k t o V_k^{to} Vkto​(正样本学习):

3.4 Background region and Text label Matching

设计损失函数学习背景区域 V k b o V_k^{bo} Vkbo​和前景的文本 V k t o V_k^{to} Vkto​(负样本学习):

3.5. Co-occurring Background Suppression

作者找了一些和目标相似的类别,作为反例进行学习,以减小进行CAM的错误:
v k , l t b v_{k,l}^{tb} vk,ltb​表示k个目标的l个相关联的近似的类别:

3.6. Area Regularization

作者认为仅有上三个损失函数,如果在激活图中同时包含了不相关的背景和目标对象,那么CLIP模型仍然可以正确地预测目标对象。故作者设计了一个像素级的区域正则化项来约束激活映射的大小,以确保不相关的背景被排除在激活映射 P k P_k Pk​中:

(按照类别数量与像素数量求均值,我没看懂到底为啥这样?有大神能解释下嘛)

3.7. Overall Training Objective

总的损失函数就是对上述四个按照比例求和:

这几个系数为超参数,在模型调整。

Experiments

(这篇论文只讲了生成CAM的方法,作者和上下游的工作相结合,进行很多实验,如下表)

【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation相关推荐

  1. 【论文阅读】Online Attention Accumulation for Weakly Supervised Semantic Segmentation

    一篇弱监督分割领域的论文,其会议版本为: (ICCV2019)Integral Object Mining via Online Attention Accumulation 论文标题: Online ...

  2. 文章阅读Non-Salient Region Object Mining for Weakly Supervised Semantic Segmentation

    Non-Salient Region Object Mining for Weakly Supervised Semantic Segmentation 文章名称:非显著区域对象挖掘的弱监督语义分割 ...

  3. 【cvpr2022-论文笔记】《Multi-class Token Transformer for Weakly Supervised Semantic Segmentation》

    目录 MCTformer-V1 Class-specific multi-class token attention Class-specific attention refinement Class ...

  4. 【论文阅读】Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation

    论文标题: Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation 作者信息: 代 ...

  5. 【论文阅读】Weakly Supervised Semantic Segmentation using Out-of-Distribution Data

    一篇弱监督分割领域的论文,发表在CVPR2022上: 论文标题: Weakly Supervised Semantic Segmentation using Out-of-Distribution D ...

  6. 阅读笔记:Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation

    Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation 基于等变注意力机 ...

  7. Weakly Supervised Semantic Segmentation with Boundary Exploration

    Weakly Supervised Semantic Segmentation with Boundary Exploration 摘要 1 Introduction 2 Related Work 3 ...

  8. Weakly Supervised Semantic Segmentation list

    Weakly Supervised Semantic Segmentation list 文章转自Github:https://github.com/JackieZhangdx/WeakSupervi ...

  9. 机翻《C-CAM: Causal CAM for Weakly Supervised Semantic Segmentation onMedical Image 》

    前言 <C-CAM: Causal CAM for Weakly Supervised Semantic Segmentation onMedical Image>CVPR2022,有源码 ...

最新文章

  1. 【组队学习】【33期】数据可视化(Matplotlib)
  2. explode php 报错,PHP函数explode和split的区别
  3. 【本人秃顶程序员】使用Spring Cloud Stream和RabbitMQ实现事件驱动的微服务
  4. 说说Keepalived的脑裂
  5. L8.1 lvs+heartbeat-ldirectord实现高可用负载均衡
  6. Python元组与列表
  7. 【并查集】Supermarket(poj 1456/luogu-UVA1316)
  8. jstl c:choose、c:when和c:otherwise标签的简单使用介绍
  9. 卸载阿里云服务器的mysql_阿里云服务器购买,双11领阿里云服务器优惠券!
  10. 深入了解TMG企業版的獨立陣列
  11. 华为HCIE云计算培训笔记第5天
  12. VC密码正确无法登陆。证书过期。处理。
  13. 荣耀v20屏幕测试软件,测量原来可以这么简单 荣耀V20 AR测量功能体验
  14. python实现千牛客服自动回复语_千牛快捷回复短语大全,千牛自动回复语大全
  15. OSGi 框架的组件运行机制
  16. php web 简单的系统,一个简单的Webmail系统_PHP
  17. 微软Win11 Dev/Beta预览版22581.1(ni_release)发布
  18. layui弹出层提交表单!
  19. 子之错父之过什么意思_生活|为什么子不教,父之过,这是什么意思?
  20. Kotlin 概述【官方】

热门文章

  1. RK3399平台开发系列讲解(内核入门篇)1.2、如何高效的阅读Linux内核设备驱动
  2. Connected to the target VM, address: ‘127.0.0.1:62401‘, transport: ‘socket‘ 问题几种解决办法
  3. html的过渡属性,CSS过渡属性 transition
  4. static_cast 和 reinterpret_cast
  5. 企业知识管理的方式有哪些?
  6. veryzhou_串口调试软件
  7. SpringBoot2使用Undertow来提高应用性能(spring-boot-starter-undertow)
  8. Python 学习 --->Anaconda、pyenv、virtualenv、venv
  9. 组织架构树形结构布局
  10. 转:用WCAT进行IIS压力测试