【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation
这篇论文是CLIP模型较早的在弱监督分割上应用的论文。
论文标题:
Cross Language Image Matching for Weakly Supervised Semantic Segmentation
作者信息:
代码地址:
https://github.com/CVI-SZU/CLIMS
Abstract
(CAM的缺点)CAM只激活个别类别的对象区域,并且经常错误的把很多相似的区域也包含进来。
(WSSS的缺点)传统的WSSS只給一个标签,无法抑制其他物体的边界。
作者提出了 Cross Language Image Matching (CLIMS),核心想法就是通过NLP的监督(和CLIP相同)获得更完整的CAM的物体图像,并且抑制近似类别但属于背景的区域。
作者设计了三个损失函数,分别是 1.object region loss 2.background region loss 3. label matching loss
Introduction
(现存框架的问题)常规WSSS任务三段:1.生成CAM.2细化CAM.3训练完整的分割模型。
仅有固定的物体类别能进行训练,在产生CAM的过程中出现了不必要的背景信息的激活。
(作者方法的优势)CLIMS是基于CLIP的,CLIP可以从NLP中学习更广阔的语义的概念,而不仅仅只是预先确定好的类别,那么CLIMS就有潜力学习到多个类别的高质量的CAM,剔除一些无关的背景。
(关键做法)作者使用卷积层替换掉了GAP和全连接,让后面的CLIP层直接引导CAM的生成。又提出三个损失函数:
L O T M L_{OTM} LOTM:Object region and Text label Matching Loss (目标区域和text label的匹配损失)
L B T M L_{BTM} LBTM:Back ground region and Text label Matching Loss(背景区域和text label的匹配损失)
L C B S L_{CBS} LCBS:Co-occurring Background Suppression loss(目标相似类别区域和text label的匹配损失)
Methodology
3.1. Revisiting the Conventional CAM
常规的CAM的生成:图像卷积后输入GAP,FCN训练分类模型。然后对特征层应用1×1的卷积,生成CAM。
交叉熵训练分类模型:
应用卷积:
传统CAM无法很难区分需要激活和不必要激活的对象背景部分。
3.2. Cross Language Image Matching Framework
作者去除了GAP,直接从卷积+sigmoid生成一个初始的一个包含前景信息的特征 P k P_k Pk:
根据 P k P_k Pk进行在图像上选取前景 P k P_k Pk和背景区域 1 − P k 1-P_k 1−Pk,输入的CLIP的图像编码中获得representation
vectors:
同时应用CLIP中对标签的处理方法,生成text prompts,输入到CLIP中的文本编码中:
3.3 Object region and Text label Matching
设计损失函数学习前景区域 V k i o V_k^{io} Vkio和前景的文本 V k t o V_k^{to} Vkto(正样本学习):
3.4 Background region and Text label Matching
设计损失函数学习背景区域 V k b o V_k^{bo} Vkbo和前景的文本 V k t o V_k^{to} Vkto(负样本学习):
3.5. Co-occurring Background Suppression
作者找了一些和目标相似的类别,作为反例进行学习,以减小进行CAM的错误:
v k , l t b v_{k,l}^{tb} vk,ltb表示k个目标的l个相关联的近似的类别:
3.6. Area Regularization
作者认为仅有上三个损失函数,如果在激活图中同时包含了不相关的背景和目标对象,那么CLIP模型仍然可以正确地预测目标对象。故作者设计了一个像素级的区域正则化项来约束激活映射的大小,以确保不相关的背景被排除在激活映射 P k P_k Pk中:
(按照类别数量与像素数量求均值,我没看懂到底为啥这样?有大神能解释下嘛)
3.7. Overall Training Objective
总的损失函数就是对上述四个按照比例求和:
这几个系数为超参数,在模型调整。
Experiments
(这篇论文只讲了生成CAM的方法,作者和上下游的工作相结合,进行很多实验,如下表)
【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation相关推荐
- 【论文阅读】Online Attention Accumulation for Weakly Supervised Semantic Segmentation
一篇弱监督分割领域的论文,其会议版本为: (ICCV2019)Integral Object Mining via Online Attention Accumulation 论文标题: Online ...
- 文章阅读Non-Salient Region Object Mining for Weakly Supervised Semantic Segmentation
Non-Salient Region Object Mining for Weakly Supervised Semantic Segmentation 文章名称:非显著区域对象挖掘的弱监督语义分割 ...
- 【cvpr2022-论文笔记】《Multi-class Token Transformer for Weakly Supervised Semantic Segmentation》
目录 MCTformer-V1 Class-specific multi-class token attention Class-specific attention refinement Class ...
- 【论文阅读】Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation
论文标题: Regional Semantic Contrast and Aggregation for Weakly Supervised Semantic Segmentation 作者信息: 代 ...
- 【论文阅读】Weakly Supervised Semantic Segmentation using Out-of-Distribution Data
一篇弱监督分割领域的论文,发表在CVPR2022上: 论文标题: Weakly Supervised Semantic Segmentation using Out-of-Distribution D ...
- 阅读笔记:Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation
Self-supervised Equivariant Attention Mechanism for Weakly Supervised Semantic Segmentation 基于等变注意力机 ...
- Weakly Supervised Semantic Segmentation with Boundary Exploration
Weakly Supervised Semantic Segmentation with Boundary Exploration 摘要 1 Introduction 2 Related Work 3 ...
- Weakly Supervised Semantic Segmentation list
Weakly Supervised Semantic Segmentation list 文章转自Github:https://github.com/JackieZhangdx/WeakSupervi ...
- 机翻《C-CAM: Causal CAM for Weakly Supervised Semantic Segmentation onMedical Image 》
前言 <C-CAM: Causal CAM for Weakly Supervised Semantic Segmentation onMedical Image>CVPR2022,有源码 ...
最新文章
- 【组队学习】【33期】数据可视化(Matplotlib)
- explode php 报错,PHP函数explode和split的区别
- 【本人秃顶程序员】使用Spring Cloud Stream和RabbitMQ实现事件驱动的微服务
- 说说Keepalived的脑裂
- L8.1 lvs+heartbeat-ldirectord实现高可用负载均衡
- Python元组与列表
- 【并查集】Supermarket(poj 1456/luogu-UVA1316)
- jstl c:choose、c:when和c:otherwise标签的简单使用介绍
- 卸载阿里云服务器的mysql_阿里云服务器购买,双11领阿里云服务器优惠券!
- 深入了解TMG企業版的獨立陣列
- 华为HCIE云计算培训笔记第5天
- VC密码正确无法登陆。证书过期。处理。
- 荣耀v20屏幕测试软件,测量原来可以这么简单 荣耀V20 AR测量功能体验
- python实现千牛客服自动回复语_千牛快捷回复短语大全,千牛自动回复语大全
- OSGi 框架的组件运行机制
- php web 简单的系统,一个简单的Webmail系统_PHP
- 微软Win11 Dev/Beta预览版22581.1(ni_release)发布
- layui弹出层提交表单!
- 子之错父之过什么意思_生活|为什么子不教,父之过,这是什么意思?
- Kotlin 概述【官方】
热门文章
- RK3399平台开发系列讲解(内核入门篇)1.2、如何高效的阅读Linux内核设备驱动
- Connected to the target VM, address: ‘127.0.0.1:62401‘, transport: ‘socket‘ 问题几种解决办法
- html的过渡属性,CSS过渡属性 transition
- static_cast 和 reinterpret_cast
- 企业知识管理的方式有哪些?
- veryzhou_串口调试软件
- SpringBoot2使用Undertow来提高应用性能(spring-boot-starter-undertow)
- Python 学习 --->Anaconda、pyenv、virtualenv、venv
- 组织架构树形结构布局
- 转:用WCAT进行IIS压力测试