【论文阅读】Cross Language Image Matching for Weakly Supervised Semantic Segmentation

这篇论文是CLIP模型较早的在弱监督分割上应用的论文。

论文标题：

Cross Language Image Matching for Weakly Supervised Semantic Segmentation

作者信息：

代码地址：

https://github.com/CVI-SZU/CLIMS

Abstract

（CAM的缺点）CAM只激活个别类别的对象区域，并且经常错误的把很多相似的区域也包含进来。
（WSSS的缺点）传统的WSSS只給一个标签，无法抑制其他物体的边界。
作者提出了 Cross Language Image Matching (CLIMS)，核心想法就是通过NLP的监督（和CLIP相同）获得更完整的CAM的物体图像，并且抑制近似类别但属于背景的区域。
作者设计了三个损失函数，分别是 1.object region loss 2.background region loss 3. label matching loss

Introduction

（现存框架的问题）常规WSSS任务三段：1.生成CAM.2细化CAM.3训练完整的分割模型。
仅有固定的物体类别能进行训练，在产生CAM的过程中出现了不必要的背景信息的激活。

（作者方法的优势）CLIMS是基于CLIP的，CLIP可以从NLP中学习更广阔的语义的概念，而不仅仅只是预先确定好的类别，那么CLIMS就有潜力学习到多个类别的高质量的CAM，剔除一些无关的背景。

（关键做法）作者使用卷积层替换掉了GAP和全连接，让后面的CLIP层直接引导CAM的生成。又提出三个损失函数：
L O T M L_{OTM} LOTM:Object region and Text label Matching Loss (目标区域和text label的匹配损失)
L B T M L_{BTM} LBTM:Back ground region and Text label Matching Loss（背景区域和text label的匹配损失）
L C B S L_{CBS} LCBS:Co-occurring Background Suppression loss(目标相似类别区域和text label的匹配损失)

Methodology

3.1. Revisiting the Conventional CAM

常规的CAM的生成：图像卷积后输入GAP，FCN训练分类模型。然后对特征层应用1×1的卷积，生成CAM。
交叉熵训练分类模型：

应用卷积：

传统CAM无法很难区分需要激活和不必要激活的对象背景部分。

3.2. Cross Language Image Matching Framework

作者去除了GAP，直接从卷积+sigmoid生成一个初始的一个包含前景信息的特征 P k P_k Pk：

根据 P k P_k Pk进行在图像上选取前景 P k P_k Pk和背景区域 1 − P k 1-P_k 1−Pk，输入的CLIP的图像编码中获得representation
vectors：

同时应用CLIP中对标签的处理方法，生成text prompts，输入到CLIP中的文本编码中：

3.3 Object region and Text label Matching

设计损失函数学习前景区域 V k i o V_k^{io} Vkio和前景的文本 V k t o V_k^{to} Vkto(正样本学习):

3.4 Background region and Text label Matching

设计损失函数学习背景区域 V k b o V_k^{bo} Vkbo和前景的文本 V k t o V_k^{to} Vkto（负样本学习）:

3.5. Co-occurring Background Suppression

作者找了一些和目标相似的类别，作为反例进行学习，以减小进行CAM的错误：
v k , l t b v_{k,l}^{tb} vk,ltb表示k个目标的l个相关联的近似的类别：

3.6. Area Regularization

作者认为仅有上三个损失函数，如果在激活图中同时包含了不相关的背景和目标对象，那么CLIP模型仍然可以正确地预测目标对象。故作者设计了一个像素级的区域正则化项来约束激活映射的大小，以确保不相关的背景被排除在激活映射 P k P_k Pk中:

(按照类别数量与像素数量求均值，我没看懂到底为啥这样？有大神能解释下嘛)

3.7. Overall Training Objective

总的损失函数就是对上述四个按照比例求和：

这几个系数为超参数，在模型调整。

Experiments

（这篇论文只讲了生成CAM的方法，作者和上下游的工作相结合，进行很多实验，如下表）