CVPR 2021 | 北大MSRA提出CPS：基于交叉伪监督的半监督语义分割

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

作者：Charles | 源：知乎

https://zhuanlan.zhihu.com/p/378120529

在这篇文章，我们将解读一下我们发表在CVPR 2021的工作CPS: Semi-Supervised Semantic Segmentation with Cross Pseudo Supervision. 我们提出的半监督语义分割算法，在Cityscapes数据集中，使用额外3000张无标注的图像，可以在val set达到82.4% mIoU （单尺度测试）。

作者单位：北京大学，微软亚洲研究院

代码：https://github.com/charlesCXK/TorchSemiSeg

论文：https://arxiv.org/abs/2106.01226

在这篇论文中，我们为半监督语义分割任务设计了一种非常简洁而又性能很好的算法：cross pseudo supervision (CPS)。训练时，我们使用两个相同结构、但是不同初始化的网络，添加约束使得两个网络对同一样本的输出是相似的。具体来说，当前网络产生的one-hot pseudo label，会作为另一路网络预测的目标，这个过程可以用cross entropy loss监督，就像传统的全监督语义分割任务的监督一样。我们在两个benchmark (PASCAL VOC, Cityscapes) 都取得了SOTA的结果。

Motivation

从上面的介绍我们可以简单总结一下：

Self-training可以通过pseudo labelling扩充数据集。
CPC可以通过consistcency learning，鼓励网络学习到一个更加compact的特征编码。

大家近年来都focus在consistency learning上，而忽略了self-training。实际上，我们实验发现，self-training在数据量不那么小的时候，性能非常的强。那么我们很自然的就想到，为什么不把这两种方法结合起来呢？于是就有了我们提出的CPS：cross pseudo supervision。

Cross Pseudo Supervision (CPS)

我们可以看到，CPS的设计非常的简洁。训练时，我们使用两个网络f(θ1) 和 f(θ2)。这样对于同一个输入图像X，我们可以有两个不同的输出P1和P2。我们通过argmax操作得到对应的one-hot标签Y1和Y2。类似于self-training中的操作，我们将这两个伪标签作为监督信号。举例来说，我们用Y2作为P1的监督，Y1作为P2的监督，并用cross entropy loss约束。

对于这两个网络，我们使用相同的结构，但是不同的初始化。我们用PyTorch框架中的kaiming_normal进行两次随机初始化，而没有对初始化的分布做特定的约束。当然了，如果设计特定的初始化，没准CPS的效果会更好~

在测试的时候，我们只使用其中一个网络进行inference，所以不增加任何测试/部署时候的开销。

实验部分

（1）Low data setting。

首先是有标签数据比较少的情况。

我们的方法在VOC和Cityscapes两个数据集的几种不同的数据量情况下都达到了SOTA。表格中 1/16, 1/4等表示用原始训练集的 1/16, 1/4作为labeled set，剩余的 15/16, 3/4作为unlabeled set。

在跟PseudoSeg的对比中，和他们同样的数据划分list，我们也超越了他们的性能：

这是我们的方法跟self-training进行比较的结果。可以看到，我们的方法由于鼓励模型学习一个更加compact的特征编码，显著地优于self-training。

（2）High data setting。

我们还在数据量比较多的情况下进行了实验。在Cityscapes数据集，我们拿训练集的全部图片（大约3000张）作为labeled set，并从coarse set中随机采样3000张RGB图片作为unlabeled set。我们在两个模型进行了实验：DeepLabv3+和HRNet-W48。可以看到，我们的半监督算法可以在非常强的baseline上显著提高性能，最终HRNet-W48在验证集上可以达到单尺度测试下82.4%的mIoU。

可视化

（1）分割预测的定量结果。

我们在PASCAL VOC数据集上可视化了一些分割的预测结果。（c）列是仅使用labeled data进行训练的结果，（d）（e）列是我们的预测，（b）列是真值标签。可以看出，由于标注数据很少，（c）的结果不能准确识别物体的语义和边界，而我们CPS可以很好地处理这些问题。

（2）两个网络的性质分析。

我们在PASCAL VOC上可视化了双路网络的预测的标签的重合情况。我们可以看到，训练初期，overlap较小，通过约束一致性，可以防止单个网络往错误的方向去优化。随着训练迭代，overlap逐渐增大，说明两个网络的预测都变得更加准确。

CVPR和Transformer资料下载后台回复：CVPR2021，即可下载CVPR 2021论文和代码开源的论文合集
后台回复：Transformer综述，即可下载最新的两篇Transformer综述PDF
CVer-图像分割交流群成立
扫码添加CVer助手，可申请加入CVer-图像分割 微信交流群，方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注：研究方向+地点+学校/公司+昵称（如图像分割+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群
▲长按加小助手微信，进交流群▲点击上方卡片，关注CVer公众号
整理不易，请给CVer点赞和在看