无监督/自监督/半监督的景物分割方法

作者丨黄浴@知乎

来源丨https://zhuanlan.zhihu.com/p/359130403

编辑丨计算机视觉工坊

介绍最近的一些无监督/自监督/半监督的景物分割论文。

1 “Semi-Supervised Semantic Segmentation via Dynamic Self-Training and Class-Balanced Curriculum”，arXiv 2004.08514， 4，2020

Dynamic Self-Training and Class-Balanced Curriculum (DST-CBC)，这是半监督方法。目前无标注数据的处理有基于GAN或者一致性正则化（Consistency regularization）的方法，但问题是噪声干扰和不平衡类等，或者没有考虑正则化和自学习的联系。DST-CBC通过可信度预测建立针对伪标记（pseudo label）噪声的动态损失函数，并扩展到一个类平衡的课程学习（curriculum learning）进程。

代码和数据上线: https://github.com/voldemortX/DST-CBC

在课程学习的语义分割方法中，有两种处理非标注数据的路子：1）选一个任务课程比pixel-level分割容易；2）学习从容易到难的渐变任务。如下图概览：a）标准cross entropy loss；b）动态weights。

其中伪标注产生的算法如下：

结果比较如下：

2 “Improving Semantic Segmentation via Self-Training“，arXiv 2004.14960，5，2020

先训练一个teacher，利用标注数据，然后在大量无标注数据产生伪标注。最后训练一个student模型，用标注和伪标注的数据。这样加速了训练模型的过程，近2倍。其框图如下：

最挑战的是伪标注的噪声，本文提出centroid sampling方法，即训练前记录包括感兴趣类的区域中心，然后用类级别信息查询训练样本（即围绕类中心扣出image patch）。

另外，作者采用4个学习方案，发现coarse2ne+最佳，即在每个epoch对cropped patch大小进行迭代最大化其尺度变化。

新类的cross domain泛化问题，本文采用一组小标注数据集来进行fine tuning。

结果比较如表：

3 “Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences for Urban Scene Segmentation“，arXiv 2005.10266，7，2020

一种半监督方法，Naive student，避免针对标注传播的复杂架构设计，直接从无标注数据预测伪标注，同时训练模型。其中伪标注产生基于横跨多个数据增强的蒸馏过程，这是一个迭代过程，如图所示：

算法流程如下：监督训练一个teacher网络，然后产生伪标注（test time augmentation），再以此训练一个student网络，最后fine tune该student网络，如此迭代。

整个迭代半监督学习方法示意图如下：

实验结果比较如下：

4 “Unsupervised Learning of Image Segmentation Based on Differentiable Feature Clustering“，arXiv 2007.09990，7，2020

完全无监督方法，采用标注预测和模型学习交替迭代进行，满足：1）相似特征的像素属于同一标注，2）空间一致的像素赋予同一标注；3）唯一标注的数目很大。最小化的损失包括similarity loss和spatial continuity loss，而网络是端到端（E2E），具有聚类的normalization和argmax函数。另外，提供scribble的用户输入，并能对未见过的图像进行分割，只提供少量参考图像即可，无需重新训练网络。如图是该方法的网络训练流程图：

如下是其算法图：

结果比较如下：

5 “Rectifying Pseudo Label Learning via Uncertainty Estimation for Domain Adaptive Semantic Segmentation“，arXiv 2003.03773，10，2020

无监督方法的domain adaptation，即knowledge transfer。针对伪标注的问题，提出prediction uncertainty估计，并修正pseudo label learning。不确定性建模采用方差，并优化求解。

伪标注学习做分割的方法类似半监督，基于energy minimization，产生高可信度的标注预测。主要问题是噪声，所以预测不确定性可以看作一个自动门限方法，调整基于噪声标注的学习。

如图所示：基于Deeplab-v2的双分类器模型实现语义分割，在primary classifier加一个类似结构的auxiliary classifier，目的是估计不确定性方差。

关于方差正则化的伪标注学习，算法如下：

如图是两个分类器结构中预测方差的示意图：

实验结果比较如下：

6 “PseudoSeg: Designing Pseudo Labels For Semantic Segmentation“，arXiv 2010.09731，10，2020

大家知道consistency regularization和pseudo-labeling的组合在半监督学习很受用。本文提出一个新pseudo labeling设计，称为PseudoSeg，为无标注或弱标注数据的训练产生标定好的结构化伪标注。一是直接补偿网络解码器输出的误差，二是融合多个预测源产生伪标注的分类集成（ensemble）。

作者是谷歌intern，source code 上线了，即github.com/googleintern

首先是定位，该文提出采用类激活图（class activation map）的一种，Grad-CAM，对解码器预测进行改进。作者并没有采用复杂的后处理比如dense CRF，而是做CAM得分传播，执行更加高效，该文采用的方法是self attention机制的修正版，即Self-attention Grad-CAM (SGC)。

PseudoSeg无标注数据训练分支结构如图：

其中SGC的图解如下：

相比分割解码器，SGC能产生更局部一致的mask。另外作者还有一个融合策略，将解码器和SGC的结果合并，如图是它们伪标注的输出比较：

数据增强方面，加入jittering和随机CutOut。

实验结果比较如下：

7 “ClassMix: Segmentation-Based Data Augmentation for Semi-Supervised Learning“，arXiv 2007.07936，11，2020

语义分割半监督方法的挑战是，数据增强不是很有效，故此提出ClassMix，对无标注数据进行混合，基于模型对目标边缘的预测。这种增强策略将一个图像的预测类cut一半，然后paste到另外一个图像。

一般分割采用的增强是扰动和CutMix。这里采用了energy minimization和pseudo labeling，和ClassMix组合。

代码上线：https://github.com/WilhelmT/ClassMix

如图是ClassMix的增强方法示意图：

ClassMix的算法如下：

为了改进预测稳定性，这里采用Mean Teacher Framework，一种最新半监督学习方法（“Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results“，NIPS‘2017）。

结果比较如下：

8 “A Three-Stage Self-Training Framework for Semi-Supervised Semantic Segmentation“，arXiv 2012.00827，12，2020

这里是一个三步自训练网络，半监督的语义分割。主要想法是提取pseudo masks的统计信息降低预测概率的不确定性，在一个多任务框架下加强分割一致性。

如图是三步自监督方法框架：

第一步是分割网络做初始的pseudo masks；第二步是用来学习一个附加任务，其中consistency regularization强迫在这个segmentation任务中，基本上在学习中提取统计信息；第三步是优化过程，替换之前的网络，将高质量pseudo mask的信息进行传播。

算法细节见如下伪代码：

这里consistency loss定义为：

第一步训练初期分割网络的loss函数为：

在第二步，loss函数定义为：

总loss为：

第三步的总loss为：

实验结果比较如下：

本文仅做学术分享，如有侵权，请联系删文。

下载1

在「计算机视觉工坊」公众号后台回复：深度学习，即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。

下载2

在「计算机视觉工坊」公众号后台回复：计算机视觉，即可下载计算机视觉相关17本pdf书籍，包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。

下载3

在「计算机视觉工坊」公众号后台回复：SLAM，即可下载独家SLAM相关视频课程，包含视觉SLAM、激光SLAM精品课程。

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近3000星球成员为创造更好的AI世界共同进步，知识星球入口：

学习3D视觉核心技术，扫描查看介绍，3天内无条件退款

圈里有高质量教程资料、可答疑解惑、助你高效解决问题

觉得有用，麻烦给个赞和在看~