无监督/自监督/半监督的景物分割方法
作者丨黄浴@知乎
来源丨https://zhuanlan.zhihu.com/p/359130403
编辑丨计算机视觉工坊
介绍最近的一些无监督/自监督/半监督的景物分割论文。
1 “Semi-Supervised Semantic Segmentation via Dynamic Self-Training and Class-Balanced Curriculum”,arXiv 2004.08514, 4,2020
Dynamic Self-Training and Class-Balanced Curriculum (DST-CBC),这是半监督方法。目前无标注数据的处理有基于GAN或者一致性正则化(Consistency regularization)的方法,但问题是噪声干扰和不平衡类等,或者没有考虑正则化和自学习的联系。DST-CBC通过可信度预测建立针对伪标记(pseudo label)噪声的动态损失函数,并扩展到一个类平衡的课程学习(curriculum learning)进程。
代码和数据上线: https://github.com/voldemortX/DST-CBC
在课程学习的语义分割方法中,有两种处理非标注数据的路子:1)选一个任务课程比pixel-level分割容易;2)学习从容易到难的渐变任务。如下图概览:a)标准cross entropy loss;b)动态weights。
其中伪标注产生的算法如下:
结果比较如下:
2 “Improving Semantic Segmentation via Self-Training“,arXiv 2004.14960,5,2020
先训练一个teacher,利用标注数据,然后在大量无标注数据产生伪标注。最后训练一个student模型,用标注和伪标注的数据。这样加速了训练模型的过程,近2倍。其框图如下:
最挑战的是伪标注的噪声,本文提出centroid sampling方法,即训练前记录包括感兴趣类的区域中心,然后用类级别信息查询训练样本(即围绕类中心扣出image patch)。
另外,作者采用4个学习方案,发现coarse2ne+最佳,即在每个epoch对cropped patch大小进行迭代最大化其尺度变化。
新类的cross domain泛化问题,本文采用一组小标注数据集来进行fine tuning。
结果比较如表:
3 “Naive-Student: Leveraging Semi-Supervised Learning in Video Sequences for Urban Scene Segmentation“,arXiv 2005.10266,7,2020
一种半监督方法,Naive student,避免针对标注传播的复杂架构设计,直接从无标注数据预测伪标注,同时训练模型。其中伪标注产生基于横跨多个数据增强的蒸馏过程,这是一个迭代过程,如图所示:
算法流程如下:监督训练一个teacher网络,然后产生伪标注(test time augmentation),再以此训练一个student网络,最后fine tune该student网络,如此迭代。
整个迭代半监督学习方法示意图如下:
实验结果比较如下:
4 “Unsupervised Learning of Image Segmentation Based on Differentiable Feature Clustering“,arXiv 2007.09990,7,2020
完全无监督方法,采用标注预测和模型学习交替迭代进行,满足:1)相似特征的像素属于同一标注,2)空间一致的像素赋予同一标注;3)唯一标注的数目很大。最小化的损失包括similarity loss和spatial continuity loss,而网络是端到端(E2E),具有聚类的normalization和argmax函数。另外,提供scribble的用户输入,并能对未见过的图像进行分割,只提供少量参考图像即可,无需重新训练网络。如图是该方法的网络训练流程图:
如下是其算法图:
结果比较如下:
5 “Rectifying Pseudo Label Learning via Uncertainty Estimation for Domain Adaptive Semantic Segmentation“,arXiv 2003.03773,10,2020
无监督方法的domain adaptation,即knowledge transfer。针对伪标注的问题,提出prediction uncertainty估计,并修正pseudo label learning。不确定性建模采用方差,并优化求解。
伪标注学习做分割的方法类似半监督,基于energy minimization,产生高可信度的标注预测。主要问题是噪声,所以预测不确定性可以看作一个自动门限方法,调整基于噪声标注的学习。
如图所示:基于Deeplab-v2的双分类器模型实现语义分割,在primary classifier加一个类似结构的auxiliary classifier,目的是估计不确定性方差。
关于方差正则化的伪标注学习,算法如下:
如图是两个分类器结构中预测方差的示意图:
实验结果比较如下:
6 “PseudoSeg: Designing Pseudo Labels For Semantic Segmentation“,arXiv 2010.09731,10,2020
大家知道consistency regularization和pseudo-labeling的组合在半监督学习很受用。本文提出一个新pseudo labeling设计,称为PseudoSeg,为无标注或弱标注数据的训练产生标定好的结构化伪标注。一是直接补偿网络解码器输出的误差,二是融合多个预测源产生伪标注的分类集成(ensemble)。
作者是谷歌intern,source code 上线了,即github.com/googleintern
首先是定位,该文提出采用类激活图(class activation map)的一种,Grad-CAM,对解码器预测进行改进。作者并没有采用复杂的后处理比如dense CRF,而是做CAM得分传播,执行更加高效,该文采用的方法是self attention机制的修正版,即Self-attention Grad-CAM (SGC)。
PseudoSeg无标注数据训练分支结构如图:
其中SGC的图解如下:
相比分割解码器,SGC能产生更局部一致的mask。另外作者还有一个融合策略,将解码器和SGC的结果合并,如图是它们伪标注的输出比较:
数据增强方面,加入jittering和随机CutOut。
实验结果比较如下:
7 “ClassMix: Segmentation-Based Data Augmentation for Semi-Supervised Learning“,arXiv 2007.07936,11,2020
语义分割半监督方法的挑战是,数据增强不是很有效,故此提出ClassMix,对无标注数据进行混合,基于模型对目标边缘的预测。这种增强策略将一个图像的预测类cut一半,然后paste到另外一个图像。
一般分割采用的增强是扰动和CutMix。这里采用了energy minimization和pseudo labeling,和ClassMix组合。
代码上线:https://github.com/WilhelmT/ClassMix
如图是ClassMix的增强方法示意图:
ClassMix的算法如下:
为了改进预测稳定性,这里采用Mean Teacher Framework,一种最新半监督学习方法(“Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning results“,NIPS‘2017)。
结果比较如下:
8 “A Three-Stage Self-Training Framework for Semi-Supervised Semantic Segmentation“,arXiv 2012.00827,12,2020
这里是一个三步自训练网络,半监督的语义分割。主要想法是提取pseudo masks的统计信息降低预测概率的不确定性,在一个多任务框架下加强分割一致性。
如图是三步自监督方法框架:
第一步是分割网络做初始的pseudo masks;第二步是用来学习一个附加任务,其中consistency regularization强迫在这个segmentation任务中,基本上在学习中提取统计信息;第三步是优化过程,替换之前的网络,将高质量pseudo mask的信息进行传播。
算法细节见如下伪代码:
这里consistency loss定义为:
第一步训练初期分割网络的loss函数为:
在第二步,loss函数定义为:
总loss为:
第三步的总loss为:
实验结果比较如下:
本文仅做学术分享,如有侵权,请联系删文。
下载1
在「计算机视觉工坊」公众号后台回复:深度学习,即可下载深度学习算法、3D深度学习、深度学习框架、目标检测、GAN等相关内容近30本pdf书籍。
下载2
在「计算机视觉工坊」公众号后台回复:计算机视觉,即可下载计算机视觉相关17本pdf书籍,包含计算机视觉算法、Python视觉实战、Opencv3.0学习等。
下载3
在「计算机视觉工坊」公众号后台回复:SLAM,即可下载独家SLAM相关视频课程,包含视觉SLAM、激光SLAM精品课程。
重磅!计算机视觉工坊-学习交流群已成立
扫码添加小助手微信,可申请加入3D视觉工坊-学术论文写作与投稿 微信交流群,旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。
同时也可申请加入我们的细分方向交流群,目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群,请扫描下面微信号加群,备注:”研究方向+学校/公司+昵称“,例如:”3D视觉 + 上海交大 + 静静“。请按照格式备注,否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。
▲长按加微信群或投稿
▲长按关注公众号
3D视觉从入门到精通知识星球:针对3D视觉领域的知识点汇总、入门进阶学习路线、最新paper分享、疑问解答四个方面进行深耕,更有各类大厂的算法工程人员进行技术指导。与此同时,星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息,打造成集技术与就业为一体的铁杆粉丝聚集区,近3000星球成员为创造更好的AI世界共同进步,知识星球入口:
学习3D视觉核心技术,扫描查看介绍,3天内无条件退款
圈里有高质量教程资料、可答疑解惑、助你高效解决问题
觉得有用,麻烦给个赞和在看~
无监督/自监督/半监督的景物分割方法相关推荐
- 【小样本基础】有监督小样本,半监督小样本,无监督小样本
本篇博客探讨的主要是小样本的分类问题 目录 1. 问题定义 2. 有监督小样本分类 3. 半监督小样本分类 3.1 基于一致性约束的方法 3.2 基于伪标注的方法 4. 无监督小样本分类 4.1 基于 ...
- 西瓜书+实战+吴恩达机器学习(十六)半监督学习(半监督SVM、半监督k-means、协同训练算法)
文章目录 0. 前言 1. 半监督SVM 2. 半监督k-means 2.1. 约束k-means 2.2. 约束种子k-means 3. 协同训练算法 如果这篇文章对你有一点小小的帮助,请给个关注, ...
- 图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低
点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟 报道 | 公众号 CVLianMeng 转载于 :专知 AI博士笔记系列推荐 ...
- 10亿级数据规模的半监督图像分类模型,Imagenet测试精度高达81.2% | 技术头条...
译者 | linstancy 作者| I. Zeki Yanlniz, Herve Jegou, Kan Chen, Manohar Paluri, Dhruv Mahajan 编辑 | 蓝色琥珀鱼, ...
- Facebook AI 提出10亿级数据规模的半监督图像分类模型,ImageNet测试精度高达81.2%!...
译者 | linstancy 作者| I. Zeki Yanlniz, Herve Jegou, Kan Chen, Manohar Paluri, Dhruv Mahajan 编辑 | 蓝色琥珀鱼, ...
- 李宏毅ML笔记12:半监督
目录 生成式模型 有监督生成式模型 半监督生成式模型 直观解释 具体操作 基本原理 低密度分离假设 Self Training Self Training与generative model对比 基于熵 ...
- 【半监督医学图像分割 2021 TMI】SimCVD 论文翻译
文章目录 [半监督医学图像分割 2021 TMI]SimCVD 论文翻译 摘要 1. 介绍 2. 相关工作 3. 方法 3.1 总览 3.2 任务制定 3.3 基础体系结构 3.4 边缘对比蒸馏 4. ...
- 【半监督论文综述】A survey on semi-supervised learning
下载 半监督学习 1. 半监督学习 1.1 三个假设 1.1.1 平滑假设 1.1.2 低密度假设 1.1.3 流形假设 1.1.4 聚类假设 1.2. 评估半监督学习算法 2. 半监督学习算法分类 ...
- 融合一致性正则与流形正则的半监督深度学习算法
融合一致性正则与流形正则的半监督深度学习算法 王杰1,2, 张松岩1,2, 梁吉业1,2 1山西大学计算机与信息技术学院 2计算智能与中文信息处理教育部重点实验室 摘要:半监督学习已被广泛应用于大数据 ...
- 监督学习和无监督学习_让半监督学习再次伟大!谷歌最新无监督数据增强研究,全面超越现有半监督学习方法...
新智元报道 来源:GoogleAI 编辑:元子 [新智元导读]Google AI最新研究用无监督数据增强推进半监督学习,取得令人瞩目的成果.该方法超越了所有现有的半监督学习方法,并实现了仅使用 ...
最新文章
- Nginx与websocket或socketio的负载均衡
- java多线程(一)-Thread类和Runnable接口
- 深入理解Spring Redis的使用 (一)、Spring Redis基本使用
- c语言抓取抖音视频,【FiddlerScript】利用Fiddler中的FiddlerScript自动抓取抖音无水印视频并且自动保存...
- 不能将参数转化为lparam_如何将管理需求转化为信息化方案
- 多闪实名举报河南法院;ofo 内部发反腐文件;库克访华点赞故宫 App | 极客头条...
- 时序数据库技术体系-时序数据存储模型设计
- GraphQL教程(三) .net core api
- 爪哇国新游记之二十----将数字转换成中国汉字大写形式
- J1939 入门教程
- java安装了怎么打开_怎么安装打开java
- Python爬虫【一】爬取移动版“微博辟谣”账号内容(API接口)
- 数学分析原理 定理 6.10
- 详解WIFI能用但是电脑不能上网怎么解决
- 外企计算机英语,职场英语:外企生存十大必备英语词汇
- 嵌入式系统与普适计算
- 随手笔记Cookie
- 实战演练--保存QQ账号与密码
- 【笔记】编程的原则:改善代码质量的101个方法
- Ceph新长支持稳定版本Luminous(12.x.x)新功能总结