下载

半监督学习

  • 1. 半监督学习
    • 1.1 三个假设
      • 1.1.1 平滑假设
      • 1.1.2 低密度假设
      • 1.1.3 流形假设
      • 1.1.4 聚类假设
    • 1.2. 评估半监督学习算法
  • 2. 半监督学习算法分类
    • 2.1 Inductive methods
      • 2.1.1. Wrapper methods
        • 2.1.1.1 Self-training
        • 2.1.1.2 Co-Training
          • 2.1.1.2.1 Multi-view co-training
          • 2.1.1.2.2 Single-view co-training
          • 2.1.1.2.3 Co-regularization
        • 2.1.1.2 Boosting
      • 2.1.2 Unsupervised preprocessing
        • 2.1.2.1 Feature extraction
        • 2.1.2.2 Cluster-then-label
        • 2.1.2.3 Pre-training
      • 2.1.3 Intrinsically semi-supervised methods
    • 2.2 transductive methods

1. 半监督学习

DL=((xi,yi))i=1l,xi∈XD_{L}=\left(\left(x_{i}, y_{i}\right)\right)_{i=1}^{l}, x_i \in \mathcal{X}DL​=((xi​,yi​))i=1l​,xi​∈X 表示带标签的数据, 其中xix_ixi​来自输入空间X\mathcal{X}X。
DU=(xi)i=l+1l+uD_{U}=\left(x_{i}\right)_{i=l+1}^{l+u}DU​=(xi​)i=l+1l+u​ 表示无标签的数据。
半监督区别于有监督的学习,是除了会使用到带标签的数据训练之外,还会额外的将不带标签的测试集的数据放到模型中去训练(这里不一定是测试集数据,可能是无标签的训练集数据)。

1.1 三个假设

1.1.1 平滑假设

在空间中相邻的两个点标签应该是相同的。这个假设在有监督学习中也存在,但是在半监督学习中得到了拓展,对于无标签的点也适用。举个例子,空间中有三个点x1,x2,x3x_1, x_2, x_3x1​,x2​,x3​, 其中 x1x_1x1​有标签,其余的两个点没有标签。x2x_2x2​与x1x_1x1​相邻,x3x_3x3​与x2x_2x2​相邻,且x3x_3x3​与x1x_1x1​不相邻,那么从假设中我们可以推出x3x_3x3​应该与x1x_1x1​的标签一致。也就是说标签通过x2x_2x2​,传递到了x3x_3x3​。

1.1.2 低密度假设

低密度假设意味着分类器的决策边界应该优选地通过输入空间中的低密度区域。换句话说,决策 边界不应通过高密度区域。

1.1.3 流形假设

在数据可以在欧几里得空间中表示的机器学习问题中,在高维输入空间 Rd\mathbb{R}^dRd 中观察到的数据点通常集中在低维子结构中。这些子结构被称为流形:局部欧几里得的拓扑空间。
半监督学习中的流形假设指出:

  1. 输入空间由多个低维流形组成,所有数据点都位于这些流形上。
  2. 位于同一流形上的数据点具有相同的标签。

1.1.4 聚类假设

在半监督学习研究中,通常包含一个额外的假设是集群假设,它指出属于同一集群的数据点属于同一类。然而,我们认为,前面提到的假设和集群假设并不是相互独立的,而是集群假设是其他假设的概括。

换句话说:如果数据点(未标记和已标记)无法进行有意义的聚类,则半监督学习方法不可能改进监督学习方法。

1.2. 评估半监督学习算法

在监督学习中,这些包括数据集的选择,将这些数据集划分为训练集、验证集和测试集,以及调整超参数的程度。在半监督学习中,其他因素会发挥作用。首先,在许多基准测试场景中,必须决定哪些数据点应该被标记,哪些应该保持未标记。其次,可以选择在用于训练的未标记数据(根据定义,在直推学习中就是这种情况)或完全不相交的测试集上评估学习器的性能(归纳学习)。此外,重要的是建立高质量的监督基线,以便正确评估未标记数据的附加值。在实践中,过度限制评估范围可能会导致对学习算法性能的不切实际的看法。

正如在实践中所观察到的,数据集的选择及其划分会对不同半监督学习算法的相对性能产生重大影响。为了对半监督学习算法进行真实的评估,研究人员因此应该在具有不同数量的标记和未标记数据的不同数据集上评估他们的算法。

他们报告了大多数算法的显着性能改进,并观察到错误率通常会随着添加更多未标记数据点而下降(不删除任何标记数据点)。仅当标记数据中存在的类别与未标记数据中存在的类别不匹配时,才会观察到性能下降。这些结果确实很有希望:它们表明,在图像分类任务中,神经网络可以使用未标记的数据来持续提高性能。对于未来的研究来说,调查其他类型的数据是否也可以获得这些一致的性能改进是一个有趣的途径。

2. 半监督学习算法分类

其中归纳方法(Inductive)是以预测样本空间所有看不到的点为目标,而直推学习(transdective)是以预测测试集中无标签数据为目标。

2.1 Inductive methods

2.1.1. Wrapper methods

综述中,表述为包装方法,其实是说这一类方法是通过一组有监督的分类器通过有标签数据训练,然后预测无标签数据,最后将最自信的样本打上伪标签,并加入到分类器训练中。

2.1.1.1 Self-training

选用一个有监督的模型,在开始的时候只用存在的有标签数据进行训练。训练好之后,在每次迭代过程中加入最自信的样本打上伪标签,此时的训练数据包含原始的有标签数据以及有标签数据,直到所有无标记数据都打上伪标签。

缺点:从这里可以知道,自训练的缺点,就是正向反馈,随着伪标签数据的加入,错误可能越滚越大。

Self-training methods (sometimes also called “self-learning” methods) are the most basic
of pseudo-labelling approaches (Triguero et al. 2015).

Notice: 注意这里,自训练只是伪标签技术的一种。其中,自训练是每次加入伪标签重新训练,而伪标签技术是在已有模型上加入伪标签进行微调,这一点原文中描述偏离了包装方法的范式(有监督模型区分了伪标签和已有标签)。

2.1.1.2 Co-Training

协同训练是自我训练对多个监督分类器的扩展。在协同训练中,两个或多个监督分类器在标记数据上进行迭代训练,在每次迭代中将它们最可靠的预测添加到其他监督分类器的标记数据集中。要使协同训练成功,重要的是基础学习器在其预测中的相关性不要太强。如果是这样,那么它们相互提供有用信息的潜力就会受到限制。在文献中,这种情况通常被称为多样性标准。

Zhou and Li (2010) provided a survey of semi-supervised learning methods relying on multiple base learners.(分歧)

2.1.1.2.1 Multi-view co-training

Blum 和 Mitchell (1998) 提出了协同训练的基本形式。在他们的开创性论文中,他们提议构建两个分类器,这些分类器在给定数据的两个不同视图(即特征子集)上进行训练。(Notice:这个应该算是协同训练的开山之作。)

2.1.1.2.2 Single-view co-training

实际上,平时我们接触到的数据集都是单视图下的数据,如下,也有研究将单视图数据转化为多视图的方法。Du (2011) 研究了实证方法,以确定充分性和独立性假设在多大程度上成立。他们提出了几种将特征集自动拆分为两个视图的方法,并表明由此产生的经验独立性和充分性与协同训练算法的性能正相关,表明优化充分性和独立性的特征分割会导致良好的分类器。

Zhou and Li (2005b)提出了tri-training,其中三个分类器交替训练。
Li and Zhou 2007拓展超过三个模型来做协同训练,该模型被称为co-forest。感觉上这里已经不好下手了,甚至对于伪标签都提出了再过滤的方法。

2.1.1.2.3 Co-regularization

Co-training methods reduce disagreement between classifiers by passing information between them, in the form of pseudo-labelled data.

2.1.1.2 Boosting

这个分类是说将监督学习中的集成学习用在半监督学习中。其中,有两类:

  1. bagging: 对于每个基学习器选用原数据中的一部分(随机采样)来训练,基学习器之间是独立的。这个满足了协同训练的基础,原文中没在赘述。
  2. boosting: 每个基学习器都用完整的数据集训练,最终结果通过基学习器的加权和来算。
    FT−1(x)=∑t=1T−1αt⋅ht(x)F_{T-1}(\mathbf{x})=\sum_{t=1}^{T-1} \alpha_{t} \cdot h_{t}(\mathbf{x}) FT−1​(x)=t=1∑T−1​αt​⋅ht​(x)

半监督 + 多分类
半监督 + 多标签

2.1.2 Unsupervised preprocessing

2.1.2.1 Feature extraction

最近的半监督特征提取方法主要集中在使用深度神经网络寻找输入数据的潜在表示。最突出的例子是自动编码器(autoencoder):具有一个或多个隐藏层的神经网络,其目标是重建其输入。

2.1.2.2 Cluster-then-label

聚类和分类传统上被认为是相对不相交的研究领域。然而,许多半监督学习算法使用聚类原理来指导分类过程。聚类然后标记方法形成一组明确加入聚类和分类过程的方法:它们首先将无监督或半监督聚类算法应用于所有可用数据,并使用生成的聚类来指导分类过程。

2.1.2.3 Pre-training

在预训练方法中,未标记的数据用于在应用监督训练之前将决策边界引导到可能感兴趣的区域。

这种方法自然适用于深度学习方法,其中分层模型的每一层都可以被认为是输入数据的潜在表示。与这种范式相对应的最常见的算法是深度信念网络(deep belief networks )和堆叠自动编码器(stacked autoencoders)。这两种方法都基于人工神经网络,旨在使用未标记数据将网络的参数(权重)引导到模型空间中的感兴趣区域,然后使用标记数据对参数进行微调。

2.1.3 Intrinsically semi-supervised methods

传送门

2.2 transductive methods

【半监督论文综述】A survey on semi-supervised learning相关推荐

  1. 深度强化学习综述论文 A Brief Survey of Deep Reinforcement Learning

    A Brief Survey of Deep Reinforcement Learning 深度强化学习的简要概述 作者: Kai Arulkumaran, Marc Peter Deisenroth ...

  2. 图构造总结-Graph‑based semi‑supervised learning via improving the quality of the graph dynamically

    前言 本博文主要对论文中提到的图构造方法进行梳理,论文自己提出的模型并未介绍,感兴趣的可以阅读原文 摘要 基于图的半监督学习GSSL主要包含两个过程:图的构建和标签推测.传统的GSSL中这两个过程是完 ...

  3. 【半监督医学图像分割 2022 CVPR】S4CVnet 论文翻译

    文章目录 [半监督医学图像分割 2022 CVPR]S4CVnet 摘要 1. 介绍 2. 相关工作 3. 方法 3.1 CNN & ViT 3.2 特征学习模块 3.3 引导模块 3.4 目 ...

  4. 半监督3D医学图像分割(三):URPC

    Efficient Semi-supervised Gross Target Volume of Nasopharyngeal Carcinoma Segmentation via Uncertain ...

  5. 【论文导读】- Link Weight Prediction Using Supervised Learning Methods(使用监督学习方法的链路权重预测及其在Yelp网络中的应用)

    文章目录 论文信息 摘要 主要内容(contributions) 图模型和评价指标 特征指标 原图特征指标 原始图转线图 线图特征指标 论文信息 Link Weight Prediction Usin ...

  6. 图像分类最新技术综述论文: 21种半监督、自监督和无监督学习方法一较高低

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 编辑:Sophia 计算机视觉联盟  报道  | 公众号 CVLianMeng 转载于 :专知 AI博士笔记系列推荐 ...

  7. 扩散模型(Diffusion)最新综述+GitHub论文汇总-A Survey On Generative Diffusion

    扩散模型(Diffusion Model)最新综述+GitHub论文汇总-A Survey On Generative Diffusion 本综述来自香港中文大学Pheng-Ann Heng.西湖大学 ...

  8. 【读点论文】A Survey on Vision Transformer,2022年华为诺亚最新综述研究,从发展到任务,整体到局部。ViT有研究价值在于有很多问题还没有解决,真理是阶段性的产物

    A Survey on Vision Transformer Abstract transformer最早应用于自然语言处理领域,是一种主要基于自注意机制的深度神经网络.由于其强大的表示能力,研究人员 ...

  9. 自监督、半监督、无监督学习,傻傻分不清楚?最新综述来帮你!

    点击我爱计算机视觉标星,更快获取CVML新技术 推荐给大家一篇昨天arXiv新出的论文 : A survey on Semi-, Self- and Unsupervised Techniques i ...

最新文章

  1. ASP.NET AJAX环境的简单构建(ZT)
  2. python适合做后端开发吗-用Python做后台开发,看这一篇就够了
  3. vim一直以来的切换命令行窗口(term)执行程序的烦恼终于由8.1版本的一个命令解决了
  4. joptionpane java_Java JOptionPane
  5. 三类基于贪心思想的区间覆盖问题
  6. 微软笔试题(看到的写答案啊)
  7. 18张颠覆三观的照片!
  8. 最全的mysql 5.7.13_最全的mysql 5.7.13 安装配置方法图文教程(linux) 强烈推荐!
  9. html轮播文字上下轮播,js、jQuery实现文字上下无缝轮播、滚动效果
  10. 关于单体化和属性文件的说明
  11. 数据结构 5-2 二叉树建树
  12. win11关机后主机依旧运行怎么办 Windows11关机后主机依旧运行的解决方法
  13. android焦点动画,Android编程中PopupWindow的用法分析【位置、动画、焦点】
  14. Linux下rpm安装MySQL及配置
  15. vue 图片服务器不显示,vue 打包放服务器,css样式不显示-Go语言中文社区
  16. QQ解封地址大全集合
  17. 家谱宗族网站源码_云码宗谱网络家谱软件
  18. VC模拟鼠标的两种方式(SendMessage、mouse_event)
  19. 计算机网络与云技术计算,计算机网络云计算技术(原稿)
  20. Snapper:通过同义、分类关键词快速定位并调用WAV文件

热门文章

  1. html定时载入jquery,JQuery定时器(jQuery Timers)
  2. 化繁为简,爆款语聊产品背后的业务逻辑
  3. 【C++】C++中函数重载的理解
  4. window7远程桌面到服务器不能复制粘贴解决办法
  5. 【mac软件】Acorn 7.3.2 轻量图片处理软件
  6. G-Ghost-RegNet实战:使用G-Ghost-RegNet实现图像分类任务(一)
  7. Linux磁盘加密分析
  8. 利用adobe audition cc2014中置声道提取制作伴奏
  9. 编程从键盘上输入一行字符,依次读入字符显示在屏幕上,以回车结束输入
  10. Scratch《侠盗飞车》游戏源码.sb文件