文章目录

  • 什么是「有监督学习(Supervised Learning)」
    • 「有监督学习」任务的缺点
  • 什么是「无监督学习(Unsupervised Learning)」
    • 「无监督学习」任务的缺点
  • 什么是「半监督学习(Semi-supervised Learning)」
    • 「半监督学习」任务的缺点

什么是「有监督学习(Supervised Learning)」

所谓「有监督学习」,指的是使用既有 「特征 xxx」 又有 「标签 yyy」 的数据,

f(x)=ωx+bf(x) = \omega x + b f(x)=ωx+b

我们通过模型输入 xxx,得到预测输出 y^\hat yy^​,然后通过比较标签 yyy 和 y^\hat yy^​ 的差异情况,来调节模型的权重 ω\omegaω,最终使模型达到或趋近观测情况的建模过程。

常见的「有监督学习」的机器学习方法如下:

  • 支持向量机(Support Vector Machines)
  • 神经网络算法(Neural network algorithm)
  • 线性回归(linear regression)
  • 逻辑回归(logistic regression)
  • 朴素贝叶斯(naive Bayes)
  • 线性判别分析(linear discriminant analysis)
  • 决策树(decision trees)
  • K-近邻(k-nearest neighbor algorithm)

「有监督学习」任务的缺点

因为要求训练数据都是有标注的,而数据标注成本往往十分巨大,这是因为基本上数据标注都是人手工标注,数据标注花费的人力、物力、财力不是普通组织和个人所能承担。这导致对于大多数公司、个人、学校甚至研究机构来说,可应用范围受限,从事「机器学习」方面的组织和个人,于是只能通过仅有的开源数据集调试、训练自己的模型。

什么是「无监督学习(Unsupervised Learning)」

无监督学习,我们并不是很幸运的能在任何场景下都能获得一组 「特征 xxx」「标签 yyy」,如果得到的数据 xxx 本身有一定的客观规律或特性,我们可以 通过分析数据本身的客观规律,通过统计学的方法,找出适用的模型

常见的「无监督学习」的机器学习方法如下:

  • 聚类
  • 主成分分析方法(PCA)
  • 密度估计(Density Estimation)
  • 异常检测(Anomaly Detection)

「无监督学习」任务的缺点

真实生活中,绝大部份数据都是无标注数据,对无标注数据的研究,也是未来AI方向的重点。但是正因为缺少了必要的标注,导致很多在「有监督学习」中表现良好的工具,无法在没有数据标注的场景下发挥使用。

另一方面,现有的「无监督学习」工具能够处理的任务十分简单,复杂环境下比如「信噪比」偏低,或者数据特征不明显的,几乎无法使用。尽管「无监督学习」才是未来AI的主流,但是发展困难重重。在当下企业的应用中,「无监督学习」大多只使用到类似「聚类」技术,并且仅用在了传统的安全和行为检测上。

什么是「半监督学习(Semi-supervised Learning)」

为了能够处理「有监督学习」工具无法应用在「无监督学习」场景的问题,有一部分科学家提出对无标注数据进行部分标注,而提出了「半监督学习」的概念。

对于半监督学习,其训练数据的一部分是有标签的,另一部分没有标签,而没标签数据的数量常常极大于有标签数据数量(这也是符合现实情况的)。

我们从统计学的经验出发,于已标注数据相关的数据,必然是不完全随机的,于是我们可以数据的分布情况,从而揭示或得到一个可接受的分类结果。

比如说我们训练模型,让模型能够识别出猫的照片,我们可以人工标注数百张猫的图片后,先给机器进行训练,得到一个粗糙的结果。之后再喂给模型数千没有标注的,但是有猫的图片让模型从数据中总结出一个统计学性质的特征信息。

通常,「半监督学习」涉及的知识分为可以按照树图描述如下

「半监督学习」任务的缺点

「半监督学习」能够较好的适应大多数的任务,少部分情况下能够对抗噪音复杂的环境,同时它也是当下AI技术研究的主流,它不仅克服了「有监督学习」需要昂贵的数据标注,也比单纯的「无监督学习」能适用于更多的场景。

但正如「不可能三角」理论那样,不可能同时满足使用者所有的需求一样。它算是AI技术中,最难掌握,而且特别依赖个人长期经验和技巧的技术,所以在当下能够掌握这方面技术的人其实很少。

机器学习知识总结 —— 8. 什么是有监督学习、无监督学习、半监督学习相关推荐

  1. 监督学习和无监督学习_让半监督学习再次伟大!谷歌最新无监督数据增强研究,全面超越现有半监督学习方法...

      新智元报道   来源:GoogleAI 编辑:元子 [新智元导读]Google AI最新研究用无监督数据增强推进半监督学习,取得令人瞩目的成果.该方法超越了所有现有的半监督学习方法,并实现了仅使用 ...

  2. 【机器学习】监督学习,非监督学习,半监督学习三者的定义区别及举例分析

    监督(supervised)= 标签(label),是否有监督,就是输入数据(input)是否有标签,有标签则为有监督学习,没标签则为无监督学习.至于半监督学习,就是一半(一点点)数据有标签,一半(极 ...

  3. 机器学习中的有监督学习,无监督学习,半监督学习

    在机器学习(Machine learning)领域,主要有三类不同的学习方法: 监督学习(Supervised learning). 非监督学习(Unsupervised learning). 半监督 ...

  4. 【周志华机器学习】十三、半监督学习

    文章目录 参考资料 1. 未标记样本 1.1 主动学习 1.2 常见假设 1.3 半监督学习划分 2. 生成式方法 3. 半监督SVM 4. 基于分歧的方法 5. 半监督聚类 5.1 Constrai ...

  5. ML之SSL:Semi-Supervised Learning半监督学习的简介、应用、经典案例之详细攻略

    ML之SSL:Semi-Supervised Learning半监督学习的简介.应用.经典案例之详细攻略 目录 Semi-Supervised Learning半监督学习的简介 1.直推学习Trans ...

  6. 【科普】半监督学习的概述与思考,及其在联邦学习场景下的应用

    关注公众号,发现CV技术之美 在现实世界中,数据往往存在各种各样的问题,例如:图片分类模型对标注数据的依赖性很强.标注图片数据难以获取.大量未标注数据存在.针对某个场景的数据量过小-等等问题. 在联邦 ...

  7. 监督学习、无监督学习、半监督学习和强化学习

    https://www.toutiao.com/a6673066493946626574/ AI 想必大家都知道,在机器学习训练一个模型的过程中需要大量的数据进行喂养.根据训练的模型不同,一般有如下的 ...

  8. 一文看懂半监督学习(Semi-supervised Learning)和自监督学习(Self-Supervised Learning)

    前言 网络上很多关于此的文章,在这里进行一个梳理 参考: https://zhuanlan.zhihu.com/p/33196506 https://zhuanlan.zhihu.com/p/1395 ...

  9. 半监督学习深度学习算法

    该文章主体摘自知乎糯米稻谷的文章,对一些细节添加了自己的理解 文章链接https 半监督学习 啥是半监督学习(Semi-supervised Learning) 1.简单自训练(simple self ...

  10. 监督学习,非监督学习与半监督学习

    监督学习,非监督学习与半监督学习 监督学习非监督学习与半监督学习 监督学习Supervised learning 非监督学习Unsupervised learning 半监督学习Semi-superv ...

最新文章

  1. Insert SQL Query插入效率优化
  2. python done()什么意思_Python done
  3. jvm性能调优实战 - 36XX:SoftRefLRUPolicyMSPerMB配置引起的Metaspace频繁FullGC
  4. 数据库ORA-03113排查
  5. mysql中varchar的存储_mysql的varchar可以存储多少个汉字
  6. .NET Core New csproj 如何发布可执行文件
  7. CSS3开发总结(圆角、盒阴影、边界图片)
  8. 总结python换源的方法:Linux与windows系统
  9. 微信红包随机生成算法(PHP版)
  10. Android 要收费、闭源恐难于上青天
  11. 瑞士Migros Ostschweiz使用RFID和EPCIS优化供应链的可视化
  12. 第三周 3.14 --- 3.20
  13. Fluent.TGrid.v4.0.16
  14. U盘插入苹果电脑后被分区,在Windows系统用不了怎么办。
  15. Matlab神经网络(一)
  16. linux关触摸屏命令,Linux 禁用触摸屏 触摸板
  17. 我的面试经历(2013.5)
  18. Problem I. Hall of Fame (2014 Syria ICPC)
  19. 区块与共识(一):解决竞选记账权的问题
  20. 10.1日NOIP模拟赛

热门文章

  1. 大数据挖掘与分析——用八爪鱼爬虫采集百度搜索内容
  2. 1384. 按年度列出销售总额
  3. 如何开启系统打印机服务器,[两种方法]win7系统的打印机服务如何启动?
  4. linux 删除网桥接口,linux 网桥代码分析 三 网桥及网桥端口的添加与删除
  5. VS2015导出带文件的项目模板
  6. LMC7660即-5V产生电路
  7. autocad ios 虚线_autocad 如何画虚线
  8. 如何在EngineeringVillage(EI Compendex)检索中文期刊
  9. Android 集成支付宝第三方登录
  10. 支付宝第三方在线支付接口详解