有监督学习和无监督学习

  • (一)什么是机器学习?
  • (二)有监督学习
  • (三)无监督学习
  • (四)二者的区别
  • (五)如何在两者中选择合适的方法

(一)什么是机器学习?

概念:
从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说, 机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。

机器学习的应用范围:
机器学习与模式识别、统计学习、数据挖掘、计算机视觉、语音识别、自然语言处理等领域有着非常深的联系。

  • 模式识别 = 机器学习
    两者的主要差别在于前者是从工业界发展起来的概念,后者则主要源自计算机学科。它们中的活动能够被视为同一个领域的两个方面
  • 数据挖掘 = 机器学习 + 数据库
    数据挖掘是一种思考方式,告诉我们应该尝试从数据中挖掘出知识,但不是每一个数据都能挖掘出金子的。一个系统绝对不会由于上了一个数据挖掘模块就变得无所不能。大部分数据挖掘中的算法是机器学习的算法在数据库中的优化。
  • 统计学习近似等于机器学习
    统计学习是个与机器学习高度重叠的学科,由于机器学习中的大多数方法来自统计学,甚至能够觉得,统计学的发展促进机器学习的发展。
  • 计算机视觉 = 图像处理 + 机器学习
    图像处理技术用于将图像处理为适合进入机器学习模型中的输入,机器学习则负责 从图像中识别出相关的模式。计算机视觉相关的应用非常的多,比如百度识图、手写字符识别、车牌识别等等应用。
  • 语音识别 = 语音处理 + 机器学习
    语音识别就是音频处理技术与机器学习的结合。语音识别技术一般不会单独使用,通常会结合自然语言处理的相关技术,有关的应用有苹果的语音助手siri等。
  • 自然语言处理 = 文本处理 + 机器学习
    自然语言处理技术主要是让机器理解人类的语言的一门领域。

通俗来讲,机器学习就是:
三个基本的要素,任务T、经验E和性能P。机器学习=通过经验E的改进后,机器在任务T上的性能p所度量的性能有所改进=T–>(从E中学习)–>P(提高)

(二)有监督学习

概念:
通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现预测分类的目的,也就具有了对未知数据进行预测和分类的能力。简单来说,就像有标准答案的练习题,然后再去考试,相比没有答案的练习题然后去考试准确率更高。监督学习中的数据中是提前做好了分类信息的, 它的训练样本中是同时包含有特征和标签信息的,因此根据这些来得到相应的输出。

有监督算法常见的有:线性回归算法BP神经网络算法决策树支持向量机KNN等。

数学说明:
监督学习从训练数据集合中训练模型,再对测试据进行预测,训练数据由输入和输出对组成,通常表示为:T={(x1,y1),(x2,y2),⋯,(xi,yi)}T=\left \{ \left ( x_{1},y_{1} \right ),\left ( x_{2},y_{2} \right ) ,\cdots ,\left ( x_{i},y_{i} \right )\right \}T={(x1​,y1​),(x2​,y2​),⋯,(xi​,yi​)}

测试数据也由相应的输入输出对组成。

有监督学习中,比较典型的问题可以分为:输入变量与输出变量均为连续的变量的预测问题称为回归问题(Regression),输出变量为有限个离散变量的预测问题称为分类问题(Classfication),输入变量与输出变量均为变量序列的预测问题称为标注问题

应用:
垃圾邮件分类等已知结果的分类问题。

(三)无监督学习

概念:
训练样本的标记信息未知, 目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用最广的是"聚类" (clustering),聚类目的在于把相似的东西聚在一起,主要通过计算样本间和群体间距离得到。深度学习PCA都属于无监督学习的范畴。

无监督算法常见的有:密度估计(densityestimation)异常检测(anomaly detection)层次聚类EM算法K-Means算法(K均值算法)DBSCAN算法 等。

应用:
比较典型的是一些聚合新闻网站(比如说百度新闻、新浪新闻等),利用爬虫爬取新闻后对新闻进行分类的问题,将同样内容或者关键字的新闻聚集在一起。所有有关这个关键字的新闻都会出现,它们被作为一个集合,在这里我们称它为聚合(Clustering)问题

(四)二者的区别

  1. 有 vs. 无训练样本: 有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而无监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。

  2. 分类同时定性 vs. 先聚类后定性:有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。而无监督学习方法只有要分析的数据集的本身,预先没有什么标签。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不予以某种预先分类标签对上号为目的。

  3. 有 vs. 无 规律性: 无监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。这一点是比有监督学习方法的用途要广。譬如分析一堆数据的主分量(PCA),或分析数据集有什么特点都可以归于无监督学习方法的范畴。

  4. 分类 vs.聚类:有监督的核心是分类无监督的核心聚类(将数据集合分成由类似的对象组成的多个类)。有监督的工作是选择分类器和确定权值,无监督的工作是密度估计(寻找描述数据统计值),也就是无监督算法只要知道如何计算相似度就可以开始工作了。

  5. 同维vs.降维:有监督的输入如果是n维,特征即被认定为n维,也即y=f(xi)y=f(x_{i})y=f(xi​)或p(y∣xi),i=np(y|x_{i}), i =np(y∣xi​),i=n,通常不具有降维的能力。而无监督经常要参与深度学习,做特征提取,或者采用层聚类或者项聚类,以减少数据特征的维度,使i<ni<ni<n。事实上,无监督学习常常被用于数据预处理。一般而言,这意味着以某种平均-保留的方式压缩数据,比如主成分分析(PCA)或奇异值分解(SVD),之后,这些数据可被用于深度神经网络或其它监督式学习算法。

  6. . 不透明 vs.可解释性: 有监督学习只是告诉你如何去分类,但不会告诉你为什么这样去分类,因此具有不透明性和不可解释性。而无监督学习是根据数据集来聚类分析,再分出类别,因此具有可解释性和透明性,会告诉你如何去分类的,根据什么情况或者什么关键点来分类。

  7. DataVisor无监督独有的扩展性: 根据原有的数据把分类特征已经定好,若增加一组数据,变成了n+1维。那么,如果这是一个非常强的特征,足以将原来的分类或者聚类打散,一切可能需要从头再来,尤其是有监督学习,权重值几乎会全部改变。而DataVisor开发的无监督算法,具有极强的扩展性,无论多加的这一维数据的权重有多高,都不影响原来的结果输出,原来的成果仍然可以保留,只需要对多增加的这一维数据做一次处理即可。

(五)如何在两者中选择合适的方法

根据上面的图也可以进行分类:

简单的方法就是从定义入手,有训练样本则考虑采用有监督学习方法无训练样本,则一定不能用有监督学习方法。但是,现实问题中,即使没有训练样本,我们也能够凭借自己的双眼,从待分类的数据中,人工标注一些样本, 并把它们作为训练样本,这样的话,可以把条件改善,用监督学习方法来做。

关于这部分的内容可以观看b站上的链接:

https://www.bilibili.com/video/av9912938/?p=4

如果您在阅读之中发现文章错误之处或者出现疑问,欢迎在评论指出。

【机器学习笔记】有监督学习和无监督学习相关推荐

  1. 机器学习(学习笔记)——监督学习和无监督学习

    前言 机器学习可以分为两大类:监督学习和无监督学习. 今天介绍机器监督学习和无监督学习. ** 监督学习和无监督学习很好区分:是否有监督(supervised),就看输入数据是否有标签(label), ...

  2. Coursera机器学习笔记(一) - 监督学习vs无监督学习

    转载 http://daniellaah.github.io/2016/Machine-Learning-Andrew-Ng-My-Notes-Week-1-Introduction.html 一. ...

  3. Chapter1:监督学习、无监督学习:AndrewNg吴恩达《机器学习》笔记

    文章目录 Chapter 1 Introduction 1.1 Welcome 1.2 Definition 1.2.1 定义1: --from **Arthur Samuel** 1.2.2 定义2 ...

  4. 吴恩达机器学习 学习笔记 之 一 监督学习和无监督学习

    一. 1-1 welcome 1-2 什么是机器学习--Machine Learning 机器学习尚无明确定义,现有的定义有: (1)Field of study that gives compute ...

  5. 机器学习:监督学习和无监督学习

    机器学习:监督学习和无监督学习 ************************************** 注:本系列博客是博主学习Stanford大学 Andrew Ng 教授的<机器学习& ...

  6. 机器学习(二)之无监督学习:数据变换、聚类分析

    文章目录 0 本文简介 1 无监督学习概述 2 数据集变换 2.1 预处理和缩放 2.2 程序实现 2.3 降维.特征提取与流形学习 2.3.1 主成分分析 2.3.2 非负矩阵分解 2.3.3 用t ...

  7. 机器学习概念 — 监督学习、无监督学习、半监督学习、强化学习、欠拟合、过拟合、后向传播、损失和优化函数、计算图、正向传播、反向传播

    1. 监督学习和无监督学习 监督学习 ( Supervised Learning ) 和无监督学习 ( Unsupervised Learning ) 是在机器学习中经常被提及的两个重要的学习方法. ...

  8. 机器学习系列 1:监督学习和无监督学习

    https://www.toutiao.com/a6690813539747103246/ 2019-05-15 09:31:00 机器学习系列 1:监督学习和无监督学习 机器学习就是通过一大堆数据集 ...

  9. 机器学习一 -- 什么是监督学习和无监督学习?

    机器学习中的监督学习和无监督学习 说在前面 最近的我一直在寻找实习机会,很多公司给了我第一次电话面试的机会,就没有下文了.不管是HR姐姐还是第一轮的电话面试,公司员工的态度和耐心都很值得点赞,我也非常 ...

  10. 无监督学习与有监督学习的本质区别是什么_吴恩达老师课程笔记系列第三节-无监督学习定义...

    第三节-无监督学习定义 我们将介绍第二种主要的机器学习问题.叫做无监督学习. 上个课程中,已经介绍了监督学习.回想当时的数据集,如图表所示,这个数据集中每条数据都已经标明是阴性或阳性,即是良性或恶性肿 ...

最新文章

  1. Java常用监控工具
  2. down redis集群_硬核干货!Redis 分布式集群部署实战
  3. PCIE的事务类型:posted和non posted transaction
  4. IOS-资源最小化之点九图片的使用
  5. vlc延时处理-跳帧
  6. Python之pip命令指定安装源和版本
  7. java str2date,java date类与string类实例代码分享
  8. java实现的代理的两种办法
  9. 【机器学习】传统目标检测算法之级联分类器Cascade
  10. python数据整理 高一_关于Python爬虫的最全知识梳理,项目经理花了三天总结出来的经验...
  11. Alibaba Druid连接池接入
  12. oracle备份还原到本地_RMAN备份的基本操作与代码口令
  13. 无线通信定位一体化进展及其在煤矿井下应用分析
  14. 凉宫春日的忧郁第二章
  15. 关于阿里云个人网站备案流程的介绍
  16. 人员玩手机离岗识别检测系统 yolov5
  17. line-height绝对值和相对值的区别
  18. python预测股票 keras_使用LSTM模型预测股价基于Keras
  19. sqlmap 注入教程 常用命令大全
  20. 从零开始搭建Linux共享服务器(云享系统)

热门文章

  1. 【c语言】【inline】鸡肋关键字?inline-函数调用的加速器
  2. 弗曼学习法,你在用吗?
  3. 晶振 负载电容 匹配电容
  4. word2vec模型原理及实现词向量训练案例
  5. ftp服务器端口修改,FTP端口:默认为21端口
  6. 科普:智能电话机器人语音识别技术
  7. mes系统服务器架构,MES系统三大层结构是什么
  8. 2020年数学建模亚太赛赛后分享总结
  9. ArcGIS Server Image 扩展模块
  10. 查看WIN10密钥备忘