(一)什么是机器学习?

概念:
从广义上来说,机器学习是一种能够赋予机器学习的能力以此让它完成直接编程无法完成的功能的方法。但从实践的意义上来说, 机器学习是一种通过利用数据,训练出模型,然后使用模型预测的一种方法。

机器学习的应用范围:
机器学习与模式识别、统计学习、数据挖掘、计算机视觉、语音识别、自然语言处理等领域有着非常深的联系。

  • 模式识别 = 机器学习
    两者的主要差别在于前者是从工业界发展起来的概念,后者则主要源自计算机学科。它们中的活动能够被视为同一个领域的两个方面
  • 数据挖掘 = 机器学习 + 数据库
    数据挖掘是一种思考方式,告诉我们应该尝试从数据中挖掘出知识,但不是每一个数据都能挖掘出金子的。一个系统绝对不会由于上了一个数据挖掘模块就变得无所不能。大部分数据挖掘中的算法是机器学习的算法在数据库中的优化。
  • 统计学习近似等于机器学习
    统计学习是个与机器学习高度重叠的学科,由于机器学习中的大多数方法来自统计学,甚至能够觉得,统计学的发展促进机器学习的发展。
  • 计算机视觉 = 图像处理 + 机器学习
    图像处理技术用于将图像处理为适合进入机器学习模型中的输入,机器学习则负责 从图像中识别出相关的模式。计算机视觉相关的应用非常的多,比如百度识图、手写字符识别、车牌识别等等应用。
  • 语音识别 = 语音处理 + 机器学习
    语音识别就是音频处理技术与机器学习的结合。语音识别技术一般不会单独使用,通常会结合自然语言处理的相关技术,有关的应用有苹果的语音助手siri等。
  • 自然语言处理 = 文本处理 + 机器学习
    自然语言处理技术主要是让机器理解人类的语言的一门领域。

通俗来讲,机器学习就是:
三个基本的要素,任务T、经验E和性能P。机器学习=通过经验E的改进后,机器在任务T上的性能p所度量的性能有所改进=T–>(从E中学习)–>P(提高)

(二)有监督学习

概念:
通过已有的训练样本去训练得到一个最优模型,再利用这个模型将所有的输入映射为相应的输出,对输出进行简单的判断从而实现预测分类的目的,也就具有了对未知数据进行预测和分类的能力。简单来说,就像有标准答案的练习题,然后再去考试,相比没有答案的练习题然后去考试准确率更高。监督学习中的数据中是提前做好了分类信息的, 它的训练样本中是同时包含有特征和标签信息的,因此根据这些来得到相应的输出。

有监督算法常见的有:线性回归算法BP神经网络算法决策树支持向量机KNN等。

数学说明:
监督学习从训练数据集合中训练模型,再对测试据进行预测,训练数据由输入和输出对组成,通常表示为:T = { ( x 1 , y 1 ) , ( x 2 , y 2 ) , ⋯   , ( x i , y i ) } T=\left \{ \left ( x_{1},y_{1} \right ),\left ( x_{2},y_{2} \right ) ,\cdots ,\left ( x_{i},y_{i} \right )\right \}T={(x1​,y1​),(x2​,y2​),⋯,(xi​,yi​)}

测试数据也由相应的输入输出对组成。

有监督学习中,比较典型的问题可以分为:输入变量与输出变量均为连续的变量的预测问题称为回归问题(Regression),输出变量为有限个离散变量的预测问题称为分类问题(Classfication),输入变量与输出变量均为变量序列的预测问题称为标注问题

应用:
垃圾邮件分类等已知结果的分类问题。

(三)无监督学习

概念:
训练样本的标记信息未知, 目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础,此类学习任务中研究最多、应用最广的是"聚类" (clustering),聚类目的在于把相似的东西聚在一起,主要通过计算样本间和群体间距离得到。深度学习PCA都属于无监督学习的范畴。

无监督算法常见的有:密度估计(densityestimation)异常检测(anomaly detection)层次聚类EM算法K-Means算法(K均值算法)DBSCAN算法 等。

应用:
比较典型的是一些聚合新闻网站(比如说百度新闻、新浪新闻等),利用爬虫爬取新闻后对新闻进行分类的问题,将同样内容或者关键字的新闻聚集在一起。所有有关这个关键字的新闻都会出现,它们被作为一个集合,在这里我们称它为聚合(Clustering)问题

(四)二者的区别

  1. 有 vs. 无训练样本: 有监督学习方法必须要有训练集与测试样本。在训练集中找规律,而对测试样本使用这种规律。而无监督学习没有训练集,只有一组数据,在该组数据集内寻找规律。

  2. 分类同时定性 vs. 先聚类后定性:有监督学习的方法就是识别事物,识别的结果表现在给待识别数据加上了标签。因此训练样本集必须由带标签的样本组成。而无监督学习方法只有要分析的数据集的本身,预先没有什么标签。如果发现数据集呈现某种聚集性,则可按自然的聚集性分类,但不予以某种预先分类标签对上号为目的。

  3. 有 vs. 无 规律性: 无监督学习方法在寻找数据集中的规律性,这种规律性并不一定要达到划分数据集的目的,也就是说不一定要“分类”。这一点是比有监督学习方法的用途要广。譬如分析一堆数据的主分量(PCA),或分析数据集有什么特点都可以归于无监督学习方法的范畴。

  4. 分类 vs.聚类:有监督的核心是分类无监督的核心聚类(将数据集合分成由类似的对象组成的多个类)。有监督的工作是选择分类器和确定权值,无监督的工作是密度估计(寻找描述数据统计值),也就是无监督算法只要知道如何计算相似度就可以开始工作了。

  5. 同维vs.降维:有监督的输入如果是n维,特征即被认定为n维,也即y = f ( x i ) y=f(x_{i})y=f(xi​)或p ( y ∣ x i ) , i = n p(y|x_{i}), i =np(y∣xi​),i=n,通常不具有降维的能力。而无监督经常要参与深度学习,做特征提取,或者采用层聚类或者项聚类,以减少数据特征的维度,使i < n i<ni<n。事实上,无监督学习常常被用于数据预处理。一般而言,这意味着以某种平均-保留的方式压缩数据,比如主成分分析(PCA)或奇异值分解(SVD),之后,这些数据可被用于深度神经网络或其它监督式学习算法。

  6. 不透明 vs.可解释性: 有监督学习只是告诉你如何去分类,但不会告诉你为什么这样去分类,因此具有不透明性和不可解释性。而无监督学习是根据数据集来聚类分析,再分出类别,因此具有可解释性和透明性,会告诉你如何去分类的,根据什么情况或者什么关键点来分类。

  7. DataVisor无监督独有的扩展性: 根据原有的数据把分类特征已经定好,若增加一组数据,变成了n+1维。那么,如果这是一个非常强的特征,足以将原来的分类或者聚类打散,一切可能需要从头再来,尤其是有监督学习,权重值几乎会全部改变。而DataVisor开发的无监督算法,具有极强的扩展性,无论多加的这一维数据的权重有多高,都不影响原来的结果输出,原来的成果仍然可以保留,只需要对多增加的这一维数据做一次处理即可。

(五)如何在两者中选择合适的方法

根据上面的图也可以进行分类:

简单的方法就是从定义入手,有训练样本则考虑采用有监督学习方法无训练样本,则一定不能用有监督学习方法。但是,现实问题中,即使没有训练样本,我们也能够凭借自己的双眼,从待分类的数据中,人工标注一些样本, 并把它们作为训练样本,这样的话,可以把条件改善,用监督学习方法来做。

关于这部分的内容可以观看b站上的链接:

https://www.bilibili.com/video/av9912938/?p=4

有监督学习和无监督学习相关推荐

  1. 机器学习概念 — 监督学习、无监督学习、半监督学习、强化学习、欠拟合、过拟合、后向传播、损失和优化函数、计算图、正向传播、反向传播

    1. 监督学习和无监督学习 监督学习 ( Supervised Learning ) 和无监督学习 ( Unsupervised Learning ) 是在机器学习中经常被提及的两个重要的学习方法. ...

  2. 强化学习(Reinforcement Learning)是什么?强化学习(Reinforcement Learning)和常规的监督学习以及无监督学习有哪些不同?

    强化学习(Reinforcement Learning)是什么?强化学习(Reinforcement Learning)和常规的监督学习以及无监督学习有哪些不同? 目录

  3. 机器学习系列 1:监督学习和无监督学习

    https://www.toutiao.com/a6690813539747103246/ 2019-05-15 09:31:00 机器学习系列 1:监督学习和无监督学习 机器学习就是通过一大堆数据集 ...

  4. 监督学习和无监督学习

    自理解机器学习的概念时,没有深刻理解监督学习和无监督学习的区别,在网上查找了部分资料,现在总结如下: 总的来说,机器学习任务将根据训练样本是否有label,可以分为监督学习和无监督学习,这是最简单直接 ...

  5. 机器学习一 -- 什么是监督学习和无监督学习?

    机器学习中的监督学习和无监督学习 说在前面 最近的我一直在寻找实习机会,很多公司给了我第一次电话面试的机会,就没有下文了.不管是HR姐姐还是第一轮的电话面试,公司员工的态度和耐心都很值得点赞,我也非常 ...

  6. 聚类(序)——监督学习与无监督学习

    聚类系列: 聚类(序)----监督学习与无监督学习 聚类(1)----混合高斯模型 Gaussian Mixture Model 聚类(2)----层次聚类 Hierarchical Clusteri ...

  7. 小白都看得懂的监督学习与无监督学习

    hello~一晃就十一月啦!开始写简书也半个月啦!之前对机器学习中的监督学习与无监督学习,只是有个概念,前几天学习知识的时候,又遇到了,所以打算好好记录下来. 在理解监督学习和无监督学习之前,我们先来 ...

  8. 监督学习与无监督学习的区别_机器学习

    最近发现很多人还是不能真正分清机器学习的学习方法,我以个人的愚见结合书本简单说一下这个 机器学习中,可以根据学习任务的不同,分为监督学习(Supervised Learning),无监督学习(Unsu ...

  9. 监督学习无监督学习_无监督学习简介

    监督学习无监督学习 To begin with, we should know that machine primarily consists of four major domain. 首先,我们应 ...

  10. 无监督学习 k-means_无监督学习-第1部分

    无监督学习 k-means 有关深层学习的FAU讲义 (FAU LECTURE NOTES ON DEEP LEARNING) These are the lecture notes for FAU' ...

最新文章

  1. 名校 Stanford
  2. Windows Vista 交互式服务编程
  3. tar:文件打包归档
  4. 为什么你跟高手有差距?因为他们会在假期里读这5本书
  5. 图解 _INTSIZEOF(n)
  6. python 线程超时设置_爬虫基础知识(一)多线程与threading模块
  7. DST(对话状态追踪)常用方法
  8. 佳能MP145 /140故障代码大全
  9. c#html表格样式大全,漂亮的表格样式(使用CSS样式表控制表格样式)
  10. 如何在 Mac 上映射网络驱动器
  11. 哲学的终极解释:48张图了解48种主义
  12. 可汗学院公开课:金融学笔记
  13. 群晖域名解析 DDNS ——阿里云 DNS 脚本
  14. svg实现多个元素拖拽
  15. oral-b app Android,oral b app
  16. html缓存ios,iOS-H5离线包本地缓存CCCandyWebCache
  17. ESP32在WIN7下USB调试串口驱动安装 解决USB JTAG/serial debug unit (Interface 0)无法安装驱动的问题
  18. 微众银行七年,从拓荒者到深耕者
  19. crash工具使用方法
  20. 圣斗士全球招生考试(中国考区)试卷

热门文章

  1. java收费_一文看懂Java收费 附可替换方案!
  2. win11 windows安全中心无法打开
  3. Hibernate JPA 效率低下的原因
  4. linux终端清除命令,ubuntu清除命令行记录
  5. matlab数字转换罗马数字,罗马数字(1到1000) 1到1000的叠加是多少
  6. 容错性低是什么意思_容错率高是什么意思(容错率高还是低比较好)
  7. 如何使用JavaScript重定向到另一个网页
  8. 数据库中的基本数据结构
  9. 在TCGA中查找mutation突变
  10. PHP中使用数组转换成Json格式出现中文乱码解决方案