《机器学习》Chapter 1 绪论

机器学习中的基本概念和术语

首先,通过思维导图来描述一下西瓜书第一章的知识内容与结构。
西瓜书第一章思维导图

基本概念

在学习机器学习之前,首先要搞清楚它的定义、研究内容等等基本概念。

定义:机器学习是致力于通过计算的手段,利用数据来改善系统自身的性能的学科

研究内容:从数据中产生“模型”的算法(即学习算法)

如何运用:有了学习算法,将经验数据传给学习算法后,产生相应模型;在面对新情况时,模型将会给出相应的判断。

举个日常例子理解机器学习整个过程,当我们有了一些西瓜(训练数据集),且知道哪些是好瓜哪些是坏瓜。这时候我们需要剖开一个个西瓜,看看哪些好瓜/坏瓜,然后总结经验(学习并产生模型);当下次看到一个没剖开的瓜时,通过经验判断它是哪种瓜(运用模型去判断)。

基础术语

要进行机器学习,先要有数据。在机器学习,对数据的描述都有特定的术语。通过下面的例子来讲解机器学习中的基础术语。

假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷), (色泽=浅自;根蒂=硬挺;敲声=清脆),……,每对括号内是一条记录,"=",意思是"取值为"

属性:反映事件或对象在某方面的表现或性质的事项。例如每条记录中的“色泽”、“根蒂”、“敲声”就是西瓜的属性

属性空间:属性张成的空间。例如我们把"色泽" “根蒂” "敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间就是属性空间

特征向量:每个西瓜都可在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量,因此我们也把这个坐标向量称为一个特征向量。

三者的关系总结:将每个属性作为一个坐标轴,多个属性就多个坐标轴,从而形成一个描述物体的属性空间。此空间中的每个样本对应一个点,每个点都有一个坐标向量,把这个坐标向量称为特征向量。

如果希望学得一个能帮助我们判断没剖开的是不是"好瓜"的模型,仅有前面的示例数据显然是不够的要建立这样的关于"预测" 的模型,我们还需获得训练样本的"结果"信息,例如"((色泽=青绿;根蒂=蜷缩;敲声=浊响),好瓜)" 。

标记:关于示例结果的信息,比如上面例子中的 “好瓜” 就属于标记。

样例:拥有了标记信息的示例,则称为样例。一般地,用 表示第 i 个样例,其中 是特征向量, 是这个样本的标记。

机器学习的目标是希望通过对训练集 { } 进行学习,建立一个从输入空间 X 到输出空间 Y 的映射

根据预测结果的类型,可以将机器学习任务分为二类。

分类:预测结果的类型是离散值,例如"好瓜",“坏瓜”;
回归:预测结果的类型是连续值,例如西瓜的成熟度0.37、0.95。
根据训练数据是否拥有标记信息,学习任务也可大致划分为两大类。

监督学习(supervised learning):训练数据有标记信息,其中分类与回归属于监督学习。
无监督学习(unsupervised learning):训练数据没有标记信息,代表有聚类。
聚类:将训练集中的西瓜分成若干组,每组称为一个"簇"; 这些自动形成的簇可能对应一些潜在的概念划分,例如"浅色瓜"与"深色瓜" ,甚至"本地瓜"与"外地瓜"。这个学习过程有助于我们了解数据内在的规律,能为更深入地分析数据建立基础。
需说明的是,在聚类学习中,"浅色瓜"与"本地瓜"这样的概念我们事先是不知道的,而且学习过程中使用的训练样本通常不拥有标记信息。

假设空间与版本空间
假设空间:所有假设构成的集合。

版本空间:只保留了假设空间中与训练数据集中正例一致的假设,由这些正确的假设构成的集合成为版本空间(简单来说,版本空间就是正例的泛化)。

下面介绍假设空间大小计算、构建假设空间以及版本空间。(PS:初学时难点在于对版本空间的理解与构建)

举个例子,假设西瓜的好坏由“色泽”,“根蒂”以及“敲声”决定,且"色泽"、"根蒂"和"敲声"分别有3、2、2 种可能取值。用布尔表达式表示则是

布尔表达式
那么,假设空间大小就等于

假设空间大小计算
本例子的假设空间用下图直观展示

西瓜问题的假设空间

构建完假设空间,且现在有如下的训练集,如何通过训练集构建版本空间?

西瓜训练集
版本空间构建过程:首先对假设空间进行搜索。有许多策略对假设空间搜索,如自顶向下和自底向上。然后在搜索过程中只保留与训练集正例一致的假设。比如搜索到(色泽=青绿,根蒂=蜷缩,敲声=浊响)这个假设时,它本身与训练集第 1 条正例一致,但是与训练集中第 2 条正例不一致,所以需要剔除。因为若这个假设保留到版本空间且根据版本空间的定义,说明色泽非青绿,根蒂非蜷缩,敲声非浊响的瓜都为坏瓜,这与表中第 2 条正例相矛盾。再比如搜索到(色泽=,根蒂=,敲声=浊响)这个假设可以保留到版本空间,因为当它成立时,我们可以对于表中的4个训练示例都做出正确的判断,即它与训练集的所有正例一致。最后在上面训练集构建的版本空间如图。(此处西瓜书上图画错了)

西瓜问题的版本空间
版本空间作用除了能对已知的数据样本做出判断外,版本空间还可以对没有在训练集中出现的示例进行判断。如给一个(色泽=浅白) ⋀ (根蒂=蜷缩) ⋀ (敲声=浊晌) 瓜,通过版本空间判断它是好瓜。

最后,上面求出来了西瓜问题的版本空间,但可以看到版本空间不是很确定,包含有通配符 * 的假设可能会得到正确的判断,也可能得到错误的判断(这句话是针对实际问题,如果针对上表中的训练集,那当然不会有错误的判断)

因此,要想判断的正确,就要全面、大量的训练,以排除更多假设空间中的错误假设。错误假设越少,剩下的假设越少,就越有可能是正确假设,我们判断的结果的正确概率越大。

归纳偏好
从假设空间到版本空间是一个归纳过程(即从特殊到一般的过程)。

现在有一个问题,例如(色泽=青绿,根蒂=蜷缩,敲声=沉闷)这新瓜,如果采用(色泽=) ⋀ (根蒂=蜷缩) ⋀ (敲声=)这个假设进行判断,这新瓜就是好瓜;但是采用(色泽=) ⋀ (根蒂=) ⋀ (敲声=浊响)这个假设判断,这新瓜就是坏瓜。那么,应该采用哪一个模型(或假设)呢?

若仅有上表中的训练样本,则无法断定上述三个假设中明哪一个"更好".然而,对于一个具体的学习算法而言?它必须要产生一个模型。这时,学习算法本身的"偏好"就会起到关键的作用。

归纳偏好(简称"偏好"):机器学习算法在学习过程中对某种类型假设的偏好。

任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上"等效"的假设所迷惑,无法产生确定的学习结果。如果没有偏好,刚才那个例子就没有确定的答案了。这样的学习结果显得没有意义。

最后,算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

参考连接

《机器学习》Chapter 1 绪论——机器学习中的基本概念和术语相关推荐

  1. 强化学习中的基础概念和术语——spinning up文档翻译

    Key Concepts and Terminology 以下内容翻译自open ai 的spinning up文档,同时加入了一些自己的理解.原始内容来自spinningup 文章目录 Key Co ...

  2. 【 FPGA 】时序分析中的基本概念和术语

    这个笔记记录的是<Vivado入门与提高>课程的关于时序分析的这一节的内容,目的是为了备忘. 其实,以前也有这样的博文了,这里再次记录下是为了加深印象与理解.静态时序分析 目录 Launc ...

  3. 机器学习笔记(一)绪论

    1.绪论 1.1引言 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能:经验,则以数据的形式存在,故而,机器学习所研究的,正是在计算机上从数据中产生模型的算法,即学习算法.基于学习算 ...

  4. 吴恩达Coursera机器学习 - Chapter 1 引言

    Chapter 1 - 引言 机器学习的定义 -- Tom Mitchell A computer program is said to learn from experience E with re ...

  5. DeepLearning tutorial(2)机器学习算法在训练过程中保存参数

    FROM: http://blog.csdn.net/u012162613/article/details/43169019 DeepLearning tutorial(2)机器学习算法在训练过程中保 ...

  6. Dataset:数据集集合(综合性)——机器学习、深度学习算法中常用数据集大集合(建议收藏,持续更新)

    Dataset:数据集集合(综合性)--机器学习.深度学习算法中常用数据集大集合(建议收藏,持续更新) 目录 常规数据集 各大方向分类数据集汇总 具体数据集分类 相关文章 DL:关于深度学习常用数据集 ...

  7. 机器学习将在游戏开发中的6种应用

    机器学习正在改变几乎每个行业,从农业中的作物规划到医疗保健中的癌症诊断.这些主题通常会得到更广泛的讨论,因为它们已经产生了切实的,对人类有益的影响.对于游戏行业而言,不幸的是,游戏开发中的机器学习仍处 ...

  8. sql机器学习服务_机器学习服务–在SQL Server中配置R服务

    sql机器学习服务 The R language is one of the most popular languages for data science, machine learning ser ...

  9. 机器学习在植物病害识别研究中的应用

    机器学习在植物病害识别研究中的应用 1.文章思路 阐述传统机器学习方法到深度学习的模式分类技术变迁,重点提出深度学习在植物病害识别中的应用优势:然后,调研机器学习在植物病害应用的相关研究文献,对文献所 ...

最新文章

  1. 网络流Dinic cur当前弧优化
  2. 01 使用AFN3 0上传图片时间慢的问题
  3. hive 学习之异常篇
  4. ng机器学习视频笔记(十四) ——推荐系统基础理论
  5. 蒙特 卡罗方法matlab,蒙特·卡罗方法中的数学之美,你一定不想错过
  6. VI编辑器的操作按键说明
  7. 这个深度学习工业质检工具,效率提升30%,质量提高80%
  8. 远程服务器 上传公钥,SSH远程连接报错Permission denied (publickey)
  9. 你一定要知道,关于https的五大误区
  10. 索尼SONY 820E摄像机内置64G存储卡无法识别拆MMC芯片完整恢复数据
  11. You-Get—— 基于 Python3 的媒体下载工具
  12. 动态规划实战16 leetcode-198. House Robber
  13. 稳压二极管真的可以稳压吗?
  14. IE网页木马 - 使用 JS 实现打开网页后直接运行木马程序
  15. VirtualBox 教程
  16. 从算法学起C语言--费氏数列
  17. 谷歌浏览器默认打开搜狗问题
  18. Homa: A Receiver-Driven Low-Latency Transport Protocol Using Network Priorities(Sigcomm'18) 论文记录
  19. Python基础教程(第3版)读书笔记:第3章 使用字符串
  20. 硅谷码农35岁危机:Java之父也找不到工作

热门文章

  1. 《生物信息学:导论与方法》--新一代测序NGS:转录组分析RNA-Seq--听课笔记(十七)
  2. matlab实现BP神经网络minst手写数字识别
  3. 今天的工作记录一下:关于centos关了防火墙却依然不能访问的问题
  4. MATLAB中mat2gray的用法【转】
  5. python测试程序运行时间_Python如何测量脚本运行时间
  6. 术语-软件度量-内聚性:内聚性
  7. 大学四年应是这样度过 李开复
  8. 网络安全学习(十七)VlAN
  9. 序列化josn.dump和josn.dumps的区别
  10. 小孩患口腔溃疡怎么办?不能乱吃消炎止痛药