机器学习

南京大学周志华教授亲讲《机器学习初步》!跟着大佬从入门到实战

机器学习的本质就是寻找一个函数function,来寻找一个输入input与输出output之间的映射关系。可以是输入一段语音,输出这段语音对应的文字;也可以输入一张图,输出这张图的内容;也可以输入一场棋局,输出下一步应该走哪一格。

基本概念

定义:机器学习是通过大量数据来构建“模型”,在面对新情况时,模型将会给出相应的判断(即学习算法)。

举例一个日常例子:人们买西瓜之前都想自己随手挑的西瓜是好瓜。

除了靠运气之外,我们可以搜集大量西瓜的数据,比如色泽 ;根蒂 ;敲声等指标。大家总结经验,发现:色泽是青绿;根蒂是蜷缩;敲声是浊响,一般有这三种特征的西瓜都是好瓜。

这一个个西瓜就是“训练数据集”,这些经验就是学习产生模型。当下次看到一个没剖开的瓜时,通过经验判断它是哪种瓜 (用模型判断)。

基本术语

属性:反映事件或对象在某方面的表现或性质的事项。例如每条记录中的“色泽”、“根蒂”、“敲声”就是西瓜的属性。(与java中类的属性类似)

属性空间:属性张成的空间。例如我们把"色泽" "根蒂" "敲声"作为三个坐标轴,则它们张成一个用于描述西瓜的三维空间就是属性空间

特征向量:每个西瓜都可在这个三维空间中找到自己的坐标位置。 这个点对应的一个坐标就是一个特征向量。

三者的关系总结:将每个属性作为一个坐标轴,多个属性就多个坐标轴,从而形成一个描述物体的属性空间。此空间中的每个样本对应一个点,每个点都有一个坐标向量,把这个坐标向量称为特征向量。

如果希望学得一个能帮助我们判断没剖开的是不是"好瓜"的具体模型,,我们还需获得训练样本的"结果"信息,例如色泽是青绿;根蒂是蜷缩;敲声是浊响即好瓜 。

标记:关于“结果”的信息,比如上面的“好瓜”就是一个标记。

样例:拥有了标记的例子,则称为样例。

机器学习的目标是希望通过对训练集 { } 进行学习,建立一个从输入空间 X 到输出空间 Y 的映射

假设空间与版本空间

假设空间:所有假设构成的集合。如(色泽=浅自;根蒂=硬挺;敲声=清脆)

版本空间:只保留了假设空间中与训练数据集中正例一致的一部分假设,由这些正确的假设构成的集合成为版本空间 。

版本空间构建过程:首先对假设空间进行搜索。

有许多策略对假设空间搜索,如自顶向下和自底向上。然后在搜索过程中只保留与训练集正例(下图1和2为正例)一致的假设。

色泽 属性除了取值青绿或浅白,还可能取别的值都可以。取值处我们可以用通配符*表示。 如 色泽=*

表1.1的训练数据集对应的假设空间应该如下:

1 色泽=*,根蒂=*,敲声=*

2 色泽=青绿,根蒂=*,敲声=*

3 色泽=乌黑,根蒂=*,敲声=*

4 色泽=*,根蒂=蜷缩,敲声=*

5 色泽=*,根蒂=硬挺,敲声=*

6 色泽=*,根蒂=稍蜷,敲声=*

7 色泽=*,根蒂=*,敲声=浊响

8 色泽=*,根蒂=*,敲声=清脆

9 色泽=*,根蒂=*,敲声=沉闷

10 色泽=青绿,根蒂=蜷缩,敲声=*

11 色泽=青绿,根蒂=硬挺,敲声=*

12 色泽=青绿,根蒂=稍蜷,敲声=*

13 色泽=乌黑,根蒂=蜷缩,敲声=*

14 色泽=乌黑,根蒂=硬挺,敲声=*

15 色泽=乌黑,根蒂=稍蜷,敲声=*

16 色泽=青绿,根蒂=*,敲声=浊响

17 色泽=青绿,根蒂=*,敲声=清脆

18 色泽=青绿,根蒂=*,敲声=沉闷

19 色泽=乌黑,根蒂=*,敲声=浊响

20 色泽=乌黑,根蒂=*,敲声=清脆

21 色泽=乌黑,根蒂=*,敲声=沉闷

22 色泽=*,根蒂=蜷缩,敲声=浊响

23 色泽=*,根蒂=蜷缩,敲声=清脆

24 色泽=*,根蒂=蜷缩,敲声=沉闷

25 色泽=*,根蒂=硬挺,敲声=浊响

26 色泽=*,根蒂=硬挺,敲声=清脆

27 色泽=*,根蒂=硬挺,敲声=沉闷

28 色泽=*,根蒂=稍蜷,敲声=浊响

29 色泽=*,根蒂=稍蜷,敲声=清脆

30 色泽=*,根蒂=稍蜷,敲声=沉闷

31 色泽=青绿,根蒂=蜷缩,敲声=浊响

32 色泽=青绿,根蒂=蜷缩,敲声=清脆

33 色泽=青绿,根蒂=蜷缩,敲声=沉闷

34 色泽=青绿,根蒂=硬挺,敲声=浊响

35 色泽=青绿,根蒂=硬挺,敲声=清脆

36 色泽=青绿,根蒂=硬挺,敲声=沉闷

37 色泽=青绿,根蒂=稍蜷,敲声=浊响

38 色泽=青绿,根蒂=稍蜷,敲声=清脆

39 色泽=青绿,根蒂=稍蜷,敲声=沉闷

40 色泽=乌黑,根蒂=蜷缩,敲声=浊响

41 色泽=乌黑,根蒂=蜷缩,敲声=清脆

42 色泽=乌黑,根蒂=蜷缩,敲声=沉闷

43 色泽=乌黑,根蒂=硬挺,敲声=浊响

44 色泽=乌黑,根蒂=硬挺,敲声=清脆

45 色泽=乌黑,根蒂=硬挺,敲声=沉闷

46 色泽=乌黑,根蒂=稍蜷,敲声=浊响

47 色泽=乌黑,根蒂=稍蜷,敲声=清脆

48 色泽=乌黑,根蒂=稍蜷,敲声=沉闷

49 Ø

根据总结,按照上述过程进行学习:

(1,(色泽=青绿、根蒂=蜷缩、敲声=浊响),好瓜)

可以删除假设空间中的3、5、6、8、9、11-15、17-21、23-30、32-49

(2,(色泽=乌黑、根蒂=蜷缩、敲声=浊响),好瓜)

可以删除剩余假设空间中的2、10、16、31

(3,(色泽=青绿、根蒂=硬挺、敲声=清脆),坏瓜)

可以删除剩余假设空间中的1

(4,(色泽=乌黑、根蒂=稍蜷、敲声=沉闷),坏瓜)

剩余假设空间中无可删除的假设

学习过后剩余的假设为:

4 色泽=*,根蒂=蜷缩,敲声=*

7 色泽=*,根蒂=*,敲声=浊响

22 色泽=*,根蒂=蜷缩,敲声=浊响

这就是最后的“假设集合”,也就是“版本空间”。

要想判断的正确,就要全面、大量的训练,以排除更多假设空间中的错误假设。错误假设越少,剩下的假设越少,就越有可能是正确假设,我们判断的结果的正确概率越大。

归纳偏好

从假设空间到版本空间是一个归纳过程(即从特殊到一般的过程)。

现在有一个问题,例如(色泽=青绿,根蒂=蜷缩,敲声=沉闷)这瓜,如果采用(色泽=*) ⋀ (根蒂=蜷缩) ⋀ (敲声=*)这个假设进行判断,这瓜就是好瓜;但是采用(色泽=*) ⋀ (根蒂=*) ⋀ (敲声=浊响)这个假设判断,这瓜就是坏瓜。那么,应该采用哪一个模型(或假设)呢?

若仅有上表中的训练样本,则无法断定上述三个假设中哪一个"更好".

然而,对于一个具体的学习算法而言?它必须要产生一个模型。这时,学习算法本身的"偏好"就会起到关键的作用。

归纳偏好(简称"偏好"):机器学习算法在学习过程中对某种类型假设的偏好。

任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上"等效"的假设所迷惑,无法产生确定的学习结果

如果没有偏好,刚才那个例子就没有确定的答案了。这样的学习结果显得没有意义。

算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

感谢大家的阅读,需要周志华西瓜书配套视频z料+人工智能学习资料包(内含电子书,论文合集,最新技术资料,行业报告的等)可以关注我回复(123)白嫖领~~~

【机器学习】入门到实战笔记系列 | 西瓜书相关推荐

  1. 回归素材(part7)--机器学习入门到实战-MATLAB实践应用

    学习笔记,仅供参考,有错必纠 文章目录 机器学习入门到实战-MATLAB实践应用 线性回归原理 简单线性回归 多元线性回归 机器学习入门到实战-MATLAB实践应用 线性回归原理 简单线性回归

  2. 《基于张量网络的机器学习入门》学习笔记7

    <基于张量网络的机器学习入门>学习笔记7 量子算法 什么是量子算法 三个经典量子算法 Grover算法 背景 基本原理 例题 量子算法 什么是量子算法 例如我们求解一个问题,一个111千克 ...

  3. 《基于张量网络的机器学习入门》学习笔记6

    <基于张量网络的机器学习入门>学习笔记6 密度算符(密度矩阵) 具体到坐标表象 在纯态上 在混合态上 纯态下的密度算符 混合态下的密度算符 密度算符的性质 量子力学性质的密度算符描述 第一 ...

  4. 《基于张量网络的机器学习入门》学习笔记5

    <基于张量网络的机器学习入门>学习笔记5 量子概率体系 事件 互斥事件 概率与测量 不相容属性对 相容属性对 量子概率与经典概率的区别 量子测量 量子概率体系 我们将经典的实数概率扩展到复 ...

  5. 《基于张量网络的机器学习入门》学习笔记4

    <基于张量网络的机器学习入门>学习笔记4 量子概率 将概率复数化 分布与向量的表示 事件与Hilbert空间 不兼容属性及其复数概率表示 为什么一定要复数概率 量子概率 将概率复数化 在经 ...

  6. 《基于张量网络的机器学习入门》学习笔记8(Shor算法)

    <基于张量网络的机器学习入门>学习笔记8 Shor算法 来源 Shor算法的大致流程 因数分解 周期求取与量子傅里叶变换(QFT) Shor算法 来源 1994 1994 1994年,应用 ...

  7. python爬虫从入门到实战笔记——第四章Scrapy框架

    推荐阅读: python爬虫从入门到实战笔记--第一章爬虫原理和数据爬取 python爬虫从入门到实战笔记--第二章非结构化数据和结构化数据的提取 python爬虫从入门到实战笔记--第三章动态HTM ...

  8. 机器学习(周志华)西瓜书 课后习题4.3 信息熵决策树算法——python实现(包括树的可视化)

    机器学习(周志华)西瓜书 课后习题4.3 信息熵决策树算法--python实现(包括树的可视化) 算法原理 1.信息熵 2.信息增益 我们所以要做的就是不断地从当前剩余的属性当中选取最佳属性对样本集进 ...

  9. 推荐系统从入门到实战笔记

    文章目录 推荐系统从入门到实战 1. 推荐系统包含哪些环节 2. 推荐系统有哪些召回路径 3. Netflix经典的推荐系统架构 4. 推荐系统通用架构图(数据流图) 5. 推荐系统如何实现多路召回的 ...

最新文章

  1. pdfh5.js 基于pdf.js和jQuery,web/h5/移动端PDF预览手势缩放插件。
  2. 小站教育携手神策数据,数据赋能留学语言培训教育的智能化探索
  3. RabbitMQ—常见报错
  4. Ubuntu安装MDK
  5. 经典冒泡排序及其优化
  6. 如何规范 CSS 的命名和书写
  7. B站在港交所挂牌上市 12名UP主共同敲钟
  8. VC项目配置基础 (VC6.0 和VC2005)
  9. 中国输配电设备产业需求形势及运行战略规划建议报告2021年版
  10. JAVA SSO单点登录原理以及实现方案
  11. 219-6-3Google浏览器书签备份
  12. Word | 图片被文字遮挡
  13. 技术分享 | Frida 实现 Hook 功能的强大能力
  14. 医学影像后处理服务器系统架构是,医学影像系统(PACS)
  15. virtual Box与Vagrant的安装与踩坑
  16. 使用Python在Excel表指定位置插入多列并赋值
  17. c语言打开指定文件,C语言文件的打开和关闭
  18. 机械臂示教轨迹参数化方法 DMP, Dynamic Movement Primitive (一)
  19. checkpatch海思SDK代码遇见的常见错误《二》
  20. 138.深度学习分布式计算框架-1

热门文章

  1. 软件开发需要学习什么
  2. Cookie 从哪里来,网站用它来干嘛?
  3. C语言数据结构练习——停车场管理系统(使用栈和队列)(草稿的草稿)
  4. ★★★GG口述实录:我和‘老山’英雄的真实接触★★★(PK:★★★MM口述实录:我和程序员老公的幸福生活★★★ )
  5. java中输入汉字转化为拼音
  6. 服务器上mysql授权命令_MySQL授权命令grant的使用方法
  7. CityEngine中的坐标系统
  8. 智能化网络管理系统 为网络安全把脉
  9. 【高等数学】三.一元函数积分学
  10. 2017 VQA Challenge 第一名技术报告