机器学习

南京大学周志华教授亲讲《机器学习初步》!跟着大佬从入门到实战

机器学习的本质就是寻找一个函数function，来寻找一个输入input与输出output之间的映射关系。可以是输入一段语音，输出这段语音对应的文字；也可以输入一张图，输出这张图的内容；也可以输入一场棋局，输出下一步应该走哪一格。

基本概念

定义：机器学习是通过大量数据来构建“模型”,在面对新情况时，模型将会给出相应的判断(即学习算法)。

举例一个日常例子：人们买西瓜之前都想自己随手挑的西瓜是好瓜。

除了靠运气之外，我们可以搜集大量西瓜的数据，比如色泽 ;根蒂 ;敲声等指标。大家总结经验，发现：色泽是青绿;根蒂是蜷缩;敲声是浊响，一般有这三种特征的西瓜都是好瓜。

这一个个西瓜就是“训练数据集”，这些经验就是学习产生模型。当下次看到一个没剖开的瓜时，通过经验判断它是哪种瓜（用模型判断）。

基本术语

属性：反映事件或对象在某方面的表现或性质的事项。例如每条记录中的“色泽”、“根蒂”、“敲声”就是西瓜的属性。（与java中类的属性类似）

属性空间：属性张成的空间。例如我们把"色泽" "根蒂" "敲声"作为三个坐标轴，则它们张成一个用于描述西瓜的三维空间就是属性空间

特征向量：每个西瓜都可在这个三维空间中找到自己的坐标位置。这个点对应的一个坐标就是一个特征向量。

三者的关系总结：将每个属性作为一个坐标轴，多个属性就多个坐标轴，从而形成一个描述物体的属性空间。此空间中的每个样本对应一个点，每个点都有一个坐标向量，把这个坐标向量称为特征向量。

如果希望学得一个能帮助我们判断没剖开的是不是"好瓜"的具体模型，，我们还需获得训练样本的"结果"信息，例如色泽是青绿;根蒂是蜷缩;敲声是浊响即好瓜。

标记：关于“结果”的信息，比如上面的“好瓜”就是一个标记。

样例：拥有了标记的例子，则称为样例。

机器学习的目标是希望通过对训练集 { } 进行学习，建立一个从输入空间 X 到输出空间 Y 的映射

假设空间与版本空间

假设空间：所有假设构成的集合。如(色泽=浅自;根蒂=硬挺;敲声=清脆)

版本空间：只保留了假设空间中与训练数据集中正例一致的一部分假设，由这些正确的假设构成的集合成为版本空间。

版本空间构建过程：首先对假设空间进行搜索。

有许多策略对假设空间搜索，如自顶向下和自底向上。然后在搜索过程中只保留与训练集正例（下图1和2为正例）一致的假设。

色泽属性除了取值青绿或浅白，还可能取别的值都可以。取值处我们可以用通配符*表示。如色泽=*

表1.1的训练数据集对应的假设空间应该如下：

1 色泽＝＊，根蒂＝＊，敲声＝＊

2 色泽＝青绿，根蒂＝＊，敲声＝＊

3 色泽＝乌黑，根蒂＝＊，敲声＝＊

4 色泽＝＊，根蒂＝蜷缩，敲声＝＊

5 色泽＝＊，根蒂＝硬挺，敲声＝＊

6 色泽＝＊，根蒂＝稍蜷，敲声＝＊

7 色泽＝＊，根蒂＝＊，敲声＝浊响

8 色泽＝＊，根蒂＝＊，敲声＝清脆

9 色泽＝＊，根蒂＝＊，敲声＝沉闷

10 色泽＝青绿，根蒂＝蜷缩，敲声＝＊

11 色泽＝青绿，根蒂＝硬挺，敲声＝＊

12 色泽＝青绿，根蒂＝稍蜷，敲声＝＊

13 色泽＝乌黑，根蒂＝蜷缩，敲声＝＊

14 色泽＝乌黑，根蒂＝硬挺，敲声＝＊

15 色泽＝乌黑，根蒂＝稍蜷，敲声＝＊

16 色泽＝青绿，根蒂＝＊，敲声＝浊响

17 色泽＝青绿，根蒂＝＊，敲声＝清脆

18 色泽＝青绿，根蒂＝＊，敲声＝沉闷

19 色泽＝乌黑，根蒂＝＊，敲声＝浊响

20 色泽＝乌黑，根蒂＝＊，敲声＝清脆

21 色泽＝乌黑，根蒂＝＊，敲声＝沉闷

22 色泽＝＊，根蒂＝蜷缩，敲声＝浊响

23 色泽＝＊，根蒂＝蜷缩，敲声＝清脆

24 色泽＝＊，根蒂＝蜷缩，敲声＝沉闷

25 色泽＝＊，根蒂＝硬挺，敲声＝浊响

26 色泽＝＊，根蒂＝硬挺，敲声＝清脆

27 色泽＝＊，根蒂＝硬挺，敲声＝沉闷

28 色泽＝＊，根蒂＝稍蜷，敲声＝浊响

29 色泽＝＊，根蒂＝稍蜷，敲声＝清脆

30 色泽＝＊，根蒂＝稍蜷，敲声＝沉闷

31 色泽＝青绿，根蒂＝蜷缩，敲声＝浊响

32 色泽＝青绿，根蒂＝蜷缩，敲声＝清脆

33 色泽＝青绿，根蒂＝蜷缩，敲声＝沉闷

34 色泽＝青绿，根蒂＝硬挺，敲声＝浊响

35 色泽＝青绿，根蒂＝硬挺，敲声＝清脆

36 色泽＝青绿，根蒂＝硬挺，敲声＝沉闷

37 色泽＝青绿，根蒂＝稍蜷，敲声＝浊响

38 色泽＝青绿，根蒂＝稍蜷，敲声＝清脆

39 色泽＝青绿，根蒂＝稍蜷，敲声＝沉闷

40 色泽＝乌黑，根蒂＝蜷缩，敲声＝浊响

41 色泽＝乌黑，根蒂＝蜷缩，敲声＝清脆

42 色泽＝乌黑，根蒂＝蜷缩，敲声＝沉闷

43 色泽＝乌黑，根蒂＝硬挺，敲声＝浊响

44 色泽＝乌黑，根蒂＝硬挺，敲声＝清脆

45 色泽＝乌黑，根蒂＝硬挺，敲声＝沉闷

46 色泽＝乌黑，根蒂＝稍蜷，敲声＝浊响

47 色泽＝乌黑，根蒂＝稍蜷，敲声＝清脆

48 色泽＝乌黑，根蒂＝稍蜷，敲声＝沉闷

49 Ø

根据总结，按照上述过程进行学习：

（1，（色泽＝青绿、根蒂＝蜷缩、敲声＝浊响），好瓜）

可以删除假设空间中的3、5、6、8、9、11-15、17-21、23-30、32-49

（2，（色泽＝乌黑、根蒂＝蜷缩、敲声＝浊响），好瓜）

可以删除剩余假设空间中的2、10、16、31

（3，（色泽＝青绿、根蒂＝硬挺、敲声＝清脆），坏瓜）

可以删除剩余假设空间中的1

（4，（色泽＝乌黑、根蒂＝稍蜷、敲声＝沉闷），坏瓜）

剩余假设空间中无可删除的假设

学习过后剩余的假设为：

4 色泽＝＊，根蒂＝蜷缩，敲声＝＊

7 色泽＝＊，根蒂＝＊，敲声＝浊响

22 色泽＝＊，根蒂＝蜷缩，敲声＝浊响

这就是最后的“假设集合”，也就是“版本空间”。

要想判断的正确，就要全面、大量的训练，以排除更多假设空间中的错误假设。错误假设越少，剩下的假设越少，就越有可能是正确假设，我们判断的结果的正确概率越大。

归纳偏好

从假设空间到版本空间是一个归纳过程（即从特殊到一般的过程）。

现在有一个问题，例如（色泽=青绿，根蒂=蜷缩，敲声=沉闷）这瓜，如果采用(色泽=*) ⋀ (根蒂=蜷缩) ⋀ (敲声=*)这个假设进行判断，这瓜就是好瓜；但是采用（色泽=*) ⋀ (根蒂=*) ⋀ (敲声=浊响)这个假设判断，这瓜就是坏瓜。那么，应该采用哪一个模型(或假设)呢？

若仅有上表中的训练样本，则无法断定上述三个假设中哪一个"更好".

然而，对于一个具体的学习算法而言？它必须要产生一个模型。这时，学习算法本身的"偏好"就会起到关键的作用。

归纳偏好(简称"偏好")：机器学习算法在学习过程中对某种类型假设的偏好。

任何一个有效的机器学习算法必有其归纳偏好，否则它将被假设空间中看似在训练集上"等效"的假设所迷惑，无法产生确定的学习结果。

如果没有偏好，刚才那个例子就没有确定的答案了。这样的学习结果显得没有意义。

算法的归纳偏好是否与问题本身匹配，大多数时候直接决定了算法能否取得好的性能。

感谢大家的阅读，需要周志华西瓜书配套视频z料+人工智能学习资料包（内含电子书，论文合集，最新技术资料，行业报告的等）可以关注我回复（123）白嫖领~~~

【机器学习】入门到实战笔记系列 | 西瓜书相关推荐

回归素材(part7)--机器学习入门到实战-MATLAB实践应用
学习笔记,仅供参考,有错必纠文章目录机器学习入门到实战-MATLAB实践应用线性回归原理简单线性回归多元线性回归机器学习入门到实战-MATLAB实践应用线性回归原理简单线性回归
《基于张量网络的机器学习入门》学习笔记7
<基于张量网络的机器学习入门>学习笔记7 量子算法什么是量子算法三个经典量子算法 Grover算法背景基本原理例题量子算法什么是量子算法例如我们求解一个问题,一个111千克 ...
《基于张量网络的机器学习入门》学习笔记6
<基于张量网络的机器学习入门>学习笔记6 密度算符(密度矩阵) 具体到坐标表象在纯态上在混合态上纯态下的密度算符混合态下的密度算符密度算符的性质量子力学性质的密度算符描述第一 ...
《基于张量网络的机器学习入门》学习笔记5
<基于张量网络的机器学习入门>学习笔记5 量子概率体系事件互斥事件概率与测量不相容属性对相容属性对量子概率与经典概率的区别量子测量量子概率体系我们将经典的实数概率扩展到复 ...
《基于张量网络的机器学习入门》学习笔记4
<基于张量网络的机器学习入门>学习笔记4 量子概率将概率复数化分布与向量的表示事件与Hilbert空间不兼容属性及其复数概率表示为什么一定要复数概率量子概率将概率复数化在经 ...
《基于张量网络的机器学习入门》学习笔记8(Shor算法)
<基于张量网络的机器学习入门>学习笔记8 Shor算法来源 Shor算法的大致流程因数分解周期求取与量子傅里叶变换(QFT) Shor算法来源 1994 1994 1994年,应用 ...
python爬虫从入门到实战笔记——第四章Scrapy框架
推荐阅读: python爬虫从入门到实战笔记--第一章爬虫原理和数据爬取 python爬虫从入门到实战笔记--第二章非结构化数据和结构化数据的提取 python爬虫从入门到实战笔记--第三章动态HTM ...
机器学习（周志华）西瓜书课后习题4.3 信息熵决策树算法——python实现（包括树的可视化）
机器学习(周志华)西瓜书课后习题4.3 信息熵决策树算法--python实现(包括树的可视化) 算法原理 1.信息熵 2.信息增益我们所以要做的就是不断地从当前剩余的属性当中选取最佳属性对样本集进 ...
推荐系统从入门到实战笔记
文章目录推荐系统从入门到实战 1. 推荐系统包含哪些环节 2. 推荐系统有哪些召回路径 3. Netflix经典的推荐系统架构 4. 推荐系统通用架构图(数据流图) 5. 推荐系统如何实现多路召回的 ...

【机器学习】入门到实战笔记系列 | 西瓜书