机器学习西瓜书学习—

在我们日常生活中，我们有时候会根据自己的生活经验，对即将发生的事进行预估。当我们有了足够多的经验，我们就可以对一些情况做出有效的决策。比如说“朝霞不出门晚霞行千里”，就是根据我们生活的经验而得出的。机器学习，我的理解是根据所得到的经验与反馈，去训练出不同的模型，适用于不同的场景。就比如西瓜书中，传入不同的西瓜特征，以及是否是好瓜，让我们通过在这些特征去训练出一个模型，当遇见一个新的西瓜时，我们可以通过这个模型去预测是否是好瓜。

基础术语

在机器学习中数据集非常重要，有了数据集我们才可以训练模型。

首先就是数据集包括哪些东西，数据集是由许多不同的样本集合构成的，每一条数据也称为“示例（instance）”或者“样本(sample)”。

而样本是对象在某方面的表现或者特征的事项，例如一个西瓜中的“色泽”“跟蒂”“敲声”都可以将其称为“属性(attribute)”或者“特征(feature)”。

在属性中，比如一个西瓜色泽中的“青绿”“乌黑”，都可以将其称为属性值。属性张成的空间成为“属性空间”“样本空间”或者“输入空间”。

例如，将西瓜的“色泽”“跟蒂”“敲声”作为三个坐标轴，张成一个用于描述西瓜的样本空间，每个西瓜都可以在里面找到自己的位置。在空间中每个点都对应着一个坐标向量，因此也可以将其称为“特征向量(feature vector)”。

维数：在数据集D中，如果说有m个例示数据集由d个属性,每个示例则是样本空间的一个向量，d也被称为是样本的维数。

在训练过程中使用的数据被称为“训练数据(training data)”,其中每一个样本被称为“训练样本(training sample)”，训练样本组合组成的集合称为"训练集"(training set)。在机器不断学习的过程中就是为了找出或接近真相，可以将学习成为”学习器"(learner)。.

要建立这样的关于“预测” （prediction） 的模型，我们需获得训练样本的“结果”信息，例如 “（（色泽= 青绿;根蒂= 蜷缩;敲声=浊响），好瓜）”. 这里关于示例结果的信息，例如 “好瓜”，称为 “标记" （label）; 拥有了标记信息的示例，则称为 “样例" （example）。

如果预测是离散值，例如 “好瓜” “坏瓜”，此类学习任务称为“分类 " (classification); 若欲预测的是连续值，例如西瓜成熟度 0.95 、0.37,此类学习任务称为 “回归” (regression)。

预测任务是希望通过对训练集、进行学习，建立一个从输入空间X到输出空间 y 的映射。

在建立模型之后使用其进行预测的过程称为“测试” (testing), 被预测的样本称为 “测试样本” (testing sample）。

还可以把训练集中西瓜划分为若干组，每组称为一个“簇” (cluster)，这些自动形成的簇可能对应一些潜在的概念划分，这样的学习过程有助于我们了解数据内在的规律。

根据训练数据是否拥有标记信息，学习任务可大致划分为两大类：“监督学习“ (supervised learning) 和 “无监督学习" (unsupervised learning), 分类和回归是前者的代表,而聚类则是后者的代表。

我们也希望学得的簇划分能适用于没在训练集中出现的样本。学得模型适用于新样本的能力，称为 “泛化 " (generalization) 能力.具有强泛化能力的模型能很好地适用于整个样本空间。

假设空间

布尔学习概念这是概念学习中最基本的，即对“是”“不是”这样的可表示为0/1布尔值得目标概念的学习。

在这里我们用布尔表达式写出是布尔表达式：“好瓜 ↔ ( 色泽 = ? ) ⋀ ( 根蒂 = ? ) ⋀ ( 敲声 = ? )

我们会发现在第一行中，代表的就是好瓜，是我们已经见过的一个好瓜，我们要通过”泛化“来对没有见过的瓜进行判断。

加入色泽有“青绿” “乌黑” “浅白”这三种可能取值;我们还需考虑到，也许 “色泽”无论取什么值都合适，我们用通配符 *来表示 ,例如 “好瓜 ↔ （色泽= *） ⋀ （根蒂= 蜷缩） ⋀ （敲声= 浊响）”，即 “好瓜是根蒂蜷缩、敲声浊响的瓜，什么色泽都行”等其他情况。

上图中仅仅显示了一部分可能性，我们还可以有很多方式对这个假设空间进行搜索，在搜索过程中可以不断矫正与正例不一样的假设，最终获得与训练集一致的假设。

机器学习西瓜书学习——绪论相关推荐

机器学习西瓜书学习笔记
第2章模型评估与选择 2.1 经验误差与过拟合错误率 E=a/m 精度 A=1-E 过拟合:学习能力过强,学到了不具备普遍性的特质欠拟合:学不到,cjb 过拟合无法彻底避免误差实际输出和真实 ...
[机器学习]西瓜书南瓜书学习（更新中）
B站网课学习视频南瓜书datawhale开源内容南瓜书github开源内容什么是机器学习概念介绍人工智能:让机器变得像人一样拥有智能的学科机器学习:让计算机像人一样能从数据中学习出规律的一 ...
西瓜书学习记录-绪论
西瓜书学习记录-绪论看了一下大神录的西瓜书读书记录,学习到很多东西,这里记录一下自己学习的一些截屏记录,方便以后再来复习,致敬大神们的讲解,感谢感谢. 看的大佬的教学视频,标明一下出处: https ...
周志华西瓜书学习笔记(一)
周志华西瓜书学习笔记第一章绪论数据处理分为三个阶段:收集,分析,预测. 一.基本概念机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能. Mitchell给出的更形式化的定义为 ...
机器学习西瓜书-1-2章
学习目标: 概览机器学习西瓜书 1.2章学习内容: 第一章绪论 1.1 基本术语 1.2 假设空间 1.3 归纳偏好 1.4 发展历程第二章模型评估与选择 2.1 经验误差与过拟合 2.2 评 ...
西瓜书学习记录-神经网络（第五章）
西瓜书学习记录-神经网络(第五章) 第五章啦,大佬的视频没讲第五章,所以看书自学一下: 书籍来自周志华的<机器学习>.
西瓜书学习笔记第2章（模型评估与选择）
西瓜书学习笔记第2章(模型评估与选择) 2.1经验误差与过拟合 2.2评估方法 2.2.1留出法(hold-out) 2.2.2交叉验证法(cross validation) 2.2.3自助法(boo ...
机器学习西瓜书（周志华）第七章贝叶斯分类器
第七章贝叶斯分类器 1. 贝叶斯决策论 1.1 先验分布 1.2 后验分布 1.3 似然估计 1.4 四大概率在贝叶斯分类中指代含义 1. 朴素贝叶斯 7. 课后练习参考答案 1. 贝叶斯决策论贝 ...
西瓜书--学习笔记1
西瓜书–学习笔记1 第一章 1.分类和回归是监督学习的代表,而聚类是无监督学习的代表. 2.归纳和演绎是科学推理的两大基本手段. 归纳:从特殊到一般的"泛化"过程,即从具体的事实归 ...

机器学习西瓜书学习——绪论

基础术语

假设空间

机器学习西瓜书学习——绪论相关推荐

最新文章

热门文章