在我们日常生活中,我们有时候会根据自己的生活经验,对即将发生的事进行预估。当我们有了足够多的经验,我们就可以对一些情况做出有效的决策。比如说“朝霞不出门 晚霞行千里”,就是根据我们生活的经验而得出的。机器学习,我的理解是根据所得到的经验与反馈,去训练出不同的模型,适用于不同的场景。就比如西瓜书中,传入不同的西瓜特征,以及是否是好瓜,让我们通过在这些特征去训练出一个模型,当遇见一个新的西瓜时,我们可以通过这个模型去预测是否是好瓜。

基础术语

在机器学习中数据集非常重要,有了数据集我们才可以训练模型。

首先就是数据集包括哪些东西,数据集是由许多不同的样本集合构成的,每一条数据也称为“示例(instance)”或者“样本(sample)”。

样本是对象在某方面的表现或者特征的事项,例如一个西瓜中的“色泽”“跟蒂”“敲声”都可以将其称为“属性(attribute)”或者“特征(feature)”。

属性中,比如一个西瓜色泽中的“青绿”“乌黑”,都可以将其称为属性值属性张成的空间成为“属性空间”“样本空间”或者“输入空间”

例如,将西瓜的“色泽”“跟蒂”“敲声”作为三个坐标轴,张成一个用于描述西瓜的样本空间,每个西瓜都可以在里面找到自己的位置。在空间中每个点都对应着一个坐标向量,因此也可以将其称为“特征向量(feature vector)”。

维数:在数据集D中,如果说有m个例示数据集由d个属性,每个示例则是样本空间的一个向量,d也被称为是样本的维数

在训练过程中使用的数据被称为“训练数据(training data)”,其中每一个样本被称为“训练样本(training sample)”,训练样本组合组成的集合称为"训练集"(training set)。在机器不断学习的过程中就是为了找出或接近真相,可以将学习成为”学习器"(learner)。.

要建立这样的关于“预测” (prediction) 的模型,我们需获得训练样本的“结果”信息,例 如 “((色泽= 青绿;根蒂= 蜷缩;敲声=浊响),好瓜)”. 这里关于示例结果的信息,例 如 “好瓜”,称 为 “标记" (label); 拥有了标记信息的示例,则 称 为 “样例" (example)。

如果预测是离散值,例 如 “好瓜” “坏瓜”,此类学习任务称为“分 类 " (classification); 若欲预测的是连续值,例如西瓜成熟度 0.95 、0.37,此 类 学 习 任 务 称 为 “回归” (regression)。

预测任务是希望通过对训练集 、 进行学习,建立一个从输入空间X到输出空间 y 的映射。

在建立模型之后使用其进行预测的过程称为“测试” (testing), 被预测的样本称为 “测试样本” (testing sample)

还可以把训练集中西瓜划分为若干组,每组称为一个“簇” (cluster), 这些自动形成的簇可能对应一些潜在的概念划分,这样的学习过程有助于我们了解数据内在的规律。

根据训练数据是否拥有标记信息,学习任务可大致划分为两大类:“监督学习“ (supervised learning)“无监督学习" (unsupervised learning), 分类回归是前者的代表,而聚类则是后者的代表。

我们也希望学得的划分能适用于没在训练集中出现的样本。学得模型适用于新样本的能力,称 为 “泛 化 " (generalization) 能力.具有强泛化能力的模型能很好地适用于整个样本空间。

假设空间

布尔学习概念这是概念学习中最基本的,即对“是”“不是”这样的可表示为0/1布尔值得目标概念的学习。

在这里我们用布尔表达式写出是布尔表达式:“好 瓜 ↔ ( 色 泽 = ? ) ⋀ ( 根 蒂 = ? ) ⋀ ( 敲 声 = ? )

我们会发现在第一行中,代表的就是好瓜,是我们已经见过的一个好瓜,我们要通过”泛化“来对没有见过的瓜进行判断。

加入色泽有“青绿” “乌黑” “浅白”这三种可能取值;我们还需考虑到,也 许 “色泽”无论取什么值都合适,我们用通配符 *来 表 示 ,例 如 “好瓜 ↔ (色泽= *) ⋀ (根蒂= 蜷缩) ⋀ (敲声= 浊响)”,即 “好瓜是根蒂蜷缩、敲声浊响的瓜,什么色泽都行”等其他情况。

上图中仅仅显示了一部分可能性,我们还可以有很多方式对这个假设空间进行搜索,在搜索过程中可以不断矫正与正例不一样的假设,最终获得与训练集一致的假设。

机器学习西瓜书学习——绪论相关推荐

  1. 机器学习西瓜书 学习笔记

    第2章 模型评估与选择 2.1 经验误差与过拟合 错误率 E=a/m 精度 A=1-E 过拟合:学习能力过强,学到了不具备普遍性的特质 欠拟合:学不到,cjb 过拟合无法彻底避免 误差 实际输出和真实 ...

  2. [机器学习]西瓜书南瓜书学习(更新中)

    B站网课学习视频 南瓜书datawhale开源内容 南瓜书github开源内容 什么是机器学习 概念介绍 人工智能:让机器变得像人一样拥有智能的学科 机器学习:让计算机像人一样能从数据中学习出规律的一 ...

  3. 西瓜书学习记录-绪论

    西瓜书学习记录-绪论 看了一下大神录的西瓜书读书记录,学习到很多东西,这里记录一下自己学习的一些截屏记录,方便以后再来复习,致敬大神们的讲解,感谢感谢. 看的大佬的教学视频,标明一下出处: https ...

  4. 周志华西瓜书学习笔记(一)

    周志华西瓜书学习笔记 第一章 绪论 数据处理分为三个阶段:收集,分析,预测. 一.基本概念 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能. Mitchell给出的更形式化的定义为 ...

  5. 机器学习西瓜书-1-2章

    学习目标: 概览机器学习西瓜书 1.2章 学习内容: 第一章 绪论 1.1 基本术语 1.2 假设空间 1.3 归纳偏好 1.4 发展历程 第二章 模型评估与选择 2.1 经验误差与过拟合 2.2 评 ...

  6. 西瓜书学习记录-神经网络(第五章)

    西瓜书学习记录-神经网络(第五章) 第五章啦,大佬的视频没讲第五章,所以看书自学一下: 书籍来自周志华的<机器学习>.

  7. 西瓜书学习笔记第2章(模型评估与选择)

    西瓜书学习笔记第2章(模型评估与选择) 2.1经验误差与过拟合 2.2评估方法 2.2.1留出法(hold-out) 2.2.2交叉验证法(cross validation) 2.2.3自助法(boo ...

  8. 机器学习西瓜书(周志华)第七章 贝叶斯分类器

    第七章 贝叶斯分类器 1. 贝叶斯决策论 1.1 先验分布 1.2 后验分布 1.3 似然估计 1.4 四大概率在贝叶斯分类中指代含义 1. 朴素贝叶斯 7. 课后练习参考答案 1. 贝叶斯决策论 贝 ...

  9. 西瓜书--学习笔记1

    西瓜书–学习笔记1 第一章 1.分类和回归是监督学习的代表,而聚类是无监督学习的代表. 2.归纳和演绎是科学推理的两大基本手段. 归纳:从特殊到一般的"泛化"过程,即从具体的事实归 ...

最新文章

  1. [Objective-C] 如何定义Block(块)
  2. linux for循环
  3. win7 python3环境变量设置_如何配置python3的环境变量
  4. Fragment与Activity之间的相互通信
  5. HDU 4966 GGS-DDU(最小树形图)
  6. webstorm开发微信小程序
  7. 解决win10学习汇编工具的烦恼——汇编masm的下载和使用(包含可用下载连接)
  8. IntelliJ IDEA配置Groovy教程
  9. 「数字电路系列」博文目录,学习总结
  10. EasyCVR人脸识别框在播放器上显示及消失的机制设定
  11. 【对话系统】Knowledge-Grounded Dialogue Generation with a Unified Knowledge Representation
  12. python读excel表_怎么用python读取excel表格的数据
  13. 我的地盘ol位置服务器拒绝怎么办,微信我的地盘ol等级划分详解 微信我的地盘ol等级怎么分...
  14. [地图]常用的地图结构
  15. a DNS-1123 label must consist of lower case alphanumeric characters or ‘-‘, and must start and end w
  16. 基于Java+SpringBoot+微信小程序实现奶茶点单系统
  17. 【建议收藏】数据结构和算法面试题
  18. js 动态修改iframe的src
  19. ol,li,ul列表
  20. 阿里云服务器通用算力u1性能测评CPU处理器网络PPS

热门文章

  1. 流量监控软件轻松处理异常流量
  2. 计算机网络安全分析及防范措施,计算机网络安全分析及防范措施--毕业论文.doc...
  3. 知网查重学术不端文献检测系统查不查公式和图表文字
  4. Doc批量转成Docx
  5. 联合 EMQ 发布云原生物联网消息服务联合解决方案,云上轻松构建 IoT 应用
  6. YoloV4自己样本制作和训练
  7. 高泽龙:下一个独角兽来自长租公寓,行业创新极大地释放租赁红利
  8. 海明威的《老人与海》人生感悟
  9. 二维火:智能餐饮云端互联是如何实现的?
  10. Chained row