1.1 引言

1.2 基本术语

1.2.1 数据集相关的基本概念

假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷), (色泽=浅自;根蒂=硬挺;敲声=清脆),……,每对括号内是一条记录,"=",意思是"取值为" .

  1. 数据集(data set) 这组记录的集合称为一个"数据集" (data set).
  2. 示例(instance)或样本(sample) 其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述 ,称为一个"示例" (instance) 或"样本" (sample).一个示例也可以称为一个特征向量(feature vector).
  3. 属性(attribute)或特征(feature) 反映事件或对象在某方面的表现或性质的事项,例如"色泽" “根蒂” “敲声”
  4. 属性值(attribute value) 属性上的取值,例如"青绿" “乌黑”,称为")副主值" (attribute value).
  5. 属性空间(attribute space)、 样本空间(sample space)或输入空间 属性张成的空间称为"属性空间" (attribute space) 、 “样本空间” (sample space)或"输入空间" .

一般的,令 D = { x 1 , x 2 , … , x m } D=\left\{\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \dots, \boldsymbol{x}_{m}\right\} D={x1​,x2​,…,xm​}表示包含 m m m 个示例的数据集, 每个示例由 d d d 个属性描述(例如上面的西瓜数据使用了 3 个属性),则每个示例 x i = ( x i 1 ; x i 2 ; … ; x i d ) \boldsymbol{x}_{i}=\left(x_{i 1} ; x_{i 2} ; \ldots ; x_{i d}\right) xi​=(xi1​;xi2​;…;xid​) 是 d d d 维样本空间 X \mathcal{X} X 中的一个向量 , x i ∈ X \boldsymbol{x}_{i} \in \mathcal{X} xi​∈X , 其中 x i j x_{i j} xij​ 是 x i \boldsymbol{x}_{i} xi​ 在第 j j j 个属性上的取值, d d d 称为样本 x i \boldsymbol{x}_{i} xi​ 的"维数" (dimensionality).

1.2.2 训练过程中的相关概念

从数据中学得模型的过程称为"学习" (learning)或"训练" (training), 这个过程通过执行某个学习算法来完成.

  1. 训练数据(training data) 训练过程中使用的数据称为"训练数据" (training data)
  2. 训练样本(training sample) 其中每个样本称为一个"训练样本" (training sample)
  3. 训练集(training set) 训练样本组成的集合称为"训练集" (training set)
  4. 假设(hypothesis) 学得模型对应了关于数据的某种潜在的规律,因此亦称"假设" (hypothesis).学习过程就是为了找出或逼近真相. 有时将模型称为"学习器" (learner)**

1.2.3 label相关概念

这里关于示例结果的信息,例如"好瓜",称为**“标记” (label); 拥有了标记信息的示例,则称为"样例" (example)**. 一般地,用 ( x i , y i ) \left(\boldsymbol{x}_{i}, y_{i}\right) (xi​,yi​) 表示第 i i i 个样例, 其中 y i ∈ Y y_{i} \in \mathcal{Y} yi​∈Y 是示例 x i x_{i} xi​ 的标记, Y \mathcal{Y} Y 是所有标记的集合, 亦称"标记空间"(label space)或"输出空间"

  1. 标记(label) 关于示例结果的信息,例如"好瓜",称为"标记" (label)
  2. 样例(example) 拥有了标记信息的示例,则称为"样例" (example).
预测类型 学习任务名称 分类
离散值 分类(classification) “二分类"和"多分类”
连续值 回归(regression)

1.2.4 测试相关概念

  1. 测试(testing) 学得模型后,使用其进行预测的过程称为"测试" (testing) .
  2. 测试样本(testing sample) 被预测的样本称为"测试样本" (testing sample). 例如在学得 f f f 后,对测试例 x i x_{i} xi​ , 可得到其预测标记 y = f ( x ) y=f(x) y=f(x)

1.2.5 学习任务的划分

根据训练数据是否拥有标记信息,学习任务可大致划分为两大类**“监督学习” (supervised learning)** 和**“无监督学习” (unsupervised learning)** ,分类和回归是前者的代表,而聚类则是后者的代表.

1.2.6 泛化

1.泛化(generalization) 学得模型适用于新样本的能力,称为"泛化" (generalization)能力

具有强泛化能力的模型能很好地适用于整个样本空间,一般而言,训练样本越多,我们得到的关于 D D D 的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型.

1.3 假设空间

1.3.1 归纳和演绎

归纳 (induction)与横绎 (deduction是科学推理的两大基本手段.前者是从特殊到一般的"泛化" (generalization)过程,即从具体的事实归结出一般性规律;后者则是从一般到特殊的"特化" (specialization)过程,即从基础原理推演出具体状况.

"从样例中学习"是一个归纳的过程, 因此亦称**“归纳学习” (inductive learning)**

1.3.2 归纳学习

  1. 广义的归纳学习大体相当于从样例中学习
  2. 狭义的归纳学习则要求从训练数据中学得概念 (concept) ,因此亦称为"概念学习"或"概念形成" .概念学习中最基本的是布尔概念学习, 即对"是" "不是"这样的可表示为 0/1 布尔值的目标概念的学习.

1.3.3 假设空间

  1. 学习过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集"匹配"(fit) 的假设,即能够将训练集中的瓜判断正确的假设.
  2. 假设的表示一旦确定,假设空间及其规模大小就确定了.
  3. 例: 设空间由形如"(色泽=?) ∧ \wedge ∧(根蒂=?) ∧ \wedge ∧(敲声=?)“的可能取值所形成的假设组成, 加上通配符”*",和空集 ∅ \varnothing ∅,共有 4 × 3 × 3 + 1 = 37 4 \times 3 \times 3+1=37 4×3×3+1=37

1.3.4 版本空间

可能有多个假设与训练集一致,即存在着一个与训练集一致的"假设集合" ,称之为"版本空间" (version space) .


1.4 归纳偏好

1.4.1 归纳偏好的概念

机器学习算法在学习过程中对某种类型假设的偏好,称为"归纳偏好" (inductive bias),或简称为"偏好"

任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上"等效"的假设所迷惑,而无法产生确定的学习结果.

1.4.2 奥卡姆剃刀

  1. 概念: “奥卡姆剃刀” (Occam’s razor)是一种常用的、自然科学研究中最基本的原则,即"若有多个假设与观察一致,则选最简单的那个" .
  2. 奥卡姆剃刀也并非唯一可行的原则

1.4.3 没有免费的午餐(NFL)

  1. 无论学习算法 L a \mathfrak{L}_{a} La​ 多聪明、学习算法 L b \mathfrak{L}_{b} Lb​ 多笨拙,它们的期望性能竟然相同!这就是"没有免费的午餐"定理 (No Free Lunch Theorem,简称 NFL.
  2. NFL 定理有一个重要前提:所有"问题"出现的机会相同、或所有问题同等重要 .
  3. 但实际上,我们只关注自己正在试图解决的问题,希望为它找到一个解决方案,至于这个解决方案在别的问题、甚至在相似的问题上是否为好方案,我们并不关心.

脱离具体问题,空泛地谈论"什么学习算法更好"毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好.要谈论算法的相对优劣,必须要针对具体的学习问题;在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用.

1.5 发展历程

1.6 应用现状

西瓜书(机器学习 周志华)读书笔记--第一章 绪论相关推荐

  1. 【机器学习】周志华 读书笔记 第一章 绪论

    1..什么是机器学习? 引言部分关于各种情景,是基于经验做出的的预判,机器学习的本质任务是预测. 特征 学习经验          =>从而做出有效的决策 def:① 机器学习是一门学科, ②  ...

  2. 机器学习-周志华-学习记录-第一章绪论

    文章目录 绪论 一.什么是机器学习 二.基本术语 三.假设空间 四.归纳偏好 总结 参考链接 绪论 为了更早地适应研究生的生活,我决定重新学习周志华老师的机器学习这本书.同时也为了能够养成博客记录的习 ...

  3. 《机器学习》 周志华学习笔记第一章 绪论(课后习题)

    最近需要学习机器学习,有一点点基础但是很少,希望能通过写博客的方式和大家交流以及学习达到共同进步的目的. 绪论 : 一.内容 1.基本术语 2.假设空间与版本空间 3.归纳偏好(常用的有奥卡姆剃刀) ...

  4. 机器学习西瓜书(周志华)第七章 贝叶斯分类器

    第七章 贝叶斯分类器 1. 贝叶斯决策论 1.1 先验分布 1.2 后验分布 1.3 似然估计 1.4 四大概率在贝叶斯分类中指代含义 1. 朴素贝叶斯 7. 课后练习参考答案 1. 贝叶斯决策论 贝 ...

  5. 机器学习——周志华读书笔记

    1.模型评估方法: 留出发:数据集分割为两部分,data=测试集+训练集:2/3~4/5作为训练集,其余测试集 交叉验证:数据集分割为k组,k-1组为训练集,剩余1组为测试集.共k中情况,对k种情况的 ...

  6. 《机器学习》(西瓜书)周志华 -学习心得

    第一章绪论 基本术语 记录&示例&样本:"=",意思是取值为,每一条记录是关于一个对象或事件的描述.eg:(色泽=浅白:根蒂=硬挺:敲声=清脆) 数据集:记录的集合 ...

  7. 【机器学习】西瓜书_周志华,python实现基于信息熵进行划分选择的决策树算法

    python:实现基于信息熵进行划分选择的决策树算法 本文主要介绍本人用python基于信息熵进行划分选择的决策树代码实现,参考教材为西瓜书第四章--决策树.ps.本文只涉及决策树连续和离散两种情况, ...

  8. 蜥蜴书(Hands on Machine Learning)读书笔记-第一章 机器学习landscape

    A. Geron, Hands on Machine Learning with Scikit-learn and TensorFlow. 第一章 机器学习Landscape 机器学习 机器学习就是从 ...

  9. 西瓜书周志华读书笔记

最新文章

  1. Quartz动态添加、修改和删除定时任务
  2. android studio2.3.2增加jni
  3. 反杀人类、拯救机器狗,被虐士兵机器人化身终结者!这是“波士屯动力”的最新力作...
  4. python对英语和数学的帮助-文科女生学Python:学过初中数学和英语就能懂的编程逻辑...
  5. 崩溃重启_三星手机大量系统崩溃,黑屏乱码无限重启,三星用户一片哀嚎
  6. 《精通Python设计模式》学习结构型之享元模式
  7. C语言知识体系思维导图
  8. jvm加载class原理
  9. RUNOOB python练习题33 使用join方法实现用逗号分隔列表
  10. Python 3.5.2 TypeError: a bytes-like object is required, not 'str’问题解决方案
  11. datapumpdir oracle_oracle_datapump创建外部表案例
  12. 远程调用,限制请求超时时间处理
  13. 【感悟】本书书名无法描述本书内容(一)
  14. 通过SpringAop、Filter对Request参数解密和对Response内容加密
  15. 第一次工作面试(蘑菇街)
  16. PPT图形的多种玩法(师从于珞珈老师)
  17. 信号失真度测量装置(A 题)--2021 年全国大学生电子设计竞赛试题
  18. 【C 语言】文件操作 ( getc 和 putc 函数 )
  19. 优化无止境,爱奇艺中后台 Web 应用性能优化实践
  20. 点击屏幕其他地方让edittext失去焦点 的实现

热门文章

  1. 网购平台比价系统的实现--UI设计代码
  2. React Native 项目整合 CodePush 完全指南
  3. 构建绵羊(非常见物种)BSgenome参考基因组
  4. A.Digits Are Not Just Characters---2018横滨区域赛(大模拟)
  5. 【webots教程】关于webots的超详细介绍
  6. [ICCV2021]3DStyleNet: Creating 3D Shapes with Geometric and Texture Style Variations
  7. windows驱动开发资料(《windows驱动开发技术详解》)+源码
  8. d3中图表大小自适应区域大小
  9. 图书馆管理系统程序测试计划
  10. 北华航天工业学院计算机科学与技术,北华航天工业学院计算机科学与工程系介绍...