西瓜书(机器学习 周志华)读书笔记--第一章 绪论
1.1 引言
略
1.2 基本术语
1.2.1 数据集相关的基本概念
假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷), (色泽=浅自;根蒂=硬挺;敲声=清脆),……,每对括号内是一条记录,"=",意思是"取值为" .
- 数据集(data set) 这组记录的集合称为一个"数据集" (data set).
- 示例(instance)或样本(sample) 其中每条记录是关于一个事件或对象(这里是一个西瓜)的描述 ,称为一个"示例" (instance) 或"样本" (sample).一个示例也可以称为一个特征向量(feature vector).
- 属性(attribute)或特征(feature) 反映事件或对象在某方面的表现或性质的事项,例如"色泽" “根蒂” “敲声”
- 属性值(attribute value) 属性上的取值,例如"青绿" “乌黑”,称为")副主值" (attribute value).
- 属性空间(attribute space)、 样本空间(sample space)或输入空间 属性张成的空间称为"属性空间" (attribute space) 、 “样本空间” (sample space)或"输入空间" .
一般的,令 D = { x 1 , x 2 , … , x m } D=\left\{\boldsymbol{x}_{1}, \boldsymbol{x}_{2}, \dots, \boldsymbol{x}_{m}\right\} D={x1,x2,…,xm}表示包含 m m m 个示例的数据集, 每个示例由 d d d 个属性描述(例如上面的西瓜数据使用了 3 个属性),则每个示例 x i = ( x i 1 ; x i 2 ; … ; x i d ) \boldsymbol{x}_{i}=\left(x_{i 1} ; x_{i 2} ; \ldots ; x_{i d}\right) xi=(xi1;xi2;…;xid) 是 d d d 维样本空间 X \mathcal{X} X 中的一个向量 , x i ∈ X \boldsymbol{x}_{i} \in \mathcal{X} xi∈X , 其中 x i j x_{i j} xij 是 x i \boldsymbol{x}_{i} xi 在第 j j j 个属性上的取值, d d d 称为样本 x i \boldsymbol{x}_{i} xi 的"维数" (dimensionality).
1.2.2 训练过程中的相关概念
从数据中学得模型的过程称为"学习" (learning)或"训练" (training), 这个过程通过执行某个学习算法来完成.
- 训练数据(training data) 训练过程中使用的数据称为"训练数据" (training data)
- 训练样本(training sample) 其中每个样本称为一个"训练样本" (training sample)
- 训练集(training set) 训练样本组成的集合称为"训练集" (training set)
- 假设(hypothesis) 学得模型对应了关于数据的某种潜在的规律,因此亦称"假设" (hypothesis).学习过程就是为了找出或逼近真相. 有时将模型称为"学习器" (learner)**
1.2.3 label相关概念
这里关于示例结果的信息,例如"好瓜",称为**“标记” (label); 拥有了标记信息的示例,则称为"样例" (example)**. 一般地,用 ( x i , y i ) \left(\boldsymbol{x}_{i}, y_{i}\right) (xi,yi) 表示第 i i i 个样例, 其中 y i ∈ Y y_{i} \in \mathcal{Y} yi∈Y 是示例 x i x_{i} xi 的标记, Y \mathcal{Y} Y 是所有标记的集合, 亦称"标记空间"(label space)或"输出空间"
- 标记(label) 关于示例结果的信息,例如"好瓜",称为"标记" (label)
- 样例(example) 拥有了标记信息的示例,则称为"样例" (example).
预测类型 | 学习任务名称 | 分类 |
---|---|---|
离散值 | 分类(classification) | “二分类"和"多分类” |
连续值 | 回归(regression) |
1.2.4 测试相关概念
- 测试(testing) 学得模型后,使用其进行预测的过程称为"测试" (testing) .
- 测试样本(testing sample) 被预测的样本称为"测试样本" (testing sample). 例如在学得 f f f 后,对测试例 x i x_{i} xi , 可得到其预测标记 y = f ( x ) y=f(x) y=f(x)
1.2.5 学习任务的划分
根据训练数据是否拥有标记信息,学习任务可大致划分为两大类**“监督学习” (supervised learning)** 和**“无监督学习” (unsupervised learning)** ,分类和回归是前者的代表,而聚类则是后者的代表.
1.2.6 泛化
1.泛化(generalization) 学得模型适用于新样本的能力,称为"泛化" (generalization)能力
具有强泛化能力的模型能很好地适用于整个样本空间,一般而言,训练样本越多,我们得到的关于 D D D 的信息越多,这样就越有可能通过学习获得具有强泛化能力的模型.
1.3 假设空间
1.3.1 归纳和演绎
归纳 (induction)与横绎 (deduction是科学推理的两大基本手段.前者是从特殊到一般的"泛化" (generalization)过程,即从具体的事实归结出一般性规律;后者则是从一般到特殊的"特化" (specialization)过程,即从基础原理推演出具体状况.
"从样例中学习"是一个归纳的过程, 因此亦称**“归纳学习” (inductive learning)**
1.3.2 归纳学习
- 广义的归纳学习大体相当于从样例中学习
- 狭义的归纳学习则要求从训练数据中学得概念 (concept) ,因此亦称为"概念学习"或"概念形成" .概念学习中最基本的是布尔概念学习, 即对"是" "不是"这样的可表示为 0/1 布尔值的目标概念的学习.
1.3.3 假设空间
- 学习过程看作一个在所有假设(hypothesis)组成的空间中进行搜索的过程,搜索目标是找到与训练集"匹配"(fit) 的假设,即能够将训练集中的瓜判断正确的假设.
- 假设的表示一旦确定,假设空间及其规模大小就确定了.
- 例: 设空间由形如"(色泽=?) ∧ \wedge ∧(根蒂=?) ∧ \wedge ∧(敲声=?)“的可能取值所形成的假设组成, 加上通配符”*",和空集 ∅ \varnothing ∅,共有 4 × 3 × 3 + 1 = 37 4 \times 3 \times 3+1=37 4×3×3+1=37
1.3.4 版本空间
可能有多个假设与训练集一致,即存在着一个与训练集一致的"假设集合" ,称之为"版本空间" (version space) .
1.4 归纳偏好
1.4.1 归纳偏好的概念
机器学习算法在学习过程中对某种类型假设的偏好,称为"归纳偏好" (inductive bias),或简称为"偏好"
任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上"等效"的假设所迷惑,而无法产生确定的学习结果.
1.4.2 奥卡姆剃刀
- 概念: “奥卡姆剃刀” (Occam’s razor)是一种常用的、自然科学研究中最基本的原则,即"若有多个假设与观察一致,则选最简单的那个" .
- 奥卡姆剃刀也并非唯一可行的原则
1.4.3 没有免费的午餐(NFL)
- 无论学习算法 L a \mathfrak{L}_{a} La 多聪明、学习算法 L b \mathfrak{L}_{b} Lb 多笨拙,它们的期望性能竟然相同!这就是"没有免费的午餐"定理 (No Free Lunch Theorem,简称 NFL.
- NFL 定理有一个重要前提:所有"问题"出现的机会相同、或所有问题同等重要 .
- 但实际上,我们只关注自己正在试图解决的问题,希望为它找到一个解决方案,至于这个解决方案在别的问题、甚至在相似的问题上是否为好方案,我们并不关心.
脱离具体问题,空泛地谈论"什么学习算法更好"毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好.要谈论算法的相对优劣,必须要针对具体的学习问题;在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用.
1.5 发展历程
略
1.6 应用现状
略
西瓜书(机器学习 周志华)读书笔记--第一章 绪论相关推荐
- 【机器学习】周志华 读书笔记 第一章 绪论
1..什么是机器学习? 引言部分关于各种情景,是基于经验做出的的预判,机器学习的本质任务是预测. 特征 学习经验 =>从而做出有效的决策 def:① 机器学习是一门学科, ② ...
- 机器学习-周志华-学习记录-第一章绪论
文章目录 绪论 一.什么是机器学习 二.基本术语 三.假设空间 四.归纳偏好 总结 参考链接 绪论 为了更早地适应研究生的生活,我决定重新学习周志华老师的机器学习这本书.同时也为了能够养成博客记录的习 ...
- 《机器学习》 周志华学习笔记第一章 绪论(课后习题)
最近需要学习机器学习,有一点点基础但是很少,希望能通过写博客的方式和大家交流以及学习达到共同进步的目的. 绪论 : 一.内容 1.基本术语 2.假设空间与版本空间 3.归纳偏好(常用的有奥卡姆剃刀) ...
- 机器学习西瓜书(周志华)第七章 贝叶斯分类器
第七章 贝叶斯分类器 1. 贝叶斯决策论 1.1 先验分布 1.2 后验分布 1.3 似然估计 1.4 四大概率在贝叶斯分类中指代含义 1. 朴素贝叶斯 7. 课后练习参考答案 1. 贝叶斯决策论 贝 ...
- 机器学习——周志华读书笔记
1.模型评估方法: 留出发:数据集分割为两部分,data=测试集+训练集:2/3~4/5作为训练集,其余测试集 交叉验证:数据集分割为k组,k-1组为训练集,剩余1组为测试集.共k中情况,对k种情况的 ...
- 《机器学习》(西瓜书)周志华 -学习心得
第一章绪论 基本术语 记录&示例&样本:"=",意思是取值为,每一条记录是关于一个对象或事件的描述.eg:(色泽=浅白:根蒂=硬挺:敲声=清脆) 数据集:记录的集合 ...
- 【机器学习】西瓜书_周志华,python实现基于信息熵进行划分选择的决策树算法
python:实现基于信息熵进行划分选择的决策树算法 本文主要介绍本人用python基于信息熵进行划分选择的决策树代码实现,参考教材为西瓜书第四章--决策树.ps.本文只涉及决策树连续和离散两种情况, ...
- 蜥蜴书(Hands on Machine Learning)读书笔记-第一章 机器学习landscape
A. Geron, Hands on Machine Learning with Scikit-learn and TensorFlow. 第一章 机器学习Landscape 机器学习 机器学习就是从 ...
- 西瓜书周志华读书笔记
最新文章
- Quartz动态添加、修改和删除定时任务
- android studio2.3.2增加jni
- 反杀人类、拯救机器狗,被虐士兵机器人化身终结者!这是“波士屯动力”的最新力作...
- python对英语和数学的帮助-文科女生学Python:学过初中数学和英语就能懂的编程逻辑...
- 崩溃重启_三星手机大量系统崩溃,黑屏乱码无限重启,三星用户一片哀嚎
- 《精通Python设计模式》学习结构型之享元模式
- C语言知识体系思维导图
- jvm加载class原理
- RUNOOB python练习题33 使用join方法实现用逗号分隔列表
- Python 3.5.2 TypeError: a bytes-like object is required, not 'str’问题解决方案
- datapumpdir oracle_oracle_datapump创建外部表案例
- 远程调用,限制请求超时时间处理
- 【感悟】本书书名无法描述本书内容(一)
- 通过SpringAop、Filter对Request参数解密和对Response内容加密
- 第一次工作面试(蘑菇街)
- PPT图形的多种玩法(师从于珞珈老师)
- 信号失真度测量装置(A 题)--2021 年全国大学生电子设计竞赛试题
- 【C 语言】文件操作 ( getc 和 putc 函数 )
- 优化无止境,爱奇艺中后台 Web 应用性能优化实践
- 点击屏幕其他地方让edittext失去焦点 的实现
热门文章
- 网购平台比价系统的实现--UI设计代码
- React Native 项目整合 CodePush 完全指南
- 构建绵羊(非常见物种)BSgenome参考基因组
- A.Digits Are Not Just Characters---2018横滨区域赛(大模拟)
- 【webots教程】关于webots的超详细介绍
- [ICCV2021]3DStyleNet: Creating 3D Shapes with Geometric and Texture Style Variations
- windows驱动开发资料(《windows驱动开发技术详解》)+源码
- d3中图表大小自适应区域大小
- 图书馆管理系统程序测试计划
- 北华航天工业学院计算机科学与技术,北华航天工业学院计算机科学与工程系介绍...