学习教材

学习内容

一、绪论

1.1 基本术语

1.2 假设空间

1.3 归纳偏好

二、模型评估与选择

2.1 经验误差

2.2 评估方法

2.3 性能度量

2.4 方差与偏差

学习时间

学习教材

机器学习（周志华）

学习内容

一、绪论

1.1 基本术语

数据集：

示例：关于一个事件或对象的描述。（Xi）

特征向量：

样本的维数：用于描述一个样本的属性个数。

标记：关于示例结果的信息。（Yi）

样例：标记信息的示例。

聚类：将训练集分成若干组。

泛化能力：学得模型适用于新样本得能力。

分类任务与回归任务的区别：分类任务用于预测离散值，回归任务用于预测连续值。

监督学习和无监督学习的区别：训练数据是否拥有标记信息。其中分类和回归是监督学习的代表，聚类是无监督学习的代表。

1.2 假设空间

归纳：从具体事实中归结出一般性规律，从特殊到一般的“泛化”过程。

演绎：从基础原理推演出具体状况，从一般到特殊的“特化”过程。

1.3 归纳偏好

（归纳）偏好：机器学习算法在学习过程中对某种类型假设的偏好。

奥卡姆剃刀（Occam's razor）:若有多个假设与观察一致，则选择最简单的那个。

NFL定理：所有学习算法在考虑所有潜在的问题时的期望值都相同。

二、模型评估与选择

2.1 经验误差

错误率：分类错误的样本数占样本总数的比例。

精度=1-错误率。

误差：学习器的实际预测输出与样本的真实输出之间的差异。

训练误差/经验误差：学习器在训练集上的误差。

泛化误差：在新样本上的误差。

2.2 评估方法

留出法：直接将数据集划分为两个互斥的集合。通常采用“分层采样”

交叉验证法：先将数据集划分为k个大小相似的互斥子集（从数据集中分层采样得到）。每用k-1个子集的并集作为训练集，余下的子集作为测试集，从而进行k次训练和测试，最终返回k个测试结果的均值。k最常用的取值是10。

留一法：m个样本划分为m个子集——每个子集包含一个样本。评估结果比较准确，但在数据集较大时，计算量非常大。

验证集：模型评估与选择中用于评估测试的数据集。（同一算法不同模型对比）

测试集：对比不同算法的泛化性能。（不同算法对比）

2.3 性能度量

回归任务红最常用的性能度量是均方误差。

P-R图：以查准率作为纵轴，查全率作为横轴做出的图。其中若一个学习器的P-R曲线被另一个学习器的曲线完全包住，则可断言后者的性能优于前者。当两个曲线有交叉时：平衡点（BEP）度量：利用平衡点对应的查全率进行比较；F1度量：根据对查准率和查全率的而重视程度不同而用的度量方法。

ROC曲线：真正例率（TPR）为纵轴，假正例率（FPR）为横轴。

* TP:真正例 FN：假反例 FP：假正例 TN：真反例

2.4 方差与偏差

以回归任务为例子：

偏差：期望输出与真是标记的差别。刻画了学习算法本身的拟合能力。

方差：同样训练集的变动造成学习性能的变化。刻画了数据扰动所造成的影响。

噪声：当前任务上任何学习算法所能达到的期望泛化误差的下限。刻画的学习本身的难度。

泛化误差可分解为偏差、方差和噪声之和。

学习时间

14.30-15：53

机器学习（周志华）学习笔记（一）相关推荐

《机器学习》周志华学习笔记
<机器学习>周志华学习笔记第一章绪论 1.1 引言机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能. 经验:"经验"通常以"数据& ...
机器学习-周志华-学习记录-第一章绪论
文章目录绪论一.什么是机器学习二.基本术语三.假设空间四.归纳偏好总结参考链接绪论为了更早地适应研究生的生活,我决定重新学习周志华老师的机器学习这本书.同时也为了能够养成博客记录的习 ...
《机器学习》周志华学习笔记第二章模型评估与选择（课后习题）
模型选择与评估一.内容 1.经验误差与过拟合 1.1 学习器在训练集上的误差称为训练误差(training error),在新样本上的误差称为泛化误差(generalizion error). 1. ...
《机器学习》周志华学习笔记第一章绪论（课后习题）
最近需要学习机器学习,有一点点基础但是很少,希望能通过写博客的方式和大家交流以及学习达到共同进步的目的. 绪论 : 一.内容 1.基本术语 2.假设空间与版本空间 3.归纳偏好(常用的有奥卡姆剃刀) ...
《机器学习》周志华学习笔记第十四章概率图模型（课后习题）python实现
一.基本内容 1.隐马尔可夫模型 1.1. 假定所有关心的变量集合为Y,可观测变量集合为O,其他变量集合为R, 生成式模型考虑联合分布P(Y,R,O),判别式模型考虑条件分布P(Y,R|O),给定一组 ...
《机器学习》周志华学习笔记第八章集成学习（课后习题）python实现
1.个体与集成 1.1同质集成 1.2异质集成 2.boosting:代表AdaBoost算法 3.Bagging与随机森林 3.1Bagging 是并行式集成学习方法最著名的代表(基于自主采样法bo ...
《机器学习》周志华学习笔记第六章支持向量机（课后习题）python 实现
一. 1.间隔与支持向量 2.对偶问题 3.核函数 xi与xj在特征空间的內积等于他们在原始yangben空间中通过函数k(.,.)计算的结果. 核矩阵K总是半正定的. 4.软间隔与正则化软间隔允许 ...
《机器学习》周志华学习笔记第五章神经网络（课后习题） python实现
1.神经元模型 2.感知机与多层网络 3.误差逆传播算法 (A)BP算法:最小化训练集D上的累积误差标准BP算法:更新规则基于单个Ek推导而得两种策略防止过拟合:(1)早停(通过验证集来判断,训练 ...
《机器学习》周志华学习笔记第四章决策树（课后习题）python 实现
一.基本内容 1.基本流程决策树的生成过程是一个递归过程,有三种情形会导致递归返回 (1)当前节点包含的yangben全属于同一类别,无需划分: (2)当前属性集为空,或是所有yangben在所有属 ...
《机器学习》周志华学习笔记第三章线性模型（课后习题）python 实现
线性模型一.内容 1.基本形式 2.线性回归:均方误差是回归任务中最常用的性能度量 3.对数几率回归:对数几率函数(logistic function)对率函数是任意阶可导的凸函数,这是非常重要的性 ...

机器学习（周志华）学习笔记（一）

学习教材

学习内容

一、绪论

1.1 基本术语

1.2 假设空间

1.3 归纳偏好

二、模型评估与选择

2.1 经验误差

2.2 评估方法

2.3 性能度量

2.4 方差与偏差

学习时间

机器学习（周志华）学习笔记（一）相关推荐

最新文章

热门文章

机器学习（周志华）学习笔记（一）

学习教材

学习内容

一、绪论

1.1 基本术语

1.2 假设空间

1.3 归纳偏好

二、 模型评估与选择

2.1 经验误差

2.2 评估方法

2.3 性能度量

2.4 方差与偏差

学习时间

机器学习（周志华）学习笔记（一）相关推荐

最新文章

热门文章

二、模型评估与选择