目录

学习教材

学习内容

一、绪论

1.1 基本术语

1.2 假设空间

1.3 归纳偏好

二、 模型评估与选择

2.1 经验误差

2.2 评估方法

2.3 性能度量

2.4 方差与偏差

学习时间


学习教材

  • 机器学习(周志华)

学习内容

一、绪论

1.1 基本术语

数据集:

示例:关于一个事件或对象的描述。(Xi)

特征向量:

样本的维数:用于描述一个样本的属性个数。

标记:关于示例结果的信息。(Yi)

样例:标记信息的示例。

聚类:将训练集分成若干组。

泛化能力:学得模型适用于新样本得能力。

分类任务回归任务的区别:分类任务用于预测离散值,回归任务用于预测连续值。

监督学习无监督学习的区别:训练数据是否拥有标记信息。其中分类和回归是监督学习的代表,聚类是无监督学习的代表。

1.2 假设空间

归纳:从具体事实中归结出一般性规律,从特殊到一般的“泛化”过程。

演绎:从基础原理推演出具体状况,从一般到特殊的“特化”过程。

1.3 归纳偏好

(归纳)偏好:机器学习算法在学习过程中对某种类型假设的偏好。

奥卡姆剃刀(Occam's razor):若有多个假设与观察一致,则选择最简单的那个。

NFL定理:所有学习算法在考虑所有潜在的问题时的期望值都相同。

二、 模型评估与选择

2.1 经验误差

错误率:分类错误的样本数占样本总数的比例。

精度=1-错误率。

误差:学习器的实际预测输出与样本的真实输出之间的差异。

训练误差/经验误差:学习器在训练集上的误差。

泛化误差:在新样本上的误差。

2.2 评估方法

留出法:直接将数据集划分为两个互斥的集合。通常采用“分层采样”

交叉验证法:先将数据集划分为k个大小相似的互斥子集(从数据集中分层采样得到)。每用k-1个子集的并集作为训练集,余下的子集作为测试集,从而进行k次训练和测试,最终返回k个测试结果的均值。k最常用的取值是10。

留一法:m个样本划分为m个子集——每个子集包含一个样本。 评估结果比较准确,但在数据集较大时,计算量非常大。

验证集:模型评估与选择中用于评估测试的数据集。(同一算法不同模型对比)

测试集:对比不同算法的泛化性能。(不同算法对比)

2.3 性能度量

回归任务红最常用的性能度量是均方误差

P-R图:以查准率作为纵轴,查全率作为横轴做出的图。其中若一个学习器的P-R曲线被另一个学习器的曲线完全包住,则可断言后者的性能优于前者。当两个曲线有交叉时:平衡点(BEP)度量:利用平衡点对应的查全率进行比较;F1度量:根据对查准率和查全率的而重视程度不同而用的度量方法。

ROC曲线:真正例率(TPR)为纵轴,假正例率(FPR)为横轴。

* TP:真正例     FN:假反例     FP:假正例     TN:真反例

2.4 方差与偏差

以回归任务为例子:

偏差:期望输出与真是标记的差别。刻画了学习算法本身的拟合能力。

方差:同样训练集的变动造成学习性能的变化。刻画了数据扰动所造成的影响。

噪声:当前任务上任何学习算法所能达到的期望泛化误差的下限。刻画的学习本身的难度。

泛化误差可分解为偏差、方差和噪声之和。


学习时间

14.30-15:53

机器学习(周志华)学习笔记(一)相关推荐

  1. 《机器学习》周志华 学习笔记

    <机器学习>周志华 学习笔记 第一章 绪论 1.1 引言 机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能. 经验:"经验"通常以"数据& ...

  2. 机器学习-周志华-学习记录-第一章绪论

    文章目录 绪论 一.什么是机器学习 二.基本术语 三.假设空间 四.归纳偏好 总结 参考链接 绪论 为了更早地适应研究生的生活,我决定重新学习周志华老师的机器学习这本书.同时也为了能够养成博客记录的习 ...

  3. 《机器学习》 周志华学习笔记第二章 模型评估与选择(课后习题)

    模型选择与评估 一.内容 1.经验误差与过拟合 1.1 学习器在训练集上的误差称为训练误差(training error),在新样本上的误差称为泛化误差(generalizion error). 1. ...

  4. 《机器学习》 周志华学习笔记第一章 绪论(课后习题)

    最近需要学习机器学习,有一点点基础但是很少,希望能通过写博客的方式和大家交流以及学习达到共同进步的目的. 绪论 : 一.内容 1.基本术语 2.假设空间与版本空间 3.归纳偏好(常用的有奥卡姆剃刀) ...

  5. 《机器学习》 周志华学习笔记第十四章 概率图模型(课后习题)python实现

    一.基本内容 1.隐马尔可夫模型 1.1. 假定所有关心的变量集合为Y,可观测变量集合为O,其他变量集合为R, 生成式模型考虑联合分布P(Y,R,O),判别式模型考虑条件分布P(Y,R|O),给定一组 ...

  6. 《机器学习》 周志华学习笔记第八章 集成学习(课后习题)python实现

    1.个体与集成 1.1同质集成 1.2异质集成 2.boosting:代表AdaBoost算法 3.Bagging与随机森林 3.1Bagging 是并行式集成学习方法最著名的代表(基于自主采样法bo ...

  7. 《机器学习》 周志华学习笔记第六章 支持向量机(课后习题)python 实现

    一. 1.间隔与支持向量 2.对偶问题 3.核函数 xi与xj在特征空间的內积等于他们在原始yangben空间中通过函数k(.,.)计算的结果. 核矩阵K总是半正定的. 4.软间隔与正则化 软间隔允许 ...

  8. 《机器学习》 周志华学习笔记第五章 神经网络(课后习题) python实现

    1.神经元模型 2.感知机与多层网络 3.误差逆传播算法 (A)BP算法:最小化训练集D上的累积误差 标准BP算法:更新规则基于单个Ek推导而得 两种策略防止过拟合:(1)早停(通过验证集来判断,训练 ...

  9. 《机器学习》 周志华学习笔记第四章 决策树(课后习题)python 实现

    一.基本内容 1.基本流程 决策树的生成过程是一个递归过程,有三种情形会导致递归返回 (1)当前节点包含的yangben全属于同一类别,无需划分: (2)当前属性集为空,或是所有yangben在所有属 ...

  10. 《机器学习》 周志华学习笔记第三章 线性模型(课后习题)python 实现

    线性模型 一.内容 1.基本形式 2.线性回归:均方误差是回归任务中最常用的性能度量 3.对数几率回归:对数几率函数(logistic function)对率函数是任意阶可导的凸函数,这是非常重要的性 ...

最新文章

  1. java设计模式_状态模式
  2. C++之stdafx.h的用法说明
  3. android 界面跳转封装,【Android】Fragment跳转系列
  4. linux内核开文件系统,内核必须懂(二): Linux文件系统初探
  5. ThinkPad R400 安装win2003网卡驱动
  6. python的lambda函数错误的是_Python 中的 AWS Lambda 函数错误 - AWS Lambda
  7. 【题解】最近公共祖先
  8. 随想录(markdown基本语法)
  9. Basic--Java基本语法
  10. 汇编重要知识点:地址编号和数据编号
  11. H3C VLAN同步MVRP实验
  12. eclips断点调试
  13. python写通讯录_Python—— Django 通讯录制作(一)
  14. 软考高项--项目管理概述
  15. 打字测试软件 tt,打字测试(TT)
  16. Android之Intent详解
  17. Error Code: 1054. Unknown column 'xxx' in 'field list'
  18. 51单片机+PCF8591的多波形发生器仿真程序(正弦波 三角波等可调)
  19. HDU 3265 - Posters
  20. 信息技术服务风险评估

热门文章

  1. Redis的持久化机制、过期策略、淘汰策略
  2. Attributed Graph Clustering: A Deep Attentional Embedding Approach,IJCAI2019
  3. 微信wifi路由器怎么连接服务器,介绍下微信WIFI路由器怎么设置的方法
  4. 全文搜索引擎----ElasticSearch和Solr
  5. 我对嵌入式软件的理解
  6. 卷积网络(持续更新)
  7. 恒瑞、百济之外,再鼎开辟了中国医药创新又一极
  8. 给自己的网站添加在线客服代码
  9. 6个Python数据分析神器~
  10. EasyExcel自定义复杂的表头并在同sheet中实现分页