(机器学习周志华 西瓜书 南瓜书)吃瓜教程 Task01
目录
- 1.3 假设空间
- 1.4 归纳偏好
- 2.1 经验误差与过拟合
- 2.3 性能度量
- 2.3.1 错误率与精度
1.3 假设空间
学习过程:在所有假设空间中搜索,为了使搜索结果与训练集一致,可以修改或删除假设。
那么西瓜的色泽、根蒂、敲声就是样本的属性/特征,假设空间就是由数据集属性/特征的所有值组成的空间。学习过程就是就是学习符合“好瓜”特征的值。
所有假设空间:
倘若“色泽”有3种取值,那样本空间则为4,因为还包括任意值 *;
总假设空间还要+1,即加上空集,没有“好瓜”。
假设空间搜索方式可以自顶向下或自底向上等,可能根据数据集情况而定。
1.4 归纳偏好
怎么判断哪一个瓜“更好”,是尽可能特殊,还是尽可能一般? 如果不选择偏好,模型无法判断更好,某个瓜时而是好瓜时而是坏瓜就没有意义了。
常用奥卡姆剃刀原则:“若有多个假设与观察一致,选择最简单的”。即曲线越平滑的,方程次数越小的。
但是可能出现,训练集外的数据更符合复杂的B模型而不是简单的A模型。传说中的No free lunch? 没有免费的午餐定理?若算法a在某些问题上比算法b好,那么必然存在另一些问题,在这些问题中b比a性能更优。没有单一的,通用的最佳机器学习算法,必须根据数据和背景知识来选择合适的机器学习模型。
误差公式:
- Eote (E: expectation期望;ote: off-training error训练集外误差)
- χ−X:训练集外样本
- Ⅱ(*) 指示函数 (indicator function): 定义在某集合X上的函数,表示其中有哪些元素属于某一子集A。则Ⅱ(h(x)≠f(x))为,假设与目标函数不符,分类不正确。
公式解读:
用训练集X训练出的模型a,和实际目标函数 f 的误差 = 对于不同假设h,训练集外每个样本的概率 ×\times× 分类结果 ×\times× 训练集训练a模型得到假设h的概率之和
其中,分类结果只有在不正确的时候,也就是h(x)≠f(x)的时候,指示函数Ⅱ(h(x)≠f(x))才为1。所以公式只会对分类不正确的概率求和。
2.1 经验误差与过拟合
欠拟合易解决,改善学习能力即可,如决策树扩展分支、神经网络增加训练轮数等; 而过拟合只能缓解。 通过评估,选择泛化误差最小的模型,即最优模型(model selection).
用测试误差作为泛化误差的近似,而不是等同于泛化误差,所以文中假设测试集是独立同分布采样而得。于是为了采样合理,提到不同测试集划分方法,如“留出法” 、“交叉验证法” 和“自助法”。
训练集:用于训练模型
验证集:用于模型选择和调参
测试集:用于评估模型实际使用时的泛化能力
2.3 性能度量
均方误差公式解读:m个预测值f(xi)与实际值yi误差的平方和的均值
SSE, Sum of squared errors (和方差): 预测数据和原始数据对应点误差的平方和(平方是为了忽略预测值-实际值差的正负号)
MSE, mean square error (均方方差):SSEnSSE \over nnSSE
若SSE是正方形,那MSE就是平均大小的正方形:
2.3.1 错误率与精度
错误率公式:
公式解读:预测错误的个数样本总数预测错误的个数 \over 样本总数样本总数预测错误的个数
对Ⅱ(f(xi)≠yi) 求和,即预测值f(xi)不等于实际值yi的个数,也就是预测错误的个数。
精度公式:
公式解读:预测正确的个数样本总数预测正确的个数 \over 样本总数样本总数预测正确的个数 = 1- 错误率
(机器学习周志华 西瓜书 南瓜书)吃瓜教程 Task01相关推荐
- (机器学习周志华 西瓜书 南瓜书)吃瓜教程 Task02
目录 第三章 线性模型 3.1基本形式 3.3对数几率回归 3.5 多分类学习 第三章 线性模型 3.1基本形式 解读:计算不同特征xi的权重,加上截距b,训练出线形模型 为什么要加上截距?举例:如果 ...
- 机器学习(周志华西瓜书) 参考答案 总目录
转自:http://blog.csdn.net/icefire_tyh/article/details/52064910 从刚开始学习机器学习到现在也有几个月了,期间看过PDF,上过MOOC,总感觉知 ...
- 机器学习 周志华 西瓜书 第1章 绪论复习总结
如果有看不清或其他问题请评论反馈.
- 周志华西瓜书课后习题答案总目录
https://blog.csdn.net/icefire_tyh/article/details/52064910 机器学习(周志华西瓜书)参考答案总目录 从刚开始学习机器学习到现在也有几个月了,期 ...
- 机器学习(周志华) 参考答案 第十四章 概率图模型 14.9
机器学习(周志华西瓜书) 参考答案 总目录 http://blog.csdn.net/icefire_tyh/article/details/52064910 机器学习(周志华) 参考答案 第十四章 ...
- 《机器学习》(周志华)西瓜书读书笔记
提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 第1章 绪论 第2章 模型评估与选择 第3章 线性模型 第4章 决策树 第5章 神经网络 第6章 神经网络 第7章 贝 ...
- 周志华西瓜书《机器学习》习题提示——第2章
2.1:分层采样, [ ( 500 500 × 70 % ) ] 2 \left[ \binom{500}{500\times 70\%} \right]^2 [(500×70%500)]2 2.2 ...
- 周志华西瓜书学习笔记(一)
周志华西瓜书学习笔记 第一章 绪论 数据处理分为三个阶段:收集,分析,预测. 一.基本概念 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能. Mitchell给出的更形式化的定义为 ...
- 周志华西瓜书3.4题——用十折交叉验证法和留一法估计对率回归的误差
周志华西瓜书3.4题. 本文所编写的代码均使用python3.7进行调试,依靠的sklearn进行的实验. 第一步,导入iris数据集,数据集使用sklearn包里面自带的. from sklearn ...
最新文章
- Datawhale团队第一期录取名单!
- laravel Transformers中修改data键
- 球30家厂商角逐自动驾驶汽车 四年后1000万辆上路
- onbeforeedit和onbeginedit数据不一致_Rrbind.fill|列数不一致的多个数据集“智能”合并,Get!...
- maven安装_如何从官网下载Maven与安装Maven
- 有关打印、收藏等的JS代码(打印等主要使用了一个IE组件来实现)
- 不重复int数组里找不存在的值
- 条件编译#define、#undef、#if、#elif、#elif defined、#elif !defined 、#endif用法
- LinkedBlockingQueue1.8源码
- 突击计划——给定大写字母,输出小写字母
- Java 8 中处理集合的优雅姿势——Stream
- 简谈BOOST升压电路
- bilibili、腾讯视频下载方法及过程中遇到的一些问题
- qt 之 qml 类型 Binding
- ANN之乘积量化PQ
- 计算机基础课件音乐,中考音乐资料电脑基础知识IT计算机专业资料-中考音乐资料.pdf...
- C语言度化为度分秒的方法,一句话转换度:分:秒格式为度.度度度
- 让杂牌蓝牙适配器也安装上windows 自带的驱动程序
- 产品经理和项目经理区别与联系
- openpsoe 代码解读(一)
热门文章
- 攻防世界Reverse进阶区-EasyRE-writeup
- 回字的四种写法之编程
- GreenPlum 数据库启动关闭及数据库状态检查
- ROS2编程基础课程--DDS
- 开发错题集(陆续更新...)
- ryzen linux 搭配显卡,R3 2200G适合搭配什么显卡?AMD锐龙3 2200G适合搭配的显卡攻略...
- Caused by: java.io.IOException: APR error: -730053
- ClickHouse连接ZK频繁超时处理案例
- LED格栅灯市场现状及未来发展趋势分析
- 记住沃伦巴菲特这三十条