西瓜书--学习笔记1
西瓜书–学习笔记1
第一章
1.分类和回归是监督学习的代表,而聚类是无监督学习的代表。
2.归纳和演绎是科学推理的两大基本手段。
归纳:从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律;
演绎:从一般到特殊的“特化”过程,即从基础原理推演出具体状况
3.与训练集一致的“假设集合”,称之为“版本空间”。
4.机器学习在大数据时代是必不可少的核心技术:收集、存储、传输、管理大数据的目的,是为了"利用"大数据,如果没有机器学习技术分析数据,则"利用"无从谈起。
第二章
1、过拟合是无法彻底避免的,所能做的只是“缓解”,或者说减小其风险
2.学习器评估方法:
(1)留出法:直接将数据集划分为两个互斥的集合,其中一个集合作为训练集,另一个作为测试集,在训练集训练出模型后,用T来评估其测试误差,作为对泛化误差的估计。单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干次随机划分、重复进行实验评估后取平均值作
为留出法的评估结果。
(2)交叉验证法:将数据集划分为k个大小相似的互斥子集,每个子集都要尽可能保持数据分布的一致性。每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集,这样就可以获得k组训练/测试集,进行k次训练和测试。
(3)自助法:给定包含m个样本的数据集D,对它进行采样产生数据集 D’, 每次随机从D中挑选一个样本,将其拷贝放入 D’ ,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到。这个过程重复执行m次后,我们就得到了包含m个样本的数据集 D’ ,这就是自助采样的结果。但是该方法产生的数据集改变了初始数据集的分布,这会引入估计偏差。此方法在数据集较小、难以有效划分训练/测试集时很有用。
(4)调参与最终模型
3.性能度量方法:
(1)错误率与精度
错误率:分类错误的样本数占样本总数的比例
精度:分类正确的样本数占样本总数的比例。
(2)查准率、查全率与F1
查准率:真正例占所有预测正例的比例
查全率:真正率占所有真实正例的比例
查准率与查全率是一对矛盾的度量。一般来说,查准率高时,查全率偏低;而查全率高时,查准率往往偏低。
F1:度量查准率/查全率的不同偏好
(3)ROC与AUC
(4)代价敏感错误率与代价曲线
4.比较检验
(1)假设检验
(2)交叉验证t检验
(3)McNemar 检验
(4)Friedman 检验与 Nemenyi 后续检验
5.偏差与误差:解释学习算法泛化性能的一种重要工具
西瓜书--学习笔记1相关推荐
- 西瓜书学习笔记第2章(模型评估与选择)
西瓜书学习笔记第2章(模型评估与选择) 2.1经验误差与过拟合 2.2评估方法 2.2.1留出法(hold-out) 2.2.2交叉验证法(cross validation) 2.2.3自助法(boo ...
- 周志华西瓜书学习笔记(一)
周志华西瓜书学习笔记 第一章 绪论 数据处理分为三个阶段:收集,分析,预测. 一.基本概念 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能. Mitchell给出的更形式化的定义为 ...
- 【机器学习】西瓜书学习笔记01
基于周志华<机器学习>一书所作笔记,得益于参加datawhale的学习小组,将知识读薄理解,输出以感悟,读厚以加深理解,从而形成自己的框架.希望大家也能一起进行开源学习,进一寸有一寸的欢喜 ...
- 【Abee】吃掉西瓜——西瓜书学习笔记(三)
决策树(decision tree) 目录 [内容包含 第四章] 基本流程 信息增益(information gain) 剪枝处理(pruning) 连续值处理 缺失值处理 多变量决策树 基本流程 决 ...
- 【Abee】吃掉西瓜——西瓜书学习笔记(六)
贝叶斯分类器 目录 [内容包含 第七章] 贝叶斯决策论(Bayes decision theory) 极大似然估计(Maximum Likelihood Estimation,MLE) 朴素贝叶斯分类 ...
- 西瓜书学习笔记(一、绪论)
一.机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科. Mitchell的定义:对于某类任务T和性能度量P,如果一个计算机程序在T上其性能P随着经验E而自我完善,那么我们 ...
- 西瓜书学习笔记——第一、二章
目录 一.第一章 绪论 1.重要基本术语 1.1 分类与回归 1.2 聚类 1.3 监督学习和无监督学习 1.4 泛化 1.5 归纳偏好 二.第二章 模型评估与选择 1.评估方法 1.1 留出法 2. ...
- 西瓜书学习笔记——第十一章:特征选择与稀疏学习
第十一章:特征选择与稀疏学习 11.1 子集搜索与评价 子集搜索 特征子集评价 11.2 过滤式选择 Relief的相关统计量 11.3 包裹式选择 拉斯维加斯方法和蒙特卡罗方法: 11.4 嵌入式选 ...
- 机器学习西瓜书 学习笔记
第2章 模型评估与选择 2.1 经验误差与过拟合 错误率 E=a/m 精度 A=1-E 过拟合:学习能力过强,学到了不具备普遍性的特质 欠拟合:学不到,cjb 过拟合无法彻底避免 误差 实际输出和真实 ...
最新文章
- pythons_pythons是什么
- raise IOError('The file is not exist!')
- 1024我摊牌了,谈谈自己2020剩余两月的学习计划
- 研究生应当具备的三种基本技能
- node搭建服务器,写接口,调接口,跨域
- Mysql慢查询操作梳理
- 要不要买保险,看这篇就够了
- 交易撮合引擎原理与实现【含源码】
- 当我谈缓存的时候,我谈些什么
- 空间中点到直线的距离
- Surface Book重装系统步骤
- “UnsatisfiedDependencyException“的解决方案
- json标准格式举例_json几个小例子
- 使用Intellij来实践测试驱动开发 TDD Kata
- html高德地图调用,插件的使用-入门-教程-地图 JS API | 高德地图API
- 手机号格式校验和手机号添加空格
- Fritzing软件绘制Arduino面包板接线图传感器模块库文件174
- uniapp小程序运行正常,app运行报cid unmatched at view.umd.min.js
- 新媒体运营绩效考核标准
- linux内核的gpiolib