西瓜书–学习笔记1

第一章

1.分类和回归是监督学习的代表,而聚类是无监督学习的代表。

2.归纳和演绎是科学推理的两大基本手段。
归纳:从特殊到一般的“泛化”过程,即从具体的事实归结出一般性规律;
演绎:从一般到特殊的“特化”过程,即从基础原理推演出具体状况

3.与训练集一致的“假设集合”,称之为“版本空间”。

4.机器学习在大数据时代是必不可少的核心技术:收集、存储、传输、管理大数据的目的,是为了"利用"大数据,如果没有机器学习技术分析数据,则"利用"无从谈起。

第二章

1、过拟合是无法彻底避免的,所能做的只是“缓解”,或者说减小其风险

2.学习器评估方法:
(1)留出法:直接将数据集划分为两个互斥的集合,其中一个集合作为训练集,另一个作为测试集,在训练集训练出模型后,用T来评估其测试误差,作为对泛化误差的估计。单次使用留出法得到的估计结果往往不够稳定可靠,在使用留出法时,一般要采用若干次随机划分、重复进行实验评估后取平均值作
为留出法的评估结果。
(2)交叉验证法:将数据集划分为k个大小相似的互斥子集,每个子集都要尽可能保持数据分布的一致性。每次用k-1个子集的并集作为训练集,余下的那个子集作为测试集,这样就可以获得k组训练/测试集,进行k次训练和测试。
(3)自助法:给定包含m个样本的数据集D,对它进行采样产生数据集 D’, 每次随机从D中挑选一个样本,将其拷贝放入 D’ ,然后再将该样本放回初始数据集D中,使得该样本在下次采样时仍有可能被采到。这个过程重复执行m次后,我们就得到了包含m个样本的数据集 D’ ,这就是自助采样的结果。但是该方法产生的数据集改变了初始数据集的分布,这会引入估计偏差。此方法在数据集较小、难以有效划分训练/测试集时很有用。
(4)调参与最终模型

3.性能度量方法:
(1)错误率与精度
错误率:分类错误的样本数占样本总数的比例
精度:分类正确的样本数占样本总数的比例。
(2)查准率、查全率与F1
查准率:真正例占所有预测正例的比例
查全率:真正率占所有真实正例的比例
查准率与查全率是一对矛盾的度量。一般来说,查准率高时,查全率偏低;而查全率高时,查准率往往偏低。
F1:度量查准率/查全率的不同偏好
(3)ROC与AUC
(4)代价敏感错误率与代价曲线

4.比较检验
(1)假设检验
(2)交叉验证t检验
(3)McNemar 检验
(4)Friedman 检验与 Nemenyi 后续检验

5.偏差与误差:解释学习算法泛化性能的一种重要工具

西瓜书--学习笔记1相关推荐

  1. 西瓜书学习笔记第2章(模型评估与选择)

    西瓜书学习笔记第2章(模型评估与选择) 2.1经验误差与过拟合 2.2评估方法 2.2.1留出法(hold-out) 2.2.2交叉验证法(cross validation) 2.2.3自助法(boo ...

  2. 周志华西瓜书学习笔记(一)

    周志华西瓜书学习笔记 第一章 绪论 数据处理分为三个阶段:收集,分析,预测. 一.基本概念 机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能. Mitchell给出的更形式化的定义为 ...

  3. 【机器学习】西瓜书学习笔记01

    基于周志华<机器学习>一书所作笔记,得益于参加datawhale的学习小组,将知识读薄理解,输出以感悟,读厚以加深理解,从而形成自己的框架.希望大家也能一起进行开源学习,进一寸有一寸的欢喜 ...

  4. 【Abee】吃掉西瓜——西瓜书学习笔记(三)

    决策树(decision tree) 目录 [内容包含 第四章] 基本流程 信息增益(information gain) 剪枝处理(pruning) 连续值处理 缺失值处理 多变量决策树 基本流程 决 ...

  5. 【Abee】吃掉西瓜——西瓜书学习笔记(六)

    贝叶斯分类器 目录 [内容包含 第七章] 贝叶斯决策论(Bayes decision theory) 极大似然估计(Maximum Likelihood Estimation,MLE) 朴素贝叶斯分类 ...

  6. 西瓜书学习笔记(一、绪论)

    一.机器学习是一门致力于研究如何通过计算的手段,利用经验来改善系统自身的性能的学科. Mitchell的定义:对于某类任务T和性能度量P,如果一个计算机程序在T上其性能P随着经验E而自我完善,那么我们 ...

  7. 西瓜书学习笔记——第一、二章

    目录 一.第一章 绪论 1.重要基本术语 1.1 分类与回归 1.2 聚类 1.3 监督学习和无监督学习 1.4 泛化 1.5 归纳偏好 二.第二章 模型评估与选择 1.评估方法 1.1 留出法 2. ...

  8. 西瓜书学习笔记——第十一章:特征选择与稀疏学习

    第十一章:特征选择与稀疏学习 11.1 子集搜索与评价 子集搜索 特征子集评价 11.2 过滤式选择 Relief的相关统计量 11.3 包裹式选择 拉斯维加斯方法和蒙特卡罗方法: 11.4 嵌入式选 ...

  9. 机器学习西瓜书 学习笔记

    第2章 模型评估与选择 2.1 经验误差与过拟合 错误率 E=a/m 精度 A=1-E 过拟合:学习能力过强,学到了不具备普遍性的特质 欠拟合:学不到,cjb 过拟合无法彻底避免 误差 实际输出和真实 ...

最新文章

  1. pythons_pythons是什么
  2. raise IOError('The file is not exist!')
  3. 1024我摊牌了,谈谈自己2020剩余两月的学习计划
  4. 研究生应当具备的三种基本技能
  5. node搭建服务器,写接口,调接口,跨域
  6. Mysql慢查询操作梳理
  7. 要不要买保险,看这篇就够了
  8. 交易撮合引擎原理与实现【含源码】
  9. 当我谈缓存的时候,我谈些什么
  10. 空间中点到直线的距离
  11. Surface Book重装系统步骤
  12. “UnsatisfiedDependencyException“的解决方案
  13. json标准格式举例_json几个小例子
  14. 使用Intellij来实践测试驱动开发 TDD Kata
  15. html高德地图调用,插件的使用-入门-教程-地图 JS API | 高德地图API
  16. 手机号格式校验和手机号添加空格
  17. Fritzing软件绘制Arduino面包板接线图传感器模块库文件174
  18. uniapp小程序运行正常,app运行报cid unmatched at view.umd.min.js
  19. 新媒体运营绩效考核标准
  20. linux内核的gpiolib

热门文章

  1. java毕业设计网上投稿管理系统源码+lw文档+mybatis+系统+mysql数据库+调试
  2. mail.yeah.net
  3. linux格式化旧硬盘失败
  4. 安卓主板与pc主板通信_如何为定制PC选择合适的主板
  5. 智能手机发展集体遭遇新瓶颈 中兴天机Axon M率先突围
  6. 周杰伦推荐 万魔新降噪豆 1MORE EVO 全新发布
  7. Unity 简易照片DIY贴纸功能
  8. 一种基于自定义View的贴纸控件Demo
  9. java怎么创建子线程_Java创建子线程的两种方法
  10. js控制下拉框默认选中第一个值