西瓜书第一章阅读笔记

  • 第一章 绪论
    • 1、机器学习基本术语
    • 2、归纳偏好
    • 3、所有学习算法一样优秀?
    • 4、补充资料

第一章 绪论

1、机器学习基本术语

  • 记录:对一个事件或对象的描述,也称为“示例”(instance)或“样本”(sample)。
  • 数据集 data set:一组记录的集合。
  • 属性 attribute/特征 feature:反映事物某方面的表现或性质的事项。其相乘的空间称为“属性空间”或“样本空间”,空间中的每个点对应一个坐标向量,该坐标向量称为“特征向量”(feature vector)。属性的个数也称为样本的维数。
  • 假设 hypothesis:模型在训练集上学得的规律,其越接近数据的某种潜在规律(ground truth)则认为越好。
  • 学习 learning/训练 training:从数据中学得模型得过程。训练样本构成训练集(training set)。学习过程可以视为在所有假设组成的空间中进行搜索的过程。又因为假设空间通常很大,而样本的数量有限,所以可能存在多个假设与训练集一致的情况,称这些假设组成的“假设集合”为“版本空间”。
  • 标记 label:示例/样本的结果信息。拥有标记新的示例称为“样例”(example),可组成标记空间。
  • 泛化:学得模型适用于新样本的能力。

2、归纳偏好

  • 机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”。
  • 任何一个有效的机器学习算法必有其归纳偏好,否则其将会倍假设空间中看似在训练集上等效的多个假设所迷惑而无法产生确定的学习结果。
  • 归纳偏好实际上就是在对应 “什么样的模型更好” 的假设。
  • 对于学习算法A、B,若在A某些问题上比学习算法B好,则必然存在另一些问题上B比A好

在回归问题中可以很好理解“归纳偏好”。在对有限个样本点进行拟合时,我们可以找到多条曲线符合要求,但根据不同的偏好,我们最终会选择不同的曲线。
例如参考“奥卡姆剃刀”原则——“若有多个假设与观察一直,则选择最简单的一个”,我们趋向于选择符合条件的曲线中更简单、更平滑的曲线。

3、所有学习算法一样优秀?


式子1.2显示出,总误差与学习算法无关

“没有免费的午餐”定理(NFL)

也就是说所有学习算法的期望性能跟胡思乱猜差不多,那这是不是意味着各种学习算法的研究没有意义呢?
  并不是。
  NFL定理一个重要前提:所有“问题”出现的机会相同、或所有问题同等重要。但在实际运用中,我们只关注自己正在试图解决的问题上找到一个好的解决方案,而对于该方案是不是在别的问题或相似问题上也是好方案并不关心。
  所以,NFL的寓意:如果考虑所有潜在的问题,则所有的学习算法一样好,可见脱离具体问题,空泛地谈论“什么学习算法”更好毫无意义。

4、补充资料

  • 关于NFL定理一些理解

西瓜书第一章阅读笔记相关推荐

  1. 西瓜书第二章阅读笔记

    西瓜书第二章阅读笔记 第二章 模型评估与选择 1.经验误差与过拟合 2.模型评估方法 2.1 留出法 hold out 2.2 交叉验证法 cross valildation 2.3 自助法 boot ...

  2. 西瓜书第一章课后习题答案

    第1章 绪论 1.1 略 1.2 参考链接:西瓜书第一章习题 - 简书 (jianshu.com) 首先明确基本合取式有多少种,设西瓜的三个不同属性的特征分别为(A1,A2),(B1,B2,B3),( ...

  3. Introduction to modern cryptography 第一章阅读笔记

    文章目录 前言 1.1 密码学以及现代密码学 1.2 私钥密码的设定 (1) 一些定义 (2) 密码方案的语法 (3) Kerckhoffs原理 1.3 一些密码方案 (1) Caesar's cip ...

  4. PCGBooK第一章 阅读笔记

    本文是对pcgbook(http://pcgbook.com/)的阅读笔记,笔者如果出现错误,欢迎指正 1.1 PCG的定义 PCG,基于过程式内容生成(procedural content gene ...

  5. 大道至简第一章阅读笔记

    大道至简的第一章中开头就举出了一个家喻户晓的故事-愚公移山,这个故事可以很容易的看出原始需求,即:"惩山北之塞,出入之迂",项目目标:"毕力平险,指通豫南,达于汉阴&qu ...

  6. 机器学习西瓜书第一章总结

    机器学习:研究如何通过计算的手段,利用     经验改善系统自身的性能. 1.训练模型   数据集:一组数据记录的集合.   实例或样本:每条记录是关于一个事件或对      象的描述.   属性:反 ...

  7. 西瓜书第一章课后题答案(一)

    1.1 针对西瓜分类分题进行讲解 属性: 3个属性 色泽:(青绿,乌黑,浅白) 根蒂:(蜷缩,硬挺,稍蜷) 敲声:(浊响,清脆,沉闷) 假设空间: 属性所有可能取值组成的可能的样本 假设空间的个数:4 ...

  8. animal farm 第一章阅读笔记

    chapter 1 Old Major's dream. paragraph 1  //Mr Jones is the mastor of the Manor Farm.That night  he ...

  9. 西瓜书第三章阅读笔记

    西瓜书第三章阅读笔记 第三章 线性模型 1.机器学习三要素 2.基本形式 3.线性回归 3.1 模型 3.2 策略 3.3 求解算法 4.对数几率回归 4.1 模型 4.2 策略 4.3 求解算法 5 ...

最新文章

  1. Linux Socket基础介绍
  2. 华为再招 201 万年薪天才少年,任正非:养得起!
  3. Mastering KVM Virtualization:第二章 KVM内部原理
  4. BREW中的安全性网络编程
  5. hdu1671 字典树记录前缀出现次数
  6. jQuery快速入门专题
  7. 处理程序“PageHandlerFactory-Integrated”在其模块列表中有一个错误模块“ManagedPipelineHandler”...
  8. ArcGIS License Server Administrator 10.2 无法启动许可的解决办法
  9. 汉语语法分析的重点是_语法特定句式 |现代汉语专题研讨(15)
  10. [0418] 程序设计实训小结(更新1420)
  11. linux命令 语法 pdf,Linux命令详解词典pdf
  12. android应用图标的尺寸大小,Android APP LOGO尺寸
  13. Win10 磁盘被写保护 请去掉写保护或使用另一张磁盘
  14. C盘空间不足怎么办?教你将其他盘存储空间分给C盘
  15. unc 目录不受支持_经验 |【解决报错】'\\Mac\Home\Desktop' 用作为当前目录的以上路径启动了 CMD.EXE。 UNC 路径不受支持。默认值设为 Windows 目录。...
  16. 2022年最新android studio连接雷电模拟器 真机调试教程
  17. css引入本地字体文件,关于css中引入字体文件
  18. java中compare语句的用法,compare的用法_java中 compareTo()的程序代码及用法
  19. Collection类和泛型
  20. vs2017 qt 修改exe图标没有更新成功

热门文章

  1. Docker大行其道—初识
  2. 互联网、电话订票起售时间(时刻)
  3. C语言实现PING功能
  4. 十分钟看懂什么是VoLTE
  5. 微信小程序——运行他人的项目、寻找appid
  6. XT.COM 直播间第106期 | VGO XT.COM AMA 专场
  7. ORB-SLAM2源码笔记(1)——框架结构
  8. Cache数据库之ECP改M卡死问题
  9. 思科3560交换机console线灌IOS
  10. 知识图谱创新FinTech,一览群智携手浪潮力推智能反洗钱