西瓜书第一章阅读笔记

  • 第一章 绪论
    • 1、机器学习基本术语
    • 2、归纳偏好
    • 3、所有学习算法一样优秀?
    • 4、补充资料

第一章 绪论

1、机器学习基本术语

  • 记录:对一个事件或对象的描述,也称为“示例”(instance)或“样本”(sample)。
  • 数据集 data set:一组记录的集合。
  • 属性 attribute/特征 feature:反映事物某方面的表现或性质的事项。其相乘的空间称为“属性空间”或“样本空间”,空间中的每个点对应一个坐标向量,该坐标向量称为“特征向量”(feature vector)。属性的个数也称为样本的维数。
  • 假设 hypothesis:模型在训练集上学得的规律,其越接近数据的某种潜在规律(ground truth)则认为越好。
  • 学习 learning/训练 training:从数据中学得模型得过程。训练样本构成训练集(training set)。学习过程可以视为在所有假设组成的空间中进行搜索的过程。又因为假设空间通常很大,而样本的数量有限,所以可能存在多个假设与训练集一致的情况,称这些假设组成的“假设集合”为“版本空间”。
  • 标记 label:示例/样本的结果信息。拥有标记新的示例称为“样例”(example),可组成标记空间。
  • 泛化:学得模型适用于新样本的能力。

2、归纳偏好

  • 机器学习算法在学习过程中对某种类型假设的偏好,称为“归纳偏好”。
  • 任何一个有效的机器学习算法必有其归纳偏好,否则其将会倍假设空间中看似在训练集上等效的多个假设所迷惑而无法产生确定的学习结果。
  • 归纳偏好实际上就是在对应 “什么样的模型更好” 的假设。
  • 对于学习算法A、B,若在A某些问题上比学习算法B好,则必然存在另一些问题上B比A好

在回归问题中可以很好理解“归纳偏好”。在对有限个样本点进行拟合时,我们可以找到多条曲线符合要求,但根据不同的偏好,我们最终会选择不同的曲线。
例如参考“奥卡姆剃刀”原则——“若有多个假设与观察一直,则选择最简单的一个”,我们趋向于选择符合条件的曲线中更简单、更平滑的曲线。

3、所有学习算法一样优秀?


式子1.2显示出,总误差与学习算法无关

“没有免费的午餐”定理(NFL)

也就是说所有学习算法的期望性能跟胡思乱猜差不多,那这是不是意味着各种学习算法的研究没有意义呢?
  并不是。
  NFL定理一个重要前提:所有“问题”出现的机会相同、或所有问题同等重要。但在实际运用中,我们只关注自己正在试图解决的问题上找到一个好的解决方案,而对于该方案是不是在别的问题或相似问题上也是好方案并不关心。
  所以,NFL的寓意:如果考虑所有潜在的问题,则所有的学习算法一样好,可见脱离具体问题,空泛地谈论“什么学习算法”更好毫无意义。

4、补充资料

  • 关于NFL定理一些理解

西瓜书第一章阅读笔记相关推荐

  1. 西瓜书第二章阅读笔记

    西瓜书第二章阅读笔记 第二章 模型评估与选择 1.经验误差与过拟合 2.模型评估方法 2.1 留出法 hold out 2.2 交叉验证法 cross valildation 2.3 自助法 boot ...

  2. 西瓜书第一章课后习题答案

    第1章 绪论 1.1 略 1.2 参考链接:西瓜书第一章习题 - 简书 (jianshu.com) 首先明确基本合取式有多少种,设西瓜的三个不同属性的特征分别为(A1,A2),(B1,B2,B3),( ...

  3. Introduction to modern cryptography 第一章阅读笔记

    文章目录 前言 1.1 密码学以及现代密码学 1.2 私钥密码的设定 (1) 一些定义 (2) 密码方案的语法 (3) Kerckhoffs原理 1.3 一些密码方案 (1) Caesar's cip ...

  4. PCGBooK第一章 阅读笔记

    本文是对pcgbook(http://pcgbook.com/)的阅读笔记,笔者如果出现错误,欢迎指正 1.1 PCG的定义 PCG,基于过程式内容生成(procedural content gene ...

  5. 大道至简第一章阅读笔记

    大道至简的第一章中开头就举出了一个家喻户晓的故事-愚公移山,这个故事可以很容易的看出原始需求,即:"惩山北之塞,出入之迂",项目目标:"毕力平险,指通豫南,达于汉阴&qu ...

  6. 机器学习西瓜书第一章总结

    机器学习:研究如何通过计算的手段,利用     经验改善系统自身的性能. 1.训练模型   数据集:一组数据记录的集合.   实例或样本:每条记录是关于一个事件或对      象的描述.   属性:反 ...

  7. 西瓜书第一章课后题答案(一)

    1.1 针对西瓜分类分题进行讲解 属性: 3个属性 色泽:(青绿,乌黑,浅白) 根蒂:(蜷缩,硬挺,稍蜷) 敲声:(浊响,清脆,沉闷) 假设空间: 属性所有可能取值组成的可能的样本 假设空间的个数:4 ...

  8. animal farm 第一章阅读笔记

    chapter 1 Old Major's dream. paragraph 1  //Mr Jones is the mastor of the Manor Farm.That night  he ...

  9. 西瓜书第三章阅读笔记

    西瓜书第三章阅读笔记 第三章 线性模型 1.机器学习三要素 2.基本形式 3.线性回归 3.1 模型 3.2 策略 3.3 求解算法 4.对数几率回归 4.1 模型 4.2 策略 4.3 求解算法 5 ...

最新文章

  1. (3)数据库的建立和数据表的操作
  2. android 用命令行打包生成 apk
  3. ARTS打卡计划第三周-Tips
  4. pycharm替换和查找文件中所有相同代码方法
  5. topcpder SRM 664 div2 A,B,C BearCheats , BearPlays equalPiles , BearSorts (映射)
  6. 自百度2012吧——这些都是巧合吗
  7. jzoj100047-基因变异【位运算,bfs】
  8. 2020年计算机视觉学习指南
  9. Python爬虫入门之Urllib库的基本使用
  10. 点击button后改变文字_27. 教你零基础搭建小程序:小程序的常见组件—button
  11. mysql 读取properties_JDBC中使用Properties读取配置文件有什么用
  12. 【FLink-未解决】FLink Mertic 冲突 导致 任务挂掉 Namecollision Group allready contains a mertics
  13. 高级GIS-1.提取纯净像元
  14. 如何获得一个干净的 gnome 开发环境?
  15. JDK和CGLIB生成动态代理类的区别
  16. 安装phpmyadmin
  17. Johnson 算法
  18. WPS下 宏使用js编写及一些脚本
  19. 教师资格证考试计算机知识题库,教师资格考试《高中信息技术》试题
  20. 2022最新阿里云国际注册教程-不用绑定paypal注册

热门文章

  1. 【区块链】以太坊L2扩容方案与零知识证明
  2. Java实现5种负载均衡算法
  3. Ubuntu下的词典安装----GoldenDict
  4. Python-断点续传
  5. 使用python计算复信号的DFT
  6. python excel绘图-利用python在excel中画图的实现方法
  7. TypeError: sequence item 0: expected string, int found
  8. mac版小达人点读包怎么安装_一分钟搞定小达人点读笔点读包安装问题!
  9. 治愈拖延症患者的解药
  10. 软件测试之——性能测试,Web性能测试用例(详全)