小吴的《机器学习 周志华》学习笔记 第一章 绪论

近一年时间接触到不少机器学习的知识,虽然断断续续学了一些,总感觉还没有入门(只学会了疯狂调包)。因此,最近开始系统学习Machine Learning的经典——西瓜书,为了防止自己偷懒,以及更好的了解书中的知识点,立一个flag,每周写一些学习笔记来供自己日后复习。入门小白,若有错误的地方欢迎大家指出。

第一章 绪论

1.1 引言

这本bible被称为西瓜书,不仅是因为它的封面上印着的西瓜?- -||,而是作者以西瓜的好坏为例。作者由一个“清新”的例子引入:

看完这一段话,我们就能根据很多经验做出预测,例如为什么看到湿的路面、感到和风,就能预测出明天是好天?为什么看到色泽青绿、根蒂卷缩、敲声浑浊就能判断出是好瓜?等等,以上是根据人们经验所得。
那么什么是机器学习?简单来说就是利用经验来改善系统自身的性能(在计算机系统中,“经验”通常以“数据”的形式存在)。机器学习所研究的主要内容就是在计算机上从数据中产生model(学习算法),有了这样的学习算法后,在面临新情况时,我们就能对其进行预测。(概念就说到这,这几年类似的话说了几百次,快说吐了。。)

1.2 基本术语

接下来,说一下ML中许多很常见的术语:
数据集(data set):收集的数据的集合。
示例(instance)/样本(sample):数据集中每条关于一个事件或对象的描述。
属性(attribute)/特征(feature):反映事件或对象在某方面的表现或性质的事项。
属性空间(attribute space)/样本空间(sample space):属性张成的空间。

我们若把n个不同的属性作为n维空间的不同坐标轴,每一个示例都能在这个n维空间中找到它所对应的点,则每一个点对应一个坐标向量,因此一个示例也被称为一个“特征向量”(feature vector)。

数据集D={x1,x2, …xm}表示的是包含m个示例的数据集,每一个示例由d个属性描述,每一个示例xi={xi1,xi2, …xid}是d维样本空间X中的一个向量。

学习(learning)/训练(training):从数据中学得模型的过程
训练数据(training data):训练过程中使用的数据
训练样本(training sample):训练数据中的每一个样本
训练集(training set):训练样本组成的集合。
标签(label):关于示例结果的信息
样例(example):拥有标记信息的示例
标记空间(label space):所有标记的集合,或称输出空间

分类:预测的是离散值
回归:预测的是连续值

聚类:把训练集中的数据分为若干的组,每一个组称为一个簇(cluster)。
学习任务可以根据训练数据有无标签大致分为两种,“监督学习”和“无监督学习”,分类和回归是前者的代表,而聚类是后者的代表。

1.3 假设空间与版本空间

归纳学习:从样例中学习(广义);从训练数据中学得概念(狭义),因此也称为“概念学习”。概念学习中最基本的是布尔概念学习,即对可以表示为0/1布尔值的目标概念的学习。接下来给出书上的一个例子,假定获得了这样的数据集:
用布尔表达式写出来就是:
好瓜<->(色泽=?)and(根蒂=?)and(敲声=?)
好瓜<->(色泽=*)and(根蒂=蜷缩)and(敲声=浊响)

?代表未确定的值,对训练集学习得目的就是把?确定下来。
*代表通配符,可以取任意值。

我们把学习过程看成一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集“匹配”的假设。对于上面例子的假设空间为:

则假设空间规模大小为4* 4* 4+1=65.
要注意的是现实问题中我们面临着很大的假设空间,但学习过程是基于有限的样本训练集进行的,因此可能有多个假设与训练集一致,即存在一个与训练集一致的假设集合,为“版本空间”:

1.4 归纳偏好

这里所提到的偏好,我们可以简单理解为“特征选择”,就是我们要更重视某一个特征才能使得学习结果更加准确,我们给出一个回归学习图示来更加直观的表示:
这张图很明显的表示出对应的学习算法可能偏好图中更平滑的曲线A,而不是崎岖的曲线B。
我们怎么知道更偏好于平滑曲线A,有没有什么一般性的原则来引导算法确立“正确的”偏好呢?这里就要提到“奥卡姆剃刀”。

“奥卡姆剃刀”:若有多个假设与观察一致,则选择最简单的那个。因此我们选择A。

但是!!我们相信A好于B,但会不会出现下面的情况呢?
这种情况完全可能出现,我们用数学推导来证明上面的讨论:
对于二分类问题则有:

最后可以得出:

这里表面总误差居然与学习算法无关(因为最后一项的结果为概率1),那么也就是说无轮学习算法多聪明或者多笨拙,它们所得期望相同!这就是“没有免费的午餐”定理(NFL)。那读者读到这表示,既然一样,那还学个锤子?
但是,NFL的前提是:所有问题出现机会相同、或所有问题同等重要,但是现实情况并不是这样。
所以我们说:在脱离实际意义情况下,空泛地谈论哪种算法好毫无意义,要谈论算法优劣必须针对具体学习问题。在某些问题上表现和的学习算法,在另一些问题上可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性作用。
(此话引于https://www.jianshu.com/p/6fdcfb634617,我觉得很有道理)

后面的发展历程和应用现状就略过了,下期发第一章习题或第二章学习笔记!

小吴的《机器学习 周志华》学习笔记 第一章 绪论相关推荐

  1. 机器学习-周志华-学习记录-第一章绪论

    文章目录 绪论 一.什么是机器学习 二.基本术语 三.假设空间 四.归纳偏好 总结 参考链接 绪论 为了更早地适应研究生的生活,我决定重新学习周志华老师的机器学习这本书.同时也为了能够养成博客记录的习 ...

  2. 《机器学习》 周志华学习笔记第一章 绪论(课后习题)

    最近需要学习机器学习,有一点点基础但是很少,希望能通过写博客的方式和大家交流以及学习达到共同进步的目的. 绪论 : 一.内容 1.基本术语 2.假设空间与版本空间 3.归纳偏好(常用的有奥卡姆剃刀) ...

  3. 西瓜书(机器学习 周志华)读书笔记--第一章 绪论

    1.1 引言 略 1.2 基本术语 1.2.1 数据集相关的基本概念 假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷), (色泽= ...

  4. 【机器学习】周志华 读书笔记 第一章 绪论

    1..什么是机器学习? 引言部分关于各种情景,是基于经验做出的的预判,机器学习的本质任务是预测. 特征 学习经验          =>从而做出有效的决策 def:① 机器学习是一门学科, ②  ...

  5. 《机器学习》 周志华学习笔记第二章 模型评估与选择(课后习题)

    模型选择与评估 一.内容 1.经验误差与过拟合 1.1 学习器在训练集上的误差称为训练误差(training error),在新样本上的误差称为泛化误差(generalizion error). 1. ...

  6. 《机器学习》周志华 学习笔记

    <机器学习>周志华 学习笔记 第一章 绪论 1.1 引言 机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能. 经验:"经验"通常以"数据& ...

  7. 《机器学习》 周志华学习笔记第四章 决策树(课后习题)python 实现

    一.基本内容 1.基本流程 决策树的生成过程是一个递归过程,有三种情形会导致递归返回 (1)当前节点包含的yangben全属于同一类别,无需划分: (2)当前属性集为空,或是所有yangben在所有属 ...

  8. 《机器学习》 周志华学习笔记第十四章 概率图模型(课后习题)python实现

    一.基本内容 1.隐马尔可夫模型 1.1. 假定所有关心的变量集合为Y,可观测变量集合为O,其他变量集合为R, 生成式模型考虑联合分布P(Y,R,O),判别式模型考虑条件分布P(Y,R|O),给定一组 ...

  9. 《机器学习》 周志华学习笔记第八章 集成学习(课后习题)python实现

    1.个体与集成 1.1同质集成 1.2异质集成 2.boosting:代表AdaBoost算法 3.Bagging与随机森林 3.1Bagging 是并行式集成学习方法最著名的代表(基于自主采样法bo ...

最新文章

  1. 如何建设数据安全体系?
  2. IDC:2017年,40%的CIO将失去在企业中的领导地位
  3. javascript的promise
  4. POJ2482-Stars in Your Window【线段树,扫描线,离散化】
  5. php解析目录函数怎么用,PHP中目录解析函数
  6. 石子合并(动态规划DP)
  7. 互联网移动在“云”端
  8. Lasso估计学习笔记(二)
  9. 游戏测试基础:适配性测试
  10. mysql 商品库存表设计_库存数据库表设计
  11. 第五项修炼-读书笔记
  12. 一个经济学果粉对国内iOS游戏厂商的5点斥责和5个建议
  13. 华为OD机试 - 删除最少字符(Python) | 机试题算法思路 【2023-02】
  14. cocos creator中FBX文件不可用显示asset invalid
  15. oracle的路由器,如何充分使用Oracle?
  16. cat实时监控-入门demo
  17. Android 百度地图开发问题----解决地图有时候加载不出来问题
  18. 绝妙!不用外部电路检测芯片工作电压!
  19. 成功者都善于造势、借势?造势和借势的真正含义是什么?
  20. php将文字转为拼音,php 将汉字转化成拼音

热门文章

  1. About email
  2. 弘辽科技:如何快速引爆新品的流量。
  3. ListView如何单独刷新一个item
  4. 软件工程(三)—— 结构化方法
  5. Gson替代方案Moshi使用教程
  6. 小爱音箱提示“系统出现点问题,请检查配置。。。“采坑之旅
  7. 斐讯db2_斐讯N1盒子OpenWRT系统相关问答
  8. 通胀严重的今天,家庭如何理财
  9. 上海多元化养老样本:养老公寓的商业模式难题
  10. 购物商城app开发的功能和流程是什么