文章目录

  • 绪论
  • 一、什么是机器学习
  • 二、基本术语
  • 三、假设空间
  • 四、归纳偏好
  • 总结
  • 参考链接

绪论

为了更早地适应研究生的生活,我决定重新学习周志华老师的机器学习这本书。同时也为了能够养成博客记录的习惯,我开始尝试着写博客记录学习中的问题。


一、什么是机器学习

机器学习是在计算机上,从数据中产生“学习算法”,然后通过该算法产生模型。基于该模型提供相应的判断的过程。

二、基本术语

  • 数据集(data set) 一组数据的记录集合。
  • 示例(instance)or 样本(sample) 数据集中的一个对象或者事件的描述 。
  • 属性(attribute)or 特征(feature) 反映事件或对象在某方面的表现或性质。
  • 属性值(attribute value) 属性上的取值。例如:头发的颜色取值黑色;头发的长度取值长发。
  • 属性空间(attribute space) or 样本空间(sample space)or 输入空间 属性张成的空间。例如,将头发的“颜色”,“长度”,“是否分叉”三个属性作为三个坐标,可以张成一个用于描述头发的三维空间,每根头发都可以在该三维空间中找到自己的位置。
  • 特征向量(feature vector) 属性空间中的每个点对应一个坐标向量,所以,一个坐标点所代表的示例称为一个特征向量。
  • 维数(dimensionally) 特征向量的维数,这里指某一示例中的特征总数。
  • 学习(learning)or 训练(training) 从数据中学得模型的过程。
  • 训练数据(training data) 训练过程中使用的数据。
  • 训练样本(training sample) 训练数据中的每一个样本。
  • 训练集(training set) 训练样本组成的集合。
  • 假设(hypothesis) 通过学习到的模型得出一种关于数据的潜在规律, 称为假设。
  • 真相 or 真实(ground truth) 由假设的自身,即潜在规律自身,成为真相。
  • 学习器(learner) 等同于模型,可看作学习算法在给定数据和参数空间的实列化。
  • 预测(prediction) 通过预测,可以判断样本是否符合结果信息。
  • 标记(label) 样本结果的信息。例如,色泽=青绿,根蒂=蜷缩是好瓜的。
  • 样例(sample) 拥有标记信息的示例。
  • 标记空间 or 输出空间(lable space) 标记的集合。
  • 分类(classification) 算法预测离散值,例如“好人”,“坏人”。
  • 回归(regression) 算法预测连续值,例如西瓜的成熟度:0.95、0.22。
  • 二分类(binary classification) 只涉及两个类别的分类。
  • 正类(positive class) 二分类中的正类。
  • 反类(negative class) 二分类中的反类。正类的反面。
  • 多分类(multi-class classification) 涉及多个类别的分类。
  • 测试(testing) 学得模型后,使用该模型进行预测的过程。
  • 测试样本(testing sample) 被预测的样本。
  • 聚类(clustering) 一种典型的无监督学习算法,主要用于将相似的样本自动归到一个类别中。
  • 簇(cluster) 训练集中的样本分为若干组,每一组称为一个簇。
  • 监督学习(supervised learning) 训练数据有标记信息。
  • 无监督学习(unsupervised learning) 训练数据无标记信息。
  • 泛化(generalization) 学得的模型适用于新样本的能力。
  • 分布(distribution) 假设样本空间中全体样本服从一个的一个未知的发布。一般而言,训练样本越多,我们得到的关于分布的信息就越多,这样就越有可能通过学习获得具有强泛化能力的模型。
  • 独立同分布((independent and identically distributed ,简称 i.i.d.) 获得的每个样本都是独立地从这个分布上采样获得的。

三、假设空间

假设空间就是基于数据集形成的所有情况的假设集合,对每种情况根据数据集分析得到概率情况,以便后期对未知情况进行判断。

我所理解的假设空间是:特征属性的所有可能的属性值取值的集合。

我们可以把学习过程看作一个在假设组成的空间中进行搜索的过程。搜索过程中可以不断删除与正例不一致的假设、和(或)与反例一致的假设。最终将会获得与训练集一致(即对所有训练样本能够进行正确判断)的假设,这就是我们学得的结果。

现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此有可能有多个假设与训练集一致,即存在着一个与训练集一致的“假设集合”,我们称之为“版本空间(version space)

版本空间概念学习中与已知数据集一致的所有假设的子集集合。即,从假设空间删除掉与正例不一致和与反例一致的假设后,剩余的假设所组成的集合

四、归纳偏好

机器学习算法在学习过程中对某种类型假设的偏好,称为"归纳偏好" (inductive bias) ,
或简称为"偏好"。(感觉比假设空间好理解)

任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上"等效"的假设所迷惑,而无法产生确定的学习结果。

事实上,归纳偏好对应了学习算法本身所做出的关于"什么样的模型更好"的假设。在具体的现实问题中,这个假设是否成立,即算法的归纳偏好是否与问题本身匹配,大多数时候直接决定了算法能否取得好的性能。

"没有免费的午餐"定理的证明:不会。

总之,具体问题要具体分析。学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。


总结

本章简单介绍了一些基本术语,假设空间与归纳偏好。对于版本空间与没有免费午餐的证明还不熟悉。在此后还得多加努力。

参考链接

【《机器学习》周志华学习笔记1.3】~机器学习中“假设空间”到底是什么?“归纳学习”又是什么?“布尔概念”呢?

如何理解假设空间与版本空间?

第一章绪论课后习题答案

机器学习-周志华-学习记录-第一章绪论相关推荐

  1. 《机器学习》 周志华学习笔记第一章 绪论(课后习题)

    最近需要学习机器学习,有一点点基础但是很少,希望能通过写博客的方式和大家交流以及学习达到共同进步的目的. 绪论 : 一.内容 1.基本术语 2.假设空间与版本空间 3.归纳偏好(常用的有奥卡姆剃刀) ...

  2. 西瓜书(机器学习 周志华)读书笔记--第一章 绪论

    1.1 引言 略 1.2 基本术语 1.2.1 数据集相关的基本概念 假定我们收集了一批关于西瓜的数据,例如(色泽=青绿;根蒂=蜷缩;敲声=浊响), (色泽=乌黑;根蒂=稍蜷;敲声=沉闷), (色泽= ...

  3. 【机器学习】周志华 读书笔记 第一章 绪论

    1..什么是机器学习? 引言部分关于各种情景,是基于经验做出的的预判,机器学习的本质任务是预测. 特征 学习经验          =>从而做出有效的决策 def:① 机器学习是一门学科, ②  ...

  4. 《机器学习》 周志华学习笔记第二章 模型评估与选择(课后习题)

    模型选择与评估 一.内容 1.经验误差与过拟合 1.1 学习器在训练集上的误差称为训练误差(training error),在新样本上的误差称为泛化误差(generalizion error). 1. ...

  5. 《机器学习》周志华 学习笔记

    <机器学习>周志华 学习笔记 第一章 绪论 1.1 引言 机器学习:致力于研究如何通过计算的手段,利用经验来改善系统自身的性能. 经验:"经验"通常以"数据& ...

  6. 小吴的《机器学习 周志华》学习笔记 第一章 绪论

    小吴的<机器学习 周志华>学习笔记 第一章 绪论 近一年时间接触到不少机器学习的知识,虽然断断续续学了一些,总感觉还没有入门(只学会了疯狂调包).因此,最近开始系统学习Machine Le ...

  7. 小吴的《机器学习 周志华》学习笔记 第二章 模型评估与选择

    小吴的<机器学习 周志华>学习笔记 第二章 模型评估与选择 上一周我们介绍了第一章的基础概念,这一次将带来第二章的前三节.后面的2.4 比较检验与2.5 偏差与方差,涉及概率论与数理统计概 ...

  8. 机器学习 周志华 第一章课后习题

    机器学习 周志华 第一章课后习题 1.1 1.2 1.3 1.4 1.5 1.1 在下面这张图片中若只包含编号为1和4的两个样例,试给出相应的版本空间. 书上实例: 1.表 1.1 对应的假设空间如下 ...

  9. 小吴的《机器学习 周志华》学习笔记 第二章 2.4 比较检验、2.5 偏差与方差

    小吴的<机器学习 周志华>学习笔记 第二章 2.4 比较检验. 2.5 偏差与方差 2.4 比较检验 上一周提到了实验的评价方法和性能量度,步骤简单可以看成:先使用某种实验评估方法测得学习 ...

最新文章

  1. 教你用Vue渐进式搭建聊天室,从JavaScript=TypeScript
  2. python flask web开发_Python Flask web后端开发
  3. 【Socket网络编程】5.单播、多播(组播)、广播
  4. Silverlight实用窍门系列:54.详解Silverlight中的矩阵变换MatrixTransform,实现其余各种变换【附带实例源码】...
  5. IdentityServer4系列 | 支持数据持久化
  6. [vue-element] ElementUI表格组件如何实现动态表头?
  7. [引]VS2005 之 Visual Basic 程序的结构
  8. 字符串匹配:字符串中查找某子串
  9. 60-100-028-使用-MySQL 主从复制
  10. python3字典详解_python3 字典的常用 方法
  11. eclipse翻译插件,支持最新版eclipse 2022-09
  12. java map 修改键值对_MAP键值对
  13. 腾讯云租用CentOS 7.2 64
  14. 海马体启发的记忆模型
  15. 而立之年,学习编程,
  16. BTC隔离见证(3开头)地址离线签名
  17. js代码格式化(js代码格式化html标签)
  18. 工作流Airflow的性能优化,应对dag数目的激增
  19. 孙陶然:有能力的第三个标准是有亮点
  20. 解题:POI 2011 Strongbox

热门文章

  1. 如何安装Java JDK
  2. [CC2642r1] 问题笔记 记录使用过程中发现的问题
  3. autojs悬浮窗点击穿透
  4. 系统提示内部服务器错误是怎么回事,XP系统提示“HTTP500内部服务器错误”是怎么回事...
  5. MIMICIV2.0版本Concepts自动生成
  6. 离线安装python库
  7. PC端本地存储方案,Windows和Mac双端通用方案
  8. 微信小程序图片前端压缩(canvas)
  9. 手机如何打开开发者模式
  10. Matlab中库函数imadjust()的使用细节