文章目录

  • 前言
  • 一、以普通例子循序渐进讲解什么是机器学习
  • 二、通过西瓜的例子类比学习一些相关术语
    • 1. 以数据表格方式学习
    • 2. 还记得坐标系么
    • 3. 训练相关的一些术语
  • 三、假设空间
  • 四、归纳偏好
  • 总结

前言

机器学习和人工智能,一直觉得挺神秘而且又高大上的,经常听说,但又因为各种数学概念而没有付诸实践。

但是,如果不做专职的相关岗位开发,自己跑一些学习程序是否可行呢?比较现在各种框架都挺多的了,即使再不济,了解一下具体都能做哪些东西也是很不错的。

入手了周志华的《人工智能》一书,刚看了开头,觉得讲的非常好。以例子开始逐步深入,做了如下笔记。

一、以普通例子循序渐进讲解什么是机器学习

以挑西瓜的例子开篇: 为什么色泽青绿、根蒂蜷缩、敲声浊晌,就能判断出是正熟的好瓜?

因为我们吃过、看过很多西瓜,所以基于色泽、根蒂、敲声这几个特征我们就可以做出相当好的判断。

**过渡,引出学习经验:**类似的,我们从以往的学习经验知道,下足了工夫、弄清了概念、做好了作业,自然会取得好成绩。可以看出,我们能做出有效的预判?是因为我们已经积累了许多经验,而通过对经验的利用?就能对新情况做出有效的决策。

**进而来说机器学习:**如果说计算机科学是研究关于"算法"的学问,那么类似的,可以说机器学习是研究关于"学习算法"的学问。

二、通过西瓜的例子类比学习一些相关术语

1. 以数据表格方式学习

将西瓜的例子归纳为下面的表格:

序号 色泽 根蒂 敲声
1 青绿 蜷缩 浊响
2 乌黑 稍蜷 沉闷

对照表格,了解一些相关术语:

  • **数据集:**整个表格的记录集合。
  • 示例 (instance) 或样本 (sample):每条记录是关于一个事件或对象(这里是一个西瓜)的描述,称为一个示例 (instance) 或样本 (sample)。有时整个数据集亦称一个"样本"因为它可看作对样本空间的一个采样,通过上下文可判断出"样本"是指单个示例还是数据集。
  • **属性 (attribute) 或特征(feature):**表格中的“色泽”、“根蒂”、“敲声”。
  • **属性值 (attribute va1ue):**表格中的“色泽”、“根蒂”、“敲声”对应的值。

2. 还记得坐标系么

对于单条记录,以“色泽”、“根蒂”、“敲声”三个属性标识如下图:

每个属性作为一个坐标轴,就形成了一个三维的坐标系。 坐标系还记得吧,希望还没全还给老师。

属性张成的空间称为**“属性空间” (attribute space) “样本空间” (sample space) 或"输入空间"**,即图中的长方体。

当然,实际上一个样本(西瓜)肯定不止这三个属性,这里只是举例。每个属性代表一个坐标轴,那就会组成一个d维空间,d为样本的属性数

每个西瓜都可在这个空间中找到自己的坐标位置。由于空间中的每个点对应一个坐标向量,因此我们也把…个示例称为一个**“特征向量” (feature vector)。**

3. 训练相关的一些术语

从数据中学得模型的过程称为**“学习” (learning) 或"训练" (training)**;

这个过程通过执行某个学习算法来完成.训练过程中使用的数据称为**“训练数据” (training data)** ;

其中每个样本称为一个训练样本" (training sample),;

训练样本组成的集合称为"训练集" (training set).

学得模型对应了关于数据的某种潜在的规律,因此亦称"假设" (hypothesis);

这种潜在规律自身,则称为**“真相"或"真实” (ground-truth)** ;

学习过程就是为了找出或逼近真相.本书有时将模型称为"学习器" (learner) ,可看作学习算法在给定数据和参数空间上的实例化.

训练不止需要样本的属性信息,还需要样本的"结果"信息,例如" ((色泽:青绿;根蒂二蜷缩;敲声=浊响),好瓜)" .这里关于示例结果的信息,例如"好瓜",称为标记 (labe1);

拥有了标记信息的示例,则称为**“样例” (example)**。如下图

若我们欲预测的是离散值,例如"好瓜" “坏瓜”,此类学习任务称为**“分类” (classification)**;

若欲预测的是连续值?例如西瓜成熟度 0.95 0.37,此类学习任务称为**“回归” (regression)**.

对只涉及两个类别的**“二分类” (binary classification)** 任务,通常称其中一个类为正类(positive class),另一个类为**“反类” (negative class);**

涉及多个类别时,则称为**“多分类” (multi-class classificatio)**任务。

学得模型适用于新样本的能力,称为"泛化" (generalization) 能力.具有强泛化能力的模型能很好地适用于整个样本空间.

三、假设空间

在数学公理系镜中,基于一组公理和推理规则推导出与之相洽的定理,这是演绎;而"从样例中学习"显然是一个归纳的过程,因此亦称"归纳学习" (inductive learning) .。

我们可以把学习过程看作一个在所有假设(hypothesis) 组成的空间中进行搜索的过程。如下图

有多少种可能呢,就是一个排列组合。现实问题中我们常面临很大的假设空间,但学习过程是基于有限样本训练集进行的,因此,可能有多个假设与训练集一致,即存在着一个与训练集一致的"假设集合",我们称之为**“版本空间” (version space)**。


四、归纳偏好

对于图1.2的西瓜版本空间,对应(色泽口=青绿;根蒂=蜷缩;敲声=沉闷)这个新收来的瓜,如果我们采用的是"好瓜<->(色泽=* )(根蒂=蜷缩)(敲声=*),那么将会把新瓜判断为好瓜,而如果采用了另外两个假设,则判断的结果将不是好瓜。若仅有表1. 中的训练样本,则无法断定上述三个假设中明哪一个"更好, 那么计算机就傻了。

怎么办,任何一个有效的机器学习算法必有其归纳偏好,否则它将被假设空间中看似在训练集上"等效"的假设所迷惑,而无法产生确定的学习结果。

那么,有没有一般性的原则来引导算法确立"正确的"偏好呢? “奥卡姆剃刀” (Occam’s razor) 是一种常用的、自然科学研究中最基本的原则,即"若有多个假设与观察一致,则选最简单的那个。

总结

脱离具体问题,空泛地谈论"什么学习算法更好"毫无意义,因为若考虑所有潜在的问题,则所有学习算法都一样好。要谈论算法的相对优劣,必须要针对具体的学习问题;在某些问题上表现好的学习算法,在另一些问题上却可能不尽如人意,学习算法自身的归纳偏好与问题是否相配,往往会起到决定性的作用。

【机器学习】——白话入门及术语解释相关推荐

  1. 机器学习笔记06—术语解释

    术语解释 数据集(data set): 所有记录的集合 实例或样本: 每一条记录 属性或特征: 例如,西瓜的色泽等称之为一个属性 特征向量: 一条记录,如果在坐标轴上表示,每个西瓜都可以用坐标轴中的一 ...

  2. 深度学习(二)——深度学习常用术语解释, Neural Network Zoo, CNN, Autoencoder

    Dropout(续) 除了Dropout之外,还有DropConnect.两者原理上类似,后者只隐藏神经元之间的连接. 总的来说,Dropout类似于机器学习中的L1.L2规则化等增加稀疏性的算法,也 ...

  3. 机器学习简易入门-附推荐学习资料

    目录 (1)机器学习正规学习路线 (2)机器学习快速入门 (3)总结 感谢黄海广博士的分享 原创: 机器学习初学者 机器学习初学者 今天 机器学习如何入门?目前没有明确的答案.本站面向广大初学者,推荐 ...

  4. 机器学习从入门到创业手记-应用与实践

    结束了sklearn的培训的同时也迎来了阶段考核,经过这段时间的学习除了发我对机器学习有所入门,另外也发现了高维已经天天和刘思聪出双入对了,但两个人均矢口否认两人的关系,由于刘思聪坐我旁边,我也时常听 ...

  5. 【机器学习】机器学习的基本概念/术语2

    上一篇:机器学习的基本概念/术语1 序言 记录机器学习基本概念,不做详细解释,常识积累.长期更新- # KNN k-Nearest Neighbor K最近邻算法,每个样本都可以用它最接近的k个邻居来 ...

  6. Python机器学习算法入门教程(一)

    Python机器学习算法入门教程 Python机器学习 教程特点 什么是人工智能? 写在前面的话 人工智能应用 人工智能发展简史 1.第一次兴起 2.第二次发展 3.第三次崛起 机器学习&深度 ...

  7. IRC/ML:金融智能风控领域相关术语解释(黑灰产群控、风控指标/字段、口径逻辑)、金融智能风控领域九大场景之详细攻略

    IRC/ML:金融智能风控领域相关术语解释(黑灰产群控.风控指标/字段.口径逻辑).金融智能风控领域九大场景之详细攻略 目录 金融智能风控领域的相关术语 1.如何判断黑灰产群控 风控指标/字段相关概念 ...

  8. 宽依赖和窄依赖_Spark术语解释及宽窄依赖执行原理,代码分析

    1. 术语解释 2. 窄依赖和宽依赖: RDD之间有一系列的依赖关系,依赖关系又分为窄依赖和宽依赖. 窄依赖: 父RDD和子RDD partition之间的关系是一对一的.或者父RDD一个partit ...

  9. property field java_Java 中 field 和 variable 区别及相关术语解释

    原标题:Java 中 field 和 variable 区别及相关术语解释 先说一下 field 和 variable 之间的区别: class variables and instance vari ...

最新文章

  1. mysql idataparameter_小白不坑爹的asp.net SqlParameter和带参数存储过程运用
  2. CSS 实现打字效果
  3. win10 nms cpu编译-ok
  4. 《短文本数据理解(1)》一1.3 短文本理解框架
  5. (luogu4180) [Beijing2010组队]次小生成树Tree
  6. javascript --- vue2.x中原型的使用(拦截数组方法) 响应式原理(部分)
  7. asp html转义字符串,asp.net – 转义HTML实体并避免WebForm标签中的HTML注入?
  8. 同样双版本策略:索尼明年将有望推出PS5/PS5 Pro两款主机
  9. CS61A自学者学习指南
  10. hp微型计算机网线怎么安装,惠普M1130网络打印机怎么安装设置?
  11. 手把手教你搭建一台永久运行的个人服务器
  12. python的计算_python计算smoothed PSSM(二)
  13. ubuntu16.04/20.04 xfce4以及windows下面使用护眼软件redshift
  14. Android Studio 如何查看Sqlite数据文件
  15. 视频教程-微信小程序开发实战之番茄时钟开发-微信开发
  16. Kubernetes切换Docker容器引擎为Containerd
  17. 24L01配置函数详解
  18. 二维数组在内存空间地址不一定连续
  19. 各种艺术字、图片在线制作
  20. Vue-routers(步骤)

热门文章

  1. 关于打开软件提示各种缺少dll问题
  2. ecshop 解密index.php,PHP-威盾PHP加密专家解密算法
  3. ionic混合开发APP基础知识点及生命周期使用一
  4. Anaconda环境安装pycocotools工具
  5. 【泊车】基于matlab强化学习智能泊车【含Matlab源码 2269期】
  6. Mysql中到底什么是索引下推,一分钟看懂
  7. VBA基础学习之1.5循环语句
  8. 零售行业RFID应用解析
  9. 深入理解Java自动装箱拆箱机制(Autoboxing and unboxing)
  10. Word 高级查找、通配符查找,与格式替换