机器学习的定义

机器学习是这样一门学科:通过计算的手段,学习经验(也可以说是利用经验)来改善系统的性能。
在计算机系统中,经验(Experience)通常是数据(Data);学习算法(Learning algorithm)学习产生数学模型(Model),不断改善系统性能(Performace)。

【Mitchell 1997】给出了一个更形式化的定义:假设用P(Performace)来评估计算机程序在某类任务T(Task)上的性能,若一个程序通过利用经验E(Experience)在T中任务上获得了性能改善,则我们就说关于T和P,该程序对E进行了学习。

周志华老师的机器学习书中“模型”泛指从数据中学得的结果。有的文献用”模型“指全局性结果,而用”模式“指局部性结果(比如一条规则)·

基本术语

假定我们收集了一批西瓜的数据

  • (色泽=青绿,根蒂=蜷缩,敲声=浊响)
  • (色泽=乌黑,根蒂=稍蜷,敲声=沉闷)
  • . . . . . .

上面每对括号内是一条记录(record)
这组记录的集合称为一个数据集(data set)
其中每条记录是关于一个事件或对象的描述,称为示例(instance)样本(sample)
反应事件或对象在某方面表现或性质的事项,称为属性(attribute)特征(feature)
属性上的取值,比如西瓜的色泽属性可以取值为青绿,称为属性值(attribute value)
属性张成的空间称为属性空间(attribute space)样本空间(sample space)输入空间(input space)
对于属性空间,可以把每个属性看作一个变量或坐标轴,比如上面对于西瓜的数据集,有三个属性——色泽,根蒂,敲声。它们可以张成一个用于描述西瓜的三维空间,每个西瓜都可以在这个空间中找到自己的坐标位置。因此我们可以把一个示例看作一个特征向量(feature vector)

注解:有时整个数据集亦称一个”样本“,因为它可以看作对样本空间的一个采样;通过上下文可以判断出“样本”是指单个示例还是数据集

一般使用符号DDD表示数据集,D" role="presentation">DDD={x1x1 x_1 ,x2x2 x_2,x3x3 x_3,…,xmxm x_m}表示包含mmm个示例的数据集,每个示例有d" role="presentation">ddd个属性描述,则每个示例xixix_i=(xi1xi1x_{i1};xi2xi2x_{i2};xi3xi3x_{i3};…;xidxidx_{id})都是ddd维样本空间中的一个向量,d" role="presentation">ddd称为示例的维数(dimensionality)

学习(learning)训练(training)指从数据中学得模型的过程,通过执行某个学习算法来完成。
训练数据(training data)指训练过程中使用的数据。
训练样本(training sample)指训练数据中的每个样本。
训练集(training set)指训练样本组成的集合。
假设(hypothesis)指学习得到的模型对应了关于数据的某种潜在的规律,这种学得的规律并不一定是准确的。
真相或真实(ground-truth)则是这种真实存在的潜在规律自身,学习的过程就是为了找出或逼近真相。
在周老师的书中模型称为学习器(learner),可以看作学习算法在给定数据和参数空间上的实例化。

对应前面的西瓜例子,如果希望学习成一个判断没剖开的西瓜是不是好瓜的模型,仅仅有前面的示例数据是不够的。
要建立像预测西瓜好坏这样的关于预测(prediction)的模型,我们需要获得训练样本的结果信息(类似于属性变量对应的函数值),比如((色泽=青绿,根蒂=蜷缩,敲声=浊响),好瓜)。上面关于示例结果的信息,比如“好瓜”,称呼为标记(label),而拥有了标记信息的示例,称呼为样例(example)
一般地,用(xixi x_i,yiyi y_i)代表第iii个样例,所有标记的集合,亦称为标记空间(label space)输出空间(output space)

如果我们想预测的是离散值,例如”好瓜“,”坏瓜“,则此类学习任务称为分类(classification)
如果想预测的是连续值,例如西瓜的成熟度0.95,0.85,则此类学习任务称为回归(regressio)
对于只涉及两个类别的二分类任务(binary classification),通常称其中一个类别为正类(positive class),另一个称为反类(negative class);对于二分类任务,标记空间通常取{+1" role="presentation">+1+1+1,−1−1-1},{000,1" role="presentation">111};
涉及多个类别时,则称为多分类任务(multi-class classification),对于多分类任务,标记空间通常取R实数集。

学习到模型后,使用模型进行预测的过程称为测试(testing)
而被预测的样本称为测试样本(testing sample)

对应前面的西瓜例子,我们还可以对西瓜做聚类(clustering),即把训练集中的西瓜分成若干个组,每个组称为一个簇(cluster);这些自动形成的簇可能对应一些潜在的概念划分,例如浅色瓜,本地瓜等。这样的学习过程有助于我们了解数据的潜在规律,能为更深入分析数据建立基础。
需补充说明的是:在在聚类学习中,浅色瓜,本地瓜这样的概念是我们事先所不知道的,而且学习过程中使用的训练样本通常不拥有标记信息。

根据训练数据是否拥有标记信息,学习任务大致划分为两类:

  • 监督学习(supervised learning)
  • 无监督学习(unsupervised learning)

分类和回归是前者的代表,而聚类是后者的代表。

机器学习定义及基本术语(根据周志华的《机器学习》概括)相关推荐

  1. 推荐:周志华《机器学习》西瓜书精炼版笔记来了!

    西瓜书<机器学习>无疑是机器学习的必读书籍.本书作为该领域的入门教材,在内容上尽可能涵盖机器学习基础知识的各方面. 为了使尽可能多的读者通过本书对机器学习有所了解, 作者试图尽可能少地使用 ...

  2. 学习笔记----周志华《机器学习》第五章(神经网络)(二)

    周志华<机器学习>第五章(神经网络)的学习笔记上篇连接在这里:<上篇>.上篇讲到了神经网络.常用的激活函数.感知机和多层前馈神经网络.局部极小和全局最小,今天继续补上昨天落下得 ...

  3. 学习笔记----周志华《机器学习》第五章(神经网络)(一)

    周志华的<机器学习>算作一本入门的宝书.本文是对周志华的机器学习第五章神经网络的学习笔记.在第五章主要涉及的内容:神经网络.常见激活函数.感知机.多层前馈神经网络 .反向传播算法(BP算法 ...

  4. 周志华 《机器学习初步》 绪论

    周志华 <机器学习初步> 绪论 Datawhale2022年12月组队学习 ✌ 文章目录 周志华 <机器学习初步> 绪论 一.机器学习 二.典型的机器学习过程 三.计算学习理论 ...

  5. 周志华《机器学习》课后习题(第七章):贝叶斯分类

    作者 | 我是韩小琦 链接 | https://zhuanlan.zhihu.com/p/51768750 7.1 试使用极大似然法估算回瓜数据集 3.0 中前 3 个属性的类条件概率. 答: 以第一 ...

  6. 周志华《机器学习》西瓜书出全新视频课啦!

    课程推荐: 算法理论+实战紧密结合 "机器学习"西瓜书训练营 不是每个人都适合2万小时定律,努力的方向不对,就是白努力. 如果你对人工智能跃跃欲试,第一步该怎么办?我们通常的做法是 ...

  7. ID3的REP(Reduced Error Pruning)剪枝代码详细解释+周志华《机器学习》决策树图4.5、图4.6、图4.7绘制

    处理数据对象:离散型数据 信息计算方式:熵 数据集:西瓜数据集2.0共17条数据 训练集(用来建立决策树):西瓜数据集2.0中的第1,2,3,6,7,10,14,15,16,17,4 请注意,书上说是 ...

  8. 周志华 《机器学习初步》模型评估与选择

    周志华 <机器学习初步>模型评估与选择 Datawhale2022年12月组队学习 ✌ 文章目录 周志华 <机器学习初步>模型评估与选择 一.泛化能力 二.过拟合和欠拟合 泛化 ...

  9. Python 实现 周志华 《机器学习》 BP算法

    习题5.5: 试编程实现标准BP算法和累积BP算法,在西瓜数据集3.0上分别用这两个算法训练一个单隐层网络,并进行比较 算法的主要思想来自周志华<机器学习>上讲BP算法的部分,实现了书上介 ...

  10. 周志华《机器学习》西瓜书新出算法推导视频!(超级详细)

    [文末重金招募讲师]不是每个人都适合2万小时定律,努力的方向不对,就是白努力. 如果你对人工智能跃跃欲试,第一步该怎么办?我通常的做法是,先收集人工智能有关的信息,或者问问身边正在学习的师兄师姐,寻求 ...

最新文章

  1. 去年秋招,我学长拿了7个Offer,他是怎么做到的?
  2. java公寓管理系统设计与实现_学生公寓(宿舍)管理系统的设计与实现(论文范文, jspjava).docx_蚂蚁文库...
  3. file的open()和read()
  4. Chrome浏览器密码框自动填充的bug
  5. 【Lucene4.8教程之中的一个】使用Lucene4.8进行索引及搜索的基本操作
  6. 实现Windows直接远程访问Ubuntu桌面和解决VNC连接Ubuntu桌面灰色的问题解决
  7. Vue学习之监视属性watch
  8. oracle 约束 年份,如何在Oracle中确定给定年份是否为Le年?
  9. 信签纸有虚线怎么写_edm邮件营销,专注解决你的开发信难题
  10. 从零基础入门Tensorflow2.0 ----六、30 kaggle 10 monkeys 基础模型搭建与训练
  11. paip。java 高级特性 类默认方法,匿名方法+多方法连续调用, 常量类型
  12. ANSI, unicode, UTF-8编码详解
  13. Python re模块,正则表达式
  14. MAC版Pycharm使用技巧
  15. 解决ROS系统 rosdep update超时问题的新方法
  16. vs2015中安装cplex攻略以及解决丢失cplex.dll问题
  17. rtsp流php播放插件,nginx+ffmpeg搭建rtmp转播rtsp流的flash服务器
  18. HDU-1849-Rabbit and Grass
  19. js小demo2(淘宝点击关闭二维码)
  20. 【Matlab】简单的滑模控制程序及Simulink仿真

热门文章

  1. 辗转取余数php算最小公约数,JS取得最小公倍数与最大公约数
  2. linux下读写ntfs硬盘吗,Linux环境下实现NTFS分区完全读写的方法
  3. 【902】大恒相机网络配置
  4. We're sorry but vue_blog doesn't work properly without JavaScript enabled. Please enable it to.....
  5. 【SQL】关于SQL Server的性能优化——基础内容
  6. Js节流(防连点)和防抖动
  7. 视频播放可弹出弹幕,关闭弹幕
  8. scrapy爬取知乎问题实战
  9. @prometheus监控详解
  10. 揭秘 手机群控 带来的利益