周志华《机器学习》西瓜书第一章绪论第一部分
第一章 绪论
1.1 引言
1.机器学习通过计算手段改善自身性能的学科,“经验”以“数据”形式存在。
2.机器学习是计算机利用数据产生“模型"的算法,即学习算法(learing algorithm)。即建模方法。
3.Mitchell 1997年对机器学习给出了形式化的定义:设用P来评估计算机程序在某任务T中的性能,若程序通过利用经验E在T中获得了性能的改善,那么我们就说关于T和P,该程序对E进行了学习。
4.计算机科学=算法 机器学习=学习算法=建模方法
1.2基本术语
1.机器学习首先要有数据
示例(instance)或样本(sample):关于一个事件或对象(西瓜)的描述。
属性(attribute)或特征(feature):反映事件或对象某方面的表现或性质的事项,例如“色泽”“根蒂”或“敲声”。
属性值(attribute value):属性的取值,如“青绿”“乌黑”等。
属性空间(attribute space):属性张成的空间。
样本空间(sample space)=输入空间:例如我们把“色泽”“根蒂”“敲声”作为三维坐标轴,则把他们张成的空间一个描述西瓜的三维空间,每个西瓜都可以在这个空间中找到自己的坐标。
特征向量(feature vector):空间中的每个点对应一个向量,我们也把一个示例称为一个特征向量。
数据集(data set):样本集合
学习(learning)或训练(training):从数据中学得模型的过程。这个过程通过执行某个学习算法来实现的。
训练数据(training data):训练过程中使用到的数据叫做训练数据。
训练样本(training sample):训练数据中的每个样本叫做训练样本。
训练集(training set):训练样本组成的集合。
假设(hypothesis):学习模型对应关于数据的某种潜在的规律叫做“假设”。
真相或真实(ground truth):这种潜在的规律本身叫做真相或真实。
模型:学习器(learner),可以看作学习算法在给定数据和参数空间上的实例化。
训练样本也称为训练示例(training instance),或训练例.
学习算法通常需要参数设置,使用不同的参数或训练数据,将产生不同的效果。
预测(prediction):需要知道训练样本的结果信息,比如说是“好瓜”。
标记(label):这里的“好瓜”就是标记。
样例(example):带有标记的示例
分类(classification):如果我们是预测的离散的值,例如,“好瓜”“坏瓜”
只涉及两种类别的“二分类”(binary classification),通常一个叫做“正类”(positive class),另一个叫做“反类”(negative class),涉及多个类叫做“多分类”(multi-class classification)任务。
回归(regression):如果我们预测的值是连续的值,例如西瓜的成熟度,0.95,0.37等。
测试(testing):学得模型后,使用其进行预测的过程称为“测试”testing,被预测的样本称为“测试样本”(testing sample),例如学得f后,对于测试例x,可以得到预测标记y=f(x).
聚类(clustering):将训练集中的西瓜分成若干组,每组成为一个“簇”(cluster),这些自动形成的簇可以对应一些潜在的概念划分,例如“浅色瓜”“神色瓜”,“本地瓜”“外地瓜”,这些学习能够有助于我们了解数据的内部规律,能更深入分析数据建立基础。
需要注意的是,在聚类学习中,我们对于“浅色瓜”“本地瓜”这样的概念,我们事先并不知道,而且在学习的过程中使用的训练数据样本通常不拥有标记信息。
监督学习(supervised learning)和无监督学习(unsupervised learning):我们根据训练数据是否拥有标记信息,学习任务可以大致分成这两类,分类和回归是前者的代表,聚类是后者的代表。他们又称为“有导师学习”和“无导师学习”。
泛化能力(generalization):机器学习的目标是使学得的模型很好的适应”新样本”,而不是仅仅在训练样本上工作的很好,即便是对于聚类这种无监督学习任务,我们也希望得到的簇划分能够适用于没在训练集中的样本,学得的模型适用于新的样本,我们叫做“泛化能力”,具有较强泛化能力的模型能够很好的适用于整个样本空间。
尽管训练集只是样本空间中很小的采样,我们仍然希望它能够反映出样本空间的特性,否则很难期望它在训练集上学得的模型能在整个样本空间上都工作的很好。
通常我们认为全部的样本满足一个未知的”分布”(distribution),我们所获得的每个样本都是独立的从这个分布上采样获得的,即“独立同分布”(independent and identically distributed 简称i.i.d),通常训练样本越多,我们越可能得到泛化能力强的模型。
周志华《机器学习》西瓜书第一章绪论第一部分相关推荐
- 周志华-机器学习西瓜书-第三章习题3.3 编程实现对率回归
本文为周志华机器学习西瓜书第三章课后习题3.3答案,编程实现对率回归,数据集为书本第89页的数据 使用tensorflow实现过程 # coding=utf-8 import tensorflow a ...
- 【吃瓜教程】周志华机器学习西瓜书第三章答案
线性模型结构梳理 3.1 试析在什么情形下式3.2中不必考虑偏置项b 答案一: 偏置项b在数值上代表了自变量取0时,因变量的取值: 1.当讨论变量x对结果y的影响,不用考虑b: 2.可以用变量归一化( ...
- 机器学习(周志华)西瓜书 课后习题4.3 信息熵决策树算法——python实现(包括树的可视化)
机器学习(周志华)西瓜书 课后习题4.3 信息熵决策树算法--python实现(包括树的可视化) 算法原理 1.信息熵 2.信息增益 我们所以要做的就是不断地从当前剩余的属性当中选取最佳属性对样本集进 ...
- 机器学习_周志华(西瓜书) 课后习题答案 第一章 Chapter1
机器学习_周志华 课后习题答案 第一章 Chapter1 习题1.1 Q:表1.1中若只包含编号为1和4的两个样例,试给出相应的版本空间. 由所给出的数据集(训练集)可知,属性3个:色泽.根蒂.敲声, ...
- 机器学习_周志华_西瓜书_学习笔记_第二章--模型的评估与选择
2 模型的评估与选择 2.1 误差与过拟合 我们将学习器对样本的实际预测结果与样本的真实值之间的差异成为:误差(error).定义: 在训练集上的误差称为训练误差(training error)或经验 ...
- 从周志华的西瓜书到李宏毅的机器学习开源项目,一文总结Datawhale系列分享
今天是开源组织Datawhale一周岁生日,这一年来,Datawhale 分享了很多优质内容,希望通过这篇总结帮助大家更好地系统学习. Datawhale是一个专注于AI领域的开源组织,也是我的亲密伙 ...
- 【周志华机器学习】十五、规则学习
文章目录 参考资料 1. 基本概念 2. 序贯覆盖 2.1 产生规则的方式 3. 剪枝优化 3.1 REP 3.2 IREP 4. 一阶规则学习 4.1 FOIL 5. 归纳逻辑程序设计 5.1 最小 ...
- 【周志华机器学习】十四、概率图模型
文章目录 参考资料 1. 基本概念 2. 隐马尔可夫模型(HMM) 2.1 隐马尔可夫三大问题 1. 第一个问题解法 2. 第二个问题解法 3. 第三个问题解法 3. 马尔可夫随机场(MRF) 3.1 ...
- 【周志华机器学习】十二、计算学习
文章目录 参考资料 1. 基本概念 2. PAC学习 3. 有限假设空间 3.1 可分情形 3.2 不可分情形 4. VC维 4.1 增长函数 4.2 对分与打散 4.3 VC维 5. 稳定性 参考资 ...
- 【周志华机器学习】八、集成学习
文章目录 参考资料 1. 基本概念 1.1 个体与集成 2. Boosting 3. Bagging 4.随机森林 5. 结合策略 5.1 平均法(回归问题) 5.2 投票法(分类问题) 5.3 学习 ...
最新文章
- 计算机课堂有趣的游戏,有趣的课堂游戏作文9篇
- case 关键字后面的的值有什么要求吗?
- 史上最全java堆,将知识点掰碎了给你嚼,还不信学不会。
- QML TableView表格使用示例
- Linux学习之系统编程篇:利用 setitimer 实现 alarm练习
- 爬虫——模拟点击动态页面
- birt报表数据只有一条_企业构建大数据分析体系的4个层级
- 使用MyEclipse简单调用WebServices
- 鸿蒙安卓数据互通吗,假如鸿蒙与安卓之间不能够实现游戏账号互通,你还会为其买单吗?...
- Linux下samba服务的错误处理
- wince linux 性能,wince remote call profiler(性能分析)
- stella forum v1.2 的初始设计模型
- http请求中必备的字符段_React Hooks中这样写HTTP请求可以避免内存泄漏
- matlab 输入矩形序列,从python调用Matlab函数:“初始值设定项必须是矩形嵌套序列”...
- 【优化算法】原子搜索优化算法(ASO)【含Matlab源码 1541期】
- MySQL集群Cluster
- windows内核提权漏洞发现与利用
- 学习python第八节课:可变与不可变对象
- TIOBE 2015年6月编程语言排行榜
- 如何学IT?零基础入门自学Java编程系列:java简介跟计算机常识
热门文章
- 使用正则表达式把关键字替换加粗
- MySQL 计算字段长度函数LENGTH()与CHAR_LENGTH()
- JavaWeb之Servlet编程
- 工具组件_从零认知BI: BI组件、架构、工具、优势、缺点
- springboot2集成hbase2环境搭建
- Python基础知识笔记(一)
- java doubke类型转换为String_Java的基本数据类型你知道吗?
- ElementUI:tree给节点添加icon图标
- 实战Swiper:利用Swiper制作手机新闻界面
- Python安装时报缺少DLL的解决办法