机器学习理论_吃瓜系列1:基本概念
1.机器学习
机器学习致力于研究如何通过计算的手段,利用经验来改善系统自身的性能。
其研究的主要内容是关于在计算机上从数据产生“模型”的算法,即“学习算法”,然后利用学习算法基于经验数据产生模型,面对新的情况,模型会提供相应的判断。
例如在用机器学习挑好瓜时,我们只需要找到一定的样品,记录每个西瓜的特征(色泽、根蒂等),并记录下这个西瓜是否为好瓜,将这些数据提供给学习算法就能产生一个判断西瓜好坏的模型。
2.基本术语
- 数据集:收集到的记录的集合。
- 示例:关于一个事件或对象的描述,又称样本、特征向量。
- 属性:反应事件或对象在某方面的表现或性质的事项,又称特征。
- 属性空间:属性长成的空间,又称样本空间、输入空间。
- 维数:每个示例的属性描述的个数。
- 学习:从数据中学得模型的过程,又称训练。
- 训练数据:训练过程中使用的数据。
- 训练样本:训练数据中的每个样本。
- 训练集:训练样本的集合。
- 学习器:学习算法在给定数据和参数空间上的实例化。
- 分类:要预测的结果是离散值,例识别好瓜、坏瓜。
- 回归:要预测的结果是连续值,例识给出西瓜的成熟度。
- 测试:使用学得模型进行预测的过程。
- 测试样本:被预测的样本。
- 聚类:将训练集中的训练样本分为若干组。
- 泛化能力:学的模型适用于新样本的能力。
3.假设空间
将学习过程看作一个在所有假设组成的空间中进行搜索的过程,搜索目标是找到与训练集匹配的假设。所有假设组成的空间即为假设空间,假设的表示一旦确定,假设空间及其规模大小就确定了。
计算假设空间规模大小示例:
若“色泽” “根蒂” “敲声”分别有3、2、2种可能取值,则假设空间规模大小为
4×3×3+1=374\times3\times3+1=374×3×3+1=37。
假设空间由以下3部分组成:
- 属性:色泽,根蒂,敲声,且取值分别有3,2,2种选择;
- 色泽,根蒂,敲声也许无论取什么值都合适,我们分别用通配项来表示,于是取值分别多了1种选择;
- 还有一种极端情况,有可能“ 好瓜 ”这个概念根本就不成立,世界上压根就没有“好瓜”这种东西,我们用Ø表示这个假设。
所以,色泽、根蒂、敲声分别有3、2、2种取值,再加上各自的“通配项”,以及极端情况的Ø,故假设空间规模大小为:(3+1)×(2+1)×(2+1)+1=37(3+1) \times (2+1) \times(2+1)+ 1 = 37(3+1)×(2+1)×(2+1)+1=37 。
4.模型评估与选择
(1)过拟合
为了得到在新样本上能表现得很好的学习器,应该从训练样本中尽可能学出适用于所有潜在样本的“普遍规律”,这样才能在遇到新样本时做出正确的判别。然而如果学习器把训练样本学得“太好”了的时候,很可能已经把训练样本本身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降,这种现象在机器学习中称为”过拟合“。
(2)评估方法
- 留出法
- 交叉验证法
- 自助法
- 调参与最终模型
(3)性能度量
在预测任务中,给定样例集D={(x1,y1),(x2,y2),⋅⋅⋅(xm,ym)}D=\left\{ (x_1,y_1),(x_2,y_2),···(x_m,y_m)\right\}D={(x1,y1),(x2,y2),⋅⋅⋅(xm,ym)},其中yiy_iyi是示例xix_ixi的真实标记。
回归任务最常用的性能度量是“均方误差”
更一般的,对于数据分布DDD和概率密度函数p(⋅)p(·)p(⋅),均方误差可描述为
- 错误率与精度
错误率是分类错误的样本数占样本总数的比例,精度则是分类正确的样本数占样本总数的比例。 - 查准率、查全率与F1
对于二分类问题,可将样例根据其真实类别与学习器预测类别的组合划分为真正例,假正例,真反例,假反例四种情形,令TP,FP,TN,FNTP,FP,TN,FNTP,FP,TN,FN分别表示其对应的样例数,则显然有TP+FP+TN+FN=样例总数TP+FP+TN+FN=样例总数TP+FP+TN+FN=样例总数。
查准率PPP与查全率RRR分别定义为
P=TPTP+FPP=\frac{TP}{TP+FP} P=TP+FPTP
R=TPTP+FNR=\frac{TP}{TP+FN} R=TP+FNTP
查准率和查全率是一对矛盾的度量。
F1度量比BEP更加常用,
F1=2×P×RP+R=2×T×P样例总数+TP−TNF1=\frac{2\times P\times R}{P+R}=\frac{2\times T\times P}{样例总数+TP-TN} F1=P+R2×P×R=样例总数+TP−TN2×T×P
F1F1F1度量的一般形式FβF_\betaFβ,能让我们表达出对查准率/查全率的不同偏好,定义为
Fβ=(1+β2)P×R(β2×P)+RF_\beta=\frac{(1+\beta^2)P\times R}{(\beta^2\times P)+R} Fβ=(β2×P)+R(1+β2)P×R
其中β>0\beta>0β>0度量了查全率对查准率的相对重要性,β=1\beta=1β=1时退化为标准的F1F1F1;β>1\beta>1β>1时查全率有更大影响;β<1\beta<1β<1时查准率有更大影响。
参考资料
[1].《机器学习》,周志华。
机器学习理论_吃瓜系列1:基本概念相关推荐
- 秦州:西瓜书 + 南瓜书 吃瓜系列 16. 计算学习理论(上)
吃瓜教程--西瓜书+南瓜书 Datawhale南瓜书是经典机器学习教材<机器学习>(西瓜书)的公式推导解析指南,旨在让在学习西瓜书的过程中,再也没有难推的公式,学好机器学习. 内容属性:机 ...
- 猿辅导MSMARCO冠军团队:用MARS模型解决机器阅读任务 | 吃瓜笔记
主讲人:柳景明 | 猿辅导NLP团队负责人 整理:陈铭林 量子位 出品 | 公众号 QbitAI 4月12日晚,量子位·吃瓜社邀请到猿辅导MSMARCO冠军团队,为大家详细讲解了RACE,SQUAD, ...
- 秦州:西瓜书 + 南瓜书 吃瓜系列 14. 降维与度量学习(下)
吃瓜教程--西瓜书+南瓜书 Datawhale南瓜书是经典机器学习教材<机器学习>(西瓜书)的公式推导解析指南,旨在让在学习西瓜书的过程中,再也没有难推的公式,学好机器学习. 内容属性:机 ...
- 秦州:西瓜书 + 南瓜书 吃瓜系列 13. 降维与度量学习(上)
吃瓜教程--西瓜书+南瓜书 Datawhale南瓜书是经典机器学习教材<机器学习>(西瓜书)的公式推导解析指南,旨在让在学习西瓜书的过程中,再也没有难推的公式,学好机器学习. 内容属性:机 ...
- 谢文睿:西瓜书 + 南瓜书 吃瓜系列 11. 贝叶斯分类器
吃瓜教程--西瓜书+南瓜书 Datawhale南瓜书是经典机器学习教材<机器学习>(西瓜书)的公式推导解析指南,旨在让在学习西瓜书的过程中,再也没有难推的公式,学好机器学习. 内容属性:机 ...
- 晶振两端的谐振电容有特殊要求吗_“吃瓜群众”也能秒懂的晶振电路原理
原标题:"吃瓜群众"也能秒懂的晶振电路原理 晶振,全称是石英晶体振荡器,是一种高精度和高稳定度的振荡器.通过一定的外接电路来,可以生成频率和峰值稳定的正弦波. 而单片机在运行的时候 ...
- 秦州:西瓜书 + 南瓜书 吃瓜系列 12. 聚类
Datawhale南瓜书是经典机器学习教材<机器学习>(西瓜书)的公式推导解析指南,旨在让在学习西瓜书的过程中,再也没有难推的公式,学好机器学习. 航路开辟者:谢文睿.秦州 开源内容:ht ...
- 秦州:西瓜书 + 南瓜书 吃瓜系列 10. 集成学习(下)
Datawhale南瓜书是经典机器学习教材<机器学习>(西瓜书)的公式推导解析指南,旨在让在学习西瓜书的过程中,再也没有难推的公式,学好机器学习. 航路开辟者:谢文睿.秦州 开源内容:ht ...
- 谢文睿:西瓜书 + 南瓜书 吃瓜系列 9. 集成学习(上)
Datawhale南瓜书是经典机器学习教材<机器学习>(西瓜书)的公式推导解析指南,旨在让在学习西瓜书的过程中,再也没有难推的公式,学好机器学习. 航路开辟者:谢文睿.秦州 开源内容:ht ...
最新文章
- Excel较大规模数据处理实例(可直接用)python实现
- show()和exec()的区别
- 三.激光SLAM框架学习之A-LOAM框架---项目工程代码介绍---1.项目文件介绍(除主要源码部分)
- 2017.4.1 kth_number 思考记录
- NodeJs局域网开启服务
- 《数据结构与抽象:Java语言描述(原书第4版)》一1.1 什么是包
- 南阳OJ 16 矩形嵌套
- 经纬徐传陞:越是市场低迷之时,越要把握自己的节奏 | 远见2018
- 个人记录 Repast S network与触发器引发的bug
- 计算机网络自顶向下WireShark实验:TCP
- firefox使用掘金插件_谷歌浏览器常用插件
- html中鼠标冒泡泡,鼠标经过出现气泡框的简单实例
- Docker容器进入的3种方式
- mysql省市联动_sql全国 省市 联动级联
- NestedScrollView与Viewpager滑动冲突
- 三维扫描仪 XTOM-MATRIX
- Day-26 多线程和多进程
- php编写个人所得税单元测试,PHP计算个人所得税示例【不使用速算扣除数】
- python 题目是idle的文件模式是什么_python的idle如何使用
- 【删除重复数据,仅保留一条-mysql】