统计学习方法——统计学习基础(一)
统计学习方法——统计学习
- 统计学习概论(一)
- 统计学习
- 统计学习的特点
- 统计学习的方法
- 监督学习
- 基本概念
- 问题形式化
- 统计学习的三要素
- 模型
- 策略
- 算法
- 模型评估与模型选择(一)
- 训练误差与测试误差
- 过拟合、欠拟合与模型选择
- 参考文献
统计学习概论(一)
统计学习
统计学习的特点
- 建立在计算机与网络的基础上
- 以数据为研究对象
- 基本假设:同类数据具有一定的统计规律性。
- 以方法为中心
- 常用方法
- 监督学习
- 非监督学习
- 半监督学习
- 强化学习
- 常用方法
- 目标是对数据进行预测与分析
统计学习的方法
- 监督学习
- 从给定的、有限的、用于学习的训练集出发
- 假设数据独立同分布
- 假设要学习的模型属于某个函数的集合,称为假设空间
- 采用评价标准从假设空间选择最优的模型
可以总结出统计学习的三要素:模型、策略和算法。
监督学习
监督学习的任务是学习一个模型,使模型能够对任意给定的输入能做出一个好的预测。
基本概念
- 输入空间:所有与样本相关的可以获得的信息,记作XXX
- 特征空间:所有特征向量存在的空间,一般与输入空间不加区分
- 输出空间:一般为分类(预测)的结果,记作YYY
- 联合概率分布
- 监督学习假设输入和输出的随机变量XXX和YYY遵循联合概率分布P(X,Y)P(X,Y)P(X,Y)。
- 训练集和测试集的数据被看作依联合概率分布P(X,Y)P(X,Y)P(X,Y)独立同分布产生的。
- 假设空间:模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间,记为F\mathcal{F}F。
F={f∣Y=f(X)}\mathcal{F}=\left\{f|Y=f(X)\right\}F={f∣Y=f(X)}
此时A\mathcal{A}A通常是由一个参数向量决定的函数族:
F={f∣Y=fθ(X),θ∈Rn}\mathcal{F}=\left\{f|Y=f_\theta(X),\theta\in R^n\right\}F={f∣Y=fθ(X),θ∈Rn}
参数向量θ\thetaθ取值于nnn维欧氏空间RnR^nRn,称为参数空间。 - 监督学习的模型:可以是概率模型或非概率模型,由条件概率分布P(Y∣X)P(Y|X)P(Y∣X)或决策函数Y=f(x)Y=f(x)Y=f(x)表示。
问题形式化
通过一个简单的图展示监督学习的过程:
- 训练集:T={(x1,y1),...,(xN,yN)}T=\left\{(x_1,y_1),...,(x_N,y_N)\right\}T={(x1,y1),...,(xN,yN)},其中每一个都称为样本点,xix_ixi为输入值,yiy_iyi为输出值。
- 训练的模型:表示为P^(Y∣X)\hat P(Y|X)P^(Y∣X)或Y=f^(X)Y=\hat f(X)Y=f^(X)
- 预测的结果:假设待预测的样本为xN+1x_{N+1}xN+1,则结果记为yN+1=argmaxyN+1P^(yN+1∣xN+1)y_{N+1}=arg \mathop {\max }\limits_{{y_{N + 1}}} \hat P(y_{N+1}|x_{N+1})yN+1=argyN+1maxP^(yN+1∣xN+1)或yN+1=f^(xN+1)y_{N+1}=\hat f(x_{N+1})yN+1=f^(xN+1)
统计学习的三要素
方法=模型+策略+算法
模型
- 模型的假设空间包含所有可能的条件概率分布或决策函数 。
策略
- 用于考虑如何选择最优的模型
- 相关函数
- 损失函数
- 0-1损失函数:
L(Y,f(X))={1Y≠f(X)0Y=f(X)L\left( {Y,f\left( X \right)} \right) = \left\{ \begin{array}{l} 1\quad Y \ne f\left( X \right)\\ 0\quad Y = f\left( X \right) \end{array} \right.L(Y,f(X))={1Y̸=f(X)0Y=f(X) - 平方损失函数:
L(Y,f(X))=(Y−f(X))2L\left( {Y,f\left( X \right)} \right) = {\left( {Y - f\left( X \right)} \right)^2}L(Y,f(X))=(Y−f(X))2 - 绝对损失函数:
L(Y,f(X))=∣Y−f(X)∣L\left( {Y,f\left( X \right)} \right) = \left| {Y - f\left( X \right)} \right|L(Y,f(X))=∣Y−f(X)∣ - 对数损失函数:
L(Y,P(Y∣X))=−logP(Y∣X)L\left( {Y,P\left( {Y\left| X \right.} \right)} \right) = - \log P\left( {Y\left| X \right.} \right)L(Y,P(Y∣X))=−logP(Y∣X)
- 0-1损失函数:
- 风险函数:
- 风险函数(期望损失)
损失函数的期望(由于输入输出遵循联合分布P(X,Y)P\left(X,Y\right)P(X,Y))称为风险函数或期望损失:
Rexp(f)=Ep[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy{R_{\exp }}\left( f \right) = {E_p}\left[ {L\left( {Y,f\left( X \right)} \right)} \right] = \int_{\mathcal{X} \times \mathcal{Y}} {L\left( {y,f\left( x \right)} \right)P\left( {x,y} \right)} dxdyRexp(f)=Ep[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy - 经验风险(经验损失)
对于训练集的平均损失称为经验风险或经验损失:
Remp(f)=1N∑i=1NL(yi,f(xi)){R_{emp}}\left( f \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right)} Remp(f)=N1i=1∑NL(yi,f(xi))
- 风险函数(期望损失)
- 损失函数
- 经验风险最小化与结构风险最小化
- 经验风险最小化(ERM)
当样本容量足够大时,经验风险最小化能保证有很好的学习效果,也就是求解最优问题:
minf∈F1N∑i=1NL(yi∣f(xi))\mathop {\min }\limits_{f \in \mathcal{F}} \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i}\left| {f\left( {{x_i}} \right)} \right.} \right)} f∈FminN1i=1∑NL(yi∣f(xi))
极大似然估计就是经验风险最小化的一个例子。
但样本过小就会导致“过拟合”。 - 结构化风险最小(SRM)
为了防止过拟合而提出的策略。结构化风险在经验风险的基础上增加了模型复杂度的正则化项(或罚项)。因此定义为:
Rsrm(f)=1N∑i=1NL(yi,f(xi))+λJ(f){R_{srm}}\left( f \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right)} + \lambda J\left( f \right)Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f)
其中J(f)J\left( f \right)J(f)为模型复杂度,越大函数越复杂;λ≥0\lambda\ge 0λ≥0是系数用来权衡经验风险和模型复杂度。
贝叶斯估计中的最大后验概率估计就是结构风险最小化的例子。
- 经验风险最小化(ERM)
算法
在确定了训练数据集、学习策略并从假设空间中选择最有模型的基础上,需要考虑使用什么算法求解最优模型。
模型评估与模型选择(一)
训练误差与测试误差
假设学习得到的算法是Y=f^(X)Y=\hat f(X)Y=f^(X)
- 训练误差:是算法在训练集上的平均损失Remp(f^)=1N∑i=1NL(yi,f^(xi)){R_{emp}}\left( {\hat f} \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},\hat f\left( {{x_i}} \right)} \right)} Remp(f^)=N1i=1∑NL(yi,f^(xi))
- 测试误差:算法在测试集上的平均误差etest(f^)=1N′∑i=1N′L(yi,f^(xi)){e_{test}}\left( {\hat f} \right) = \frac{1}{{N'}}\sum\limits_{i = 1}^{N'} {L\left( {{y_i},\hat f\left( {{x_i}} \right)} \right)} etest(f^)=N′1i=1∑N′L(yi,f^(xi))
- 测试误差率:当损失函数为0-1损失时,测试误差变为误差率,记为etest=1N′∑i=1N′I(yi≠f^(xi)){e_{test}} = \frac{1}{{N'}}\sum\limits_{i = 1}^{N'} {I\left( {{y_i} \ne \hat f\left( {{x_i}} \right)} \right)} etest=N′1i=1∑N′I(yi̸=f^(xi))
其中III为指示函数,y≠f^(x)y\ne \hat f(x)y̸=f^(x)时为111,否则为000。 - 测试准确率:rtest=1−etestr_{test}=1-e_{test}rtest=1−etest
过拟合、欠拟合与模型选择
模型的选择应该是以真实情况作为依据,也就是逼近所谓的“真模型”,而不应该只追求模型在训练集上的表现效果。
- 过拟合与欠拟合
首先看个实际得实例:
- 过拟合
一味追求提高对训练集的预测能力(学习了训练样本中存在得特点),模型过于复杂,往往复杂度高于“真模型”。
特点:对于已知数据表现很好,对于未知数据表现很差。 - 欠拟合
欠拟合相对比较好理解,就是指对训练样本得一般性质未能学好。
下图从另一个角度展示了一个过拟合的与欠拟合(M表示多项次的次数),可以很显然得发现:
- 当M=0M=0M=0时,完全就是一条与xxx轴平行的直线,并没有学习到什么有用得信息;
- 当M=1M=1M=1时,直线发生了一定的倾斜,但其实也与“真模型”相差甚远,此时仍处于“欠拟合”的状态。
- 当M=9M=9M=9时,图像经过了所有已知点,但是图像非常复杂且偏离“真模型”,可以想象其用来预测也会导致很差得结果。
下图也给出了随着模型复杂度的变化,训练误差与测试误差的变化情况。
- 过拟合
参考文献
- 《统计学习方法》
- 《机器学习》
统计学习方法——统计学习基础(一)相关推荐
- 机器学习理论《统计学习方法》学习笔记:第二章 感知机
<统计学习方法>学习笔记:第二章 感知机 2 感知机 2.1 感知机模型 2.2 感知机学习策略 2.2.1 数据的线性可分性 2.2.2 感知机学习策略 2.3 感知机学习算法 2.3. ...
- 机器学习理论《统计学习方法》学习笔记:第六章 逻辑斯谛回归与最大熵模型
机器学习理论<统计学习方法>学习笔记:第六章 逻辑斯谛回归与最大熵模型 6 逻辑斯谛回归与最大熵模型 6.1 逻辑斯谛回归模型 6.1.1 逻辑斯谛分布 6.1.2 二项逻辑斯蒂回归模型 ...
- 机器学习理论《统计学习方法》学习笔记:第五章 决策树
机器学习理论<统计学习方法>学习笔记:第五章 决策树 决策树 5.1 决策树模型与学习 5.1.1 决策树模型 5.1.2 决策树与if-then规则 5.1.3 决策树与条件概率分布 5 ...
- 机器学习理论《统计学习方法》学习笔记:第四章 朴素贝叶斯法
机器学习理论<统计学习方法>学习笔记:第四章 朴素贝叶斯法 4 朴素贝叶斯法 4.1 朴素贝叶斯法的学习与分类 4.1.1 基本方法 4.1.2 后验概率最大化的含义 4.2 朴素贝叶斯法 ...
- 机器学习理论《统计学习方法》学习笔记:第三章 k近邻法
机器学习理论<统计学习方法>学习笔记:第三章 k近邻法 3 k近邻法 3.1 K近邻算法 3.2 K近邻模型 3.2.1 模型 3.2.2 距离度量 3.2.3 K值的选择 3.2.4 分 ...
- 支持向量机-《统计学习方法》学习笔记
支持向量机-<统计学习方法>学习笔记 1 概述 2 线性可分支持向量机 2.1 线性可分支持向量机简介 2.2 寻找最优分离超平面 2.3 函数间隔 2.4 几何间隔 2.5 (硬)间隔最 ...
- 李航·《统计学习方法》学习笔记
第一章 统计学习的方法概论 1.1 统计学习概述 1. 统计学习的过程: 2. 统计学习的分类: 3. 监督学习的分类 3.1 生成方法与判别模方法 3.1.1 生成方法 3.1.1 判别方法 3.2 ...
- 《统计学习方法》学习笔记 第二十一章 PageRank算法
目录 1 PageRank的定义 1.1 基本想法 1.2 有向图和随机游走模型 1 有向图(directed graph) 2 随机游走模型 3 PageRank的基本定义 4 PageRank的一 ...
- 机器学习理论《统计学习方法》学习笔记:奇异值分解(SVD)
奇异值分解(SVD) 摘要 1 奇异值分解的定义与定理 1.1 奇异值分解的定义 1.2 奇异值分解的基本定理 1.3 奇异值分解的几何解释 2 紧奇异值分解和截断奇异值分解 2.1 紧奇异值分解 2 ...
- 《李航 统计学习方法》学习笔记——第八章提升方法
提升方法 8.1提升方法AdaBoost 8.1.1提升方法的基本思路 8.1.2AdaBoost算法 8.1.3AdaBoost的例子(代码实现) 8.2AdaBoost算法的训练误差分析 定理8. ...
最新文章
- HDU1261(高精度乘法+高精度除法)
- 不要假装很努力,因为结果不会陪你演戏
- Yann LeCun:发现智能原理是AI的终极问题 | 独家对话
- java 投票ip限制_java 限定网站在指定IP段访问
- 高等数学上-赵立军-北京大学出版社-题解-练习5.4
- linux tar cvf_Linux中的Tar命令:Tar CVF和Tar XVF通过示例命令进行了解释
- Eclipse配置svn
- HMC 命令行登陆设置
- 南阳oj-----懒省事的小明(set)
- 基于微信小程序开发——音乐播放器
- matlab进行差分检验,热传导方程几种差分格式的MATLAB数值解法比较
- 企业如何管理软件资产,软件许可证,软件license,license管理,许可管理
- 计算机二级考试高级应用软件版本,计算机二级高级办公软件考哪个版本
- 躲猫猫正式上线“Peek-a-Boo”就是“躲猫猫”
- Mac系统 - 升级node版本
- java事件溯源_领域事件与事件溯源 - 解道Jdon
- 淘宝API接口:获取sku详细信息
- Semantic Segmentation: A thorough Review
- 1-drf-drf入门规范
- 基于kubeadm 部署K8S1.22.3 踩坑