统计学习方法——统计学习

  • 统计学习概论(一)
    • 统计学习
      • 统计学习的特点
      • 统计学习的方法
    • 监督学习
      • 基本概念
      • 问题形式化
    • 统计学习的三要素
      • 模型
      • 策略
      • 算法
    • 模型评估与模型选择(一)
      • 训练误差与测试误差
      • 过拟合、欠拟合与模型选择
        • 参考文献

统计学习概论(一)

统计学习

统计学习的特点

  • 建立在计算机与网络的基础上
  • 以数据为研究对象
    • 基本假设:同类数据具有一定的统计规律性。
  • 以方法为中心
    • 常用方法

      • 监督学习
      • 非监督学习
      • 半监督学习
      • 强化学习
  • 目标是对数据进行预测与分析

统计学习的方法

  • 监督学习

    • 从给定的、有限的、用于学习的训练集出发
    • 假设数据独立同分布
    • 假设要学习的模型属于某个函数的集合,称为假设空间
    • 采用评价标准从假设空间选择最优的模型

可以总结出统计学习的三要素:模型、策略和算法。

监督学习

监督学习的任务是学习一个模型,使模型能够对任意给定的输入能做出一个好的预测。

基本概念

  • 输入空间:所有与样本相关的可以获得的信息,记作XXX
  • 特征空间:所有特征向量存在的空间,一般与输入空间不加区分
  • 输出空间:一般为分类(预测)的结果,记作YYY
  • 联合概率分布
    • 监督学习假设输入和输出的随机变量XXX和YYY遵循联合概率分布P(X,Y)P(X,Y)P(X,Y)。
    • 训练集和测试集的数据被看作依联合概率分布P(X,Y)P(X,Y)P(X,Y)独立同分布产生的。
  • 假设空间:模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间,记为F\mathcal{F}F。
    F={f∣Y=f(X)}\mathcal{F}=\left\{f|Y=f(X)\right\}F={f∣Y=f(X)}
    此时A\mathcal{A}A通常是由一个参数向量决定的函数族:
    F={f∣Y=fθ(X),θ∈Rn}\mathcal{F}=\left\{f|Y=f_\theta(X),\theta\in R^n\right\}F={f∣Y=fθ​(X),θ∈Rn}
    参数向量θ\thetaθ取值于nnn维欧氏空间RnR^nRn,称为参数空间。
  • 监督学习的模型:可以是概率模型或非概率模型,由条件概率分布P(Y∣X)P(Y|X)P(Y∣X)或决策函数Y=f(x)Y=f(x)Y=f(x)表示。

问题形式化

通过一个简单的图展示监督学习的过程:

  • 训练集:T={(x1,y1),...,(xN,yN)}T=\left\{(x_1,y_1),...,(x_N,y_N)\right\}T={(x1​,y1​),...,(xN​,yN​)},其中每一个都称为样本点,xix_ixi​为输入值,yiy_iyi​为输出值。
  • 训练的模型:表示为P^(Y∣X)\hat P(Y|X)P^(Y∣X)或Y=f^(X)Y=\hat f(X)Y=f^​(X)
  • 预测的结果:假设待预测的样本为xN+1x_{N+1}xN+1​,则结果记为yN+1=argmax⁡yN+1P^(yN+1∣xN+1)y_{N+1}=arg \mathop {\max }\limits_{{y_{N + 1}}} \hat P(y_{N+1}|x_{N+1})yN+1​=argyN+1​max​P^(yN+1​∣xN+1​)或yN+1=f^(xN+1)y_{N+1}=\hat f(x_{N+1})yN+1​=f^​(xN+1​)

统计学习的三要素

方法=模型+策略+算法

模型

  • 模型的假设空间包含所有可能的条件概率分布或决策函数 。

策略

  • 用于考虑如何选择最优的模型
  • 相关函数
    • 损失函数

      • 0-1损失函数:
        L(Y,f(X))={1Y≠f(X)0Y=f(X)L\left( {Y,f\left( X \right)} \right) = \left\{ \begin{array}{l} 1\quad Y \ne f\left( X \right)\\ 0\quad Y = f\left( X \right) \end{array} \right.L(Y,f(X))={1Y̸​=f(X)0Y=f(X)​
      • 平方损失函数:
        L(Y,f(X))=(Y−f(X))2L\left( {Y,f\left( X \right)} \right) = {\left( {Y - f\left( X \right)} \right)^2}L(Y,f(X))=(Y−f(X))2
      • 绝对损失函数:
        L(Y,f(X))=∣Y−f(X)∣L\left( {Y,f\left( X \right)} \right) = \left| {Y - f\left( X \right)} \right|L(Y,f(X))=∣Y−f(X)∣
      • 对数损失函数:
        L(Y,P(Y∣X))=−log⁡P(Y∣X)L\left( {Y,P\left( {Y\left| X \right.} \right)} \right) = - \log P\left( {Y\left| X \right.} \right)L(Y,P(Y∣X))=−logP(Y∣X)
    • 风险函数:
      • 风险函数(期望损失)
        损失函数的期望(由于输入输出遵循联合分布P(X,Y)P\left(X,Y\right)P(X,Y))称为风险函数或期望损失:
        Rexp⁡(f)=Ep[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy{R_{\exp }}\left( f \right) = {E_p}\left[ {L\left( {Y,f\left( X \right)} \right)} \right] = \int_{\mathcal{X} \times \mathcal{Y}} {L\left( {y,f\left( x \right)} \right)P\left( {x,y} \right)} dxdyRexp​(f)=Ep​[L(Y,f(X))]=∫X×Y​L(y,f(x))P(x,y)dxdy
      • 经验风险(经验损失)
        对于训练集的平均损失称为经验风险或经验损失:
        Remp(f)=1N∑i=1NL(yi,f(xi)){R_{emp}}\left( f \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right)} Remp​(f)=N1​i=1∑N​L(yi​,f(xi​))
  • 经验风险最小化与结构风险最小化
    • 经验风险最小化(ERM)
      当样本容量足够大时,经验风险最小化能保证有很好的学习效果,也就是求解最优问题:
      min⁡f∈F1N∑i=1NL(yi∣f(xi))\mathop {\min }\limits_{f \in \mathcal{F}} \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i}\left| {f\left( {{x_i}} \right)} \right.} \right)} f∈Fmin​N1​i=1∑N​L(yi​∣f(xi​))
      极大似然估计就是经验风险最小化的一个例子。
      但样本过小就会导致“过拟合”。
    • 结构化风险最小(SRM)
      为了防止过拟合而提出的策略。结构化风险在经验风险的基础上增加了模型复杂度的正则化项(或罚项)。因此定义为:
      Rsrm(f)=1N∑i=1NL(yi,f(xi))+λJ(f){R_{srm}}\left( f \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right)} + \lambda J\left( f \right)Rsrm​(f)=N1​i=1∑N​L(yi​,f(xi​))+λJ(f)
      其中J(f)J\left( f \right)J(f)为模型复杂度,越大函数越复杂;λ≥0\lambda\ge 0λ≥0是系数用来权衡经验风险和模型复杂度。
      贝叶斯估计中的最大后验概率估计就是结构风险最小化的例子。

算法

在确定了训练数据集、学习策略并从假设空间中选择最有模型的基础上,需要考虑使用什么算法求解最优模型。

模型评估与模型选择(一)

训练误差与测试误差

假设学习得到的算法是Y=f^(X)Y=\hat f(X)Y=f^​(X)

  • 训练误差:是算法在训练集上的平均损失Remp(f^)=1N∑i=1NL(yi,f^(xi)){R_{emp}}\left( {\hat f} \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},\hat f\left( {{x_i}} \right)} \right)} Remp​(f^​)=N1​i=1∑N​L(yi​,f^​(xi​))
  • 测试误差:算法在测试集上的平均误差etest(f^)=1N′∑i=1N′L(yi,f^(xi)){e_{test}}\left( {\hat f} \right) = \frac{1}{{N'}}\sum\limits_{i = 1}^{N'} {L\left( {{y_i},\hat f\left( {{x_i}} \right)} \right)} etest​(f^​)=N′1​i=1∑N′​L(yi​,f^​(xi​))
  • 测试误差率:当损失函数为0-1损失时,测试误差变为误差率,记为etest=1N′∑i=1N′I(yi≠f^(xi)){e_{test}} = \frac{1}{{N'}}\sum\limits_{i = 1}^{N'} {I\left( {{y_i} \ne \hat f\left( {{x_i}} \right)} \right)} etest​=N′1​i=1∑N′​I(yi​̸​=f^​(xi​))
    其中III为指示函数,y≠f^(x)y\ne \hat f(x)y̸​=f^​(x)时为111,否则为000。
  • 测试准确率:rtest=1−etestr_{test}=1-e_{test}rtest​=1−etest​

过拟合、欠拟合与模型选择

模型的选择应该是以真实情况作为依据,也就是逼近所谓的“真模型”,而不应该只追求模型在训练集上的表现效果。

  • 过拟合与欠拟合
    首先看个实际得实例:

    • 过拟合
      一味追求提高对训练集的预测能力(学习了训练样本中存在得特点),模型过于复杂,往往复杂度高于“真模型”。
      特点:对于已知数据表现很好,对于未知数据表现很差。
    • 欠拟合
      欠拟合相对比较好理解,就是指对训练样本得一般性质未能学好。
      下图从另一个角度展示了一个过拟合的与欠拟合(M表示多项次的次数),可以很显然得发现:
    1. 当M=0M=0M=0时,完全就是一条与xxx轴平行的直线,并没有学习到什么有用得信息;
    2. 当M=1M=1M=1时,直线发生了一定的倾斜,但其实也与“真模型”相差甚远,此时仍处于“欠拟合”的状态。
    3. 当M=9M=9M=9时,图像经过了所有已知点,但是图像非常复杂且偏离“真模型”,可以想象其用来预测也会导致很差得结果。

      下图也给出了随着模型复杂度的变化,训练误差与测试误差的变化情况。
参考文献
  • 《统计学习方法》
  • 《机器学习》

统计学习方法——统计学习基础(一)相关推荐

  1. 机器学习理论《统计学习方法》学习笔记:第二章 感知机

    <统计学习方法>学习笔记:第二章 感知机 2 感知机 2.1 感知机模型 2.2 感知机学习策略 2.2.1 数据的线性可分性 2.2.2 感知机学习策略 2.3 感知机学习算法 2.3. ...

  2. 机器学习理论《统计学习方法》学习笔记:第六章 逻辑斯谛回归与最大熵模型

    机器学习理论<统计学习方法>学习笔记:第六章 逻辑斯谛回归与最大熵模型 6 逻辑斯谛回归与最大熵模型 6.1 逻辑斯谛回归模型 6.1.1 逻辑斯谛分布 6.1.2 二项逻辑斯蒂回归模型 ...

  3. 机器学习理论《统计学习方法》学习笔记:第五章 决策树

    机器学习理论<统计学习方法>学习笔记:第五章 决策树 决策树 5.1 决策树模型与学习 5.1.1 决策树模型 5.1.2 决策树与if-then规则 5.1.3 决策树与条件概率分布 5 ...

  4. 机器学习理论《统计学习方法》学习笔记:第四章 朴素贝叶斯法

    机器学习理论<统计学习方法>学习笔记:第四章 朴素贝叶斯法 4 朴素贝叶斯法 4.1 朴素贝叶斯法的学习与分类 4.1.1 基本方法 4.1.2 后验概率最大化的含义 4.2 朴素贝叶斯法 ...

  5. 机器学习理论《统计学习方法》学习笔记:第三章 k近邻法

    机器学习理论<统计学习方法>学习笔记:第三章 k近邻法 3 k近邻法 3.1 K近邻算法 3.2 K近邻模型 3.2.1 模型 3.2.2 距离度量 3.2.3 K值的选择 3.2.4 分 ...

  6. 支持向量机-《统计学习方法》学习笔记

    支持向量机-<统计学习方法>学习笔记 1 概述 2 线性可分支持向量机 2.1 线性可分支持向量机简介 2.2 寻找最优分离超平面 2.3 函数间隔 2.4 几何间隔 2.5 (硬)间隔最 ...

  7. 李航·《统计学习方法》学习笔记

    第一章 统计学习的方法概论 1.1 统计学习概述 1. 统计学习的过程: 2. 统计学习的分类: 3. 监督学习的分类 3.1 生成方法与判别模方法 3.1.1 生成方法 3.1.1 判别方法 3.2 ...

  8. 《统计学习方法》学习笔记 第二十一章 PageRank算法

    目录 1 PageRank的定义 1.1 基本想法 1.2 有向图和随机游走模型 1 有向图(directed graph) 2 随机游走模型 3 PageRank的基本定义 4 PageRank的一 ...

  9. 机器学习理论《统计学习方法》学习笔记:奇异值分解(SVD)

    奇异值分解(SVD) 摘要 1 奇异值分解的定义与定理 1.1 奇异值分解的定义 1.2 奇异值分解的基本定理 1.3 奇异值分解的几何解释 2 紧奇异值分解和截断奇异值分解 2.1 紧奇异值分解 2 ...

  10. 《李航 统计学习方法》学习笔记——第八章提升方法

    提升方法 8.1提升方法AdaBoost 8.1.1提升方法的基本思路 8.1.2AdaBoost算法 8.1.3AdaBoost的例子(代码实现) 8.2AdaBoost算法的训练误差分析 定理8. ...

最新文章

  1. HDU1261(高精度乘法+高精度除法)
  2. 不要假装很努力,因为结果不会陪你演戏
  3. Yann LeCun:发现智能原理是AI的终极问题 | 独家对话
  4. java 投票ip限制_java 限定网站在指定IP段访问
  5. 高等数学上-赵立军-北京大学出版社-题解-练习5.4
  6. linux tar cvf_Linux中的Tar命令:Tar CVF和Tar XVF通过示例命令进行了解释
  7. Eclipse配置svn
  8. HMC 命令行登陆设置
  9. 南阳oj-----懒省事的小明(set)
  10. 基于微信小程序开发——音乐播放器
  11. matlab进行差分检验,热传导方程几种差分格式的MATLAB数值解法比较
  12. 企业如何管理软件资产,软件许可证,软件license,license管理,许可管理
  13. 计算机二级考试高级应用软件版本,计算机二级高级办公软件考哪个版本
  14. 躲猫猫正式上线“Peek-a-Boo”就是“躲猫猫”
  15. Mac系统 - 升级node版本
  16. java事件溯源_领域事件与事件溯源 - 解道Jdon
  17. 淘宝API接口:获取sku详细信息
  18. Semantic Segmentation: A thorough Review
  19. 1-drf-drf入门规范
  20. 基于kubeadm 部署K8S1.22.3 踩坑

热门文章

  1. rpcbind相关漏洞验证
  2. Web视频播放总结,avi、swf、兼容IE6/7/8
  3. html在电脑上转换字体怎么变了,怎样通过电脑把汉字转换为小篆字体?小篆字体转换器如何使用?...
  4. 关于代理服务器与NAT
  5. 开心消消乐分析与设计
  6. 2022年工作室暑期培训
  7. linux抓肉鸡入侵详细教程,一台linux肉鸡的简单手工入侵检测过程
  8. 如何用代码表白——matlab绘制玫瑰、爱心和I LOVE YOU
  9. 使用计算机键盘的基本步骤,键盘指法练习方法
  10. 数据挖掘概念与技术(第三版)课后答案——第一章