统计学习概论（一）

统计学习

统计学习的特点

建立在计算机与网络的基础上
以数据为研究对象
- 基本假设：同类数据具有一定的统计规律性。
以方法为中心
- 常用方法
  - 监督学习
  - 非监督学习
  - 半监督学习
  - 强化学习
目标是对数据进行预测与分析

统计学习的方法

监督学习
- 从给定的、有限的、用于学习的训练集出发
- 假设数据独立同分布
- 假设要学习的模型属于某个函数的集合，称为假设空间
- 采用评价标准从假设空间选择最优的模型

可以总结出统计学习的三要素：模型、策略和算法。

监督学习

监督学习的任务是学习一个模型，使模型能够对任意给定的输入能做出一个好的预测。

基本概念

输入空间：所有与样本相关的可以获得的信息，记作XXX
特征空间：所有特征向量存在的空间，一般与输入空间不加区分
输出空间：一般为分类（预测）的结果，记作YYY
联合概率分布
- 监督学习假设输入和输出的随机变量XXX和YYY遵循联合概率分布P(X,Y)P(X,Y)P(X,Y)。
- 训练集和测试集的数据被看作依联合概率分布P(X,Y)P(X,Y)P(X,Y)独立同分布产生的。
假设空间：模型属于由输入空间到输出空间的映射的集合，这个集合就是假设空间，记为F\mathcal{F}F。
F={f∣Y=f(X)}\mathcal{F}=\left\{f|Y=f(X)\right\}F={f∣Y=f(X)}
此时A\mathcal{A}A通常是由一个参数向量决定的函数族：
F={f∣Y=fθ(X),θ∈Rn}\mathcal{F}=\left\{f|Y=f_\theta(X),\theta\in R^n\right\}F={f∣Y=fθ(X),θ∈Rn}
参数向量θ\thetaθ取值于nnn维欧氏空间RnR^nRn，称为参数空间。
监督学习的模型：可以是概率模型或非概率模型，由条件概率分布P(Y∣X)P(Y|X)P(Y∣X)或决策函数Y=f(x)Y=f(x)Y=f(x)表示。

问题形式化

通过一个简单的图展示监督学习的过程：

训练集：T={(x1,y1),...,(xN,yN)}T=\left\{(x_1,y_1),...,(x_N,y_N)\right\}T={(x1,y1),...,(xN,yN)}，其中每一个都称为样本点，xix_ixi为输入值，yiy_iyi为输出值。
训练的模型：表示为P^(Y∣X)\hat P(Y|X)P^(Y∣X)或Y=f^(X)Y=\hat f(X)Y=f^(X)
预测的结果：假设待预测的样本为xN+1x_{N+1}xN+1，则结果记为yN+1=argmax⁡yN+1P^(yN+1∣xN+1)y_{N+1}=arg \mathop {\max }\limits_{{y_{N + 1}}} \hat P(y_{N+1}|x_{N+1})yN+1=argyN+1maxP^(yN+1∣xN+1)或yN+1=f^(xN+1)y_{N+1}=\hat f(x_{N+1})yN+1=f^(xN+1)

统计学习的三要素

方法=模型+策略+算法

模型

模型的假设空间包含所有可能的条件概率分布或决策函数。

策略

用于考虑如何选择最优的模型
相关函数
- 损失函数
  - 0-1损失函数：
    L(Y,f(X))={1Y≠f(X)0Y=f(X)L\left( {Y,f\left( X \right)} \right) = \left\{ \begin{array}{l} 1\quad Y \ne f\left( X \right)\\ 0\quad Y = f\left( X \right) \end{array} \right.L(Y,f(X))={1Y̸=f(X)0Y=f(X)
  - 平方损失函数：
    L(Y,f(X))=(Y−f(X))2L\left( {Y,f\left( X \right)} \right) = {\left( {Y - f\left( X \right)} \right)^2}L(Y,f(X))=(Y−f(X))2
  - 绝对损失函数：
    L(Y,f(X))=∣Y−f(X)∣L\left( {Y,f\left( X \right)} \right) = \left| {Y - f\left( X \right)} \right|L(Y,f(X))=∣Y−f(X)∣
  - 对数损失函数：
    L(Y,P(Y∣X))=−log⁡P(Y∣X)L\left( {Y,P\left( {Y\left| X \right.} \right)} \right) = - \log P\left( {Y\left| X \right.} \right)L(Y,P(Y∣X))=−logP(Y∣X)
- 风险函数：
  - 风险函数（期望损失）
    损失函数的期望（由于输入输出遵循联合分布P(X,Y)P\left(X,Y\right)P(X,Y)）称为风险函数或期望损失:
    Rexp⁡(f)=Ep[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy{R_{\exp }}\left( f \right) = {E_p}\left[ {L\left( {Y,f\left( X \right)} \right)} \right] = \int_{\mathcal{X} \times \mathcal{Y}} {L\left( {y,f\left( x \right)} \right)P\left( {x,y} \right)} dxdyRexp(f)=Ep[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdy
  - 经验风险（经验损失）
    对于训练集的平均损失称为经验风险或经验损失：
    Remp(f)=1N∑i=1NL(yi,f(xi)){R_{emp}}\left( f \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right)} Remp(f)=N1i=1∑NL(yi,f(xi))
经验风险最小化与结构风险最小化
- 经验风险最小化（ERM）
  当样本容量足够大时，经验风险最小化能保证有很好的学习效果，也就是求解最优问题：
  min⁡f∈F1N∑i=1NL(yi∣f(xi))\mathop {\min }\limits_{f \in \mathcal{F}} \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i}\left| {f\left( {{x_i}} \right)} \right.} \right)} f∈FminN1i=1∑NL(yi∣f(xi))
  极大似然估计就是经验风险最小化的一个例子。
  但样本过小就会导致“过拟合”。
- 结构化风险最小（SRM）
  为了防止过拟合而提出的策略。结构化风险在经验风险的基础上增加了模型复杂度的正则化项（或罚项）。因此定义为：
  Rsrm(f)=1N∑i=1NL(yi,f(xi))+λJ(f){R_{srm}}\left( f \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},f\left( {{x_i}} \right)} \right)} + \lambda J\left( f \right)Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f)
  其中J(f)J\left( f \right)J(f)为模型复杂度，越大函数越复杂；λ≥0\lambda\ge 0λ≥0是系数用来权衡经验风险和模型复杂度。
  贝叶斯估计中的最大后验概率估计就是结构风险最小化的例子。

算法

在确定了训练数据集、学习策略并从假设空间中选择最有模型的基础上，需要考虑使用什么算法求解最优模型。

模型评估与模型选择（一）

训练误差与测试误差

假设学习得到的算法是Y=f^(X)Y=\hat f(X)Y=f^(X)

训练误差：是算法在训练集上的平均损失Remp(f^)=1N∑i=1NL(yi,f^(xi)){R_{emp}}\left( {\hat f} \right) = \frac{1}{N}\sum\limits_{i = 1}^N {L\left( {{y_i},\hat f\left( {{x_i}} \right)} \right)} Remp(f^)=N1i=1∑NL(yi,f^(xi))
测试误差：算法在测试集上的平均误差etest(f^)=1N′∑i=1N′L(yi,f^(xi)){e_{test}}\left( {\hat f} \right) = \frac{1}{{N'}}\sum\limits_{i = 1}^{N'} {L\left( {{y_i},\hat f\left( {{x_i}} \right)} \right)} etest(f^)=N′1i=1∑N′L(yi,f^(xi))
测试误差率：当损失函数为0-1损失时，测试误差变为误差率，记为etest=1N′∑i=1N′I(yi≠f^(xi)){e_{test}} = \frac{1}{{N'}}\sum\limits_{i = 1}^{N'} {I\left( {{y_i} \ne \hat f\left( {{x_i}} \right)} \right)} etest=N′1i=1∑N′I(yi̸=f^(xi))
其中III为指示函数，y≠f^(x)y\ne \hat f(x)y̸=f^(x)时为111，否则为000。
测试准确率：rtest=1−etestr_{test}=1-e_{test}rtest=1−etest

过拟合、欠拟合与模型选择

模型的选择应该是以真实情况作为依据，也就是逼近所谓的“真模型”，而不应该只追求模型在训练集上的表现效果。

过拟合与欠拟合
首先看个实际得实例：
- 过拟合
  一味追求提高对训练集的预测能力（学习了训练样本中存在得特点），模型过于复杂，往往复杂度高于“真模型”。
  特点：对于已知数据表现很好，对于未知数据表现很差。
- 欠拟合
  欠拟合相对比较好理解，就是指对训练样本得一般性质未能学好。
  下图从另一个角度展示了一个过拟合的与欠拟合（M表示多项次的次数），可以很显然得发现：
1. 当M=0M=0M=0时，完全就是一条与xxx轴平行的直线，并没有学习到什么有用得信息；
2. 当M=1M=1M=1时，直线发生了一定的倾斜，但其实也与“真模型”相差甚远，此时仍处于“欠拟合”的状态。
3. 当M=9M=9M=9时，图像经过了所有已知点，但是图像非常复杂且偏离“真模型”，可以想象其用来预测也会导致很差得结果。
  
  下图也给出了随着模型复杂度的变化，训练误差与测试误差的变化情况。

参考文献

《统计学习方法》
《机器学习》

统计学习方法——统计学习基础（一）相关推荐

机器学习理论《统计学习方法》学习笔记：第二章感知机
<统计学习方法>学习笔记:第二章感知机 2 感知机 2.1 感知机模型 2.2 感知机学习策略 2.2.1 数据的线性可分性 2.2.2 感知机学习策略 2.3 感知机学习算法 2.3. ...
机器学习理论《统计学习方法》学习笔记：第六章逻辑斯谛回归与最大熵模型
机器学习理论<统计学习方法>学习笔记:第六章逻辑斯谛回归与最大熵模型 6 逻辑斯谛回归与最大熵模型 6.1 逻辑斯谛回归模型 6.1.1 逻辑斯谛分布 6.1.2 二项逻辑斯蒂回归模型 ...
机器学习理论《统计学习方法》学习笔记：第五章决策树
机器学习理论<统计学习方法>学习笔记:第五章决策树决策树 5.1 决策树模型与学习 5.1.1 决策树模型 5.1.2 决策树与if-then规则 5.1.3 决策树与条件概率分布 5 ...
机器学习理论《统计学习方法》学习笔记：第四章朴素贝叶斯法
机器学习理论<统计学习方法>学习笔记:第四章朴素贝叶斯法 4 朴素贝叶斯法 4.1 朴素贝叶斯法的学习与分类 4.1.1 基本方法 4.1.2 后验概率最大化的含义 4.2 朴素贝叶斯法 ...
机器学习理论《统计学习方法》学习笔记：第三章 k近邻法
机器学习理论<统计学习方法>学习笔记:第三章 k近邻法 3 k近邻法 3.1 K近邻算法 3.2 K近邻模型 3.2.1 模型 3.2.2 距离度量 3.2.3 K值的选择 3.2.4 分 ...
支持向量机-《统计学习方法》学习笔记
支持向量机-<统计学习方法>学习笔记 1 概述 2 线性可分支持向量机 2.1 线性可分支持向量机简介 2.2 寻找最优分离超平面 2.3 函数间隔 2.4 几何间隔 2.5 (硬)间隔最 ...
李航·《统计学习方法》学习笔记
第一章统计学习的方法概论 1.1 统计学习概述 1. 统计学习的过程: 2. 统计学习的分类: 3. 监督学习的分类 3.1 生成方法与判别模方法 3.1.1 生成方法 3.1.1 判别方法 3.2 ...
《统计学习方法》学习笔记第二十一章 PageRank算法
目录 1 PageRank的定义 1.1 基本想法 1.2 有向图和随机游走模型 1 有向图(directed graph) 2 随机游走模型 3 PageRank的基本定义 4 PageRank的一 ...
机器学习理论《统计学习方法》学习笔记：奇异值分解（SVD）
奇异值分解(SVD) 摘要 1 奇异值分解的定义与定理 1.1 奇异值分解的定义 1.2 奇异值分解的基本定理 1.3 奇异值分解的几何解释 2 紧奇异值分解和截断奇异值分解 2.1 紧奇异值分解 2 ...
《李航统计学习方法》学习笔记——第八章提升方法
提升方法 8.1提升方法AdaBoost 8.1.1提升方法的基本思路 8.1.2AdaBoost算法 8.1.3AdaBoost的例子(代码实现) 8.2AdaBoost算法的训练误差分析定理8. ...

统计学习方法——统计学习基础（一）

统计学习方法——统计学习