统计学习方法的三要素

方法=模型+策略+算法

模型

定义1：决策函数的集合
- 决策函数的集合：F={f∣Y=f(X)}\mathcal{F}=\{f \mid Y=f(X)\}F={f∣Y=f(X)}
  - XXX和YYY是定义在输入空间和输出空间上的变量，F\mathcal{F}F通常是由一个参数向量决定的函数族
- 参数空间：F={f∣Y=fθ(X),θ∈Rn}\mathcal{F}=\left\{f \mid Y=f_{\theta}(X), \theta \in \mathbf{R}^{n}\right\}F={f∣Y=fθ(X),θ∈Rn}
  - 参数向量θθθ取决于n维欧式空间Rn\mathbf{R}^{n}Rn，称为参数空间
定义2：条件概率的集合
- 条件概率的集合：F={P∣P(Y∣X)}\mathcal{F}=\{P \mid P(Y \mid X)\}F={P∣P(Y∣X)}
  - XXX和YYY是定义在输入空间和输出空间上的变量，F\mathcal{F}F通常是由一个参数向量决定的条件概率分布族
- 参数空间：F={P∣Pθ(Y∣X),θ∈Rn}\mathcal{F}=\left\{P \mid P_{\theta}(Y \mid X), \theta \in \mathbf{R}^{n}\right\}F={P∣Pθ(Y∣X),θ∈Rn}
  - 参数向量θθθ取决于n维欧式空间Rn\mathbf{R}^{n}Rn，称为参数空间

策略

损失函数分类

0-1损失函数 0-1 loss function： L(Y,f(X))={1,Y≠f(X)0,Y=f(X)L(Y, f(X))= \begin{cases}1, & Y \neq f(X) \\ 0, & Y=f(X)\end{cases}L(Y,f(X))={1,0,Y=f(X)Y=f(X)
平方损失函数 quadratic loss function L(Y,f(X))=(Y−f(X))2L(Y, f(X))=(Y-f(X))^{2}L(Y,f(X))=(Y−f(X))2
绝对损失函数 absolute loss function L(Y,f(X))=∣Y−f(X)∣L(Y, f(X))=|Y-f(X)|L(Y,f(X))=∣Y−f(X)∣
对数损失函数 logarithmic loss function 或对数似然损失函数 loglikelihood loss function L(Y,P(Y∣X))=−log⁡P(Y∣X)L(Y, P(Y \mid X))=-\log P(Y \mid X)L(Y,P(Y∣X))=−logP(Y∣X)

风险函数

损失函数的期望 Rexp⁡(f)=EP[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dxdyR_{\exp }(f)=E_{P}[L(Y, f(X))]=\int_{\mathcal{X} \times \mathcal{Y}} L(y, f(x)) P(x, y) \mathrm{d} x \mathrm{~d} yRexp(f)=EP[L(Y,f(X))]=∫X×YL(y,f(x))P(x,y)dx dy，这是理论上模型f(x)f(x)f(x)关于联合分布P(X,Y)P(X,Y)P(X,Y)的平均意义下的损失，称为风险函数（risk function ）或期望损失（expected loss）。由P(x,y)可以直接求出P(x|y),但不知道。

学习目标就是选择期望风险最小的模型。

经验风险：假设训练数据集为T={(x1,y1),(x2,y2),⋯,(xN,yN)}T=\left\{\left(x_{1}, y_{1}\right),\left(x_{2}, y_{2}\right), \cdots,\left(x_{N}, y_{N}\right)\right\}T={(x1,y1),(x2,y2),⋯,(xN,yN)}，则模型f(x)f(x)f(x)关于训练数据集的平均损失称为经验风险或经验损失，记作Remp (f)=1N∑i=1NL(yi,f(xi))R_{\text {emp }}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)Remp (f)=N1∑i=1NL(yi,f(xi))。

经验风险最小化和结构风险最小化

经验风险最小化最优模型
min⁡f∈F1N∑i=1NL(yi,f(xi))\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right) f∈FminN1i=1∑NL(yi,f(xi))
当样本容量很小时，经验风险最小化学习的效果未必很好，会产生“过拟合over-fitting”
结构风险最小化（structure risk minimization），为防止过拟合提出的策略，等价于正则化（regularization），加入正则化项（regularizer），或罚项（penalty term）：
Rsrm(f)=1N∑i=1NL(yi,f(xi))+λJ(f)R_{\mathrm{srm}}(f)=\frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) Rsrm(f)=N1i=1∑NL(yi,f(xi))+λJ(f)
J(f)J(f)J(f)为模型复杂度，是定义在假设空间F\mathcal{F}F上的泛函，复杂度表示了对复杂模型的惩罚。λ≥0\lambda≥0λ≥0是系数，用以权衡经验风险和模型复杂度。
则相应的结构风险最小化最优模型
min⁡f∈F1N∑i=1NL(yi,f(xi))+λJ(f)\min _{f \in \mathcal{F}} \frac{1}{N} \sum_{i=1}^{N} L\left(y_{i}, f\left(x_{i}\right)\right)+\lambda J(f) f∈FminN1i=1∑NL(yi,f(xi))+λJ(f)

算法

算法是指学习模型的具体计算方法。
如果最优化问题有显式的解析式，算法比较简单，但通常解析式不存在，就需要数值计算的方法