Statistical Learning

why estimate f

用来预测
预测的时候可以将f̂ \hat{f}当成一个black box来用，目的主要是预测对应x时候的y而不关系它们之间的关系。
用来推断
推断的时候，f̂ \hat{f}不能是一个black box，因为我们想知道predictor和response之间的关系，用来做特征提取，关系分析等。

根据目的是预测还是推断或者两者结合选择不同的模型，需要做一下trade off。

how estimate f

参数方法
它将确定了f的形式，将估计p维的f函数降为了对一些参数的估计
先构建参数表达式，然后用参数表达式去训练数据，例如linear regression。
优点是模型和计算简单，缺点是预先确定了f的形式，可能会和真实的f相差较大。
非参数方法
对f的形式并未做假设，它要求得到的结果与训练集越接近越好，但是保证模型不要太过复杂。
优点是适用于更多的f，能够得到更高的正确率，缺点是因为是无参数估计，所以需要的数据量是很大的。

模型精度和解释的权衡

模型越复杂，对于模型的可解释度越小。

如果需要对模型进行高精度预测的话，比如股票市场，可以采用更flexible的方法。
然而，在股票市场，高精度的方法有时候效果更差，原因是对训练数据产生了过拟合。

监督和非监督学习

注意有 SEMI-SUPERVISED LEARNING的问题

分类和回归问题

注意很多机器学习的方法，既可以应用到回归问题，也可以应用到分类问题。只要qualitative的对象被合适地编码。

Assessing model Accuracy

Measuring quality of fit

模型更flexibility，degrees of freedom越大。
具体来说，更flexibility，意味着vc维更大，可以shatter的点更多，所以effective points更多， degrees of freedom更大也就是问题的规模更大，模型的选择更多。
模型的选择更多（Hsets更大），这样可以选出训练集MSE最小的点，但是因为VC维的增大，且数据量的有限（VC bound的标准），并不可以保证测试集和训练集的MSE很接近，因此会造成测试集MSE很大，造成过拟合的现象。

解决这个问题，一般采用cross-validation，将训练集的一部分用作测试集，以此来估计EoutE_{out}，避免过拟合现象。

bias-variance trade-off

一般来说，测试集的MSE会出现U shape。
U shape，是两种因素共同作用的结果：
1. bias和variance
2. vc维增大后的Ein≈0E_{in} \approx 0和Ein≈EoutE_{in} \approx E_{out}

MSE有一个最小值，Var(ϵ)Var(\epsilon)。

variance refers to the amount by which f̂ \hat{f} would change if we estimated it using a different traing data set.
不同的训练集预测出来的ff相差的多少叫做variance，训练集中一个数据的小改变造成f̂ \hat{f}变化很大，那么这个模型的variance就很大。

bias refers to the error that is introduced by approximating a real-life problem.
比如，很多问题不是线性的，如果用线性回归来做，那么与实际问题的关系就会相差很大，这样即使数据量再大也无济于事。

当我们使用更flexible的方法时，会造成bias的下降和variance的上升。通常来说，测试集上的MSE大小取决于两者的变化速度。一般来说，刚开始bias下降的多，MSE下降，后来variance上升的多，造成MSE上升，因此会有U形曲线。