机器学习-过拟合和欠拟合以及正则化处理

无论在机器学习还是深度学习建模中都可能会遇到两种最常见问题，一种叫过拟合，另外一种叫欠拟合。

上图展示了不同线性回归模型对训练集样本的拟合情况，可以发现，第一个模型是一条直线，不能很好的拟合训练集，这就是欠拟合（UnderFitting）或者说模型是高偏差的（HighBias）。第三个模型是一个高阶多项式，虽然对训练集拟合的很好，但它的特征过多，如果没有足够的数据约束，就不会有良好的泛化能力（泛化能力是指一个模型应用到新样本的能力，比如这里的新样本是指没有出现在训练集的样本），也就不能对新样本做出正确的预测，这就是过度拟合（OverFitting）或者说模型是高方差的（HighVarience）。第二个则是一个理想的模型。

在机器学习中，我们用训练数据集去训练一个模型，通常的做法是定义一个误差函数，通过将这个误差的最小化过程，来提高模型的性能。然而我们学习一个模型的目的是为了解决训练数据集这个领域中的一般化问题，单纯地将训练数据集的损失最小化，并不能保证在解决更一般的问题时模型仍然是最优，甚至不能保证模型是可用的。这个训练数据集的损失与一般化的数据集的损失之间的差异就叫做泛化误差（Generalization Error）。

而泛化误差可以分解为偏差（Biase）、方差（Variance）和噪声（Noise），他们之间的关系如下图所示：

假设红色的靶心区域是学习算法完美的正确预测值，蓝色点为训练数据集所训练出的模型对样本的预测值，当我们从靶心逐渐往外移动时，预测效果逐渐变差。从上面的图片中很容易可以看到，左边一列的蓝色点比较集中，右边一列的蓝色点比较分散，它们描述的是方差的两种情况。比较集中的属于方差比较小，比较分散的属于方差比较大的情况。我们再从蓝色点与红色靶心区域的位置关系来看，靠近红色靶心的属于偏差较小的情况，远离靶心的属于偏差较大的情况。

假设我们正在做一个分类器，分别在训练集和验证集上测试，以下为四种可能的情况：

可见①、④两种情况的训练集误差都很小，接近optimal error，这种就称为low bias。说明训练的很到位了。
相反②、③两者的训练集误差很大，这就称为high bias。因此我们知道，bias就是衡量训练集和我们的最小误差的差距。

再来看看variance是怎么判断。①情况下，验证集相比训练集误差上升了很多，这就是high variance。而②呢，虽然它的验证集误差更大，但是相比它的训练集误差，基本没太大变化，因此它不能叫low variance。所以，说白了，variance是指你的验证集和你训练集的效果的差别，而不是某个绝对的值。

过拟合的根本原因：特征维度过多，模型假设过于复杂，参数过多，训练数据过少，噪声过多，导致拟合的函数完美的预测训练集，但对新数据的测试集预测结果差。过度的拟合了训练数据，而没有考虑到泛化能力。因此需要减少特征维度，或者正则化降低参数值。

欠拟合的根本原因：特征维度过少，模型过于简单，导致拟合的函数无法满足训练集，误差较大； 因此需要增加特征维度，增加训练数据。

避免过拟合的方法：

交叉验证：即重复使用数据，把得到的样本数据进行切分，组合为不同的训练集和测试集，用训练集训练模型，用测试集来评估模型预测的好坏。由于在此基础上可以得到多组不同的训练集和测试集，某次训练集中的某样本在下次可能成为测试集中的样本，即所谓“交叉”。当数据量不是很充足的时候，会使用交叉验证。

在训练过程中，我们通经常使用它来确定一些超參数（比方,依据validation data上的accuracy来确定early stopping的epoch大小、依据validation data确定learning rate等等。
正则化：(L1和L2)通过改动代价函数实现。
数据增强：增加训练数据样本。
Dropout：通过改动神经网络本身来实现。例如，训练前，随机删除一部分隐层单元，保持输入输出层不变，依照BP算法更新上图神经网络中的权值。
early stopping：即提前终止。Early stopping是一种以迭代次数截断的方法来防止过拟合。
Bagging用不同的模型拟合不同部分的训练集；Boosting只使用简单的神经网络；
数据清洗：将错误的label纠正或者删除错误的数据。

欠拟合的解决方法：

添加其他特征项：添加特征的重要手段是“组合”，“泛化”，“相关性”；另外，特征添加的首选项是“上下文特征”，“平台特征”。
添加多项式特征：比较常用，例如，在线性模型中通过添加二次项或者三次项使模型的泛化能力更强。
减少正则化参数：特征化的目的是用来防止过拟合的。

正则化法

1. L1/L2正则化

2. Dropout

3. EarlyStopping

正则化法

过拟合产生的本质原因通常是因为参数比较大导致的，因为过拟合，就是拟合函数需要顾忌每一个点，当存在噪声的时候，原本平滑的拟合曲线会变得波动很大。在某些很小的区间里，函数值的变化很剧烈，这就意味着函数在某些小区间里的导数值（绝对值）非常大，由于自变量值可大可小，所以只有系数足够大，才能保证导数值很大。通过添加正则项，假设某个参数比较大，目标函数加上正则项后，也就会变大，因此该参数就不是最优解了。

我们使用正则化，为了防止过拟合，进而增强泛化能力，正则化可按策略分为三类：

经验正则化：通过工程上的技巧来实现更低的泛化误差方法，比如：提前终止法、模型集成、Dropout等；

参数正则化：直接提供正则化约束，比如：L1/L2正则化法等；

隐式正则化：不直接提供约束，比如：数据有关的操作，包括归一化、数据增强、扰乱标签等；

1. L1/L2正则化

首先介绍一下范数的定义，机器学习、深度学习等计算机领域内用的比较多的就是迭代过程中收敛性质的判断，一般迭代前后步骤的差值称为范数，用范数表示其大小。在数学上，范数包括向量范数和矩阵范数，向量范数表征向量空间中向量的大小，矩阵范数表征矩阵引起变化的大小。一种非严密的解释就是，对应向量范数，向量空间中的向量都是有大小的，这个大小如何度量，就是用范数来度量的，不同的范数都可以来度量这个大小。

L-P范数，与闵可夫斯基距离的定义一样，L-P范数不是一个范数，而是一组范数，其定义如下:

其中 “ || ” 这个符号叫做范数，它事实上是由线性赋范空间到非负实数的映射，在线性赋范空间中，它可以表示空间中的点与原点间的距离，两点间的距离也是用两点之差的范数来表示的，范数所满足的条件有 ||x||>=0，且 ||x||=0当且仅当 x=0。

根据 P 的变化，范数也有着不同的变化，一个经典的有关P范数的变化图如下：

上图表示了p从无穷到0变化时，三维空间中到原点的距离（范数）为1的点构成的图形的变化情况，以常见的L-2范数（p=2）为例，此时的范数也即欧氏距离，空间中到原点的欧氏距离为1的点构成了一个球面。

L-0范数，当P=0时，也就是L0范数，由上面可知，L0范数并不是一个真正的范数，它主要被用来度量向量中非零元素的个数。

L-1范数，表示向量中各个元素绝对值之和，L1范数有很多的名字，例如我们熟悉的曼哈顿距离、最小绝对误差，或者称为Lasso回归 :

由于L1范数的天然性质，对L1优化的解是一个稀疏解，因此L1范数也被叫做稀疏规则算子。通过L1可以实现特征的稀疏，去掉一些没有信息的特征，例如在对用户的电影爱好做分类的时候，用户有100个特征，可能只有十几个特征是对分类有用的，大部分特征如身高体重等可能都是无用的，利用L1范数就可以过滤掉。

稀疏矩阵指的是很多元素为0，只有少数元素是非零值的矩阵，即得到的线性回归模型的大部分系数都是0. 通常机器学习中特征数量很多，例如文本处理时，如果将一个词组（term）作为一个特征，那么特征数量会达到上万个（bigram）。在预测或分类时，那么多特征显然难以选择，但是如果代入这些特征得到的模型是一个稀疏模型，表示只有少数特征对这个模型有贡献，绝大部分特征是没有贡献的，或者贡献微小（因为它们前面的系数是0或者是很小的值，即使去掉对模型也没有什么影响），此时我们就可以只关注系数是非零值的特征。这就是稀疏模型与特征选择的关系。

L-2范数，即向量元素绝对值的平方和再开方，我们用的最多的度量距离欧氏距离就是一种L2范数，或者称为岭回归:

假设我们需要优化的目标函数为 J(w，b) 函数，在目标函数后面添加一个系数的“惩罚项”是正则化的常用方式，为了防止系数过大从而让模型变得复杂。在加了正则化项之后的目标函数为:

上面公式中，λ/2m是一个常数，m为样本个数，λ是一个超参数，用于控制正则化程度，L1正则化通过让原目标函数加上了所有特征系数绝对值的和来实现正则化，即在最后加上L1范数；而L2正则化通过让原目标函数加上了所有特征系数的平方和来实现正则化，即在最后加上L2范数。两者都是通过加上一个和项来限制参数大小，却有不同的效果：L1正则化更适用于特征选择，而L2正则化更适用于防止模型过拟合。

那为什么增加的一项，可以使θ的值减小呢？因为如果我们令