【机器学习笔记】Regularization : Ridge Regression（岭回归）

要点总览

线性回归，即最小二乘法，它的目的是最小化残差平方的总和。
而岭回归需要在此基础上增加 lambda x 所有参数的平方之和（如斜率等，除y轴截距外），这部分被称为岭回归补偿（Ridge Regression Penalty）。
lambda值（也叫调整参数，tuning parameter）可以由0到正无穷，随着lambda值的增大，我们预测的Size随着Weight的变化会越来越小。
我们可以通过交叉验证，尤其是十折交叉验证（10-fold Cross Validation）来决定哪一个lambda值可以得到最小的方差（Variance）。
在上述例子中，横轴和竖轴都是连续变量，但除此之外，岭回归还可以对离散变量起作用。
岭回归还可被用于两个参数以上的复杂模型。
岭回归最酷的事情来了！

知识补充一：https://blog.csdn.net/Ha1f_Awake/article/details/102895232

比起简单的线性回归，岭回归会寻找一条不完全匹配训练模型的直线，也就是存在一定的偏差（Bias），但对于测试模型来说，数据集的方差（Variance）会大幅下降。

换言之，岭回归通过在开始时减少一定的匹配程度，以达到更好的预测效果。

网上找到的解释是：岭回归是一种专用于共线性数据分析的有偏估计回归方法，实质上是一种改良的最小二乘估计法，通过放弃最小二乘法的无偏性，以损失部分信息、降低精度为代价获得回归系数更为符合实际、更可靠的回归方法。

线性回归，即最小二乘法，它的目的是最小化残差平方的总和。

而岭回归需要在此基础上增加 lambda x 所有参数的平方之和（如斜率等，除y轴截距外），这部分被称为岭回归补偿（Ridge Regression Penalty）。

知识补充二：https://blog.csdn.net/Ha1f_Awake/article/details/102900491

lambda值（也叫调整参数，tuning parameter）可以由0到正无穷，随着lambda值的增大，我们预测的Size随着Weight的变化会越来越小。

那么我们如何确定lambda的取值？

我们可以通过交叉验证，尤其是十折交叉验证（10-fold Cross Validation）来决定哪一个lambda值可以得到最小的方差（Variance）。

在上述例子中，横轴和竖轴都是连续变量，但除此之外，岭回归还可以对离散变量起作用。

对于线性回归来说，在下面的等式中，y轴截距的数值等于Normal Diet对应的Size的平均值；斜率的数值等于High Fat Diet对应的Size的平均值与Normal Diet的对应平均值之差（之后将这个差值称为offset）。

当用岭回归来决定y轴截距和斜率的数值时，岭回归补偿值等于 lambda x offset²。

当lambda=0时，会得到与线性回归相同的方程；

当lambda值增大时，只有一种方法可以最小化岭回归补偿值，那就是减少offset的值。换言之，当lambda值增大时，我们对High Fat Diet 的Size值的预测与offset的相关性会越来越小。

岭回归还可被用于两个参数以上的复杂模型。

与此同时，岭回归补偿值也会发生变化，它会包含除y轴截距以外的所有参数的平方之和。

岭回归最酷的事情来了！

二维坐标中有两个变量，根据两点确定一直线，我们至少需要两个点来得出最小二乘法的解决方案；在三维坐标中有三个变量，根据三点确定一个面，我们至少需要三个点来得出最小二乘法的解决方案；四维、五维...如此类推

但如果我们的测试数据少于，甚至远少于参数的个数，如何得到一个解决方案？

—— 这时候岭回归带着交叉验证站了出来。

（未完待续）