机器学习（五）—

一、前言

二、过拟合

三、代价函数：

四、线性回归正则化

1、梯度下降

2、正规方程

五、Logistic回归正规化

一、前言

吴恩达机器学习第八章——正规化笔记
所有图片与例子均来自吴恩达视频课

二、过拟合

欠拟合：指模型学习较弱，而数据复杂度较高的情况，此时模型由于学习能力不足，无法学习到数据集中的“一般规律”，因而导致泛化能力弱。

过拟合：值模型学习能力过强的情况中出现，此时的模型学习能力太强，以至于将训练集单个样本自身的特点都能捕捉到，并将其认为是“一般规律”，同样这种情况也会导致模型泛化能力下降。

左图就是一个欠拟合的情况，模型虽然可以预测到随着尺寸的增加房价也跟着递增，但是由于学习能力不足，这不是一个非常好的模型，不能经行准确的预测。

中间图就是一个非常好的模型。

右图就是一个过拟合的情况，模型虽然可以完全拟合数据集中的每个数据，但是可以明显看出这个在预测一个数据集中没有的数据时，就不能做出准确的预测

三、代价函数：

以上图为例，左图中的θ_3与θ_4对图像的影响最大，想要拟合出合适的模型，可以对这两个参数经行惩罚，使两个参数趋于0，这样就可以将这个四次函数视为一个二次函数，呈现出如中间图的情况。但是如果函数特征特别多，便无法预测哪个参数在高阶项中，所以就需要把所有参数都约束住。此时代价函数就编程如下：

$J(\Theta )=\frac{1}{2m}[\sum_{i=1}^m(h_\Theta (x^{(i)}-y^{(i)})^2 + \lambda \sum _{j=1}^n\Theta _j^2 ]$

需要注意的是，θ的累加从θ_1开始，而不惩罚θ_0的值，因为θ_0受x_0的影响，x_0通常约定熟成的设置为1

四、线性回归正则化

1、梯度下降

修改了代价函数之后，采取梯度下降方法代价函数最小化的方式与之前学的完全相同，只是在后面添加了θ的累加，则需要重新计算偏导数的值，具体偏导数的结果自己计算根据自己的预测的h(x)再计算这里就不放，值得注意的是，由于后面的θ的累加是不需要累加θ_0，θ_0的偏导数是与之前一样的.

repeat until convergence{

$\Theta_j :=\Theta _j-\alpha \frac{\partial J(\Theta))}{\partial \Theta_j }$

(simultaneously update all $\Theta _j$ )

}

2、正规方程

具体公式下图所示，其中 $\lambda$ 后面的对角阵是一个(n+1)*(n+1)的方阵

五、Logistic回归正规化

这里与线性回归的可以说是一样的就不做过多解释直接放公式

repeat until convergence{

$\Theta_j :=\Theta _j-\alpha \frac{\partial J(\Theta))}{\partial \Theta_j }$

(simultaneously update all $\Theta _j$ )

}