model trainning 模型训练

学习笔记

模型的理解，构建、神经网络的训练

使用封闭方程来求解,获得模型在当前训练集上最优的参数==》在训练集上使得损失函数达到最小值时模型的参数

使用迭代优化的方法，梯度下降（GD），在训练集上，逐渐的调整模型参数，而获得最小的损失函数，最终参数收敛到和封闭方程求解一样得到相同的值。

批量梯度下降(Batch GD),随机地图下降（Stochastic GD）、小批量梯度下降（Mini-batch GD）（此三个在后面的神经网络里会经常用到）

复杂模型—》多项式回归，可以拟合非线性数据集：过拟合（参数较多会造成），学习曲线判断是否过拟合，正则化减少过拟合

逻辑回归（Logistic）、softmax回归(多类别回归)

线性回归的理解：

线性回归预测模型的一般化公式： $\widehat{y}$ = $\theta _{}0$ + $\theta _{}1$ $X_{}1$ + $\theta _{}2$ $X_{}2$ +...+ $\theta _{}n$ $X_{}n$

$\widehat{y}$ ：预测结果；

N：特征个数；

Xi：第i个特征值；

$\theta$ j：第j个参数（ $\theta _{}0$ ：偏置项； $\theta _{}1$ 、 $\theta _{}2$ ... $\theta _{}n$ ：特征权重值）

线性回归预测模型的一般公式可简化为： $\widehat{y}$ =h( $\theta$ )= $^{}$ $\theta ^{}T$ $\cdot$ X

$\theta$ ：模型的参数向量。（ $\theta _{}0$ ：偏置项， $\theta _{}1$ 、 $\theta _{}n$ ：特征权重值）

$\theta ^{}T$ ：向量 $\theta$ 的转置。(行向量变成了列向量)

x:每个样本中特征值的向量形式。（包括 $x_{}1$ 到 $x_{}n$ ，而且 $x_{}0$ 恒为1）

$\theta ^{}T$ $\cdot$ X： $\theta ^{}T$ 与X的点积。

h( $\theta$ )：参数为 $\theta$ 的假设函数

模型训练：指的是设置模型的参数，使得该模型在训练集上表现最好。

线性模型训练：指的是训练一个线性模型，就需要找到一个 $\theta$ ，使得均方差最小。

MSE（X， $h_{}\theta$ ）= $\frac{1}{m}$ $\sum_{i=1}^{m}$ $\left ( \theta ^{}T\cdot X^{(i)} \right -y^{(i)})^{2}$

使用正规方程来求解 $\theta$ ： $\widehat{\theta}$ = $\left ( X ^{T}\right\cdot X )^{-1}\cdot X^{T}\cdot y$

$\widehat{\theta}$ ：最小化损失 $\theta$ 的值

y：是一个向量，包含了 $y^{(1)}$ 到 $y^{(m)}$ 的值

线性回归各种算法优劣比较：

线性回归各种算法优劣比较
算法	损失函数	正规方程	大数据量	多特征	训练集	精确度	最优值	sklean
求最小均方差	$\frac{1}{m}$ $\sum_{i=1}^{m}$ $\left ( \theta ^{}T\cdot X^{(i)} \right -y^{(i)})^{2}$	$\left ( X ^{T}\right\cdot X )^{-1}\cdot X^{T}\cdot y$	快	<2	<10万	高	最优	有
求最小均方差		$\left ( X ^{T}\right\cdot X )^{-1}\cdot X^{T}\cdot y$	慢	>2	10万>	高	最优	有
Batch GD		$\frac{2}{m}X^{T}\cdot \left ( X\cdot \theta - y\right )$	慢	。。	全集	高	优	无
Stochastic GD			快	。。	小部分	低	接近	有
Mini-Batch GD			快	。。	小集合	高	较优	无

线性回归、Ridge回归、Lasso回归、stochasticNet：

什么是线性回归、Ride回归、lasso回归、StochasticNet？
特点、优点、缺点？
如何选择使用？

1、什么是线性回归、Ride回归、lasso回归、StochasticNet？

线性回归：

回归模型：

模型向量表达式：

mean squared error loss ：(均方差损失函数)

Square loss：(平方误差损失函数)

最小二乘法(或正规方程)： $\widehat{\theta}$ = $\left ( X ^{T}\right\cdot X )^{-1}\cdot X^{T}\cdot y$

Ridge 回归：

损失函数： J( $\theta$ )=MSE( $\theta$ )+ $\alpha \frac{1}{2}\sum_{i=1}^{n}\theta _{i}^{2}$ （线性回归+L2）

正规方程： $\widehat{\theta}$ = $\left ( X ^{T}\right\cdot X -\alpha A)^{-1}\cdot X^{T}\cdot y$

Lasso回归：

损失函数： J( $\theta$ )=MSE( $\theta$ )+ $\alpha\sum_{i=1}^{n}\left | \theta_{i} \right |$ （线性回归+L1）

StochasticNet：

损失函数：J( $\theta$ )=MSE( $\theta$ )+ $r\alpha\sum_{i=1}^{n}\left | \theta_{i} \right |$ + $\frac{1-r}{2}\alpha\sum_{i=1}^{n}\theta _{i}^{2}$ （线性回归+L1+L2）

2、特点、优点、缺点？

线性回归：

各个特征量之间相互独立。
直接可以用方程快速求解
线性模型，正则化通过约束模型的权重来实现
多项式模型，正则化可以通过减少阶数来实现

Ride回归：

数据特征中有多个量之间具有相关性
数据特征量大，有可能特征量大于样本量(p>n)

(1)、训练样本量少，可能少于特征量，会导致数据矩阵无法求逆

(2)、样本特征中存在大量相似的特征，造成参数的代表的意义重复。本质上是考虑到数据有一定的偏差，使得特征相关系数变小

对无效特征变量没有进行处理
用来消除特征所具有的共性，使用模型的平方处理
增加一个平方项(L2)来正则化，减小方差，但有可能增大了偏差。
由于可能增大了偏差，造成过拟合出现

Lasso回归：

增加了一个L1项，可以解决偏差问题。
在参数缩减过程中，将重复的参数直接完全缩减掉，达到了只提取有用的特征的作用。
自动的筛选了无用的参数，不用靠人为的方式去筛选变量。
使用lasso可以达到实际操作中筛选变量的作用。
压缩变量，起到降维。

StochasticNet：

Ride回归和Lasso回归的混合
处理包含Ridge回归的正则化性质，同时考虑变量压缩的情况

在线性回归选择中，一般情况下，尽量避免朴素线性回归，对模型进行一定的正则化处理，如何选择正则化方法呢？

岭回归，常用；

如果只有少量可用的特征，考虑使用StochasticNet或Lasso。一般来说，弹性网络使用更广泛，尤其是在特征维度高于训练样本数或特征强相关情况下，Lasso回归表现不太稳定。

回归正则化方法（Lasso回归，岭回归和ElasticNet）在数据集中的变量之间具有高维度和多重共线性的情况下也能有良好的效果

3、如何选择使用？

线性回归：

建模快速简单，适用于要建模的关系不是非常复杂且数据量不大的情况
有直观的理解和解释
线性回归对异常值非常敏感

多项式回归：

创建非线性可分数据的模型时，使用多项式回归。最佳拟合线不是一条直线，是符合数据点的曲线

多项式回归，自变量的指数是大于1

能够模拟非线性可分的数据(线性回归不能做到)，总体上更灵活，可以模拟复杂关系
完全控制要素变量的建模
需要详细设置
如果指数不当，容易出现过拟合

Ridge回归：

高共线性

(1)、自变量之间存在近似线性关系。

(2)、添加、删除X特征变量时，回归系数会发生显著的变化

(3)、X特征变量具有较高的成对相关性

回归假设与最小平方差回归相同。

不同点：最小平方回归，假设数据的误差服从高斯分布，使用的极大似然估计(MLE)。

岭回归，添加了正则项(也叫偏差因子) $\alpha \frac{1}{2}\sum_{i=1}^{n}\theta _{i}^{2}$ ，使用的是极大后验估计(MAP)来得到最终参数的。

缩小了系数值，但未达到0，无特征选择功能。

Lasso回归：

内置特征选择
稀疏性
计算效率

StochasticNet：

它鼓励在高度相关变量的情况下的群体效应，而不是像Lasso那样将其中一些置零。当多个特征和另一个特征相关的时候，弹性网络非常有用。Lasso 倾向于随机选择其中一个，而弹性网络更倾向于选择两个。
对所选变量的数量没有限制