机器学习笔记二单型线性回归

线性回归

（一）介绍
（二）数学模型
- 2.1 一元线性回归公式
- 2.2 方差 - 损失函数 Cost Function
- 2.3 优化方法 Optimization Function
- 2.4 算法步骤
（三）Python 实现

（一）介绍

机器学习即指机器可以自我学习，而机器学习的方法就是利用现有的数据和算法，解出算法的参，从而得到可以用的模型。

监督学习就是利用已有的数据（我们叫X，或者特征），和数据的标注（叫Y），找到x和y之间的对应关系，或者说是函数f。

回归分析是一种因变量为连续值的监督学习。而线性回归指一种x和y之间的关系为线性关系的回归分析。
y=a1x1+a2x2+by=a1x1+a2x2+by=a1x1+a2x2+b
，这个叫线性关系。如果这里出现了x2,log(x),sin(x)x2,log(x), sin(x)x2,log(x),sin(x)之类的，那就不是线性关系了。

而一元线性回归说的是，自变量x是一个纯量（scalar）。scalar类型的变量，是不可再分的。

**举例：**找出算法工程师和程序员之间的工资关系。这里直接给出北京，上海，杭州，深圳，广州的工资。

画图分析他们之间的关系大致是线性：

这时候，我们就可以试着用一元线性回归去拟合（fit）他们之间的关系。

（二）数学模型

2.1 一元线性回归公式

公式：
y=ax+b+εy=ax+b+εy=ax+b+ε

y 为应变量 dependent variable
x 为自变量 independent variable
a 为斜率 coeffient
b 为截距 intercept
ε （读作epsilon）为误差，正态分布
线性回归的目标是，找到一组a和b，使得ε最小
y^=ax+b\widehat{y}=ax+by=ax+b

ε=y−y^ε=y−\widehat{y}ε=y−y

y^\widehat{y}y 读作y hat，也读作y帽子。这里的帽子一般表示估计值，用来区别真实值y。

下图帮助理解:
黑色的点为观测样本，即y=ax+b+εy=ax+b+εy=ax+b+ε

x红色的线为回归线，即y^=ax+b\widehat{y}=ax+by=ax+b

x蓝色的线段为误差，即ε=y−y^ε=y−\widehat{y}ε=y−y

2.2 方差 - 损失函数 Cost Function

在机器学习中，很多时候需要找到一个损失函数。有了损失函数，我们就可以经过不断地迭代，找到损失函数的全局或者局部最小值（或者最大值）。损失函数使得我们的问题转化成数学问题，从而可以用计算机求解。在线性回归中，我们用方差作为损失函数。我们的目标是使得方差最小。

下面的表格解释了什么是方差。

其中SSE(Sum of Square Error)是总的方差，MSE（Mean Square Error）是方差的平均值。

而这里的损失函数，用的是0.5 * MSE。即：
J(a,b)=12n∑i=0n(yi−yi^)2J(a,b)= \frac{1}{2n}\sum_{i=0}^{n} (yi−\widehat{yi})^{2}J(a,b)=2n1i=0∑n(yi−yi)2

记住，这里的损失函数是针对参数a和b的函数，y和y^\widehat{y}y其实都是已知的。

2.3 优化方法 Optimization Function

有了损失函数后，还需要一个方法，使得我们可以找到这个损失函数的最小值。机器学习里叫做优化方法。这里的优化方法，就是算损失的方向。或者说，当我的参数变化的时候，我的损失是变大了还是变小了。如果a变大了，损失变小了。那么，说明a增大这个方向是正确的，我们可以朝着这个方向继续小幅度的前进。反之，就应该考虑往相反的方向试试看。因为每个参数（a和b）都是一维的，所以，所谓的方向，无非就是正负符号。

这里，我们需要用偏微分的方法，得到损失函数的变化量。即：

如果你已经忘了微积分，你暂时可以不必纠结上面的公式，只要知道公式给出了损失函数的变化就可以了。伟大的python还提供了sympy，你可以用sympy做微积分。这部分我也放在附件代码里了，有兴趣的可以看一下。

之前说到，整过迭代过程是小幅度进行的。这里，就需要一个超参数来控制这个过程。这个超参数就是α，通常是0.01.

这时，我们就可以去更新a和b的值：
a=a−α∂J∂aa=a−α\frac{∂J}{∂a}a=a−α∂a∂J
b=b−α∂J∂bb=b−α\frac{∂J}{∂b}b=b−α∂b∂J

本身∂J∂a \frac{∂J}{∂a}∂a∂J和 ∂J∂b \frac{∂J}{∂b}∂b∂J 是损失函数的变化量。如果损失函数随着a变大了，即∂J∂a \frac{∂J}{∂a}∂a∂J为正。说明a的增大会导致损失函数的增大。那么是不是说，a的减小会使得损失函数减小呢？而我们的目标是使得J最小，所以，这个时候，我们的a要减小一点点。

2.4 算法步骤

a和b的起始值设置为零
通过模型yˆ=ax+b
y^=ax+b\widehat{y}=ax+by=ax+b，我们可以算出y^\widehat{y}y
有了y^\widehat{y}y，就可以用优化方法算去更新参数

重复2和3，直到找到J的最小值

下图解释了模型，损失函数和优化方法之间的关系。

模型，损失函数和优化方法之间的关系:

（三）Python 实现

首先是模型：

def model(a, b, x):return a*x + b

损失函数：

def cost_function(a, b, x, y):n = 5return 0.5/n * (np.square(y-a*x-b)).sum()

优化函数：

def optimize(a,b,x,y):n = 5alpha = 1e-1y_hat = model(a,b,x)da = (1.0/n) * ((y_hat-y)*x).sum()db = (1.0/n) * ((y_hat-y).sum())a = a - alpha*dab = b - alpha*dbreturn a, b

三个函数中a和b是标量（scalar value），x和y是向量（vector）
至此，一元线性回归的主要部分就14行代码。

训练模型
用scikit-learn训练和评价模型

import numpy as np
from sklearn.linear_model import LinearRegression
import matplotlib.pyplot as plt
%matplotlib inlinex = [13854,12213,11009,10655,9503] #程序员工资，顺序为北京，上海，杭州，深圳，广州
x = np.reshape(x,newshape=(5,1)) / 10000.0
y =  [21332, 20162, 19138, 18621, 18016] #算法工程师，顺序和上面一致
y = np.reshape(y,newshape=(5,1)) / 10000.0
# 调用模型
lr = LinearRegression()
# 训练模型
lr.fit(x,y)
# 计算R平方
print lr.score(x,y)
# 计算y_hat
y_hat = lr.predict(x)
# 打印出图
plt.scatter(x,y)
plt.plot(x, y_hat)
plt.show()

有了模型，损失函数，优化函数，我们就可以训练模型了。
这里给出分别训练1次，再训练5次，再训练10次，再训练100，再训练10000次的模型。

分析:随着训练次数的增加，回归线越来越接近样本了。自己写的线性回归比较简单，我只能目测凭直觉感觉损失函数已经达到了最小值。

模型评价

在机器学习中，模型的好坏是有标准的。在回归模型中，我们用R2R^{2}R2 来评价模型。公式：
R2R^{2}R2=SSR/SST
其中
SSR=∑i=0n=(yi^−y‾)SSR=\sum_{i=0}^{n}= (\widehat{yi}−\overline{y})SSR=∑i=0n=(yi−y)
SSR=∑i=0n=(yi−y‾)SSR=\sum_{i=0}^{n}= (yi−\overline{y})SSR=∑i=0n=(yi−y)
y‾\overline{y}y读作y bar，是y的平均值。
可以证明SST=SSR+SSESST=SSR+SSESST=SSR+SSE。