线性回归

线性回归的原理

什么是线性回归

1）定义与公式
线性回归(Linear regression)是利用**回归方程(函数)对一个或多个自变量(特征值)和因变量(目标值)**之间关系进行建模的一种分析方式。
- 特点：只有一个自变量的情况称为单变量回归，多于一个自变量情况的叫做多元回归
  
  那么怎么理解呢？我们来看几个例子
  - 期末成绩：0.7×考试成绩+0.3×平时成绩
  - 房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率
    上面两个例子，我们看到特征值与目标值之间建立了一个关系，这个关系可以理解为线性模型。
2）线性回归的特征与目标的关系分析
线性回归当中线性模型有两种，一种是线性关系，另一种是非线性关系。在这里我们只能画一个平面更好去理解，所以都用单个特征或两个特征举例子。
- 线性关系
  
  注释：单特征与目标值的关系呈直线关系，或者两个特征与目标值呈现平面的关系
  更高维度的我们不用自己去想，记住这种关系即可
- 非线性关系
  
  注释：为什么会这样的关系呢？原因是什么？
  如果是非线性关系，那么回归方程可以理解为：
  - 指数函数：
    y=axy=a^xy=ax(a为常数且以a>0，a≠1)
  - 对数函数：
    y=logaxy=log_axy=logax（a>0，且a≠1）
  - 幂函数：
    f(x)=xaf(x)=x^af(x)=xa(a为有理数)
  - 多项式函数：
    f(x)=an⋅xn+an−1⋅xn−1+…+a2⋅x2+a1⋅x+a0f(x)=a_n·x^n+a_{n-1}·x^{n-1}+…+a_2·x^2+a_1·x+a_0f(x)=an⋅xn+an−1⋅xn−1+…+a2⋅x2+a1⋅x+a0
    等等

线性回归的损失和优化原理（理解记忆）

假设刚才的房子例子，真实的数据之间存在这样的关系
真实关系：
真实房子价格 = 0.02×中心区域的距离 + 0.04×城市一氧化氮浓度 + (-0.12×自住房平均房价) + 0.254×城镇犯罪率
那么现在呢，我们随意指定一个关系（猜测）
随机指定关系：
预测房子价格 = 0.25×中心区域的距离 + 0.14×城市一氧化氮浓度 + 0.42×自住房平均房价 + 0.34×城镇犯罪率
请问这样的话，会发生什么？真实结果与我们预测的结果之间是不是存在一定的误差呢？类似这样样子

既然存在这个误差，那我们就将这个误差给衡量出来

损失函数
总损失定义为：
- yiy_iyi为第i个训练样本的真实值
- hw(xi)h_w(x_i)hw(xi)为第i个训练样本特征值组合预测函数
- 上述计算损失函数的方法又称最小二乘法
最小二乘法（又称最小平方法） 是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据，并使得这些求得的数据与实际数据之间误差的平方和为最小。最小二乘法还可用于曲线拟合。其他一些优化问题也可通过最小化能量或最大化熵用最小二乘法来表达。
如何去减少这个损失，使我们预测的更加准确些？既然存在了这个损失，我们一直说机器学习有自动学习的功能，在线性回归这里更是能够体现。这里可以通过一些优化方法去优化（其实是数学当中的求导功能）回归的总损失！！！
优化算法
如何去求模型当中的W，使得损失最小？（目的是找到最小损失对应的W值）
线性回归经常使用的两种优化算法
- 正规方程
  
  理解：X为特征值矩阵，y为目标值矩阵。直接求到最好的结果
  缺点：当特征过多过复杂时，求解速度太慢并且得不到结果
- 梯度下降(Gradient Descent)
  
  理解：α为学习速率，需要手动指定（超参数），α旁边的整体表示方向
  沿着这个函数下降的方向找，最后就能找到山谷的最低点，然后更新W值
  使用：面对训练数据规模十分庞大的任务，能够找到较好的结果
  我们通过两个图更好理解梯度下降的过程
  
  所以有了梯度下降这样一个优化算法，回归就有了"自动学习"的能力
  优化动态图演示

线性回归API

sklearn.linear_model.LinearRegression(fit_intercept=True)
- 通过正规方程优化
- fit_intercept：是否计算偏置
- LinearRegression.coef_：回归系数
- LinearRegression.intercept_：偏置
sklearn.linear_model.SGDRegressor(loss="squared_loss", fit_intercept=True, learning_rate ='invscaling', eta0=0.01)
- SGDRegressor类实现了随机梯度下降学习，它支持不同的loss函数和正则化惩罚项来拟合线性回归模型。
- loss:损失类型
- loss=”squared_loss”: 普通最小二乘法
- fit_intercept：是否计算偏置
- learning_rate : string, optional
  - 学习率填充
  - ‘constant’: eta = eta0
  - ‘optimal’: eta = 1.0 / (alpha * (t + t0)) [default]
  - ‘invscaling’: eta = eta0 / pow(t, power_t)
  - power_t=0.25:存在父类当中
  - 对于一个常数值的学习率来说，可以使用learning_rate=’constant’ ，并使用eta0来指定学习率。
- SGDRegressor.coef_：回归系数
- SGDRegressor.intercept_：偏置

sklearn提供给我们两种实现的API，可以根据选择使用

波士顿房价预测

数据介绍

给定的这些特征，是专家们得出的影响房价的结果属性。我们此阶段不需要自己去探究特征是否有用，只需要使用这些特征。到后面量化很多特征需要我们自己去寻找

1 分析

回归当中的数据大小不一致，会导致对结果影响较大。所以需要做标准化处理。

数据分割与标准化处理
回归预测
线性回归的算法效果评估

2 回归性能评估

均方误差(Mean Squared Error)MSE)评价机制：

注：yiy^iyi为预测值，¯y¯y¯y为真实值

sklearn.metrics.mean_squared_error(y_true, y_pred)
- 均方误差回归损失
- y_true:真实值
- y_pred:预测值
- return:浮点数结果

3 代码

用正规方程直接求出模型参数的方法进行对波士顿房价预测的线性回归案例

from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler #标准化
from sklearn.linear_model import LinearRegression #线性回归
from sklearn.metrics import mean_squared_error #均方误差评估def linear1():"""用正规方程直接求出模型参数的方法进行对波士顿房价预测的线性回归案例:return: None"""# 1、获取数据集boston = load_boston()print("boston:\n", boston.DESCR)# 2、划分数据集x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target, random_state=6)# 3、特征工程：标准化# 1）实例化一个转换器类transfer = StandardScaler()# 2）调用fit_transformx_train = transfer.fit_transform(x_train)x_test = transfer.transform(x_test)# 4、线性回归的预估器流程estimator = LinearRegression()estimator.fit(x_train, y_train)y_predict = estimator.predict(x_test)print("正规方程求出模型参数的方法预测的房屋价格为：\n", y_predict)# 5、得出模型print("正规方程求出的回归系数为：\n", estimator.coef_)print("正规方程求出的偏置为：\n", estimator.intercept_)# 6、模型评估——均方误差error = mean_squared_error(y_test, y_predict)print("正规方程的均方误差为：\n", error)return None

用梯度下降优化模型参数的方法进行对波士顿房价预测的线性回归案例

def linear2():"""用梯度下降优化模型参数的方法进行对波士顿房价预测的线性回归案例:return: None"""# 1、获取数据集boston = load_boston()# print("boston:\n", boston)# 2、划分数据集x_train, x_test, y_train, y_test = train_test_split(boston.data, boston.target, random_state=6)# 3、特征工程：标准化# 1）实例化一个转换器类transfer = StandardScaler()# 2）调用fit_transformx_train = transfer.fit_transform(x_train)x_test = transfer.transform(x_test)# 4、线性回归的预估器流程estimator = SGDRegressor()estimator.fit(x_train, y_train)y_predict = estimator.predict(x_test)print("梯度下降求出模型参数的方法预测的房屋价格为：\n", y_predict)# 5、得出模型print("梯度下降求出的回归系数为：\n", estimator.coef_)print("梯度下降求出的偏置为：\n", estimator.intercept_)# 6、模型评估——均方误差error = mean_squared_error(y_test, y_predict)print("梯度下降的均方误差为：\n", error)return None

我们也可以尝试去修改学习率

estimator = SGDRegressor(learning_rate='constant', eta0=0.001)

此时我们可以通过调参数，找到学习率效果更好的值。

4 正规方程和梯度下降对比

文字对比
选择：
- 小规模数据：
  - LinearRegression(不能解决拟合问题)
  - 岭回归
- 大规模数据：SGDRegressor

拓展-关于优化方法GD、SGD、SAG

1 GD
梯度下降(Gradient Descent)，原始的梯度下降法需要计算所有样本的值才能够得出梯度，计算量大，所以后面才有会一系列的改进。
2 SGD
**随机梯度下降(Stochastic gradient descent)**是一个优化方法。它在一次迭代时只考虑一个训练样本。
- SGD的优点是：
  - 高效
  - 容易实现
- SGD的缺点是：
  - SGD需要许多超参数：比如正则项参数、迭代数。
  - SGD对于特征标准化是敏感的。
SAG
随机平均梯度法(Stochasitc Average Gradient)，由于收敛的速度太慢，有人提出SAG等基于梯度下降的算法
Scikit-learn：岭回归、逻辑回归等当中都会有SAG优化

线性回归应用场景

房价预测
销售额度预测
金融：贷款额度预测、利用线性回归以及系数分析因子

机器学习（十五）回归算法之线性回归相关推荐

机器学习十大经典算法之岭回归和LASSO回归
机器学习十大经典算法之岭回归和LASSO回归(学习笔记整理:https://blog.csdn.net/weixin_43374551/article/details/83688913
机器学习中【回归算法】详解
关注微信公众号[Microstrong],我写过四年Android代码,了解前端.熟悉后台,现在研究方向是机器学习.深度学习!一起来学习,一起来进步,一起来交流吧! 本文同步更新在我的微信公众号里,地 ...
基于Spark的机器学习实践 (七) - 回归算法
0 相关源码 1 回归分析概述 1.1 回归分析介绍 ◆ 回归与分类类似,只不过回归的预测结果是连续的,而分类的预测结果是离散的 ◆ 如此,使得很多回归与分类的模型可以经过改动而通用 ◆ 因此对于回归 ...
C1认证学习十四、十五（算法常识、HTML Head 头）
C1认证学习十四.十五(算法常识.HTML Head 头) 文章目录 C1认证学习十四.十五(算法常识.HTML Head 头) 十四(算法常识) 任务背景任务目标查找算法 1.顺序查找 2.二分 ...
机器学习十大经典算法：深入浅出聊贝叶斯决策（贝叶斯公式，最小风险贝叶斯，最小错误贝叶斯）
前言常听人说,在学习一个东西时,如果能够深入浅出的讲给别人听,才算是真的懂了.最近正好在学模式识别,于是就用它来练笔了.贝叶斯决策(Bayes Decision) 是十大经典机器学习算法之一, ...
总结Python机器学习中的回归算法
下面我带大家整理下机器学习的回归算法基本回归方法(线性.决策树.SVM.KNN)和集成方法(随机森林,Adaboost和GBRT) 下面是源码 import numpy as np import m ...
轻松看懂机器学习十大常用算法 - 基础知识
通过本篇文章可以对机器学习ML的常用算法有个常识性的认识,没有代码,没有复杂的理论推导,就是图解一下,知道这些算法是什么,它们是怎么应用的,例子主要是分类问题. 算法如下: 决策树随机森林算法逻辑 ...
pagerank数据集_机器学习十大经典算法-PageRank（附实践代码）
Yo, yo, check it out. 保证看完不晕倒... 如果公式让你脑瓜疼,请忽略公式,或者忽略脑瓜. Kagging咖金:推荐系统之关联规则(附实践代码)zhuanlan.zhihu.c ...
机器学习-LogisticRegression逻辑回归算法
logistic回归又称logistic回归分析,是一种广义的线性回归分析模型,常用于数据挖掘,疾病自动诊断,经济预测等领域.例如,探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等.以胃癌病 ...
机器学习十大经典算法之KNN最近邻算法
KNN简介 KNN(K-NearestNeighbor)是机器学习入门级的分类算法,非常简单.它实现将距离近的样本点划为同一类别:KNN中的K指的是近邻个数,也就是最近的K个点 :根据它距离最近的K个 ...

机器学习（十五）回归算法之线性回归