【机器学习】拟合优度度量和梯度下降(红酒数据集的线性回归模型sklearnRidge)
文章目录
- 一.拟合优度度量(可决系数)
- 1.1总离差平方和的分解
- 1.2 TSS=ESS+RSS
- 1.3 红酒数据集实例R2_score实现代码
- 二. 梯度下降
- 2.1 损失函数直观图(单特征/变量举例)
- 2.2 梯度下降和正规方程的区别
- 2.3 线性回归模型——梯度下降 (红酒数据集)
- 2.4 sklearn线性回归正规方程与梯度下降API
- 2.5 岭回归
- 2.6 Ridge Regression
- 2.7 岭迹图
一.拟合优度度量(可决系数)
拟合度指回归直线与样本数据趋势的吻合程度。
拟合优度检验:对样本回归直线与样本观测值之间拟合程度的检验,。
度量拟合优度的指标:可决系数(判定系数) R*2
1.1总离差平方和的分解
已知由一组样本观测值(Xi,Yi),i=l,2…,n 得到如下样本回归直线:
而Y的第i个观测值与样本均值的离差可分解为两部分之和
是样本回归拟合值与观测值的平均值之差,可认为是由回归直线解释的部分。
是实际观测值与回归拟合值之差,是回归直线不能解释的部分。
如果即实际观测值落在样本回归"线"上,则拟合最好。
可认为,"离差"全部来自回归线,而与"残差"无关。
对于所有样本点,则需考虑这些点与样本均值离差的平方和,可以证明:
1.2 TSS=ESS+RSS
Y的观测值围绕其均值的总离差(total variation)可分解为两部分:一部分来自回归线(ESS),另一部分则来自随机势力(RSS)。
在给定样本中,TSS不变,如果实际观测点离样本回归线越近, 则ESS在TSS中占的比重越大, 因此拟合优度:回归平方和ESS/Y的总离差TSS
1.3 红酒数据集实例R2_score实现代码
SSE是残差平方和,SST是总利差平方和
R2通俗地理解为使用均值作为误差基准,看预测误差是否大于或者小于均值基准误差。
R2_score = 1,样本中预测值和真实值完全相等,没有任何误差,表示回归分析中自变量对因变量的解释越好。
R2_score = 0。此时分子等于分母,样本的每项预测值都等于均值。
根据公式,我们可以写出R2_score实现代码
1.事前准备,使用红酒数据集:
from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn.datasets import load_wine
wine = load_wine()
X = wine.data
y = wine.target
2.切分数据集:使用前百分之30。
wine_X_train, wine_X_test, wine_y_train, wine_y_test = train_test_split(X, y, test_size=0.3, random_state=0)
3.每个测试集的所预测的各个类别的概率
y_predict=model.predict(wine_X_test)
4.保存
train_score,test_score=[],[]
train_score.append(model.score(wine_X_train, wine_y_train))
test_score.append(model.score(wine_X_test, wine_y_test))
5.引入R2_score
from sklearn.metrics import r2_score,mean_squared_error,mean_absolute_error
6.结果如下
print("train_score:",train_score)
print("test_score:",test_score)
print("R_squraed",r2_score(wine_y_test,y_predict))
print("均方误差为",mean_squared_error(wine_y_test,y_predict))
print("平均绝对误差",mean_absolute_error(wine_y_test,y_predict))
二. 梯度下降
2.1 损失函数直观图(单特征/变量举例)
2.2 梯度下降和正规方程的区别
2.3 线性回归模型——梯度下降 (红酒数据集)
1.事前准备,使用红酒数据集:
from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn.datasets import load_wine
wine = load_wine()
X = wine.data
y = wine.target
2.手动进行按列归一化:
wind_X=X.copy()for i in range(13):columu_X = X[:, i]wind_X[:, i]=(columu_X-columu_X.mean())/columu_X.std()
3.切分数据集,取前百分之30。
wine_X_train, wine_X_test, wine_y_train, wine_y_test = train_test_split(wind_X, y, test_size=0.3, random_state=0)
4.随机梯度模型:SGDRegressor
model = linear_model.SGDRegressor()
5.输出测试集和训练集分数:
model.fit(wine_X_train,wine_y_train)
print("training score: ", model.score(wine_X_train,wine_y_train))
print("test score: ", model.score(wine_X_test,wine_y_test))
6.结果如下:
2.4 sklearn线性回归正规方程与梯度下降API
1.sklearn.linear_model.LinearRearession()
普通最小二乘线性回归
正规方程
coef:回归系数
2.linear_model.SGDRegressor()
通过使用SGD最小化线性模型
梯度下降
coef:回归系数
2.5 岭回归
岭回归(Ridge Regression)是种改良的最小二乘法,其通过放弃最小二乘法的无偏性,以损失部分信息为代价来寻找效果稍差但回归系数更符合实际情况的模型方程该模型求解的回归模型的损失函数为线性最小二乘函数,正则化采用L2-范数。称为岭回归。
岭回归(Ridge Regression)与套索回归(Lasso Regression)两个算法不是为了提升模型表现,而是为了修复漏洞而设计的。
1.使用岭回归:
model = linear_model.Ridge()
2.上面代码模型使用岭回归之后,重新运行:
from sklearn.model_selection import train_test_split
from sklearn import linear_model
from sklearn.datasets import load_wine
wine = load_wine()
X = wine.data
y = wine.targetwine_X_train, wine_X_test, wine_y_train, wine_y_test = train_test_split(X, y, test_size=0.3, random_state=0)
model = linear_model.Ridge()
# model = linear_model.Lasso(alpha=0.1)
train_score,test_score=[],[]
model.fit(wine_X_train,wine_y_train)
from sklearn.metrics import r2_score,mean_squared_error,mean_absolute_error
y_predict=model.predict(wine_X_test)
train_score.append(model.score(wine_X_train, wine_y_train))
test_score.append(model.score(wine_X_test, wine_y_test))print("train_score:",train_score)
print("test_score:",test_score)
print("R_squraed",r2_score(wine_y_test,y_predict))
print("均方误差为",mean_squared_error(wine_y_test,y_predict))
print("平均绝对误差",mean_absolute_error(wine_y_test,y_predict))
3.得到以下结果:
2.6 Ridge Regression
正则化项是参数的L2范数时,回归方法就叫做岭回归。因为权重系数随lambda变化呈山脊状,等于零时为最小二乘。相应损失函数:
2.7 岭迹图
引入依赖包:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
数据处理
def ridgeCalc(dataSet):xMat = np.mat(dataSet.iloc[:, :-1].values)yMat = np.mat(dataSet.iloc[:, -1].values).TyMean = np.mean(yMat, axis = 0)yMat = yMat - yMeanxMeans = np.mean(xMat, axis = 0)xVar = np.var(xMat,axis = 0)xMat = (xMat - xMeans)/xVarnumTestPts = 30wMat = np.zeros((numTestPts,xMat.shape[1]))for i in range(numTestPts):ws = ridgeRegres(dataSet, np.exp(i-10))wMat[i,:]=ws.Treturn wMat
手动计算岭回归:
def ridgeRegres(dataSet, lam=0.2):xMat = np.mat(dataSet.iloc[:, :-1].values)yMat = np.mat(dataSet.iloc[:, -1].values).TxTx = xMat.T * xMatdenom = xTx + np.eye(xMat.shape[1])*lamws = denom.I * (xMat.T * yMat)return ws
将其进行可视化输出:
ridgeWeights = ridgeCalc(df)
plt.plot(ridgeWeights)
plt.xlabel('log(lambda)')
plt.ylabel('weights')
plt.show()
本次程序运行截图,岭回归:
【机器学习】拟合优度度量和梯度下降(红酒数据集的线性回归模型sklearnRidge)相关推荐
- 机器学习中为什么需要梯度下降_机器学习101:一文带你读懂梯度下降
原标题 | Machine Learning 101: An Intuitive Introduction to Gradient Descent 作者 | Thalles Silva 译者 | 汪鹏 ...
- 【机器学习基础】各种梯度下降优化算法回顾和总结
论文标题:An overview of gradient descent optimization algorithms 原文链接:https://arxiv.org/pdf/1609.04747.p ...
- 深度学习的基础知识(机器学习、损失函数、梯度下降、反向传播、基础模型一网打尽)
1.预备信息 1.1了解技术的发展阶段 技术一般存在几个阶段:1.发展期.2.高峰期.3.冰河期.4.应用期 就是先达到一个高峰,但是在达到高峰之后就会被发现很多问题,然后热度就会不断地下降,到达一个 ...
- 机器学习算法(优化)之一:梯度下降算法、随机梯度下降(应用于线性回归、Logistic回归等等)...
本文介绍了机器学习中基本的优化算法-梯度下降算法和随机梯度下降算法,以及实际应用到线性回归.Logistic回归.矩阵分解推荐算法等ML中. 梯度下降算法基本公式 常见的符号说明和损失函数 X :所有 ...
- 3. 机器学习中为什么需要梯度下降?梯度下降算法缺点?_浅谈随机梯度下降amp;小批量梯度下降...
机器学习三要素 上次的报告中,我们介绍了一种用于求解模型参数的迭代算法--梯度下降法.首先需要明确一点,即"梯度下降算法"在一个完整的统计学习流程中,属于什么?根据<统计学习 ...
- 3. 机器学习中为什么需要梯度下降_【干货】机器学习 | 为什么机器能“学习”?——感知器和梯度下降...
大家好我是梁力天,今天我来给大家整理一下感知器 (perceptron model) 和梯度下降算法 (gradient descent) 的知识. source: https://cs.stanfo ...
- 3. 机器学习中为什么需要梯度下降?梯度下降算法缺点?_一起学习西瓜书2
今天的这两章比较枯燥!线性模型和决策树!其实机器学习说白了就是回归和分类. 机器学习之线性模型 1.一元线性回归模型 2.多元线性回归模型 3.逻辑回归模型(对数几率回归) Logistic回归模型的 ...
- 机器学习中为什么需要梯度下降_机器学习 —— 多元梯度下降
一.多维特征 前面所述的房价预测的线性模型,只用到了一维特征,即size,房屋尺寸,要用这个特征量来预测房屋价格: 当数据集的信息不止一种时,便有了多维特征,比如: 上图有四个X,即四个特征,来预测房 ...
- 机器学习中为什么需要梯度下降_梯度下降直觉 - 机器是如何学习的
梯度下降法是一种求函数最小值的算法.在机器学习中,预测值和实际值之间的差称为误差.将所有数据点上的所有误差加在一起时称为成本. 当然,我们希望最小化代表此成本的函数 - 成本函数. 在机器学习中梯度下 ...
最新文章
- Java与C/C++的比较(转)
- iOS开发之手势识别
- .NET 面向对象基础
- 被360整的体无完肤,我真的怒了!
- 关于查询结果插入新表中 怪哉怪哉
- et al、e.g.、i.e.读音及释义
- BZOJ.4337.[BJOI2015]树的同构(树哈希)
- python编写agent_python实现Agent守护进程
- 大数据和人工智能体系图
- linux的可执行文件是什么后缀
- 空号检测平台使用说明
- easydarwin ffmpeg
- C语言实现求斐波那契数列中的第n项
- 塞班手机刷linux,14年前的E680携带linux系统把诺基亚塞班系统按在地板摩擦
- Logo创作灵魂(下篇)
- 牛逼!这届WWDC依旧展现了那个让你无法复制的苹果!
- Android Tag-Cloud (云标签) 效果
- C语言作用域(可见性)和生存期
- android 联系人导入iphone,4种快速将联系人导入iPhone的方法
- mysql中事务id,有啥用?