线性回归模型的评估方法

线性回归模型常见的评估方法

(残差估计) 误差平方和： ∑ i = 1 n ( y ^ i − y i ) 2 \sum_{i=1}^{n}(\hat y_{i}-y_{i})^2 ∑i=1n(y^i−yi)2

误差平方和会因样本的个数受到影响，也就是说，样本个数越多，误差平方和越大。
均方误差MSE(Mean Squared Error) ： 1 n ∑ i = 1 n ( y ^ i − y i ) 2 \frac {1}{n}\sum_{i=1}^{n}(\hat y_{i}-y_{i})^2 n1∑i=1n(y^i−yi)2

在某些时候，MSE的量纲会对评估有影响
均方根误差(Root Mean Squared Error) : 1 n ∑ i = 1 n ( y ^ i − y i ) 2 \sqrt{\frac {1}{n}\sum_{i=1}^{n}(\hat y_{i}-y_{i})^2} n1∑i=1n(y^i−yi)2

事实上，MSE和RMSE只是量纲的区别
平均绝对误差(Mean Absolute Error)： 1 n ∑ i = 1 n ∣ y ^ i − y i ∣ \frac {1}{n}\sum_{i=1}^{n}|\hat y_{i}-y_{i}| n1∑i=1n∣y^i−yi∣

MAE 与 RMSE 类似，但是，MAE存在不可导的点。

一般情况，RMSE会大于MAE，因为RMSE是先对误差进行平方的累加后再开方，它放大了误差之间的差距。
判定系数 R 2 R^2 R2是回归模型拟合优度的度量，大小介于0，1之间，越接近1说明模型的拟合情况越好。
R 2 = S S R S S T = S S T − S S E S S T = 1 − S S E S S T ( S S T = S S R + S S E ) R^2=\frac{SSR}{SST} = \frac {SST-SSE}{SST} = 1- \frac{SSE}{SST} \ (SST=SSR+SSE) R2=SSTSSR=SSTSST−SSE=1−SSTSSE (SST=SSR+SSE)
其中，数据总的波动总偏差平方和 $SST =\sum (y_i-\overline{y})^2 $

残差平方和 S S E = ∑ ( y i − y ^ i ) 2 SSE=\sum ( y_i-\hat y_{i})^2 SSE=∑(yi−y^i)2

模型的回归平方和 S S R = ∑ ( y ^ i − y ‾ ) 2 SSR=\sum (\hat y_{i} - \overline{y})^2 SSR=∑(y^i−y)2

事实上， R 2 = 1 − ∑ ( y i − y ^ i ) 2 ∑ ( y i − y ‾ ) 2 = 1 − 1 n ∑ i = 1 n ( y i − y ^ i ) 2 1 n ∑ i = 1 n ( y i − y ‾ ) 2 = 1 − M S E V a r R^2 = 1-\frac {\sum (y_i-\hat y_{i})^2}{\sum (y_i-\overline{y})^2} = 1- \frac {\frac {1}{n}\sum_{i=1}^{n} (y_i - \hat y_{i})^2}{\frac {1}{n}\sum_{i=1}^{n} (y_i- \overline{y})^2} = 1- \frac{MSE} {Var} R2=1−∑(yi−y)2∑(yi−y^i)2=1−n1∑i=1n(yi−y)2n1∑i=1n(yi−y^i)2=1−VarMSE

但是， R 2 R^2 R2 是关于解释变量个数的非减函数. 一般来讲，会随着自变量的增加而增大(即使增加的变量与被解释变量明显无关）
调整的 R 2 R^2 R2 :
R 2 ‾ = 1 − ∑ ( y ^ i − y i ) 2 / ( n − k ) ∑ ( y ‾ − y i ) 2 / ( n − 1 ) \overline {R^2}=1-\frac {\sum (\hat y_{i} - y_i)^2/(n-k)}{\sum (\overline{y}- y_i)^2/(n-1)} R2=1−∑(y−yi)2/(n−1)∑(y^i−yi)2/(n−k)
其中，n-k和n-1分别对应残差平方和与总偏差平方和的自由度. 调整 R 2 R^2 R2 永远小于 R 2 R^2 R2 ，而且调整 R 2 R^2 R2 的值不会由于回归中自变量个数的增加而越来越接近1.

自由度就是指独立的变量的个数——n - k，n是样本的个数，k是约束条件个数.

多元线性回归中残差平方和，其自由度为n-r-1，因为计算残差时用到回归方程，回归方程中有r+1个未知参数 β 0 , β 1 , … , β r \beta_0,\beta_1,\dots,\beta_r β0,β1,…,βr 而这些参数需要r+1个约束条件予以确定，由此减去r+1，也即其自由度为n-r-1。

线性回归模型的评估方法相关推荐

线性回归模型的性能评价指标
本节讨论下线性回归模型的性能评价指标对于机器学习的两个基本问题分类和回归的评价方式有所不同,分类问题一般通过分类准确率.召回率.F1值.ROC/AUC等手段进行模型的评估.对于回归问题,该如何评价? ...
回归方程的拟合优度检验_计量经济学第四讲（多元线性回归模型：基本假定，参数估计，统计检验）...
第三章.经典单方程计量经济学模型:多元线性回归模型 3.1多元线性回归模型及其基本假定 3.1.1多元回归模型及其表示解释变量至少有两个的线性回归模型,一般形式为如果不作说明, 是不包括常数项的解 ...
R语言使用lmPerm包应用于线性模型的置换方法（置换检验、permutation tests）、使用lm模型构建简单线性回归模型、使用lmp函数生成置换检验回归分析模型
R语言使用lmPerm包应用于线性模型的置换方法(置换检验.permutation tests).使用lm模型构建简单线性回归模型.使用lmp函数生成置换检验回归分析模型(Permutation te ...
R语言广义线性模型函数GLM、(Model fit and regression diagnostics)、模型充分性评估方法、使用plot函数以及car包函数
R语言广义线性模型函数GLM.(Model fit and regression diagnostics).模型充分性评估方法.使用plot函数以及car包函数目录
R语言使用lm函数拟合多元线性回归模型、假定预测变量没有交互作用（Multiple linear regression）
R语言使用lm函数拟合多元线性回归模型.假定预测变量没有交互作用(Multiple linear regression) 目录
R语言使用pwr包的pwr.f2.test函数对线性回归模型（Linear models）进行效用分析（power analysis）的语法
R语言使用pwr包的pwr.f2.test函数对线性回归模型(Linear models)进行效用分析(power analysis)的语法目录
R语言使用pwr包的pwr.f2.test函数对线性回归模型进行效用分析（power analysis）、在已知效应量(effect size)、显著性水平、效用值的情况下计算需要的样本量
R语言使用pwr包的pwr.f2.test函数对线性回归模型(Linear models)进行效用分析(power analysis).在已知效应量(effect size).显著性水平(sig).效 ...
R语言使用lm构建线性回归模型、并将目标变量对数化（log10）实战：可视化模型预测输出与实际值对比图、可视化模型的残差、模型预测中系统误差的一个例子、自定义函数计算R方指标和均方根误差RMSE
R语言使用lm构建线性回归模型.并将目标变量对数化(log10)实战:可视化模型预测输出与实际值对比图.可视化模型的残差.模型预测中系统误差的一个例子 .自定义函数计算R方指标和均方根误差RMSE 目 ...
R语言使用lm构建线性回归模型、并将目标变量对数化实战：可视化模型预测输出与实际值对比图、可视化模型的残差、模型系数（coefficient）、模型总结信息（summary）、残差总结信息
R语言使用lm构建线性回归模型.并将目标变量对数化(log10)实战:可视化模型预测输出与实际值对比图.可视化模型的残差.模型系数(coefficient).模型总结信息(summary).残差总结信 ...

线性回归模型的评估方法

线性回归模型常见的评估方法

线性回归模型的评估方法相关推荐

最新文章

热门文章