回归分析-常用统计量含义解析

线性回归模型预测好坏，评判标准主要观察回归直线与各观测点的接近程度（即直线的拟合优度）。但是如何量化它们之间的接近程度呢？可使用以下常用统计量进行衡量。各统计量分解如下：

SST总平方和 $SST=\sum \left (y_{i} -\bar{y}\right )^{2}$
SSR回归平方和 $SSR=\sum \left (\widehat{y}_{i} -\bar{y}\right )^{2}$
SSE残差平方和 $SSE=\sum \left (y_{i} -\widehat{y}_{i}\right )^{2}$

回归平方和是回归值与均值的离差平方和，可以看做由于自变量 $x$ 的变化引起的 $y$ 的变化（即 $y$ 受 $x$ 的影响）；

残差平方和（或称误差平方和）是真实值与回归值的离差平方和，它是除了 $x$ 对 $y$ 的线性影响之外的其他因素引起的 $y$ 的变化部分，是不能由回归直线来解释的 $y_{i}$ 的变差部分（即 $y$ 受其他因素的影响，如 $x$ 对 $y$ 的非线性影响、测量误差等）。残差平方和描述了真实值与预测值之间的差异程度。

三个平方和的关系为：

总平方和（SST）= 回归平方和（SSR）+ 残差平方和（SSE）

判定系数 $R^{2}=\frac{SSR}{SST}=\frac{\sum \left (\widehat{y}_{i} -\bar{y}\right )^{2}}{\sum \left (y_{i} -\bar{y}\right )^{2}} = 1-\frac{\sum \left (y_{i} -\widehat{y}_{i}\right )^{2}}{\sum \left (y_{i} -\bar{y}\right )^{2}}$

判定系数 $R^{2}$ 是对估计的回归方程拟合优度的度量。（即测度了回归直线对观测数据的拟合程度）

若所有观测点都落在回归直线上，残差平方和SSE=0，则 $R^{2}$ =1，拟合是完全的；
如果 $y$ 的变化与 $x$ 无关， $x$ 完全无助于解释 $y$ 的变差， $\widehat{y}=\bar{y}$ ，则 $R^{2}$ =0；
$R^{2}$ 的取值范围是[0, 1];
$R^{2}$ 越接近1，表明回归平方和占总平方和的比例越大，回归直线与各观测点越接近，用 $x$ 的变化来解释 $y$ 值变差的部分就越多，回归直线的拟合程度就越好；反之， $R^{2}$ 越接近0，回归直线的拟合程度就越差。

例子解释其含义：

下图为不良贷款Y对贷款余额X构建的一元线性回归模型的回归分析结果，数据源可查看https://blog.csdn.net/qq_39284106/article/details/104156844

Q：计算不良贷款 $y$ 对贷款余额 $x$ 回归的判定系数，并解释其意义？

A1： $R^{2} = \frac{SSR}{SST} = \frac{222.4860}{312.6504}=0.7116$

A2：判定系数的实际意义是：在不良贷款取值的变差中，有71.16%可以由不良贷款与贷款余额之间的线性关系来解释，或者说，在不良贷款取值的变动中，有71.16%是由贷款余额所决定的。不良贷款取值的差异有2/3以上是由贷款余额决定的，可见二者之间有较强的线性关系。

调整的判定系数Adjusted_R_square $R_{a}^{2} = 1-(1-R^{2})(\frac{n-1}{n-k-1})$

调整的判定系数是用样本量 $n$ 和自变量的个数 $k$ 去调整 $R^{2}$ 的，其实际意义是在用样本量和模型中自变量个数进行调整后，能被因变量和自变量的一元或是多元回归方程所解释的比例为 $R_{a}^{2}$ 。

有了判定系数，为什么还需要调整的判定系数呢？

：是因为自变量个数的增加将影响到因变量的变差中被估计的回归方程所解释的比例。当增加自变量时，会使预测误差变得较小，从而减少残差平方和SSE。由于回归平方和 SSR=SST - SSE,当SSE变小时，SSR就会变大，从而使 $R^{2}$ 变大。如果模型中增加一个自变量，即使这个自变量在统计上并不显著， $R^{2}$ 也会变大。因此避免增加自变量而高估 $R^{2}$ ，需要同时考虑样本量和模型中自变量的个数的影响，这就使得 $R_{a}^{2}$ 的值永远小于 $R^{2}$ ，而且 $R_{a}^{2}$ 的值不会由于模型中的自变量个数增加而越来越接近1。因此在多元回归分析中，通常用调整的判定系数。

Q：计算不良贷款 $y$ 对贷款余额 $x$ 回归的调整的判定系数，并解释其意义？

A1： $R_{a}^{2} = 1-(1-0.7116)(\frac{25-1}{25-1-1})=0.6991$

A2：它表示：在用样本量和模型中自变量个数进行调整后，在不良贷款取值的变差中，能被不良贷款和贷款余额的回归方程所解释的比例为69.91%。

复相关系数Multiple_R $MultipleR = \sqrt{R^{2}}$

复相关系数度量了因变量同 $k$ 个自变量的相关程度。

估计标准误差 $s_{e}=\sqrt{\frac{\sum \left (y_{i} -\widehat{y}_{i}\right )^{2}}{n-k-1}} = \sqrt{\frac{SSE}{n-k-1}}=\sqrt{MSE}$

估计标准误差就是度量各个实际观测点在直线周围的散布状况的一个统计量。

估计标准误差是对误差项 $\varepsilon$ 的标准差 $\sigma$ 的估计，它可以看做在排除了 $x$ 对 $y$ 的线性影响后， $y$ 随机波动大小的一个估计量。

从估计标准误差的实际意义看，它反映了用估计的回归方程预测因变量 $y$ 时预测误差的大小。
各观测点越靠近直线， $s_{e}$ 越小，回归直线对各观测点的代表性就越好，根据估计的回归方程进行预测也就越准确。
若各观测点全部落在直线上，则 $s_{e}$ =0，此时用自变量来预测因变量是没有误差的。
因此， $s_{e}$ 从另一角度说明了回归直线的拟合优度。

Q：计算不良贷款 $y$ 对贷款余额 $x$ 回归的估计标准误差，并解释其意义？

A1： $s_{e} = \sqrt{\frac{SSE}{n-2}}=\sqrt{\frac{90.1644}{25-2}}=1.9799$ (亿元)

A2：标准误差为1.9799，这就是说，根据贷款余额来估计不良贷款时，平均的估计误差为1.9799亿元。

得到估计回归方程后，是不是就能直接用来做预测了呢？还不能哦，因为该估计方程是根据样本数据得出的，它是否真实地反映了变量 $x$ 和 $y$ 之间的关系，需要通过检验来证实。那目前常用的检验方法有哪些？

回归分析中的显著性检验主要包括两个方面：线性关系的检验和回归系数的检验。

线性关系的检验是检验因变量 $y$ 与 $k$ 个自变量之间的关系是否显著，也称为总体显著性检验。

为检验自变量和因变量之间的线性关系是否显著，需要构造用于检验的统计量F。

MSR均方回归 $MSR=\frac{SSR}{k}$
MSE均方残差 $MSE=\frac{SSE}{n-k-1}$

F检验统计量 $F = \frac{SSR/k}{SSE/\left ( n-k-1 \right )} = \frac{MSR}{MSE} \sim F\left ( k, n-k-1 \right )$

如果原假设成立，则比值MSR/MSE的抽样分布服从分子自由度为 $k$ 、分母自由度为 $n-k-1$ 的F分布。

原假设：beta=0 （变量之间的线性关系不显著）
备择假设：beta!=0 至少有一个不等于0（变量之间的线性关系显著）

当原假设成立时，MSR/MSE的值应接近1；
当原假设不成立时，MSR/MSE的值将变得无穷大；

线性关系检验主要是检验因变量与多个自变量的线性关系是否显著，在 $k$ 个自变量中，只要有一个自变量与因变量的线性关系显著，F检验就能通过，但这不一定意味着每个自变量与因变量的关系都显著。

Q：检验不良贷款 $y$ 和贷款余额 $x$ 之间线性关系的显著性（ $\alpha =0.05$ ）？

A1：提出假设 $H_{0}: \beta _{1} =0$ （两个变量之间的线性关系不显著）

A2： $F = \frac{MSR}{MSE} = \frac{222.486}{3.921}=56.7538$

A3：查F分布表，得临界值 $F_{\alpha } = 4.28$ 。由于 $F > F_{\alpha }$ ，拒绝原假设 $H_{0}$ ，表明不良贷款和贷款余额之间的线性关系是显著的。

A4：用于F检验的P值 $pf(Significance F) < \alpha =0.05$ ，拒绝原假设 $H_{0}$ ，表明因变量和自变量之间有显著的线性关系。【备注：pf(Significance F)取值可看上图回归分析结果的pf取值。】

回归系数的检验是检验自变量对因变量的影响是否显著。

各回归系数的t检验统计量 $t_{k} = \frac{\widehat{\beta }_{k}}{Se(\widehat{\beta _{k}})} \sim t(n-k-1)$

回归系数检验是对每个回归系数分别进行单独检验，它主要用于检验每个自变量对因变量的影响是否显著。如果某个自变量没有通过检验，就意味着这个自变量对因变量的影响不显著，也许就没有必要将这个自变量放进回归模型中。

Q：检验回归系数的显著性（ $\alpha =0.05$ ）？

A1：提出假设 $H_{0}: \beta _{1} =0$ （无显著关系）； $H_{1}:\beta _{1}\neq 0$ （有显著关系）；

A2： $t= \frac{\widehat{\beta _{1}}}{s\widehat{\beta _{1}}} = \frac{0.0379}{0.005}=7.534$

A3：查t分布表，得临界值 $t_{\alpha/2 } = 2.0687$ 。由于 $|t| > t_{\alpha /2}$ ，拒绝原假设 $H_{0}$ ，这意味着贷款余额是影响不良贷款的一个显著因素。

A4：用于t检验的P值P-value $=0.000 < \alpha =0.05$ ，拒绝原假设 $H_{0}$ ，表明因变量和自变量之间有显著的线性关系。【备注：P-value取值可看上图回归分析结果的变量C对应P-value的取值。】

注意：F检验只是用来检验总体回归关系的显著性，而t检验则是检验各个回归系数的显著性。

AIC准则即Akaike information criterion，又叫赤池准则，为日本统计学家赤池弘次创立，它建立在熵的概念基础上，可以权衡所估计模型的复杂度和此模型拟合数据的优良性。

AIC计算公式为： AIC=2k-2logLik，其中：k是参数的数量，logLik是对数似然比。

BIC准则即Bayesian Information Criterions，于1978年由Schwarz提出。BIC的惩罚项比AIC大，考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。

BIC计算公式为： BIC=-2logLik +kln(n)。

AIC或BIC的取值是越小越好。

回归分析-常用统计量含义解析相关推荐

机架式服务器性能,机架式服务器含义解析？其优势分析？
原标题:机架式服务器含义解析?其优势分析? 作为一个新手,经常听到"机架服务器"这个词.可能很多人都不知道这是个什么东西.实际上,机架式服务器只是服务器的一种类型.根据其外观,服务 ...
常用名称含义（笔记）
常用名称含义(笔记) MAC地址 ftp协议 SEO DNS URL ICP 字节 ISP CMS SSH MAC地址 MAC地址(英语:Media Access Control Address),直 ...
回归算法分类，常用回归算法解析
回归算法分类,常用回归算法解析回归是数学建模.分类和预测中最古老但功能非常强大的工具之一.回归在工程.物理学.生物学.金融.社会科学等各个领域都有应用,是数据科学家常用的基本工具. 回归通常是机器学 ...
百度搜索结果URL参数含义解析
百度搜索结果地址参数(URL参数)含义解析.阅读本文之前,如果对Urlencode有过了解,则会比较轻松. 在百度中搜索 " 博客园 " http://www.baidu.com/ ...
【数理知识】方程一阶二阶及常用词语含义
方程一阶二阶及常用词语含义方程一阶二阶及常用词语含义元阶线性对于控制对于高等数学对于线性代数微分方程方程一阶二阶及常用词语含义元未知数的个数叫做元,如:一元方程.二元方程- 阶 ...
java常用代码解析_Java设计模式常用原则代码解析
本篇文章小编给大家分享一下Java设计模式常用原则代码解析,代码介绍的很详细,小编觉得挺不错的,现在分享给大家供大家参考,有需要的小伙伴们可以来看看. 1.单一职责原则每一个类负责一个职责(一个类只有 ...
常用报文的解析与相互转换
分享一下我老师大神的人工智能教程.零基础!通俗易懂!风趣幽默!还带黄段子!希望你也加入到我们人工智能的队伍中来!https://blog.csdn.net/jiangjunshow 常用报文的解析与相 ...
【ABAP系列】SAP ABAP SY-SUBRC的含义解析
公众号:SAP Technical 本文作者:matinal 原文出处:http://www.cnblogs.com/SAPmatinal/ 原文链接:[ABAP系列]SAP ABAP SY-SUBR ...
5-VOSviewer项目密度图含义解析
1-Vosviewer图谱相关指标详细解释VOSviewer关键词时间图(叠加可视化)详细解释 2-VOSviewer图谱相关指标- Occurrencs与Total link Strength详细解 ...
统计学基础之常用统计量和抽样分布
目录: 一.统计量 1.概念 2.常用统计量二.抽样分布 1.常见三大抽样分布一.统计量: 1.概念: 统计量是统计理论中用来对数据进行分析.检验的变量.在实际应用中,当我们从某个总体中抽取一个样 ...

回归分析-常用统计量含义解析

回归分析-常用统计量含义解析相关推荐

最新文章

热门文章