十二、逐步回归

1.变量选择方法

在上一篇中，我们提到了两个问题：一是对模型的线性假设是否准确，二是是否每个变量都有着足够的显著性，其检验统计量分别是RSS/ESS{\rm RSS/ESS}RSS/ESS和Pi=β^i2/liiP_i=\hat \beta_i^2/l^{ii}Pi=β^i2/lii，它们越大，检验的p-value越小，就代表线性模型约合适，或者对应的变量够显著。面对不显著的变量，因为它对我们的模型起不到促进作用，容易受噪声影响，因此从模型中去掉比较合适，我们只会在回归模型中，保存显著的变量。那么，如何选择显著的变量就是一个值得讨论的问题。

最优子集的变量筛选法是比较常用的一种方法，该方法包括逐步回归法(Stepwise)、向前引入法(Forward)和向后剔除法(Backward)。

向前引入法(Forward)是从回归方程仅包含常数项开始，把自变量逐个引入回归方程的方法，其操作流程如下：在mmm个自变量中选择一个加入后总体p-value最小的加入，然后在剩余自变量中选择另一个加入后总体p-value最小的加入，重复此流程直到达到终止条件；这个终止条件可以是对新加入变量作显著性检验时p-value大于给定的α\alphaα，也可以是其他。

向后剔除法(Backward)先将全部mmm个自变量加入回归方程，然后逐个剔除最不显著的自变量，即对其回归系数作显著性检验时p-value最大的那个，重复此流程直到达到终止条件；这个终止条件可以是对剩余回归系数作显著性检验时p-value都小于α\alphaα，也可以是其他。

以上两种方法有一个共同的缺点——太过绝对，在向前引入法中，被引入的变量将永远被保留在方程中，即使它以后的显著性会变得很差；在向后剔除法中，被剔除的变量将永远被剔除出去，即使它以后可能会表现出很好的显著性。在某些情况下，这两种方法得到的回归方程会比较不合理，因此，逐步回归(Stepwise)综合了两种方法的优点，它以向前引入为主，但也包含向后剔除，一般会得出更为理想的回归方程。

逐步回归法的显著性水平包括向前引入的水平αin\alpha_{\rm in}αin和向后剔除的水平αout\alpha_{\rm out}αout，为了保证筛选过程经过有限步停止，要求αin≤αout\alpha_{\rm in}\le \alpha_{\rm out}αin≤αout，但在实际应用中，一般令αin=αout\alpha_{\rm in}=\alpha_{\rm out}αin=αout。

除了以上三种最优子集的变量筛选法，还有计算量很大的全子集法，以及计算量适中的选择法。全子集法，即选择所有可能的组合，mmm个自变量对应着2m−12^m-12m−1种组合方式，这对自变量情况很多的情形是不适用的，因为计算机无法承受指数增长的算法，但在自变量较少时，可以用R2R^2R2选择法、CpC_pCp选择法和修正R2R^2R2选择法来筛选全子集法的回归结果。

2.最优子集如何评判

我们在以上的变量筛选方法中，想要选择的都是“最优”的线性回归模型，但如何衡量这个优度？可能有人会想到用R2R^2R2来衡量，但这是不合理的，因为变量数越多，R2R^2R2自然会越大。一般来说，衡量的标度把不同，可能会造成最优线性回归模型的不同，本节就介绍一些评判最优子集的方法，接下来定义数据量为nnn，可用的自变量总数为mmm。最优子集的选择，总可以先找到变量个数为k(1≤k≤m)k(1\le k\le m)k(1≤k≤m)的最优子集，再在这mmm个最优子集中找到最优中的最优。

需要注意的是，由于变量越多总能在某些硬性指标上占优，所以选择子集的标准一定是包含变量个数kkk的一个函数。

准则1：均方误差s2s^2s2。对于元素个数为kkk的子集AAA，其均方误差为
s2(A)=QAn−k−1.s^2(A)=\frac{Q_A}{n-k-1}. s2(A)=n−k−1QA.
这是由子集AAA确定的回归模型中，偏差方差σ2\sigma^2σ2的无偏估计量。选择s2(A)s^2(A)s2(A)最小的作为最优估计。

准则2：CpC_pCp统计量。称不被放到回归方程中的那些不显著变量为无用变量，由部分有用变量构成的线性回归模型称为选回归模型，设有nnn个样本点c(i)c_{(i)}c(i)，由选回归模型得到的估计值为y^i(k)\hat y_i(k)y^i(k)，它与理论值c(i)βc_{(i)}\betac(i)β的偏差平方和（注意，不是与真实值的误差平方和）记作JkJ_kJk，则
Jk=∑i=1n[ci′β^(A(k))−c(i)′β]2σ2J_k=\frac{\sum\limits_{i=1}^n[c'_{i}\hat \beta(A(k))-c'_{(i)}\beta]^2}{\sigma^2} Jk=σ2i=1∑n[ci′β^(A(k))−c(i)′β]2
可以证明E(Jk)=E(Q(A(k)))/σ2−2(k+1)−n{\rm E}(J_k)={\rm E}(Q(A(k)))/\sigma^2-2(k+1)-nE(Jk)=E(Q(A(k)))/σ2−2(k+1)−n，取全回归模型的样本方差s2s^2s2为σ2\sigma^2σ2的估计时，这就是CpC_pCp统计量，即
Cp=Q(A(k))s2+2(k+1)−n,s2=Q(A(m))n−m−1.C_p=\frac{Q(A(k))}{s^2}+2(k+1)-n,\quad s^2=\frac{Q(A(m))}{n-m-1}. Cp=s2Q(A(k))+2(k+1)−n,s2=n−m−1Q(A(m)).
根据CpC_pCp统计量制定最优准则，可以是CpC_pCp统计量本身最小，也可以是∣Cp−(k+1)∣|C_p-(k+1)|∣Cp−(k+1)∣达到最小。

准则3：修正R2(R~2)R^2(\tilde R^2)R2(R~2)准则。记
R~2=1−n−in−k−i(1−R2),\tilde R^2=1-\frac{n-i}{n-k-i}(1-R^2), R~2=1−n−k−in−i(1−R2),
当模型包含截距项时i=1i=1i=1，否则i=0i=0i=0，最优准则是使得R~2\tilde R^2R~2最大的准则。

准则4：预测均方误差及平方和最小的准则。有以下几种统计量：
Jp(A)=(n+k+1)s2(A),Sp(A)=s2(A)n−k−2,PRESS(A)=∑i=1n(yi−y^i(i))2.J_p(A)=(n+k+1)s^2(A), \\ S_p(A)=\frac{s^2(A)}{n-k-2}, \\ {\rm PRESS}(A)=\sum_{i=1}^n(y_i-\hat y_i(i))^2. Jp(A)=(n+k+1)s2(A),Sp(A)=n−k−2s2(A),PRESS(A)=i=1∑n(yi−y^i(i))2.
使得这些统计量中某一个达到最小的是最优准则，这里y^i(i)\hat y_i(i)y^i(i)是删去第iii个点后用其余n−1n-1n−1个点观测数据建立的回归方程预测第iii个点的预测值。

准则5：AIC准则。定义AIC统计量为
AIC(A(k))=nln⁡Q(A(k))n+2(k+1).{\rm AIC}(A(k))=n\ln \frac{Q(A(k))}{n}+2(k+1). AIC(A(k))=nlnnQ(A(k))+2(k+1).
使得AIC统计量达到最小是最优准则。

实际运用时，选择不同的变量选择方法和最优准则，都有可能导致最优回归方程发生变化。

回顾总结

最优子集的筛选方法包括逐步回归(Stepwise)、向前引入(Forward)和向后剔除(Backward)，其中逐步回归结合了向前引入和向后剔除的优点，比较常用。
全子集法的计算规模是2m−12^m -12m−1。
有若干种不同的最优准则，其中均方误差s2(A)s^2(A)s2(A)、CpC_pCp统计量、预测均方误差即平方和、AIC统计量都是越小越好的，而修正R2(R~2)R^2(\tilde R^2)R2(R~2)则是越大越好。

【多元统计分析】12.逐步回归相关推荐

多元统计分析及R语言建模_自定义函数: msaR.R
#*********************************************** #****** 多元统计分析及R语言建模(第五版)****** #****** 自定义函数: msaR ...
多元统计分析朱建平pdf_应用多元统计分析课后答案朱建平版[精心整理].doc
应用多元统计分析课后答案朱建平版[精心整理] 第二章 2.1.试叙述多元联合分布和边际分布之间的关系. 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,的联合分布密度函数是一个p维的函数,而 ...
【应用多元统计分析】-王学民Python主成分分析例题，特征值处理和可视化（2）
title: "应用多元统计分析" subtitle: "书上题目" author: | OLSRR 由于字数限制,本文省去部分数据预览. 7.6 下表中给出的 ...
多元统计分析及R语言建模
目录一.数据矩阵数据框及R表示 1.创建向量和矩阵 1)创建一个向量 2)创建一个矩阵 2.矩阵其他运算 1)矩阵的转置,加法减,矩阵相乘,求矩阵C的逆 2)获得矩阵对角线元素 ,创建三阶单位矩阵 ...
【多元统计分析】均值向量和协方差阵的检验——spss上机实验
均值向量和协方差阵的检验--spss上机实验 #参考书目为<多元统计分析>(第五版)--何晓群.中国人民大学出版社 #如有错误,请指正!谢谢~ #关注公众号搜索同名文章获取数据~ 习题2. ...
【应用多元统计分析】——第三章（1）
应用多元统计分析(2022春) 3.1 设 x ∼ N p ( μ , Σ ) , rank ⁡ ( Σ ) = r , u ∼ N r ( 0 , I ) \boldsymbol{x} \sim N ...
多元统计分析及R语言建模（第五版）——第6章判别分析课后习题
第6章判别分析文章会用到的数据请在这个网址下下载多元统计分析及R语言建模(第五版)数据练习题 1)考虑两个数据集x1 = [3 7 2 4 4 7],x2 = [6 9 5 7 4 8] (1) ...
python 多元线性回归_多元统计分析之多元线性回归的R语言实现
多元统计分析之多元线性回归的R语言实现多元统计分析--multivariate statistical analysis 研究客观事物中多个变量之间相互依赖的统计规律性.或从数学上说, 如果个体的观 ...
数学建模——多元统计分析例题及程序
多元统计分析例题及程序主成分分析简述基本思想计算步骤例题程序程序理解因子分析相关性分析回归分析一元回归例题聚类分析主成分分析简述主成分分析(Principal Compo ...
【多元统计分析】因子分析——SPSS上机实验（过程+结果分析）
实验数据来自于何晓群<多元统计分析>第五版例题6.3 数据获取请关注公众号:321红绿灯回复:例6.3 即可获得区域公用事业的发展是地区綜合发展的重要组成部分,是促进社会发展的重要因素 ...

【多元统计分析】12.逐步回归

文章目录

十二、逐步回归

1.变量选择方法

2.最优子集如何评判

回顾总结

【多元统计分析】12.逐步回归相关推荐

最新文章

热门文章