文章目录

  • 十二、逐步回归
    • 1.变量选择方法
    • 2.最优子集如何评判
    • 回顾总结

十二、逐步回归

1.变量选择方法

在上一篇中,我们提到了两个问题:一是对模型的线性假设是否准确,二是是否每个变量都有着足够的显著性,其检验统计量分别是RSS/ESS{\rm RSS/ESS}RSS/ESS和Pi=β^i2/liiP_i=\hat \beta_i^2/l^{ii}Pi​=β^​i2​/lii,它们越大,检验的p-value越小,就代表线性模型约合适,或者对应的变量够显著。面对不显著的变量,因为它对我们的模型起不到促进作用,容易受噪声影响,因此从模型中去掉比较合适,我们只会在回归模型中,保存显著的变量。那么,如何选择显著的变量就是一个值得讨论的问题。

最优子集的变量筛选法是比较常用的一种方法,该方法包括逐步回归法(Stepwise)、向前引入法(Forward)和向后剔除法(Backward)。

向前引入法(Forward)是从回归方程仅包含常数项开始,把自变量逐个引入回归方程的方法,其操作流程如下:在mmm个自变量中选择一个加入后总体p-value最小的加入,然后在剩余自变量中选择另一个加入后总体p-value最小的加入,重复此流程直到达到终止条件;这个终止条件可以是对新加入变量作显著性检验时p-value大于给定的α\alphaα,也可以是其他。

向后剔除法(Backward)先将全部mmm个自变量加入回归方程,然后逐个剔除最不显著的自变量,即对其回归系数作显著性检验时p-value最大的那个,重复此流程直到达到终止条件;这个终止条件可以是对剩余回归系数作显著性检验时p-value都小于α\alphaα,也可以是其他。

以上两种方法有一个共同的缺点——太过绝对,在向前引入法中,被引入的变量将永远被保留在方程中,即使它以后的显著性会变得很差;在向后剔除法中,被剔除的变量将永远被剔除出去,即使它以后可能会表现出很好的显著性。在某些情况下,这两种方法得到的回归方程会比较不合理,因此,逐步回归(Stepwise)综合了两种方法的优点,它以向前引入为主,但也包含向后剔除,一般会得出更为理想的回归方程。

逐步回归法的显著性水平包括向前引入的水平αin\alpha_{\rm in}αin​和向后剔除的水平αout\alpha_{\rm out}αout​,为了保证筛选过程经过有限步停止,要求αin≤αout\alpha_{\rm in}\le \alpha_{\rm out}αin​≤αout​,但在实际应用中,一般令αin=αout\alpha_{\rm in}=\alpha_{\rm out}αin​=αout​。

除了以上三种最优子集的变量筛选法,还有计算量很大的全子集法,以及计算量适中的选择法。全子集法,即选择所有可能的组合,mmm个自变量对应着2m−12^m-12m−1种组合方式,这对自变量情况很多的情形是不适用的,因为计算机无法承受指数增长的算法,但在自变量较少时,可以用R2R^2R2选择法、CpC_pCp​选择法和修正R2R^2R2选择法来筛选全子集法的回归结果。

2.最优子集如何评判

我们在以上的变量筛选方法中,想要选择的都是“最优”的线性回归模型,但如何衡量这个优度?可能有人会想到用R2R^2R2来衡量,但这是不合理的,因为变量数越多,R2R^2R2自然会越大。一般来说,衡量的标度把不同,可能会造成最优线性回归模型的不同,本节就介绍一些评判最优子集的方法,接下来定义数据量为nnn,可用的自变量总数为mmm。最优子集的选择,总可以先找到变量个数为k(1≤k≤m)k(1\le k\le m)k(1≤k≤m)的最优子集,再在这mmm个最优子集中找到最优中的最优。

需要注意的是,由于变量越多总能在某些硬性指标上占优,所以选择子集的标准一定是包含变量个数kkk的一个函数。

准则1:均方误差s2s^2s2。对于元素个数为kkk的子集AAA,其均方误差为
s2(A)=QAn−k−1.s^2(A)=\frac{Q_A}{n-k-1}. s2(A)=n−k−1QA​​.
这是由子集AAA确定的回归模型中,偏差方差σ2\sigma^2σ2的无偏估计量。选择s2(A)s^2(A)s2(A)最小的作为最优估计。

准则2:CpC_pCp​统计量。称不被放到回归方程中的那些不显著变量为无用变量,由部分有用变量构成的线性回归模型称为选回归模型,设有nnn个样本点c(i)c_{(i)}c(i)​,由选回归模型得到的估计值为y^i(k)\hat y_i(k)y^​i​(k),它与理论值c(i)βc_{(i)}\betac(i)​β的偏差平方和(注意,不是与真实值的误差平方和)记作JkJ_kJk​,则
Jk=∑i=1n[ci′β^(A(k))−c(i)′β]2σ2J_k=\frac{\sum\limits_{i=1}^n[c'_{i}\hat \beta(A(k))-c'_{(i)}\beta]^2}{\sigma^2} Jk​=σ2i=1∑n​[ci′​β^​(A(k))−c(i)′​β]2​
可以证明E(Jk)=E(Q(A(k)))/σ2−2(k+1)−n{\rm E}(J_k)={\rm E}(Q(A(k)))/\sigma^2-2(k+1)-nE(Jk​)=E(Q(A(k)))/σ2−2(k+1)−n,取全回归模型的样本方差s2s^2s2为σ2\sigma^2σ2的估计时,这就是CpC_pCp​统计量,即
Cp=Q(A(k))s2+2(k+1)−n,s2=Q(A(m))n−m−1.C_p=\frac{Q(A(k))}{s^2}+2(k+1)-n,\quad s^2=\frac{Q(A(m))}{n-m-1}. Cp​=s2Q(A(k))​+2(k+1)−n,s2=n−m−1Q(A(m))​.
根据CpC_pCp​统计量制定最优准则,可以是CpC_pCp​统计量本身最小,也可以是∣Cp−(k+1)∣|C_p-(k+1)|∣Cp​−(k+1)∣达到最小。

准则3:修正R2(R~2)R^2(\tilde R^2)R2(R~2)准则。记
R~2=1−n−in−k−i(1−R2),\tilde R^2=1-\frac{n-i}{n-k-i}(1-R^2), R~2=1−n−k−in−i​(1−R2),
当模型包含截距项时i=1i=1i=1,否则i=0i=0i=0,最优准则是使得R~2\tilde R^2R~2最大的准则。

准则4:预测均方误差及平方和最小的准则。有以下几种统计量:
Jp(A)=(n+k+1)s2(A),Sp(A)=s2(A)n−k−2,PRESS(A)=∑i=1n(yi−y^i(i))2.J_p(A)=(n+k+1)s^2(A), \\ S_p(A)=\frac{s^2(A)}{n-k-2}, \\ {\rm PRESS}(A)=\sum_{i=1}^n(y_i-\hat y_i(i))^2. Jp​(A)=(n+k+1)s2(A),Sp​(A)=n−k−2s2(A)​,PRESS(A)=i=1∑n​(yi​−y^​i​(i))2.
使得这些统计量中某一个达到最小的是最优准则,这里y^i(i)\hat y_i(i)y^​i​(i)是删去第iii个点后用其余n−1n-1n−1个点观测数据建立的回归方程预测第iii个点的预测值。

准则5:AIC准则。定义AIC统计量为
AIC(A(k))=nln⁡Q(A(k))n+2(k+1).{\rm AIC}(A(k))=n\ln \frac{Q(A(k))}{n}+2(k+1). AIC(A(k))=nlnnQ(A(k))​+2(k+1).
使得AIC统计量达到最小是最优准则。

实际运用时,选择不同的变量选择方法和最优准则,都有可能导致最优回归方程发生变化。

回顾总结

  1. 最优子集的筛选方法包括逐步回归(Stepwise)、向前引入(Forward)和向后剔除(Backward),其中逐步回归结合了向前引入和向后剔除的优点,比较常用。
  2. 全子集法的计算规模是2m−12^m -12m−1。
  3. 有若干种不同的最优准则,其中均方误差s2(A)s^2(A)s2(A)、CpC_pCp​统计量、预测均方误差即平方和、AIC统计量都是越小越好的,而修正R2(R~2)R^2(\tilde R^2)R2(R~2)则是越大越好。

【多元统计分析】12.逐步回归相关推荐

  1. 多元统计分析及R语言建模_自定义函数: msaR.R

    #*********************************************** #****** 多元统计分析及R语言建模(第五版)****** #****** 自定义函数: msaR ...

  2. 多元统计分析朱建平pdf_应用多元统计分析课后答案朱建平版[精心整理].doc

    应用多元统计分析课后答案朱建平版[精心整理] 第二章 2.1.试叙述多元联合分布和边际分布之间的关系. 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,的联合分布密度函数是一个p维的函数,而 ...

  3. 【应用多元统计分析】-王学民Python主成分分析例题,特征值处理和可视化(2)

    title: "应用多元统计分析" subtitle: "书上题目" author: | OLSRR 由于字数限制,本文省去部分数据预览. 7.6 下表中给出的 ...

  4. 多元统计分析及R语言建模

    目录 一.数据矩阵数据框及R表示 1.创建向量和矩阵 1)创建一个向量 2)创建一个矩阵 2.矩阵其他运算 1)矩阵的转置,加法减,矩阵相乘,求矩阵C的逆 2)获得矩阵对角线元素 ,创建三阶单位矩阵 ...

  5. 【多元统计分析】均值向量和协方差阵的检验——spss上机实验

    均值向量和协方差阵的检验--spss上机实验 #参考书目为<多元统计分析>(第五版)--何晓群.中国人民大学出版社 #如有错误,请指正!谢谢~ #关注公众号搜索同名文章获取数据~ 习题2. ...

  6. 【应用多元统计分析】——第三章(1)

    应用多元统计分析(2022春) 3.1 设 x ∼ N p ( μ , Σ ) , rank ⁡ ( Σ ) = r , u ∼ N r ( 0 , I ) \boldsymbol{x} \sim N ...

  7. 多元统计分析及R语言建模(第五版)——第6章 判别分析课后习题

    第6章 判别分析 文章会用到的数据请在这个网址下下载多元统计分析及R语言建模(第五版)数据 练习题 1)考虑两个数据集x1 = [3 7 2 4 4 7],x2 = [6 9 5 7 4 8] (1) ...

  8. python 多元线性回归_多元统计分析之多元线性回归的R语言实现

    多元统计分析之多元线性回归的R语言实现 多元统计分析--multivariate statistical analysis 研究客观事物中多个变量之间相互依赖的统计规律性.或从数学上说, 如果个体的观 ...

  9. 数学建模——多元统计分析例题及程序

    多元统计分析例题及程序 主成分分析 简述 基本思想 计算步骤 例题 程序 程序理解 因子分析 相关性分析 回归分析 一元回归例题 聚类分析 主成分分析 简述 主成分分析(Principal Compo ...

  10. 【多元统计分析】因子分析——SPSS上机实验(过程+结果分析)

    实验数据来自于何晓群<多元统计分析>第五版例题6.3 数据获取请关注公众号:321红绿灯 回复:例6.3 即可获得 区域公用事业的发展是地区綜合发展的重要组成部分,是促进社会发展的重要因素 ...

最新文章

  1. java数据结构教程_Java数据结构
  2. 白夜:一文看懂AI项目流程及边缘设备开发
  3. 使用Xshell链接阿里的Linux服务器
  4. vue.js devtools的安装
  5. uTorrent for mac(BT下载客户端)v1.8.7中文版
  6. Ubuntu和window10 安装双系统
  7. php iis日志分析,星外系统IIS日志分析常用的几个命令小结
  8. mysql 断号查询_怎么查询SQL中连续编号中间的断号
  9. Android项目实战之(1)-- 开发一个快速冲浪的程序
  10. Cisco ppp链路单双认证
  11. Netty的前期准备:初探NIO中的缓冲区
  12. IT工作十年总结之2个COP对象
  13. POJ1321-Chess Problem(dfs基础题)
  14. Qt学习—qt编写定时关机程序
  15. 高通SDX55平台:Modem Loopback测试指导
  16. 熔断机制什么意思_熔断机制是什么意思 股市熔断是什么意思
  17. 行业如此内卷,品牌如何实现可持续招商增长?
  18. 大数据在生活中有哪些应用举例?大数据好找工作吗?
  19. 【uni-app】uni-app实现手写签名效果:
  20. 经典算法51(来测测你的编程基础)

热门文章

  1. 不均匀光照文本图像的二值化
  2. 【SSM架构】博客系统开发(七)-登陆界面
  3. 龙族幻想微信一区哪个服务器人多,龙族幻想哪个区人最多_龙族幻想哪个区人多一点...
  4. java设计模式_UML类图(上)
  5. 支付宝沙箱调试错误,请回到请求来源地,重新发起请求。错误代码 invalid-signature 错误原因: 验签出错 hutool JSONObject
  6. 《七十七天》中逼真到你无法察觉的奇妙特效
  7. 【Python画图01】一张图上两条线,坐标图例设置
  8. scratch简单编程
  9. 使用Caffe尝试DeepID
  10. 如何使用Facebook进行选品使用