【多元统计分析】12.逐步回归
文章目录
- 十二、逐步回归
- 1.变量选择方法
- 2.最优子集如何评判
- 回顾总结
十二、逐步回归
1.变量选择方法
在上一篇中,我们提到了两个问题:一是对模型的线性假设是否准确,二是是否每个变量都有着足够的显著性,其检验统计量分别是RSS/ESS{\rm RSS/ESS}RSS/ESS和Pi=β^i2/liiP_i=\hat \beta_i^2/l^{ii}Pi=β^i2/lii,它们越大,检验的p-value越小,就代表线性模型约合适,或者对应的变量够显著。面对不显著的变量,因为它对我们的模型起不到促进作用,容易受噪声影响,因此从模型中去掉比较合适,我们只会在回归模型中,保存显著的变量。那么,如何选择显著的变量就是一个值得讨论的问题。
最优子集的变量筛选法是比较常用的一种方法,该方法包括逐步回归法(Stepwise)、向前引入法(Forward)和向后剔除法(Backward)。
向前引入法(Forward)是从回归方程仅包含常数项开始,把自变量逐个引入回归方程的方法,其操作流程如下:在mmm个自变量中选择一个加入后总体p-value最小的加入,然后在剩余自变量中选择另一个加入后总体p-value最小的加入,重复此流程直到达到终止条件;这个终止条件可以是对新加入变量作显著性检验时p-value大于给定的α\alphaα,也可以是其他。
向后剔除法(Backward)先将全部mmm个自变量加入回归方程,然后逐个剔除最不显著的自变量,即对其回归系数作显著性检验时p-value最大的那个,重复此流程直到达到终止条件;这个终止条件可以是对剩余回归系数作显著性检验时p-value都小于α\alphaα,也可以是其他。
以上两种方法有一个共同的缺点——太过绝对,在向前引入法中,被引入的变量将永远被保留在方程中,即使它以后的显著性会变得很差;在向后剔除法中,被剔除的变量将永远被剔除出去,即使它以后可能会表现出很好的显著性。在某些情况下,这两种方法得到的回归方程会比较不合理,因此,逐步回归(Stepwise)综合了两种方法的优点,它以向前引入为主,但也包含向后剔除,一般会得出更为理想的回归方程。
逐步回归法的显著性水平包括向前引入的水平αin\alpha_{\rm in}αin和向后剔除的水平αout\alpha_{\rm out}αout,为了保证筛选过程经过有限步停止,要求αin≤αout\alpha_{\rm in}\le \alpha_{\rm out}αin≤αout,但在实际应用中,一般令αin=αout\alpha_{\rm in}=\alpha_{\rm out}αin=αout。
除了以上三种最优子集的变量筛选法,还有计算量很大的全子集法,以及计算量适中的选择法。全子集法,即选择所有可能的组合,mmm个自变量对应着2m−12^m-12m−1种组合方式,这对自变量情况很多的情形是不适用的,因为计算机无法承受指数增长的算法,但在自变量较少时,可以用R2R^2R2选择法、CpC_pCp选择法和修正R2R^2R2选择法来筛选全子集法的回归结果。
2.最优子集如何评判
我们在以上的变量筛选方法中,想要选择的都是“最优”的线性回归模型,但如何衡量这个优度?可能有人会想到用R2R^2R2来衡量,但这是不合理的,因为变量数越多,R2R^2R2自然会越大。一般来说,衡量的标度把不同,可能会造成最优线性回归模型的不同,本节就介绍一些评判最优子集的方法,接下来定义数据量为nnn,可用的自变量总数为mmm。最优子集的选择,总可以先找到变量个数为k(1≤k≤m)k(1\le k\le m)k(1≤k≤m)的最优子集,再在这mmm个最优子集中找到最优中的最优。
需要注意的是,由于变量越多总能在某些硬性指标上占优,所以选择子集的标准一定是包含变量个数kkk的一个函数。
准则1:均方误差s2s^2s2。对于元素个数为kkk的子集AAA,其均方误差为
s2(A)=QAn−k−1.s^2(A)=\frac{Q_A}{n-k-1}. s2(A)=n−k−1QA.
这是由子集AAA确定的回归模型中,偏差方差σ2\sigma^2σ2的无偏估计量。选择s2(A)s^2(A)s2(A)最小的作为最优估计。
准则2:CpC_pCp统计量。称不被放到回归方程中的那些不显著变量为无用变量,由部分有用变量构成的线性回归模型称为选回归模型,设有nnn个样本点c(i)c_{(i)}c(i),由选回归模型得到的估计值为y^i(k)\hat y_i(k)y^i(k),它与理论值c(i)βc_{(i)}\betac(i)β的偏差平方和(注意,不是与真实值的误差平方和)记作JkJ_kJk,则
Jk=∑i=1n[ci′β^(A(k))−c(i)′β]2σ2J_k=\frac{\sum\limits_{i=1}^n[c'_{i}\hat \beta(A(k))-c'_{(i)}\beta]^2}{\sigma^2} Jk=σ2i=1∑n[ci′β^(A(k))−c(i)′β]2
可以证明E(Jk)=E(Q(A(k)))/σ2−2(k+1)−n{\rm E}(J_k)={\rm E}(Q(A(k)))/\sigma^2-2(k+1)-nE(Jk)=E(Q(A(k)))/σ2−2(k+1)−n,取全回归模型的样本方差s2s^2s2为σ2\sigma^2σ2的估计时,这就是CpC_pCp统计量,即
Cp=Q(A(k))s2+2(k+1)−n,s2=Q(A(m))n−m−1.C_p=\frac{Q(A(k))}{s^2}+2(k+1)-n,\quad s^2=\frac{Q(A(m))}{n-m-1}. Cp=s2Q(A(k))+2(k+1)−n,s2=n−m−1Q(A(m)).
根据CpC_pCp统计量制定最优准则,可以是CpC_pCp统计量本身最小,也可以是∣Cp−(k+1)∣|C_p-(k+1)|∣Cp−(k+1)∣达到最小。
准则3:修正R2(R~2)R^2(\tilde R^2)R2(R~2)准则。记
R~2=1−n−in−k−i(1−R2),\tilde R^2=1-\frac{n-i}{n-k-i}(1-R^2), R~2=1−n−k−in−i(1−R2),
当模型包含截距项时i=1i=1i=1,否则i=0i=0i=0,最优准则是使得R~2\tilde R^2R~2最大的准则。
准则4:预测均方误差及平方和最小的准则。有以下几种统计量:
Jp(A)=(n+k+1)s2(A),Sp(A)=s2(A)n−k−2,PRESS(A)=∑i=1n(yi−y^i(i))2.J_p(A)=(n+k+1)s^2(A), \\ S_p(A)=\frac{s^2(A)}{n-k-2}, \\ {\rm PRESS}(A)=\sum_{i=1}^n(y_i-\hat y_i(i))^2. Jp(A)=(n+k+1)s2(A),Sp(A)=n−k−2s2(A),PRESS(A)=i=1∑n(yi−y^i(i))2.
使得这些统计量中某一个达到最小的是最优准则,这里y^i(i)\hat y_i(i)y^i(i)是删去第iii个点后用其余n−1n-1n−1个点观测数据建立的回归方程预测第iii个点的预测值。
准则5:AIC准则。定义AIC统计量为
AIC(A(k))=nlnQ(A(k))n+2(k+1).{\rm AIC}(A(k))=n\ln \frac{Q(A(k))}{n}+2(k+1). AIC(A(k))=nlnnQ(A(k))+2(k+1).
使得AIC统计量达到最小是最优准则。
实际运用时,选择不同的变量选择方法和最优准则,都有可能导致最优回归方程发生变化。
回顾总结
- 最优子集的筛选方法包括逐步回归(Stepwise)、向前引入(Forward)和向后剔除(Backward),其中逐步回归结合了向前引入和向后剔除的优点,比较常用。
- 全子集法的计算规模是2m−12^m -12m−1。
- 有若干种不同的最优准则,其中均方误差s2(A)s^2(A)s2(A)、CpC_pCp统计量、预测均方误差即平方和、AIC统计量都是越小越好的,而修正R2(R~2)R^2(\tilde R^2)R2(R~2)则是越大越好。
【多元统计分析】12.逐步回归相关推荐
- 多元统计分析及R语言建模_自定义函数: msaR.R
#*********************************************** #****** 多元统计分析及R语言建模(第五版)****** #****** 自定义函数: msaR ...
- 多元统计分析朱建平pdf_应用多元统计分析课后答案朱建平版[精心整理].doc
应用多元统计分析课后答案朱建平版[精心整理] 第二章 2.1.试叙述多元联合分布和边际分布之间的关系. 解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,的联合分布密度函数是一个p维的函数,而 ...
- 【应用多元统计分析】-王学民Python主成分分析例题,特征值处理和可视化(2)
title: "应用多元统计分析" subtitle: "书上题目" author: | OLSRR 由于字数限制,本文省去部分数据预览. 7.6 下表中给出的 ...
- 多元统计分析及R语言建模
目录 一.数据矩阵数据框及R表示 1.创建向量和矩阵 1)创建一个向量 2)创建一个矩阵 2.矩阵其他运算 1)矩阵的转置,加法减,矩阵相乘,求矩阵C的逆 2)获得矩阵对角线元素 ,创建三阶单位矩阵 ...
- 【多元统计分析】均值向量和协方差阵的检验——spss上机实验
均值向量和协方差阵的检验--spss上机实验 #参考书目为<多元统计分析>(第五版)--何晓群.中国人民大学出版社 #如有错误,请指正!谢谢~ #关注公众号搜索同名文章获取数据~ 习题2. ...
- 【应用多元统计分析】——第三章(1)
应用多元统计分析(2022春) 3.1 设 x ∼ N p ( μ , Σ ) , rank ( Σ ) = r , u ∼ N r ( 0 , I ) \boldsymbol{x} \sim N ...
- 多元统计分析及R语言建模(第五版)——第6章 判别分析课后习题
第6章 判别分析 文章会用到的数据请在这个网址下下载多元统计分析及R语言建模(第五版)数据 练习题 1)考虑两个数据集x1 = [3 7 2 4 4 7],x2 = [6 9 5 7 4 8] (1) ...
- python 多元线性回归_多元统计分析之多元线性回归的R语言实现
多元统计分析之多元线性回归的R语言实现 多元统计分析--multivariate statistical analysis 研究客观事物中多个变量之间相互依赖的统计规律性.或从数学上说, 如果个体的观 ...
- 数学建模——多元统计分析例题及程序
多元统计分析例题及程序 主成分分析 简述 基本思想 计算步骤 例题 程序 程序理解 因子分析 相关性分析 回归分析 一元回归例题 聚类分析 主成分分析 简述 主成分分析(Principal Compo ...
- 【多元统计分析】因子分析——SPSS上机实验(过程+结果分析)
实验数据来自于何晓群<多元统计分析>第五版例题6.3 数据获取请关注公众号:321红绿灯 回复:例6.3 即可获得 区域公用事业的发展是地区綜合发展的重要组成部分,是促进社会发展的重要因素 ...
最新文章
- java数据结构教程_Java数据结构
- 白夜:一文看懂AI项目流程及边缘设备开发
- 使用Xshell链接阿里的Linux服务器
- vue.js devtools的安装
- uTorrent for mac(BT下载客户端)v1.8.7中文版
- Ubuntu和window10 安装双系统
- php iis日志分析,星外系统IIS日志分析常用的几个命令小结
- mysql 断号查询_怎么查询SQL中连续编号中间的断号
- Android项目实战之(1)-- 开发一个快速冲浪的程序
- Cisco ppp链路单双认证
- Netty的前期准备:初探NIO中的缓冲区
- IT工作十年总结之2个COP对象
- POJ1321-Chess Problem(dfs基础题)
- Qt学习—qt编写定时关机程序
- 高通SDX55平台:Modem Loopback测试指导
- 熔断机制什么意思_熔断机制是什么意思 股市熔断是什么意思
- 行业如此内卷,品牌如何实现可持续招商增长?
- 大数据在生活中有哪些应用举例?大数据好找工作吗?
- 【uni-app】uni-app实现手写签名效果:
- 经典算法51(来测测你的编程基础)
热门文章
- 不均匀光照文本图像的二值化
- 【SSM架构】博客系统开发(七)-登陆界面
- 龙族幻想微信一区哪个服务器人多,龙族幻想哪个区人最多_龙族幻想哪个区人多一点...
- java设计模式_UML类图(上)
- 支付宝沙箱调试错误,请回到请求来源地,重新发起请求。错误代码 invalid-signature 错误原因: 验签出错 hutool JSONObject
- 《七十七天》中逼真到你无法察觉的奇妙特效
- 【Python画图01】一张图上两条线,坐标图例设置
- scratch简单编程
- 使用Caffe尝试DeepID
- 如何使用Facebook进行选品使用