A1 正交假定:误差项矩阵与X中每一个x向量都不相关
高斯-马尔科夫定理:若满足A1和A2假定,则采用最小二乘法得到回归参数估计是最佳线性无偏估计
方程估计值b1和b2可以看做偏回归系数,也是相应自变量对y的一种偏效应
偏效应:在控制变量下,各自变量X对因变量Y的净效应
残差项:针对具体模型而言,被定义为样本回归模型中观测值与预测值之差
误差项:针对总体真实回归模型而言,它由一些不可观测因素或测量误差所引起
纳入无关自变量并不影响OLS估计结果的无偏性,但是如果无关自变量如果与其他自变量相关,会导致相应回归系数(b1,b2)的标准误增大;换句话说,如果总体中无关自变量对y没有偏效应,那么把它加入模型只可能增加多重共线性问题,从而减弱估计的有效性。
因此,不要加入无关自变量,原因是

  1. 有可能错过理论上有意义发现
  2. 违背了简约原则
  3. 浪费了自由度
  4. 导致估计精度下降

如果忽略有关自变量可能有两种情况

  1. 所忽略的变量与模型中其他变量无关
  2. 所忽略变量与模型中其他变量有关
    针对第一种情况,最小二乘估计无偏,但对第二种情况,被忽略自变量成了误差项一部分,使得x2与误差项之间不再保持独立,因此,回归系数将是总体参数的有偏估计(看第8章)

对因变量取自然对数log作用在于:

  1. 我们关注焦点是自变量导致因变量改变的比例,而不是绝对量
  2. 取自然对数后因变量分布更趋近于正态分布, 这将有助于减小样本中异常值对回归估计的影响;另外,对因变量取自然对数,还能消除残差的异方差(乘法变加法)以及残差的非正态性

SST=SSE+SSR
SST的自由度为n-1,损失的自由度是由于我们用样本均值来估计总体均值
SSE的自由度是n-p,损失了p个自由度是由于因变量的估计值需要估计p个参数
SSR自由度为p-1,因为估计值y是由相同回归直线计算得到,而这条回归直线只有p个自由度,其中一个自由度损失是因为所有回归离差之和必须为0

MSR:回归均方
MSE:残差均方
MSR=SSR/(p-1)
MSE=SSE/(n-p)

判定系数(R^2):回归平方和占总平方和的比例
R^2=SSR/SST
当回归方程加入更多自变量:

  1. SST保持不变
  2. SSR会增加(至少不减少)
  3. SSE会减少(至少不减少)
  4. R^2会增加(至少不减少)
  5. MSR一般会增加
  6. MSE一般会减少
  7. 回归方程F检验值一般会增加
    注意:对于第5和第7项,当回归模型中加入不相关变量时,对解释平方和没有贡献,却消耗了更多的自由度,此时可能导致不好的模型

为什么自由度损失越少越好?

F检验:检验因变量Y和自变量x1,x2,x3…的线性关系是否显著,即判断所有的回归系数中是否至少有一个不等于0;我们不仅可以利用F检验来检验回归模型,还可以用它来检验模型中某个回归系数是否为0;F检验是比t检验更为一般的统计检验

拟合优度测量:拟合优度包含了判定系数,F检验和t检验
判定系数R^2:对模型整体拟合优度是一个有启发意义的测量,但它没有相应检验统计量
R^2=SSR/SST=SSR/(SSR+SSE)

回归分析两个常见问题:

  1. 加入了不相关的自变量,其后果是:
    #1. 错过有理论价值的发现
    #2. 违背简约原则
    #3. 损耗自由度:模型中多增加一个自变量将多消耗一个自由度,当样本量较少时,过度损耗自由度可能会造成回归方程无法求解
    #4. 降低估计精度:加入自变量过多,自变量间相关程度就可能增加,容易造成多重共线性,从而降低估计精度
  2. 忽略了关键的自变量

加入和删除自变量时,应该遵循两个标准:

  1. 加入自变量要有理论依据
  2. 用F检验来排除那些不相关的自变量

多重共线性:
不能仅凭自变量两两简单线性相关来判断是否存在共线性,判断共线性要基于整个自变量矩阵X来检查列向量组
多重共线性解决:

  1. 减少自变量
  2. 增加样本量
    3.换用数据
    多重共线性分为完全多重共线性和近似多重共线性,完全多重共线性不常见,但近似多重共线性很常见
    多重共线性几乎不可避免,因为自变量之间总会存在某种程度的相关,但只有当自变量之间线性关系高到一定程度才发生多重共线性问题
    多重共线性会导致参数估计值标准误增大等问题
    除完全共线性外,即使较强的多重共线性也没有违背多元回归分析的假定,即回归参数OLS估计仍然是无偏和一致的
    完全多重共线性问题对分类变量转化为虚拟变量也有指导意义,如季节问题,完全多重共线性会导致OLS估计有偏,因为它的矩阵是奇异矩阵,是不可逆的
    近似多重共线性是可以估计的,但是估计的误差很大,即回归参数估计值标准误过大,而回归系数估计的标准误过大会导致统计检验和推论不可靠
    多重共线性问题使得我们意识到不能在模型中无限度增加自变量数目,因为自变量的增加,使得每个自变量能被模型其他自变量解释的程度越来越高,复相关系数也越来越大,多重共线性问题越来越严重
    反映多重共线性程度指标VIF(方差膨胀因子)
    VIF=1/TOL=1/(1-R’^2)

判断是否存在严重近似共线性经验性原则:

  1. 自变量中最大方差膨胀因子VIF大于10
  2. 平均方差膨胀因子VIF明显大于1
    如果满足上述一条,则我们可认为存在严重的近似多重共线性问题

对于完全多重共线性处理,可以直接删除相关变量
但是对于近似多重共线性问题,我们一方面可以通过增大样本量,另外也可以通过将一定相关性变量综合成较少的几个变量,如利用主成分分析或因子分析等

多重共线性处理办法:

  1. 保留重要解释变量,去掉次要或可替代解释变量
  2. 改变解释变量形式
    ex:对横截面数据采用相对数变量,对于时间序列数据采用增量型变量
  3. 差分法
  4. 逐步回归分析
    逐步回归分析是将逐个引入自变量,引入条件时该自变量经F检验显著,每引入一个自变量后,对已选入变量进行逐个检验,如果原来引入的变量由于后面变量引入而变得不再显著,就将其剔除
  5. 主成份分析
    主成份分析的降维优势明显,主成分回归方法对一般多重共线性问题还是适用的,尤其是共线性较强的变量之间
  6. 偏最小二乘回归
  7. 岭回归(L2正则)
    岭回归通过最小二乘法改进允许回归系数有偏估计量存在而补救多重共线性方法,采用它可允许小的误差而换取高于无偏估计量的精度
  8. 增加样本容量
    多重共线性问题实质是样本信息不充分而导致模型参数不能精确估计,故追加样本信息是解决问题的一条有效途径

参考内容:
https://blog.csdn.net/zxd1754771465/article/details/73468689
https://blog.csdn.net/nieson2012/article/details/48980491/

回归分析中自变量取舍、检验及多重共线性处理(VIF)相关推荐

  1. 回归分析中自变量共线性_具有大特征空间的回归分析中的变量选择

    回归分析中自变量共线性 介绍 (Introduction) Performing multiple regression analysis from a large set of independen ...

  2. spss回归分析_回归分析中的简单斜率检验:用SPSS或jamovi实现

    哈哈,不简单的"简单效应",How old are you? 之前的两篇文章,我们已经深入探讨了如何用SPSS做方差分析中的简单效应检验,并且最终得到结论:要用GLM语句,不需要再 ...

  3. 统计|如何理解线性回归分析中残差检验的基本步骤

    本博文源于<商务统计>,旨在讲述如何对线性回归分析中已经拟合好的直线做残差分析.当谈起残差,必须了解残差是y的实际值和预测值之差. 线性回归模型的残差检验假定条件 线性假定:X与Y之间的关 ...

  4. 最小二乘法在回归分析中的演算过程

    最小二乘法在统计学的线性回归分析中是使用最广和最常见的方法.本博文主要讲最小二乘法在一元线性回归中的推算过程,当然多元线性回归的推算过程与一元线性回归是类似的. 首先,讲一下什么是回归分析:回归分析是 ...

  5. 回归分析中的p值和R方哪个更重要?

    在回归分析中,解释变量的回归系数p值和方程的R方哪个更重要?有人说,我们领域的研究似乎更看重p值,而不管R方这种说法值得商榷. 在统计上,回归系数的p值很重要,它是前提.但当涉及理论解释时,R方就更重 ...

  6. 线性回归分析中的哑变量

    最近偶尔在重温统计学,发现自己工作后用了各种高级的统计分析方法,各种统计模型,却忽视了统计学中一些最基础的知识,而这些知识是所有这些高级方法的基础,基础不扎实,高级方法用起来真觉得底气不足,今天看到哑 ...

  7. R语言使用car包的influencePlot函数将回归分析中的离群点(outlier)、杠杆(leverage)和影响(influence)的信息组合成一个高度信息量丰富的合成图

    R语言使用car包的influencePlot函数将回归分析中的离群点(outlier).杠杆(leverage)和影响(influence)的信息组合成一个高度信息量丰富的合成图 目录

  8. R语言survival包Surv函数创建生存对象、建立Cox回归模型(包含所有协变量)比较不同治疗方法生存率的差异、drop1函数计算cox回归模型自变量似然比检验值、删除冗余变量重新构建cox模型

    R语言使用survival包的Surv函数创建生存对象.建立Cox回归模型(包含所有协变量)比较不同治疗方法生存率的差异.使用drop1函数计算cox回归模型自变量似然比检验结果.删除冗余变量重新构建 ...

  9. 统计中的p-value检验

    最近和一个老同学讨论统计中的p-value检验问题,其中涉及到为什么需要用p-value来做假设检验的判断依据,上网查到了一个很好的例子: 教室里四位同学将装了若干数量的白球和黑球的箱子放在了课桌上, ...

  10. 回归分析中,简述几种残差的定义?性质?作用以及特点?

    回归分析中常用的残差有普通残差,学生化残差,删除残差,删除学生化残差.下面给出这几种残差的定义,性质,作用和特点. 回归分析的几种残差定义和性质 回归分析中回归诊断的主要内容 普通残差 学生化残差 删 ...

最新文章

  1. linux卸载rpm包
  2. MySQL单列索引与复合索引选择
  3. openfire 的配置文件
  4. 初识Xen-CentOS5.8_x64位系统安装xen文档(-)
  5. 大变革!苹果设计团队三名核心元老离职
  6. Java-发送邮件descriptor
  7. vba把图片转成二进制_70多岁日本老人用Excel画画,我用VBA将图片转成标注图
  8. 45. 正确区分count、find、binary_search、lower_bound、upper_bound和equal_range
  9. 冷门短视频带货玩法,零门槛赚钱项目
  10. AE无法输出h.264 安装Quick time也不好使的办法 本人使用 AE CC2019
  11. 瑞星杀毒软件影响Applet无法启动的解决方法
  12. 工业交换机的功率和网络管理方法
  13. IM开发干货分享:网易云信IM客户端的聊天消息全文检索技术实践
  14. window系统如何禁止运行指定程序
  15. 笔记本修改无线网卡MAC地址
  16. Java实现七牛云上传下载文件或图片
  17. 邮件服务器(postfix与squirrelmail)
  18. 2016年蓝桥杯预赛第十题最大比例
  19. SSD的SLC MLC 和TLC哪个好?
  20. 中国手机号段分部情况

热门文章

  1. ShockwaveFlash控件详解
  2. 凯明启示录:倒闭风潮刚开始
  3. Visual Studio Code的九九乘法表
  4. 基于词典方法和机基于器学习方法的中文情感倾向分析(Web)
  5. kubuntu14.10正式发布
  6. html添加B站视频,iframe嵌入BiliBili视频方法B站视频外链
  7. 应用程序错误(0xc0000135)
  8. 图样图森破 设置虚拟机优先级真的很容易?
  9. win10装机之天涯若比邻长时间卡死
  10. linux没有网卡配置文件,linux找不到网卡配置文件解决办法