https://editor.csdn.net/md/?articleId=105137945
其实上一篇讨论的多元线性回归还不是很全面,而且训练和测试集都没有分,在这里继续讨论多元线性回归模型检验的相关问题。

只要有P值的出现,样本量不超过5000,比如线性回归和逻辑回归;搞清楚算法背后的逻辑才是比较重要的。

多元线性回归需要关注一些什么点?R2和模型稳定性,也就是那些β是不是稳定的,检验模型是不是稳定需要对模型进行诊断。

多元线性回归的输出变量是连续变量,输入变量中如果包含离散变量需要做哑变量或One-hot编码,连续变量可以直接用来建模。

多元线性回归假设解释

多元线性回归需要满足的假设其实是比较强的,但是在机器学习或者是数据挖掘领域,后3条针对误差项(其实就是残差)的假设基本上被忽略了。
第1条: 看因变量y和自变量x之间的关系,可以通过绘制散点图,确定是线性、二次函数还是指数函数关系,根据这个来建立x和y之间的关系。后面的神经网络和SVM等模型就是为了方便找到x和y之间的关系。
第2条: 解释变量和随机扰动项不存在线性关系。我们想象一下,如果他们之间存在线性关系的话,是不是会导致回归系数估计的不准确啊,举个例子解释变量y是收入,x是受教育程度,并假设回归方程是 y = 0.5x + e,设想如果扰动项里面包含父母收入,实际上父母收入会影响孩子的收入y,那么回归系数估计值0.5是不是偏高了啊。那怎么解决这个问题呢,那就多纳入一些变量来参与建模吧,这也是多元线性回归存在的必要性,同时这也引出了一个变量筛选的问题。
第3条:解释变量之间不存在线性关系(或强相关)。在建模时,我们不但需要估计回归系数的均值,还需要估计回归系数的标准差:S(β)= S(e)/ |x|,那么如果解释变量x之间存在线性关系的话,分母趋向于0了,回归系数标准差趋于无穷大,所以多重共线性问题是需要去避免的。

多元线性回归诊断方法

如果扰动项是右偏,那么残差图肯定是异方差分布,取对数即可,所以下图中假设5和假设4可以说是一致的。

多元线性回归模型的诊断

(1)残差分析:实际上当残差不包含任何信息的时候是最好的,如果还包含一些信息,需要把这个信息提取出来。残差图的纵坐标是残差,横坐标可以是各个解释变量x,实际上在做单变量分析,解释变量x被解释变量y做相关性分析的时候就知道了;比如某个解释变量x和被解释变量y都是右偏,那么残差图肯定是异方差,同时取对数重新建模;如果某个解释变量x和被解释变量y存在抛物线关系,那么加入二次项重新进行建模;自相关一般在时间序列数据中比较常见。


(2)强影响点分析
为什么要做强影响点分析???因为有了强影响点的存在之后,会把本来没有关系的数据带出关系来,而且这个关系特别不稳定。比如下图,本来数据点之间没有什么关系,但是因为强影响点的存在之后,给数据带出来了这么一个线性关系出来,但这个关系是非常不稳定的,不具有大众性。

怎么解决强影响点分析问题???学生化残差(只做一次)。

|SR| = (残差 - 残差均值) / 残差标准差。
|SR| > 2,剔除掉满足条件的记录(几百个样本)
|SR| > 3,剔除掉满足条件的记录(几千个样本)

(3)共线性问题
可以参考下面的链接:https://www.sohu.com/a/326904117_100103806
共线性的判别指标:膨胀系数VIF、相关系数
共线性的解决方法:根据VIF和相关系数手动剔除变量、逐步回归法、岭回归。

多元线性回归模型检验-续上篇相关推荐

  1. 回归方程的拟合优度检验_计量经济学第四讲(多元线性回归模型:基本假定,参数估计,统计检验)...

    第三章.经典单方程计量经济学模型:多元线性回归模型 3.1多元线性回归模型及其基本假定 3.1.1多元回归模型及其表示 解释变量至少有两个的线性回归模型,一般形式为 如果不作说明, 是不包括常数项的解 ...

  2. 【统计学习系列】多元线性回归模型(五)——参数与模型的显著性检验:t检验与F检验

    文章目录 1. 前文回顾 2. 单参数显著性检验--t检验 2.1 问题的提出 2.2 检验统计量--t统计量的构造 2.3 拒绝域的构造 2.4 浅谈p值 3. 回归方程显著性检验--F检验 3.1 ...

  3. 【零基础Eviews实例】00了解多元线性回归模型常见检验

    使用说明 刚接触计量经济学和Eviews软件不久,并且本着能用就行的原则,只对软件的操作和模型的结果分析进行说明,并不太在意具体的方法和具体的数学原理. 以下内容大多为在网上学习相关操作,按照自己的理 ...

  4. Python 实战多元线性回归模型,附带原理+代码

    作者 | 萝卜 来源 | 早起Python( ID:zaoqi-python ) 「多元线性回归模型」非常常见,是大多数人入门机器学习的第一个案例,尽管如此,里面还是有许多值得学习和注意的地方.其中多 ...

  5. python多元线性回归模型案例_Python 实战多元线性回归模型,附带原理+代码

    原标题:Python 实战多元线性回归模型,附带原理+代码 作者 | 萝卜 来源 | 早起Python( ID:zaoqi-python ) 「多元线性回归模型」非常常见,是大多数人入门机器学习的第一 ...

  6. 《计量经济学》学习笔记之多元线性回归模型

    导航 上一章:一元线性回归模型 下一章:放宽基本假定的模型 文章目录 导航 3.1多元线性回归模型 一.多元线性回归模型 二.多元线性回归的基本假设 3.2多元线性回归模型的参数估计 四.参数统计量的 ...

  7. 原理 + 代码 | Python 实现多元线性回归模型 (建模 + 优化,附源数据)

    前言 多元线性回归模型非常常见,是大多数人入门机器学习的第一个案例,尽管如此,里面还是有许多值得学习和注意的地方.其中多元共线性这个问题将贯穿所有的机器学习模型,所以本文会将原理知识穿插于代码段中,争 ...

  8. 多元线性回归分析spss结果解读_SPSS--回归-多元线性回归模型案例解析

    多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程 为: 毫无疑问,多元线性回归方程应该为: 上图中的 x ...

  9. SPSS--回归-多元线性回归模型案例解析!(一)

    SPSS--回归-多元线性回归模型案例解析!(一) 多元线性回归,主要是研究一个因变量与多个自变量之间的相关关系,跟一元回归原理差不多,区别在于影响因素(自变量)更多些而已,例如:一元线性回归方程 为 ...

  10. 【超详细】多元线性回归模型statsmodels_ols

    多元线性模型的主要作用:(主要进行预测) 通过建模来拟合我们所提供的或是收集到的这些因变量和自变量的数据,收集到的数据拟合之后来进行参数估计.参数估计的目的主要是来估计出模型的偏回归系数的值.估计出来 ...

最新文章

  1. 升级造成eclipse插件失效
  2. 你必须承认电子计算机是天之骄子,天之骄子造句
  3. JAVA中参数传递问题的总结(按值传递和引用传递)
  4. OpenGL ES入门(使用指南)
  5. css3 选择器_IT兄弟连 HTML5教程 CSS3揭秘 CSS3概述
  6. 课节6: 图神经网络进阶模型之 ERNIESage下
  7. 阿里云存储负责人吴结生:安全可靠是云存储立身之本, 智能技术将激活存储技术新变革...
  8. python人门指南小说-致Python初学者们 - Anaconda入门使用指南
  9. 30+简约和平铺的WordPress复古主题
  10. c语言输出语句形式,c语言输出语句是什么
  11. 《电子元器件的可靠性》——3.6节恒定应力加速寿命试验
  12. Java8 Lambda表达式的特快处理流Stream快速入门
  13. 18. SELinux管理
  14. pycharm中导入模块
  15. 《Focal Loss GHM Loss Dice Los》论文笔记
  16. 自学大数据可以找到工作吗?该怎么学?
  17. Hadoop安装教4程_单机/伪分布式配置_Hadoop2.6.0/Ubuntu14.0
  18. DNA存储技术创造新纪录 存储容量已达200MB
  19. [益智]:为什么下水道的盖子是圆的?
  20. Python raw格式图像转png格式

热门文章

  1. oracle12c ora01017,ORACLE 12C 之 ORA-01017
  2. 7.2.5 dps 测试软件,dps排行榜网站_7.1.5dps排行榜分享DPS模拟常见上榜翻译2
  3. Python pip下载包时候出现下载中断,超时的情况
  4. 计算机维修的税收编码,维修费税收分类编码是多少?
  5. clover使用教程
  6. 海康威视硬盘录像机怎么连接萤石云
  7. 记静下心来从头学习PLC编程以及用C#开发OPC client 与PLC 交互
  8. Phpmailer指定多位收件人
  9. Ubuntu安装FreeSWITCH亲测
  10. 记LabVIEW宝典