残差“齐不齐”

关于残差

在多元线性回归中,我们想根据连续数据来进行预测。例如,我们有包含不同年份的资本投入,劳动力投入和技术水平的列表,并想预测当年的产出水平。或者,可能有一些人员流动频率的数据,并想预测某地的环境水平。当我们构建了一个回归模型时,首当其冲的一个问题是,我们如何评估模型的好坏?

这种时候第一反应,可能就是画一个残差图。在聊到残差图之前,我们先来讨论为什么重视残差。

什么是我们经常挂在嘴边的残差呢?在数理统计中,残差是指实际观察值与估计值(拟合值)之间的差值。残差蕴含了有关模型基本假设的重要信息。进一步理解,残差本质上是当一个给定的模型不完全符合给定的观察值时留下的间隙。如果回归模型正确的话,我们可以将残差看作误差的观测值。

打一个比方,如果模型挂了急诊科,大夫要测模型的残差水平,看看是否在正常范围内。如果偏离某项检测指标的合理水平,这个模型可能就得了病。

残差图的作用

普通最小二乘法我们都很熟悉,回归分析后的结果一定要用残差图来检查,以验证你的模型。那么问题来了,为什么一定是残差图呢?残差图又该怎么看呢?

残差图的“用武之地”

我们先回到回归模型的视角,对于一个有效的回归模型来说,可以细分出两个基本部分:响应=确定性+随机性。解释一下,由关于预测自变量的函数组成的预测模型中应该包含回归模型中所有可解释、可预测的信息;而在误差中不应该含有任何可解释、可预测的信息。既然模型中的确定性部分可以很好的解释或预测固有的随机响应,那么一旦在随机误差这一部分中发现有可解释或预测的信息,那就说明此时预测模型缺少了些可预测信息。回归残差作为真实误差的估计,这时候就可以派上用武之地了。

我们可以用残差图来估计观察或预测到的误差与随机误差是否一致。用一个抛硬币的例子加强理解:硬币有正反之分,我们早就学过如果硬币扔上几万次,那么扔出正反面的几率接近于1:1。也就是说,当你扔了很多次硬币,并且注意扔出的正反面结果的是,你会注意正面出现的频率是否遵循一个随机模式,其实也就是直观的产生一个随机分布的残差图,如果有人改造了硬币,让正面更容易出现,你心中的残差图看上去就似乎有了些规律,这是你会敏锐的发觉好像这个游戏里存在着一些问题。

同样的,对于回归模型而言,需要确定残差是否与随机误差相互呈现一致性,就像抛硬币子一样,残差若整体呈现“很古怪”的模式,就需要去修改回归模型了。

残差图的画法

不同于简单的扔硬币,在做一个回归模型时,我们自然而然会要想要心里有点数,也就是说我们要知道,我们期待的那个“正常的”OLS回归模型的随机误差到底是什么样子。如果一个线性回归模型没有重大缺陷,残差ε和解释变量X应该无关甚至独立。在前边的比喻中我们知道残差ε的均值,不能还对X有系统性地依赖。否则,残差ε里面应该还有可以被X解释的成分,这代表着模型改进的重大方向。因此,我们自然想到就是画一下自变量X和残差ε的散点图,看看是不是真的符合我们的预期。

但是问题来了,变量有好多个,到底画哪一个?偷懒的想法是,能不能把所有的X变量,通过加权组合,形成一个单一指标,然后画这个指标同残差ε的散点图?想法虽好,X的权重如何确定呢?这个时候就有了一个新点子,不如带着回归系数一起玩吧!如果大家同意,那么拟合值就可以承载这个使命。因此,这就产生了我们的残差ε图。横轴是拟合值,纵轴是残差ε的估计。

重点来啦!!!

对于残差ε图的分析

现在我们终于能回答前面那个例子了,我们想要的那个OLS估计的误差分布,到底应该长什么样子呢?首先,残差不应该成片的很高或很低,而是在拟合值的范围内,以0为中心。换句话说,模型的拟合应该平均散布在被拟合值点附近。而且,在OLS理论中,假设随机误差产生的是正态分布的残差。因此,残差应该是以对称的模式,并且在整个拟合范围内具有恒定均匀的扩散。

比如这样:

那要是残差ε图长得不规矩,模型存在什么问题呢?我们又怎么去解决呢?我们不妨从模型小感冒开始说,比如下面这个“残差不齐”的问题:

当残差ε的波动性随着拟合值的变化,出现系统性的变化规律时,就存在“异方差”,也就是随机误差项的方差不完全相等,在经济问题中常见递增型异方差。异方差影响的是估计效率,也就是说在有限样本的情况下,其相应的OLS的精度并非最优,但这个异方差存在影响并不严重。

那什么样的残差图代表模型病入膏肓呢?如果我们的残差ε图长得如下图所示,很可能之前的模型就要打碎重建了。

这个残差图传递了什么信息呢?它说明残差的“均值”(画个重点,不是方差),随着拟合值的变化呈现出了系统性地变化规律。这就是个大问题了。就好比,刚才只是某个时刻公司的资金流出现了变动,现在是长期里公司的现金流都存在着问题了。此时,我们基本宣告模型破产,改进方向是引入必要的“外资”,例如二次项。或者把公司“拆分重组”,干脆把数据根据某项指标,拆分成几项,分别拟合。这种情况下,无论采用什么改进手段,我们都确信应引入适当的非线性项,以提高拟合优度和预测精度。

总结

综上,在检验多元线性模型是否合理时,不妨打开软件绘制出一张残差全家福,如果照片里“残差不齐”,那就想办法换换站位和结构以改善模型,一家的残差,要整整齐齐。

文章作者:宋雪莹

图文排版:王佳润

更多内容咨询

请关注:NKDACS

多元线性回归的缺陷_轻松阅 | 多元线性回归的“参差不齐相关推荐

  1. 多元线性回归的缺陷_多元线性回归常见问题

    0.多元线性回归 多元线性回归是统计学中经常用到回归方法,一般需满足一下六个条件: 随机误差项是一个期望值或平均值为0的随机变量: 对于解释变量的所有观测值,随机误差项有相同的方差: 随机误差项彼此不 ...

  2. 多元线性回归的缺陷_多元线性回归模型常见问题及解决方法概要.ppt

    多元线性回归模型常见问题及解决方法概要 多元线性回归模型 基本假设 (1)随机扰动项ui数学期望(均值)为零.E(ui)=0 (2)随机扰动项ui的同方差性且无自相关Var(ui)=σ2 (3)解释变 ...

  3. 多元线性回归的缺陷_回归分析|笔记整理(7)——多元线性回归(下),违背基本假设的情况...

    大家好!我又出现了(*^__^*) 嘻嘻.刚结束PDE考试(不可避免的凉凉)我就赶紧过来完成了这一篇文章. 这一节我们会结束多元线性回归的内容,并且会努力结束下一个部分--违背基本假设的情况的相关内容 ...

  4. 多元线性回归中多重共线性_多重共线性如何在线性回归中成为问题。

    多元线性回归中多重共线性 Linear Regression is one of the simplest and most widely used algorithms for Supervised ...

  5. 多元线性回归matlab代码_医学统计|多元线性回归分析

    回归分析的定义:回归分析是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法.运用十分广泛.其表达形式为y = w'x+e,e为误差服从均值为0的正态分布.回归分析中,只包括一个自变量和一个 ...

  6. 机器学习线性回归学习心得_机器学习中的线性回归

    机器学习线性回归学习心得 机器学习中的线性回归 (Linear Regression in Machine Learning) There are two types of supervised ma ...

  7. 逻辑回归和线性回归的区别_机器学习简介之基础理论- 线性回归、逻辑回归、神经网络...

    本文主要介绍一些机器学习的基础概念和推导过程,并基于这些基础概念,快速地了解当下最热技术AI的核心基础-神经网络. 主要分为三大部分:线性回归,逻辑回归,神经网络. 首先看下机器学习的定义及常用的分类 ...

  8. 内核二分缺陷_缺陷跟踪

    1. 内核二分缺陷_缺陷跟踪 1.1 二分缺陷 # 利用git log 查看提交的历史记录 root@mouse:~/linux# git log --oneline 56e337f2cf13 (HE ...

  9. 线性回归csv数据集_数据科学的基石:统计学、机器学习、计算机科学(三)——线性回归...

    数据科学家们常说,所有的模型都是错的,但是,其中一些是有用的.如果一个"有用"的模型能够过滤掉数据中哪些不重要的细枝末节,抓住其主要的内在关系,从而帮助我们更好地理解数据.很多情况 ...

最新文章

  1. 技术图文:如何理解C#的internal限制修饰符?
  2. 收集的一些主流网站的GA代码
  3. HTML5实战—canvas绘图之贝塞尔曲线
  4. [LOJ#2270][BZOJ4912][SDOI2017]天才黑客
  5. 聚类分析1:层次聚类
  6. python连连看小游戏_利用Python制作一个连连看小游戏,边学边玩!
  7. PHP的IMAP函数
  8. 【杂文】【python】Python 对象的析构
  9. 【VS2015】 C++实现硬件ID的查询
  10. java教务排课系统计算机毕业设计MyBatis+系统+LW文档+源码+调试部署
  11. 星星之火-57:前传接口 CPRI的速率、能力、小区带宽之间的映射关系
  12. 汇新云为何给出严格的入驻审核标准?
  13. 雪夜拾到一部破旧的手机
  14. 电气图纸关于号码管的命名规则
  15. 集成平台即服务,云和……独角兽
  16. SQL 多个字段的值拼接成Josn
  17. DB2控制中心菜单中文乱码问题
  18. dp在约会上是什么意思_饭圈用语dp是什么意思什么梗? 饭圈为什么喜欢用缩写?...
  19. ConfigurationChanged流程梳理(屏幕旋转、语言及字体切换)
  20. Matlab代码测基于DEA-SBM模型的ml指数,gml指数

热门文章

  1. 本地提交到yarn_Flink on Yarn三部曲之三:提交Flink任务
  2. android id 重名_android - 解决“应用自定义权限重名”
  3. ssh-copy-id配置rsync免密访问并rsync同步
  4. Git SSH方式克隆远程仓库到本地
  5. maven构建Spring项目
  6. 将输入流读取成String后返回
  7. 常用雷达信号的matlab仿真_常用的雷达信号:基于DDS的线性调频信号的产生
  8. kali linux set工具,求助: 社会工程学工具set 出现错误for kali linux.
  9. mac 连接hbase的图形化界面_Mac 视觉史(二):90 年代失败 Mac 操作系统大赏
  10. MicroK8s及KubeFlow安装文档