写在前面:不得不说《白话统计》这本书真的太赞了,它让我再次感受到统计的魅力,我觉得一个高水平的人是能够把知识以通俗易懂的方式表达出来,这让我兴奋,真的推荐大家去看下。

1. 什么是正态性和方差齐性

正态性(Normality),严格来说是残差要复合正态分布,不过实际中很多人直接对因变量采用正态性检验,多数情况下二者差不多。

方差齐性(Equality of Variances),也就是方差相等。对于每一个x取值,因变量y或者说其残差基本相等。

2.为什么要进行正态性检验和方差齐性检验

正态性和方差齐性是经典统计模型应用的两个前提条件,如t检验、方差分析、线性回归都需要满足这两个条件。

实际中这两个条件并不十分苛刻,根据这两个概念简单理解就是,我们在进行t检验或者方差分析时需要看下这个数据的“正态不要偏得太严重”和“各组方差不要差得太大”就行了。

3. 如何进行正态性的检验

3.1 统计检验方法

(1)基于峰度和偏度的SW检验

SW检验,即Shapiro-Wilk检验,主要通过峰度和偏度来说明是否符合正态分布。

峰度,来描述分布形状是平坦还是尖峰。

偏度,来描述分布形状是否对称。

对于正态分布而言,其峰度和偏度都为0。如果某个分布的峰度大于0则表示为尖峰,小于0则表示为平坦峰。如果偏度大于0,则表示右偏态(正偏态),如果偏度小于0,则表示左偏态(负偏态)。

(2)基于拟合优度的KS、CVM和AD检验

拟合优度的主要思想是,计算理论(正态)分布与基于数据得到的分布之间的差异,差异小则说明实际分布为正态分布。

正态分布的拟合优度检验思路是:先求出正态分布的累积概率函数,然后看一下样本数据与该函数差异有多大。

KS(Kolmogorov-Smirnov)、CVM(Cramer-von Mises)和AD(Anderson-Darling)这三种检验都是基于这一思想,区别在于对“差异”的定义:KS采用理论分布与实际分布差别的绝对值,CVM是差别的平方,AD则对CVM进一步改进。

3.2 描述性方法

有时候通过统计检验的方法并不能得出真实数据是否满足正态分布的结论,因此我们还需要一些描述性方法进行判断。

(1)Q-Q图和P-P图

Q-Q(Quantile-Quantile)图,即分位数-分位数图。在Q-Q图中,横坐标是正态分位数,纵坐标是实际数据的分位数。如果符合正态分布,那么图中所有的点应该呈现出一条直线。

P-P(Probability-Probability)图,和Q-Q图类似,只是采用的是累积概率。

(2)茎叶图

(3)利用四分位数间距和标准差进行简易判断

4. 如何进行方差齐性的检验

4.1 方差分析中的方差齐性判断

方差分析中的方差齐性检验,就是判断两组或者多组的方差是否相等。

(1)方差比(F ratio):先算出两组的方差,然后用大的除以小的,如果F值很大,则说明两组方差较大,可以认为方差不等。

(2)Hartley检验主要用于多组方差齐性的检验,用最大的方差除以最小的方差得到F值。

(3)Levene检验:基于每一组内的每一个观测值与各组均值的偏离程度。如果均值换成中位数和截取平均数,方法演变为BF法。

不同方法在数据分布服从正态分布的时候结论一致,但是如果数据分布是偏态的,则无法保证。

4.2 理解线性回归中的方差齐性

(1)BP(Breusch-Pagan)法

一般线性回归中每个x仅对应一个y,无法计算方差,我们可以分析某个x的一定取值范围内对应的y的方差,通过绘制散点图来观察其方差是否有差异。

BP法主要是通过构建y与x的线性回归模型y=a0 + a1x1 + a2x2,如果其对应的系数ai为0则表明满足方差齐性。

(2)White检验

White检验的思想和BP检验的思想差不多,只是White检验考虑了各个变量的高次项这种非线性趋势。

《白话统计》笔记之正态性与方差齐性相关推荐

  1. bartlett方差齐性检验_R语言实用教程-数据正态性以及方差齐性检验

    第一节:数据正态性分析 数据是不是正态分布是接下来选择正确的分析方法的基础.因为通常的方差分析用到的都要求是正态分布的数据(或者经过转换之后为正态的数据).而数据如果不满足正态性,那么通常要选择非参数 ...

  2. 如何检验数据样本的正态性?

    正态分布是自然界中最常见的也是一种最重要的分布.因此,人们在使用统计分析方法时,总是乐于正态假定,但该假定是否成立,就需要进行正态性检验了. 定义: 指如果一组观测值来自正态总体.具有正态分布的特性, ...

  3. R语言和医学统计学(10):正态性和方差齐性检验

    本文首发于公众号:医学和生信笔记,完美观看体验请至公众号查看本文. 医学和生信笔记,专注R语言在临床医学中的使用,R语言数据分析和可视化. 文章目录 前言 正态性检验 shapiro wilk检验 k ...

  4. 正态性/方差齐性检验及stata实现

    前言 无论是进行 t 检验还是方差分析,尤其是在小样本的情况下,资料都必需满足一定的条件,即①独立性,②方差齐性,③正态性.独立性最为重要,但一般都能满足.如果对同一个实验对象进行重复测量,则同一对象 ...

  5. R语言普通最小二乘(OLS)回归说明、以及构建普通最小二乘(OLS)回归需要满足的四个假设(Normality(正态性)、Independence(独立性)、Linearity(线性度)、方差齐性)

    R语言普通最小二乘(OLS)回归说明.以及构建普通最小二乘(OLS)回归需要满足的四个假设(Normality(正态性).Independence(独立性).Linearity(线性度).方差齐性) ...

  6. R语言回归模型构建、回归模型基本假设(正态性、线性、独立性、方差齐性)、回归模型诊断、car包诊断回归模型、特殊观察样本分析、数据变换、模型比较、特征筛选、交叉验证、预测变量相对重要度

    R语言回归模型构建.回归模型基本假设(正态性.线性.独立性.方差齐性).回归模型诊断.car包诊断回归模型.特殊观察样本分析.数据变换.模型比较.特征筛选.交叉验证.预测变量相对重要度 目录

  7. R语言Kolmogorov-Smirnov假设检验(正态性检验):检验数据的正态性

    R语言Kolmogorov-Smirnov假设检验(正态性检验):检验数据的正态性 目录 R语言Kolmogorov-Smirnov假设检验(正态性检验):检验数据的正态性

  8. 用 BOX-COX 变换进行数据正态性处理

    笔者之前写了题为<用Python讲解偏度和峰度>的文章,在那篇文章里,笔者介绍了偏度.峰度以及如何基于二者进行数据正态性的判断,而今天笔者将介绍一下如何将数据进行正态性转换. 在我们进行数 ...

  9. 利用Matlab考察数据的边缘正态性 作Q_Q图

    一.实验数据 需要考察多个变量的边缘正态性 二.考察边缘正态性 1.原理 可以通过对每个变量的样本观测值的边缘分布作Q_Q图和计算相关系数 r_Q 来考察. Matlab自带有作Q_Q图的函数qqpl ...

最新文章

  1. 分裂游戏(bzoj 1188)
  2. Iphone 安装 ppsspp
  3. python管理包管理工具pip和conda使用,及使用pip和conda创建虚拟环境
  4. 面试题及答案_NET
  5. 《大型网站技术架构》读书笔记三:大型网站核心架构要素
  6. 为了不被OUT,UC决定不再安静地做个浏览器了
  7. 电脑磁盘空间不足怎么办_Mac磁盘总是提示空间不足?学会这几招,瞬间腾出几个G...
  8. VMware虚拟机的网络设置
  9. Slim生成的ckpt文件转PB文件
  10. 七牛云 rs.php 没有,设置了callbackUrl,七牛只是在客户端上打印了json格式的key和hash,居然没有按照设置跳转回来..怎么弄?...
  11. 最速梯度下降法及matlab实践,最速下降法以及代码实现
  12. Delphi2010及注册码下载地址
  13. 条件表达式的学习和使用 实例之闰年的判断
  14. python怎么建立索引_python建立索引
  15. DLL文件如何还原打开方式
  16. C++ 输出cout
  17. wsl2使用vscode无法写入文件permission denied解决方法
  18. 计算机画图学生作品小学,电脑绘画作品_需要一件小学生电脑绘画作品
  19. QT——开发入门简介
  20. 【写论文用到的几个偷懒的网站和软件】

热门文章

  1. C语言之将长整型数中每一位上为奇数的数依次取出,构成一个新数放在t中。高位仍在高位,低位仍在低位。
  2. 2020年外贸软件排名和市场占有率
  3. 国内外开源分析及实践
  4. 通信网络与IP网络知识梳理
  5. 购房新政:减免住房交易税 放宽还迁房上市条件
  6. 2022 社会计算创新大赛--交通量预测
  7. VisualRoute for Mac OS 体验 1
  8. 【MySql】存储毫秒级日期以及PHP时间戳格式转化
  9. 华为nova9系列新品发布:开启Vlog拍摄新玩法
  10. 基于snownlp及朴素贝叶斯的情感分析——以大众点评网评论为例