文章目录

  • 什么是正态分布
  • 如何检验正态分布
    • 1.JB检验(样本数据n>30)
    • 2.Shapiro-wilk检验(样本数据50>n>3)
    • Q-Q图检验(要求数据量非常大)

什么是正态分布

正态分布,也称高斯分布,是以天才卡尔 · 弗里德里希 · 高斯的名字命名的。
当我们画出正态分布曲线时,我们可以看出该曲线是一个钟形的曲线,如果变量的均值、模和中值相等,那么该变量呈现正态分布。
正态分布只依赖与数据的两个指标:样本的均值和方差

  • 均值:样本所有数据的平均值
  • 方差:衡量样本全部数据偏离均值的程度

同时,正态分布非常容易解释,因为:

  • 正态分布的均值、模和中位数都是相等的
  • 我们只需要用均值和标准差就能解释整个分布

此外,值得注意的是:生活中有大部分的变量都近似服从正态分布

那为何如此多的变量都近似服从正态分布呢?这是由于中心极限定理。
(这里我就是稍微提一下,感兴趣的小伙伴可以去学习一下概率论)

如何检验正态分布

在数学建模中,我们在使用皮尔逊相关系数时首先会检验变量是否服从正态分布和线性相关,线性相关可以通过我们的散点图得知,而是否服从正态分布也有相应的检验方法。

1.JB检验(样本数据n>30)

雅克-贝拉检验(Jarque-Bera test)
对于一个随机变量{Xi}\left \{ X_{i} \right \}{Xi​}, 假设其偏度为SSS, 峰度为KKK, 那么我们可以构造JBJBJB统计量:
JB=n6[S2+(K−3)24]JB=\frac{n}{6}\left [ S^{2}+\frac{({K-3)}^{2}}{4} \right ]JB=6n​[S2+4(K−3)2​]
可以证明,如果{Xi}\left \{ X_{i} \right \}{Xi​}是正态分布,那么在n>30情况下JB∼χ2(2)JB\sim {\chi ^{2}\left ( 2 \right )}JB∼χ2(2)(自由度为2的卡方分布)。

注:正态分布的偏度为0峰度为3

偏度:表示概率分布密度曲线相对于平均值不对称程度
峰度:表示概率密度分布曲线在平均值处峰值高低,反映了峰部的尖度。

MATLAB中JB检验函数:[h,p]=jbtest(X,alpha)

当输出的h为1时,表示在95%置信水平下接受 数据符合正态分布 的假设;h为0时代表在95%置信水平下拒绝 数据符合正态分布 的假设。

alpha为显著性水平(一般取0.05),显著性水平+置信水平=1

n_c=size(X,2);  %求数据的列数(变量个数)
H=zeros(1,n_c);
P=zeros(1,n_c);  %初始化矩阵
for i=1:n_c[h,p]=jbtest(X(:,i),0.05);   %进行JB检验H(i)=h;P(i)=p;    %储存每列数据的h和p值
end
disp(H);
disp(P);

2.Shapiro-wilk检验(样本数据50>n>3)

Shapiro-wilk夏皮洛-威尔克检验

由于MATLAB中没有专门的函数来进行Shapiro-wilk检验,所以我用SPSS来进行Shapiro-wilk检验,检验数据是否符合正态分布。

  1. 导入或者输入数据
  2. 点击分析>>描述统计>>探索

  1. 点击’‘探索 图’’ >>标记’‘含检验的正态图’’ >> 点击继续>>确定

  1. 得到正态性检验图,观察显著性大小。


显著性的数值就是该变量的p值。
p<0.05,说明在95%置信水平下拒绝 数据符合正态分布 的假设;
p>0.05,说明在95%置信水平下服从 数据符合正态分布 的假设。

Q-Q图检验(要求数据量非常大)

在统计学中,Q-Q图(Q表示分位数Quantile)是一种通过比较两个概率分布的分位数对这两个概率分布进行比较的概率图方法。

首先选定分位数的对应的概率区间集合,在此概率区间上,点(x,y)对应于第一个分布的一个分位数x和第二个分布在和x相同的概率区间上相同的分位数。

如果检验的变量符合正态分布,那Q-Q图就是一条直线。使用Q-Q图鉴别样本数据是否近似正态分布,只需看Q-Q图上点是否近似在一条直线附近

qqplot(X);  %X必须是向量

如果我们的数据量较少的话,Q-Q图就不是那么明显表现在一条直线上。

如果我们的数据量足够多的话,Q-Q图明显表现在一条直线上,更加具有说服力。

这就是我们数学建模中常用检验正态分布的三种方法,到时候根据样本数据多少选择合适方法进行检验。

正态分布及其如何检验相关推荐

  1. ks检验正态分布结果_KS检验及其在机器学习中的应用

    KS检验及其在机器学习中的应用 什么是KS检验 Kolmogorov–Smirnov 检验,简称KS检验,是统计学中的一种非参数假设检验,用来检测单样本是否服从某一分布,或者两样本是否服从相同分布.在 ...

  2. python 方差齐性检验_Python数据科学:正态分布与t检验

    昨天介绍了两连续变量的相关分析,今天来说说连续变量与分类变量(二分)之间的检验. 通俗的来讲,就是去发现变量间的关系. 连续变量数量为一个,分类变量数量为两个. 总体:包含所有研究个体的集合. 样本: ...

  3. ks检验正态分布结果_ks检验(转)

    Kolmogorov-Smirnov是比较一个频率分布f(x)与理论分布g(x)或者两个观测值分布的检验方法.其原假设H0:两个数据分布一致或者数据符合理论分布.D=max| f(x)- g(x)|, ...

  4. 结合实例,直观理解正态分布、卡方分布、t分布、F分布和对应的Z检验、卡方检验、t检验、F检验

    1 正态分布与Z检验 1.1 理论 Z检验的目的是为了验证:已知一个总体服从均值,方差的正态分布,现在有一些样本,这些样本所代表的总体的均值是否为. 则构建一个统计量Z, (1) 式中,为样本均值,为 ...

  5. R语言学习——一元与多元正态分布检验(也可以用于其他分布的检验)

    文章目录 1 一元正态的评估 1.1 图像法 1.1.1 直方图 1.1.2 Q-Q图 1.2 峰度和偏度 1.3 统计检验 1.3.1 Shapiro-Wilks检验 1.3.2 Kolmogoro ...

  6. 用R语言做正态分布检验

    摘自:吴喜之:<非参数统计>(第二版),中国统计出版社,2006年10月:P164-165 1.ks.test()     例如零假设为N(15,0.2),则ks.test(x," ...

  7. 协整检验r语言代码_R语言学习笔记(一):时间序列分析

    ARIMA(p,d,q)模型全称为差分自回归移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA),AR是自回归, p为自回归项: ...

  8. python构建t检验(Student’s t-test)

    python构建t检验(Student's t-test) t检验,亦称student t检验(Student's t test),主要用于样本含量较小(例如n < 30),总体标准差σ未知的正 ...

  9. 单个正态总体均值的区间估计_考研数学闭关修炼习题讲解(3536)统计、估计与检验...

    锵锵锵!终于到了收官的时候,是的,没有看错,我们终于刷完了<闭关修炼>!今天的内容是统计.估计与检验,对应闭关修炼第35和36讲,一共有10个题,是又一个大题出题点,大家要小心,首先庆祝一 ...

  10. R开发(part4)--分布检验与R语言

    学习笔记,仅供参考,有错必纠 参考自:<R的极客理想>-- 张丹 文章目录 R开发 分布检验 R开发 分布检验 均匀分布的分布检验 Kolmogorov-Smirnov连续分布检验是检验单 ...

最新文章

  1. ACMNO.19 C语言-对角求和 求一个3×3矩阵对角线元素之和。 输入 矩阵 输出 主对角线 副对角线 元素和 样例输入 1 2 3 1 1 1 3 2 1 样例输出 3 7
  2. python 函数参数类型检查
  3. 无法添加选择的Web部件
  4. 做后台支付系统,你要注意这些!!!
  5. 从0到1,从概念到国际标准,蚂蚁共享智能凭什么?
  6. mpvue 调起子组件的方法_什么是锦鲤PH值,PH调整方法有哪些?
  7. 使用Guava MapSplitters配置Hadoop
  8. java 方法参数绑定_java在注解中绑定方法参数的解决方案
  9. opengl启动过程
  10. icache的方面以及使用
  11. VBOX下安装RHEL5.4增强工具失败的解决办法
  12. 游戏中的心理学(一):认知失调有前提条件
  13. 虚拟计算机 win7,Win7电脑安装虚拟机的方法?
  14. 深度学习:用生成对抗网络(GAN)来恢复高分辨率(高精度)图片 (附源码,模型与数据集)
  15. storm tread 耐克_耐克 Nike Air Zoom Pegasus 35 Shield 登月35代跑鞋
  16. 移动架构11_建造者模式
  17. 40w粉整700w活,一支恰饭作品让B站用户直呼“甲方赚了”
  18. 学生专用计算机怎样开启关机,怎么设置电脑自动关机?
  19. 解决win10右键桌面出现闪屏问题
  20. 机器翻译seq2seq+Attention(理论+代码)

热门文章

  1. SIM868当主控定位器开发
  2. 操作系统-进程管理(信号量机制)
  3. 在windows 2003 中,启动SQL Server 2000 提示“没有找到MSVCR71.dll因此这个应用程序未能启动”
  4. MySQL 数据库备份(完全备份与恢复)
  5. pb 实现后台自动打印pdf 文件
  6. h5难做吗_H5如何制作?制作H5是否很难?-
  7. 使用rufus-3.8 制作启动U盘安装Windows severs 2019
  8. C语言使用栈和队列实现停车场管理
  9. Ignite学习日志1——入门example
  10. CTWing-中国电信IoT物联网平台设备接入实战