转载自:http://blog.163.com/zzz216@yeah/blog/static/16255468420121021014282/?suggestedreading&wumii

如何在spss中进行正态分布检验

   一、图示法

1、P-P图

以样本的累计频率作为横坐标,以安装正态分布计算的相应累计概率作为纵坐标,把样本值表现为直角坐标系中的散点。如果资料服从整体分布,则样本点应围绕第一象限的对角线分布。

2、Q-Q图

以样本的分位数作为横坐标,以按照正态分布计算的相应分位点作为纵坐标,把样本表现为指教坐标系的散点。如果资料服从正态分布,则样本点应该呈一条围绕第一象限对角线的直线。

以上两种方法以Q-Q图为佳,效率较高。

3、直方图

判断方法:是否以钟形分布,同时可以选择输出正态性曲线。

4、箱式图

判断方法:观测离群值和中位数。

5、茎叶图

类似与直方图,但实质不同。

二、计算法

1、偏度系数(Skewness)和峰度系数(Kurtosis)

计算公式:

g1表示偏度,g2表示峰度,通过计算g1g2及其标准误σg1σg2然后作U检验。两种检验同时得出U<U0.05=1.96,即p>0.05的结论时,才可以认为该组资料服从正态分布。由公式可见,部分文献中所说的"偏度和峰度都接近0……可以认为……近似服从正态分布"并不严谨。

2、非参数检验方法

非参数检验方法包括Kolmogorov-Smirnov检验(D检验)和Shapiro- Wilk (W 检验)。

SAS中规定:当样本含量n ≤2000时,结果以Shapiro – Wilk(W 检验)为准,当样本含量n >2000 时,结果以Kolmogorov – Smirnov(D 检验)为准。

SPSS中则这样规定:(1)如果指定的是非整数权重,则在加权样本大小位于3和50之间时,计算Shapiro-Wilk 统计量。对于无权重或整数权重,在加权样本大小位于3 和 5000 之间时,计算该统计量。由此可见,部分SPSS教材里面关于"Shapiro – Wilk适用于样本量3-50之间的数据"的说法实在是理解片面,误人子弟。(2)单样本 Kolmogorov-Smirnov 检验可用于检验变量(例如income)是否为正态分布。

对于此两种检验,如果P值大于0.05,表明资料服从正态分布。

三、SPSS操作示例

SPSS中有很多操作可以进行正态检验,在此只介绍最主要和最全面最方便的操作:

1、工具栏--分析—描述性统计—探索性

2、选择要分析的变量,选入因变量框内,然后点选图表,设置输出茎叶图和直方图,选择输出正态性检验图表,注意显示(Display)要选择双项(Both)。

3、Output结果

(1)Descriptives:描述中有峰度系数和偏度系数,根据上述判断标准,数据不符合正态分布。

Sk=0,Ku=0时,分布呈正态,Sk>0时,分布呈正偏态,Sk<0时,分布呈负偏态,时,Ku>0曲线比较陡峭,Ku<0时曲线比较平坦。由此可判断本数据分布为正偏态(朝左偏),较陡峭。

(2)Tests of NormalityD检验和W 检验均显示数据不服从正态分布,当然在此,数据样本量为1000,应以W检验为准。

(3)直方图

直方图验证了上述检验结果。

(4)此外还有茎叶图、P-P图、Q-Q图、箱式图等输出结果,不再赘述。结果同样验证数据不符合正态分布。

许多计量资料的分析方法要求数据分布是正态或近似正态,因此对原始独立测定数据进行正态性检验是十分必要的。

通过绘制数据的频数分布直方图来定性地判断数据分布正态性。这样的图形判断决不是严格的正态性检验,它所提供的信息只是对正态性检验的重要补充。

正态性检验主要有三类方法:

一、计算综合统计量

如动差法、夏皮罗-威尔克Shapiro-Wilk 法(W 检验) 、达戈斯提诺D′Agostino 法(D 检验) 、Shapiro-Francia 法(W′检验) .

二、正态分布的拟合优度检验

如皮尔逊χ2 检验 、对数似然比检验 、柯尔莫哥洛夫Kolmogorov-Smirov 法检验 .

三、图示法(正态概率图Normal Probability plot)

如分位数图(Quantile Quantileplot ,简称QQ 图) 、百分位数(Percent Percent plot ,简称PP 图) 和稳定化概率图(Stablized Probability plot ,简称SP 图) 等.

下面介绍几种较统计软件中常用的正态性检验方法

1、用偏态系数和峰态系数检验数据正态性

偏态系数Sk,它用于检验不对称性;峰态系数Ku,它用于检验峰态。 S k= 0, K u= 0 时, 分布呈正态, S k> 0 时, 分布呈正偏态,S k < 0 时, 分布呈负偏态。适用条件:样本含量应大于200

2、用夏皮罗-威尔克(Shapiro-Wilk)法检验数据正态性

即W检验,1965 年提出,适用于样本含量n ≤50 时的正态性检验;。

3、用达戈斯提诺(D′Agostino)法检验数据正态性

即D检验,1971提出,正态性D检验该方法效率高,是比较精确的正态检验法。

4、Shapiro-Francia 法

即W′检验,于1972 年提出,适用于50 < n < 100 时的正态性检验。

5、QQ图或PP图

散点聚集在固定直线的周围,可以认为数据资料近似服从正态分布

SPSS&SAS规则:
SPSS 规定:当样本含量3 ≤n ≤5000 时,结果以Shapiro - Wilk (W 检验) 为难,当样本含量n > 5000 结果以Kolmogorov - Smirnov 为准。

而SAS 规定:当样本含量n ≤2000 时,结果以Shapiro - Wilk (W 检验) 为准,当样本含量n >2000 时,结果以Kolmogorov - Smirnov (D 检验) 为准

问:对照组和病例组都是20例,拟对某指标进行正态性检验,是用Kolmogorov-Smirnov检验(简称K-S检验),还是Shapiro-Wilk检验?已用K-S检验不能认为该指标不是正态分布,但是Shapiro-Wilk检验表明其为非正态分布,我该相信哪个检验结果?答:Kolmogorov-Smirnov检验:检验频数分布的正态性检验,适合大样本。Shapiro-Wilk检验:小样本数据的正态性检验。矩法正态性检验: 不限样本。问:用SPSS中analysze/discriptive statistics/explore法和用analyze/nonparametric tests/1-sample K-S法评价正态性,结果不完全相同,为什么?答:以第二个为准,第一种方法是参数检验,而第二种是非参数检验,第一种是在知道总体分布的情况下做的,第二种是在不知道总体分布的情况进行的检验,而且大多数的检验,我们都是不知道总体分布到底是什么才做的K-S检验。 

因此在做分析的时候一般用第二种,标准的检验单样本分布的方法。不过一般推荐用上面的,并且和SAS的结果比较吻合。同时样本量小的时候选S-W的结果,至于结果的不同,应该是不同的方法算出的值不同,这很正常,因为这几个方法的数学表达式就不一样,中间对数据的处理也不一样,会有信息损失等原因的,在正态检验中,尤其是接近α水准时,往往容易出现问题,所以要根据资料的性质判断用什么方法进行检验更合适。不是把所有的方法都做一遍。对于到底P取多少才有意义,说法有好多种,常用的是0.1 吧,SPSS自带的是0.2的界值。其实还是得结合QQ,PP图之类的来观察会好些。小样本最好不要看Kolmogorov-Smirnov的结果,常常会有问题,Shapiro-Wilk 的结果会好些。补充:如果根据国标,其偏态和峰态算法,其值为多少时符合正态别有规定呢?K-S检验记得在资料上见过8<=n<=50时可以利用,小样本就不推荐,W检验在国标中不推荐,具体原因未知,不过,推荐了EPPS-PULLEY法(在SPSS,SAS软件中未见有这种检验,但有针对的软件对该法有独立开发)。问:那为什么用analysze/discriptive statistics/explore法的结果中,nonparametric tests 图下有一句话:test distribution is normal。这句话和P值不就矛盾了吗? 答:这个是对前面给出均数标准差时候的一个假定,因为如果不服从正态,给出这两个参数是没有实用价值的,或者说是错误的,所以它给了一个假定。你看a,b标注在什么地方?

问:大样本的非正态资料可看作近似正态分布的资料,那么其描述能不能用均数加减标准差来表示呢?一定要用中位数和四分位数间距来表示吗? 答:"大样本的非正态资料可看作近似正态分布的资料"这是基于中心极限定理,大样本均数服从正态分布,可用U检验进行两组均数的比较。并非大样本的非正态资料可看作近似正态分布的资料。大样本资料的描述可以用均数加减标准差。 数据的描述正态 X±S 非正态 M(QR) (M代表中位数,QR=Q3-Q1,代表四分位数间距)非正态资料也有用 M(P25,P75)来进行描述的,能够更直观的看到数据的分布形状

疑问:这儿有个值得考虑的问题,多大属于大样本?如果样本是我们常说的"大样本"那么只能说明样本参数是符合正态分布。就样本资料来说,如果这个样本的资料偏态严重,那么就不适合采用均数加减标准差来对这个样本资料进行描述。

问:SPSS中只有关于t检验的程序,请问U检验的程序在哪里呢? 答:U检验SAS程序(只有样本量、均数、标准差的情况)data utest;n1=116; x1=0.2189; s1=0.2351;n2=125; x2=0.2280; s2=0.2561;u=(x1-x2)/sqrt(s1**2/n1+s2**2/n2);p=(1-probnorm(abs(u))*2;proc print;var u p;run;SAS的正态性检验PROC UNIVARIATE DATA=data1 NORMALVAR x;RUN;

注:以上问题即回答来自各大论坛,本工作室对其进行整理,和修正,以方便读者。如有不妥支出,请及时帮我们斧正,谢谢!如有与"GBT4882-2001数据的统计处理和解释-正态性检验"冲突的,请参照国标。下载地址http://www.tj911.cn/netdisk/GetFile.asp  提取码:09042123310309MMH

两种正态性检验方法差异比较

SPSS 2010-06-26 13:20:34 阅读56 评论0 字号:大中小

SPSS里面有两处可以检验数据正态性,
一个是: Analysis - Descriptive Statistics --Explore,这可能是常用的方法

另一处是:Analysis -Nonparametric tests -- One sample K-S test,

两个地方虽然都用到了名称相同的Kolmogorov-Smirnov Test,但是经常会出现检验的结果不一致的情况。

比如就用SPSS自带的数据Anxiety 2.sav,分别对trial1-trial4的检测值做正态性检验
用EXPLORE得出的结果是:

而用NPAR做出的结果是:

在'探索'里出现的Kolmogorov-Smirnov检验,它的右上角有一个a的注释号。
下面的介绍表明它是经过Lilliefors改进或纠正的结果。
它将Kolmogorov-Smirnov检验改进用于一般的正态性检验。
 
而在'非参数检验'里出现的Kolmogorov-Smirnov检验,是没有经过纠正或改进的。
该正态性检验只能做标准正态检验。

SPSS规定:当样本含量3≤n≤5000时,结果以Shapiro—Wilk(W 检验)为难,当样本含量n>5000结果以Kolmogorm —Smimov(D检验)为准。
 
SAS规定:当样本含量n≤2000时,结果以Shapim—Wilk(W 检验)为准,当样本含量n>2000时,结果以Kolmogorov—Smimov(D检验)为准。
 
在SPSS和SAS等统计分析软件中,通常用统计描述模块中的Shapiro-Wilk检验、经过Lilliefors显著水平修正的Kolmogorov—Smirnov检验和非参数检验模块中的单一样本Kolmogorov—Smirnov检验进行正态性判定。但是这几种检验方法存在以下几方面的问题。
(1)在实际应用中常出现检验结果与直方图、正态性概率图不一致,甚至几种假设检验方法结果完全不同的情况。
(2)Shapiro—Wilk检验(Ⅳ 检验)和经过Lilliefors显著水平修正的Kolmogorov—Smirnov检验(D检验)是用一个综合指标(顺序统计量Ⅳ或D)来判定资料的正态性由于两种方法都是用一个指标反映资料的正态性,所以当资料的正态峰和对称性两个特征有一个不满足正态性要求时,两种方法出现假阴性错误的机率均较大;而且两种方法的检验统计量都是进行大小排序后得到,所以易受异常值的影响。
(3)Kolmogorov—Smirnov单一样本检验是根据实际的累计频数分布和理论的累计频数分布的最大差异来检验资料的正态性,可对正态分布进行拟合优度检验。但它并非检验正态性的专用方法,因此它的检验效率是最低的,最容易受样本量和异常值等因素的影响。
 没有修正的K-S检验的原始公式里面,检验的既是标化后的数据是否服从理论的分布。

正态性检验(上)

2008-04-25 10:45

1. 样本量较大时的结果:

运用的数据是SPSS13.0Data里面的diameter_sub.sav,样本含量是216

对数据分别支用SAS和SPSS进行正态性检验:

1.1 SAS中用Proc univariate normal;命令

结果如下:

Tests for Normality

Test --Statistic--- -----p Value------

Shapiro-Wilk W 0.993604 Pr < W 0.4813

Kolmogorov-Smirnov D 0.057717 Pr > D 0.0789

其中SAS中SAS 规定:当样本含量n ≤2000 时,结果以Shapiro - Wilk (W 检验) 为准,当样本含量n >2000 时,结果以Kolmogorov - Smirnov (D 检验) 为准。

1.2 SPSS里面用Explor过程Plots选项中Normality Plots with tests

结果如下:

    Tests of Normality

Kolmogorov-Smirnov(a)

Shapiro-Wilk

Statistic

df

Sig.

Statistic

df

Sig.

AP diameter(mm)

.058

216

.070

.994

216

.476

a Lilliefors Significance Correction

对于SPSS结果选用哪个方法,我看的资料并不一致:在SPSS13.0书上以样本量≤50,选Shapiro - Wilk 检验,(而有文献SPSS说样本含量3 ≤n ≤5000 时,结果以Shapiro - Wilk (W 检验) 为准,有出入)

1.3 在SPSS13.0中单样本的K-S拟合优度检验讲到:可以用来检验样本的分布是否服从某种理论分布――可以是正态、均匀等。用上述例子选Normal分布进行计算

结果如下:

    One-Sample Kolmogorov-Smirnov Test

 

AP diameter(mm)

N

216

Normal Parameters(a,b)

Mean

14.4421

Std. Deviation

.71728

Most Extreme Differences

Absolute

.058

Positive

.032

Negative

-.058

Kolmogorov-Smirnov Z

.859

Asymp. Sig. (2-tailed)

.451

a Test distribution is Normal.

b Calculated from data.

数据的正态性检验汇总相关推荐

  1. 2021年全网最详细大数据常见端口汇总❤️【建议收藏】❤️

    目录 大数据常见端口汇总 一.Hadoop 二.Zookeeper 三.Hbase 四.Hive 五.Spark 六.Kafka 七.Flink 八.Flume 九.Redis 十.CDH 十一.HU ...

  2. 二、深度学习数据增强方法汇总

    深度学习模型训练数据增强方法汇总 一.随机裁剪 二.RGB-->BGR通道互换 三.仿射变换(缩放) 三.随机旋转 四.对比度调整 五.随机抠图 六.bound box 中心点随机抠图 七.随机 ...

  3. 大数据人工智能物联网论文_物联网学报“大数据”相关论文汇总

    戳上面的蓝字关注我们哦! <物联网学报>"大数据"相关论文汇总  (点击题目即可跳转至指定论文) [1]龚淑蕾, 李堃, 童恩, 等. 基于蜂窝工业物联网的智能工厂解决 ...

  4. Python Pandas 列数据筛选方法汇总

    Pandas 列数据筛选方法汇总 数据准备: 一.筛选得到指定的列 1.1 根据 label 选择特定的几列 1.2 选择单列的两种方式 1.3 通过正则表达式选择列 二.同时对 行 和 列 进行筛选 ...

  5. ks检验与s-w 检验_简单的方法教会你,利用SPSS对数据进行正态性检验

    导读 当我们应用统计方法对数据进行分析时,会发现很多方法都要求数据服从正态分布或近似服从正态分布,例如t检验.方差分析.线性回归等,所以对数据进行正态性检验是很有必要的,这节就介绍一下如何用SPSS对 ...

  6. Oracle DUL Data Unloader数据恢复工具信息汇总

    PRM-DUL是开放的ORACLE DUL 软件,点击下面的链接下载PRM-DUL DUL FOR LINUX平台(已更新为PRM-DUL) DUL FOR Windows平台 (已更新为PRM-DU ...

  7. Excel按不同的字体颜色对数据区域分类汇总求和

    今天要和大家分享的是,Excel按不同的字体颜色对数据区域分类汇总求和的操作,如下图所示,不同的省份在地图中标记的颜色不一样,数据统计时,根据他们的颜色标记了销量数据,现在要按字体颜色对销量数据分省份 ...

  8. c语言输出大数,C语言数据输出大汇总

    在C语言中,有三个函数可以用来在显示器上输出数据.下面一起来看看! puts():只能输出字符串,在<C语言在屏幕上显示内容>中已经进行了介绍. put):只能输出单个字符,本节将会介绍. ...

  9. 2020版中国开放数据(Open Data)及政府数据开放平台汇总

    2020版中国开放数据(Open Data)及政府数据开放平台汇总 链接 北京市 北京市政务数据资源网 http://www.bjdata.gov.cn/jkfb/index.htm 56家单位.11 ...

  10. 遥感免费数据四维度汇总

    遥感免费数据四维度汇总 卫星遥感影像,在大尺度上来说比起航空摄影已经是很便宜了,但是个人研究用还是很贵. 出于研究的目的,市面上还是有很多免费可以使用的,对于个人党.学生党.兴趣党来说不论是研究还是学 ...

最新文章

  1. Sklearn(v3)——朴素贝叶斯(1)
  2. matlab ac电源,MATLAB对AC/DC/AC电源的死区效应谐波仿真
  3. 白嫖我常用的 11 个超火的前端必备在线工具,终于有时间上班摸鱼了
  4. 总结的比较好的vim命令
  5. Memcached简介
  6. 2018年python工作好找吗-2018年最火的5大Python开源项目,总有适合你的!
  7. python面向对象实验报告_20192310 实验三《Python程序设计》实验报告
  8. linux系统 打开网页,使用Linux终端浏览网页
  9. excel随机数_Excel生成随机数、不重复随机数技巧,试验检测办公必备
  10. 【已解决】U盘文件误删 恢复,实用有效 免费无充值 Recuva
  11. c语言海报,竞选海报 c语言
  12. 如何输出一个某种编码的字符串?
  13. 百度地图API-覆盖物
  14. 关于 数学 线性代数
  15. Google系列②布局平台战略
  16. 示波器直流增益|通道隔离度|带宽|时基|瞬态响应校准软件NSAT-3010
  17. TortoiseSVN日常使用指南(一)
  18. maya渲染序列文件存在检测工具
  19. 给ROCK64安装opencv3(Ubuntu,Debian)
  20. 元宇宙大爆炸:开发元宇宙是互联网的接替者?

热门文章

  1. Google 翻译插件不能用了怎么办
  2. 对接谷歌翻译接口的WordPressSEO插件
  3. js实现一键复制到剪切板上_原生js实现一键复制到剪切板的功能
  4. vbs脚本学习整人Demo
  5. MeasureSpec详解
  6. 如何成为一名AI人工智能算法工程师?
  7. “运行时错误‘339‘部件‘flash8.ocx‘或其附件之一不能正确注册:一个文件丢失或无效“的一种解决办法!
  8. Ghostscript的介绍和移植
  9. 计算机的常见故障及解决方法,最全的电脑开机常见故障及解决方法!
  10. 世界名人的博客,他们走在了我们前面,努力奋斗吧