引用

正态性检验之qqplot和ppplot原理及R语言实现
QQ图
KS检验和SW检验的区别
t检验算法及其在R语言中的实现
R语言做正态分布检验
R语言与统计分析

数据统计中的方差分析第一步应该是检查数据,其次做正态性检验。

而正态性检验

  • KS检验(样本量>5000)
  • SW检验(样本量<5000)
  • QQ图

目录

  • 引用
  • 1.QQ图
  • 2.K-S检验
  • 3.S-W检验

1.QQ图

  • Q-Q图是一种散点图,对应于正态分布的Q-Q图,就是由标准正态分布的分位数为横坐标,样本值为纵 坐标的散点图.
  • 要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值.
d <- rnorm(1000,mean = 76,sd=7);d[1] 63.63068 81.41180 62.65524 58.53152 82.86776 71.45430 83.80898 71.65438 61.58349 78.42920 71.28601 73.50931[13] 93.39517 65.07725 70.14370 72.21523 76.18374 80.55893 69.23166 88.16256 67.21181 84.96855 83.66621 62.01507//省略
> qqnorm(d)
> qqline(d)

2.K-S检验

  • 柯尔莫戈洛夫-斯米诺夫检验(Kolmogorov-Smirnov test),简称K-S检验;
  • nortest
    • ad.test是Anderson-Darling正态性检验,;

      cvm.test是Cramer-von Mises正态性检验;

      lillie.test是Lilliefors (Kolmogorov-Smirnov)正态性检验;

      pearson.test是pearson卡方正态性检验;

      sf.test是Shapiro-Francia正态性检验, 用这些检验验证a,b的正态性

  • fBasics
#1
> library(nortest)
> lillie.test(d)Lilliefors (Kolmogorov-Smirnov) normality testdata:  d
D = 0.033671, p-value = 0.009551
  • Lilliefor test是K-S检验的修正。在R中使用Lillefor检验,就相当于在SPSS中正态性检验的Kolmogorov-Smirnov的lilliefors的修正值,二者结果是相同的。

  • 需要注意的是,K-S检验只需要K-S检验默认是检验是否符合标准正态分布,所以我们需要先用scale函数对需要检测的数据标准化。

#2
> ks.test(d,"pnorm")One-sample Kolmogorov-Smirnov testdata:  d
D = 1, p-value < 2.2e-16
alternative hypothesis: two-sided
> ks.test(scale(d),"pnorm")One-sample Kolmogorov-Smirnov testdata:  scale(d)
D = 0.033671, p-value = 0.2069
alternative hypothesis: two-sided
  • D值越小,越接近0,表示样本数据越接近正态分布(D越小越好);P小于显著性水平α(0.05),则拒绝H0(p越大越好

3.S-W检验

  • 夏皮洛-威尔克检验(Shapiro—Wilk test),简称S-W检验。
> shapiro.test(d)Shapiro-Wilk normality testdata:  d
W = 0.99736, p-value = 0.1031
  • W接近1,p值大于0.05,所以数据为正态分布

  • 两种正态性检验方法,包括S-W检验和K-S检验。小样本(小于50)时建议使用S-W检验,大样本(大于50)时建议使用K-S检验;此两个检验的原假设为数据正态分布,因而P值>0.05,说明该项具有正态分布特质。 KS检验和SW检验的区别,

  • 这里很有误导性,到底样本啥样呢,我1000的样本,用Lilliefor test检验,P<0.05,并没有证明正态,而用S-W,就可以。

R语言做正态分布检验

  • SPSS 规定: 当样本含量3 ≤ n ≤ 5000时, 结果以Shapiro-Wilk为准, 当样本含量n > 5000结果以Kolmogorov-Smirnov为准.

  • 而SAS 规定: 当样本含量n ≤ 2000时, 结果以Shapiro-Wilk为准, 当样本含量n >2000时, 结果以Kolmogorov-Smirnov为准.

  • 写到最后,到底一组数据如何去判断呢?个人倾向于SPSS规定,说句不严谨的话,数据没有异常值,都是好数据,你说呢。

#当我把d取到10000时报错> shapiro.test(d)
Error in shapiro.test(d) : 样本大小必需在3和5000之间`

看完如果对你有帮助,感谢点赞支持!
如果你是电脑端,看到右下角的 “一键三连” 了吗,没错点它[哈哈]

R语言数据统计1——正态性检验相关推荐

  1. R语言数据描述性统计(Descriptive statistics)实战:数据全局描述信息、数值数据的描述性统计(Numerical data)、离散型数据的描述性统计(Categorical)

    R语言数据描述性统计(Descriptive statistics)实战:数据全局描述信息.数值数据的描述性统计(Numerical data).离散型数据的描述性统计(Categorical) 目录

  2. R语言Kolmogorov-Smirnov假设检验(正态性检验):检验数据的正态性

    R语言Kolmogorov-Smirnov假设检验(正态性检验):检验数据的正态性 目录 R语言Kolmogorov-Smirnov假设检验(正态性检验):检验数据的正态性

  3. R语言描述性统计:使用mean函数计算dataframe数据中指定数据列的均值

    R语言描述性统计:使用mean函数计算dataframe数据中指定数据列的均值 目录 R语言描述性统计:使用mean函数计算dataframe数据中指定数据列的均值

  4. 【组队学习】【28期】R语言数据科学

    R语言数据科学 论坛版块: http://datawhale.club/c/team-learning/36-category/36 开源内容: https://github.com/datawhal ...

  5. 推荐:一本“高颜值”的R语言数据可视化图书(包邮送3本)

    文章留言点赞前3名的朋友,每人送1本<R语言数据化可视化之美增强版>,名单揭晓日期为:本周日 (2020年7月12日晚7点).到时,获奖的朋友可以直接添加微信:meta-genomics, ...

  6. 半折预售:新书-R语言数据可视化之美|ggplot2作者推荐

    我本来想等正式发售的时候,再告诉大家我的新书<R语言数据可视化之美>已经出版,奈何新书还太贵,这几天刚好京东有买100减50的活动,所以想想还是赶紧告诉大家吧,不然平时购买的话,太真有点小 ...

  7. R语言应用统计1 主成分分析

    R语言应用统计1 主成分分析 这个系列就讨论应用基础,争取一条公式都不用写.当原始数据集比较庞大,并且不同变量之间存在一些相关性时,我们希望可以用更少的变量来表示原始数据集,用到的变量越少的同时,能够 ...

  8. R语言数据可视化 ggplot2基础3 添加几何对象

    R语言数据可视化 ggplot2基础3 添加几何对象 数据的统计变换 添加几何对象 数据的统计变换 添加几何对象 上一讲我们介绍的是如何创建散点图,这一讲我们介绍如何创建其他类型的图,以及怎么创建有多 ...

  9. R语言数据可视化 ggplot2基础2 创建单图层的散点图 创建facet

    R语言数据可视化 ggplot2基础2 创建单图层的散点图 创建facet 单图层散点图 单图层散点图的facet 单图层散点图 这一讲我们从最简单的散点图开始介绍ggplot2应用的基础,首先我们下 ...

  10. R语言数据可视化 ggplot2基础1 ggplot2 图形的分层语法 Layered Grammar 简介

    R语言数据可视化 ggplot2基础1 ggplot2 图形的分层语法 Layered Grammar 简介 分层语法的组成(data-stat-geom-scale-coord-facet) 用分层 ...

最新文章

  1. web service design time table
  2. 酷炫好看的横向滑动个人介绍简历模板
  3. 计算机二级34套word答案,全国计算机二级C选择题题库第34套
  4. webpack教程——css的加载
  5. qt mingw连接mysql_win下Qt连接MySql (mingw)
  6. 【DPS专题】工业篇:从“低谷”走向“巅峰”,DPS如何成为工业智能制胜法宝?...
  7. 【毕设狗】【单片机毕业设计】基于单片机的交通红绿灯控制系统的设计
  8. 如何成为一名数据分析师
  9. Mac上最强大好用的的右键工具「iRightMouse 超级右键」(上)
  10. 五线谱软件测试初学者,学习五线谱(初学者专用).pdf
  11. 量子化学计算机理,计算量子化学团队
  12. linux平台运行 mr程序,MR程序的几种提交运行模式
  13. 以太坊的单位wei是什么?
  14. php图标源码,FaviconICO图标制作在线制作生成PHP开源版源码
  15. 音视频通话:​Linphone基于SIP协议的语音视频电话软件
  16. Oracle不完全恢复
  17. 直流无刷电机FOC控制算法 理论到实践 —— 理论(二)
  18. 统计成绩java最高成绩_从键盘输入本次 Java 考试五位学生的成绩,求考试成绩最高分。_学小易找答案...
  19. laravel-admin 省市区三级联动的爬坑问题
  20. 大龄码农适合做什么,比如40岁以上?

热门文章

  1. 英语语法回顾2——并列句
  2. 如何在腾讯云搭建自己的网站
  3. idea中的maven项目的xml文件的xmlns报错的解决办法
  4. 虚拟主机需要备案吗?
  5. 海信电视开启开发者模式
  6. 13个提炼卖点的角度,让你的产品大卖!
  7. 2021系统架构设计师论文真题
  8. Win10首次开机设置
  9. Makefile 文件中的:obj-$(CONFIG_TEST) += test.o,这一类的是什么意思?
  10. 批量修改文件夹名称的一部分字符