R语言数据统计1——正态性检验
引用
正态性检验之qqplot和ppplot原理及R语言实现
QQ图
KS检验和SW检验的区别
t检验算法及其在R语言中的实现
R语言做正态分布检验
R语言与统计分析
数据统计中的方差分析第一步应该是检查数据,其次做正态性检验。
而正态性检验:
- KS检验(样本量>5000)
- SW检验(样本量<5000)
- QQ图
目录
- 引用
- 1.QQ图
- 2.K-S检验
- 3.S-W检验
1.QQ图
- Q-Q图是一种散点图,对应于正态分布的Q-Q图,就是由标准正态分布的分位数为横坐标,样本值为纵 坐标的散点图.
- 要利用QQ图鉴别样本数据是否近似于正态分布,只需看QQ图上的点是否近似地在一条直线附近,而且该直线的斜率为标准差,截距为均值.
d <- rnorm(1000,mean = 76,sd=7);d[1] 63.63068 81.41180 62.65524 58.53152 82.86776 71.45430 83.80898 71.65438 61.58349 78.42920 71.28601 73.50931[13] 93.39517 65.07725 70.14370 72.21523 76.18374 80.55893 69.23166 88.16256 67.21181 84.96855 83.66621 62.01507//省略
> qqnorm(d)
> qqline(d)
2.K-S检验
- 柯尔莫戈洛夫-斯米诺夫检验(Kolmogorov-Smirnov test),简称K-S检验;
nortest
包ad.test是Anderson-Darling正态性检验,;
cvm.test是Cramer-von Mises正态性检验;
lillie.test是Lilliefors (Kolmogorov-Smirnov)正态性检验;
pearson.test是pearson卡方正态性检验;
sf.test是Shapiro-Francia正态性检验, 用这些检验验证a,b的正态性
fBasics
包
#1
> library(nortest)
> lillie.test(d)Lilliefors (Kolmogorov-Smirnov) normality testdata: d
D = 0.033671, p-value = 0.009551
Lilliefor test是K-S检验的修正。在R中使用Lillefor检验,就相当于在SPSS中正态性检验的Kolmogorov-Smirnov的lilliefors的修正值,二者结果是相同的。
需要注意的是,K-S检验只需要K-S检验默认是检验是否符合标准正态分布,所以我们需要先用scale函数对需要检测的数据标准化。
#2
> ks.test(d,"pnorm")One-sample Kolmogorov-Smirnov testdata: d
D = 1, p-value < 2.2e-16
alternative hypothesis: two-sided
> ks.test(scale(d),"pnorm")One-sample Kolmogorov-Smirnov testdata: scale(d)
D = 0.033671, p-value = 0.2069
alternative hypothesis: two-sided
- D值越小,越接近0,表示样本数据越接近正态分布(D越小越好);P小于显著性水平α(0.05),则拒绝H0(p越大越好)
3.S-W检验
- 夏皮洛-威尔克检验(Shapiro—Wilk test),简称S-W检验。
> shapiro.test(d)Shapiro-Wilk normality testdata: d
W = 0.99736, p-value = 0.1031
W接近1,p值大于0.05,所以数据为正态分布
两种正态性检验方法,包括S-W检验和K-S检验。小样本(小于50)时建议使用S-W检验,大样本(大于50)时建议使用K-S检验;此两个检验的原假设为数据正态分布,因而P值>0.05,说明该项具有正态分布特质。 KS检验和SW检验的区别,
这里很有误导性,到底样本啥样呢,我1000的样本,用Lilliefor test检验,P<0.05,并没有证明正态,而用S-W,就可以。
R语言做正态分布检验
SPSS 规定: 当样本含量3 ≤ n ≤ 5000时, 结果以Shapiro-Wilk为准, 当样本含量n > 5000结果以Kolmogorov-Smirnov为准.
而SAS 规定: 当样本含量n ≤ 2000时, 结果以Shapiro-Wilk为准, 当样本含量n >2000时, 结果以Kolmogorov-Smirnov为准.
写到最后,到底一组数据如何去判断呢?个人倾向于SPSS规定,说句不严谨的话,数据没有异常值,都是好数据,你说呢。
#当我把d取到10000时报错> shapiro.test(d)
Error in shapiro.test(d) : 样本大小必需在3和5000之间`
看完如果对你有帮助,感谢点赞支持!
如果你是电脑端,看到右下角的 “一键三连” 了吗,没错点它[哈哈]
R语言数据统计1——正态性检验相关推荐
- R语言数据描述性统计(Descriptive statistics)实战:数据全局描述信息、数值数据的描述性统计(Numerical data)、离散型数据的描述性统计(Categorical)
R语言数据描述性统计(Descriptive statistics)实战:数据全局描述信息.数值数据的描述性统计(Numerical data).离散型数据的描述性统计(Categorical) 目录
- R语言Kolmogorov-Smirnov假设检验(正态性检验):检验数据的正态性
R语言Kolmogorov-Smirnov假设检验(正态性检验):检验数据的正态性 目录 R语言Kolmogorov-Smirnov假设检验(正态性检验):检验数据的正态性
- R语言描述性统计:使用mean函数计算dataframe数据中指定数据列的均值
R语言描述性统计:使用mean函数计算dataframe数据中指定数据列的均值 目录 R语言描述性统计:使用mean函数计算dataframe数据中指定数据列的均值
- 【组队学习】【28期】R语言数据科学
R语言数据科学 论坛版块: http://datawhale.club/c/team-learning/36-category/36 开源内容: https://github.com/datawhal ...
- 推荐:一本“高颜值”的R语言数据可视化图书(包邮送3本)
文章留言点赞前3名的朋友,每人送1本<R语言数据化可视化之美增强版>,名单揭晓日期为:本周日 (2020年7月12日晚7点).到时,获奖的朋友可以直接添加微信:meta-genomics, ...
- 半折预售:新书-R语言数据可视化之美|ggplot2作者推荐
我本来想等正式发售的时候,再告诉大家我的新书<R语言数据可视化之美>已经出版,奈何新书还太贵,这几天刚好京东有买100减50的活动,所以想想还是赶紧告诉大家吧,不然平时购买的话,太真有点小 ...
- R语言应用统计1 主成分分析
R语言应用统计1 主成分分析 这个系列就讨论应用基础,争取一条公式都不用写.当原始数据集比较庞大,并且不同变量之间存在一些相关性时,我们希望可以用更少的变量来表示原始数据集,用到的变量越少的同时,能够 ...
- R语言数据可视化 ggplot2基础3 添加几何对象
R语言数据可视化 ggplot2基础3 添加几何对象 数据的统计变换 添加几何对象 数据的统计变换 添加几何对象 上一讲我们介绍的是如何创建散点图,这一讲我们介绍如何创建其他类型的图,以及怎么创建有多 ...
- R语言数据可视化 ggplot2基础2 创建单图层的散点图 创建facet
R语言数据可视化 ggplot2基础2 创建单图层的散点图 创建facet 单图层散点图 单图层散点图的facet 单图层散点图 这一讲我们从最简单的散点图开始介绍ggplot2应用的基础,首先我们下 ...
- R语言数据可视化 ggplot2基础1 ggplot2 图形的分层语法 Layered Grammar 简介
R语言数据可视化 ggplot2基础1 ggplot2 图形的分层语法 Layered Grammar 简介 分层语法的组成(data-stat-geom-scale-coord-facet) 用分层 ...
最新文章
- web service design time table
- 酷炫好看的横向滑动个人介绍简历模板
- 计算机二级34套word答案,全国计算机二级C选择题题库第34套
- webpack教程——css的加载
- qt mingw连接mysql_win下Qt连接MySql (mingw)
- 【DPS专题】工业篇:从“低谷”走向“巅峰”,DPS如何成为工业智能制胜法宝?...
- 【毕设狗】【单片机毕业设计】基于单片机的交通红绿灯控制系统的设计
- 如何成为一名数据分析师
- Mac上最强大好用的的右键工具「iRightMouse 超级右键」(上)
- 五线谱软件测试初学者,学习五线谱(初学者专用).pdf
- 量子化学计算机理,计算量子化学团队
- linux平台运行 mr程序,MR程序的几种提交运行模式
- 以太坊的单位wei是什么?
- php图标源码,FaviconICO图标制作在线制作生成PHP开源版源码
- 音视频通话:​Linphone基于SIP协议的语音视频电话软件
- Oracle不完全恢复
- 直流无刷电机FOC控制算法 理论到实践 —— 理论(二)
- 统计成绩java最高成绩_从键盘输入本次 Java 考试五位学生的成绩,求考试成绩最高分。_学小易找答案...
- laravel-admin 省市区三级联动的爬坑问题
- 大龄码农适合做什么,比如40岁以上?