knitr::opts_chunk$set(tidy = TRUE, warning = FALSE,message = FALSE)setwd("C:/Users/213yi/Desktop/非参数统计/4-12")
library(showtext) #载入库
library(ggplot2)
library(MASS)
library(dunn.test)
library(ggthemes)
library(ggplot2)
library(rJava)
library(xlsx)
library(plyr)
library(epade)
library(MASS)
library(RColorBrewer)
library(datarium)

药物治疗效果的检验

KW单因素方差分析(H检验)

drug=c(80,203,236,252,284,368,457,393,133,180,100,160,156,295,320,448,465,481,279,194,214,272,330,386,475)
gr.drug=factor(rep(1:4,c(8,4,7,6)),labels = c("A","B","C","D"))
kruskal.test(drug,gr.drug)
#结果显著

编写Dun函数

#Dunn_test(drug, k = 4, nj = c(8, 4, 7, 6))
Dunn_test<-function(data,k,nj,alpha=0.05){#输出的是谁和谁比较,djj是多少(相除得到的),Z1-α的值,#第i个处理是从第几个到第几个,去索引rankn<-length(data)r<-rank(data)sy<-c()label = c("A","B","C","D","E","F","J","H","I")for (j in 1:k){sy[j]<-cumsum(nj)[j]-nj[j]+1}#sy=1  9 13 20rrankmean=c()rsum=0j=0for (i in 1:n){if ((i %in% sy)&(i!=1)){j=j+1rsum=rsum/nj[j]rrankmean<-c(rrankmean,rsum)rsum=r[i]}else {rsum=rsum+r[i]}}rrankmean<-c(rrankmean,rsum/nj[k])resolution=as.data.frame(matrix(ncol = 3))colnames(resolution)<-c("比较","dij","Z(1-α*/2)")for (i in 1:(k-1)){for (j in (i+1):k){con<-c()con[1]<-paste(label[i],"vs",label[j])con[2]<-abs(rrankmean[i]-rrankmean[j])/sqrt(n*(n+1)/12*(1/nj[i]+1/nj[j]))con[3]<-qnorm(1-2*alpha/(k-1)/k/2)#Bonferroni修正resolution<-rbind(resolution,con)}}resolution=resolution[-1,]return(resolution)
}

对药效进行检验修正

Dunn_test(drug, k = 4, nj = c(8, 4, 7, 6))
  • 由于加了绝对值,其实是双边检验,α*要除以2

  • 也可以这样理解:是因为绝对值的加入只能>0,因此只有0.5的总概率

  • 可以看出,由于2.75618>2.63825

  • 只有B vs C的样本拒绝了原假设,即B和C的样本分布不同

内置Dun函数的检验(修正 Bonferroni)

dunn.test(drug,gr.drug,method = "bonferroni")
  • 通过内置函数的检验,发现显著的是B和C
  • 计算的 d j , j 、 d_{j,j^、} dj,j、​=-2.756186和上述的绝对值相符
  • 说明自行编写的Dunn函数正确

可视化boxplot

data<-data.frame(drug,gr.drug)
boxplot(drug~gr.drug,data)
  • 可以看出,B和C确实是最离谱的分布,证明了Dunn检验的真实性

收入和学历的关系

参数方差分析

filee=read.table("employee.txt",header = TRUE)
plot(density(filee$salary),main="salary分布密度图")
boxplot(salary~educ,data=filee,main="edu对salary的影响箱线图")
  • 从上述箱线图可以看出,高学历的人群收入无论是下分位点、还是上分位点或者均值,都相对较高
  • 由于参数方差分析要求每个处理都是正太的样本,但是通过上图发现,并不是完全如此
  • 下面,对其中部分进行检验

前提检验

#对受教育年限17年的进行正态性检验
dt=filee[which(filee$educ==17),2]
plot(dt)
shapiro.test(dt)
ks.test(dt,rnorm(10000,mean(dt),sd(dt)))
  • 发现:样本量过少,定量的正态性检验结果做不出来

aov

aov_result <- aov(salary ~ educ, data = filee)
summary(aov_result)
  • 这个检验是应用统计学学过的参数方差检验
  • 用到的是SST(总平方和)、SSE(误差组内的平方和)、SSA(处理平方和)
  • 在 0.01的水平下是显著的
  • 方差分析表明收入和教育有关

进行多重比较

filee<-read.table("employee.txt",header = TRUE)
fi=filee
fi$educ[filee$educ <= 12] <- 'A'
fi$educ[filee$educ >= 13 & filee$educ <= 16] <- 'B'
fi$educ[filee$educ >= 17] <- 'C'
fi$educ <- factor(fi$educ, labels = c('A', 'B', 'C'))#fi是聚类类后,filee是聚类前
#fi可以,filee不行
pairwise.t.test(fi$salary,fi$educ)
  • 配对 t 检验结果表明低学历和中等学历以及低学历和高等学历之间的工资水平存在显著差异

非参数方差分析

filee<-read.table("employee.txt",header = TRUE)
fi=filee
fi$educ[filee$educ <= 12] <- 'A'
fi$educ[filee$educ >= 13 & filee$educ <= 16] <- 'B'
fi$educ[filee$educ >= 17] <- 'C'
fi$educ <- factor(fi$educ, labels = c('A', 'B', 'C'))kruskal.test(fi$salary,fi$educ)
  • 参数分布有要求:正态性,独立同方差的假设
  • 非参数KW单因素方差分析只用到了rank
  • 只是假定分布连续、分布形状相似
  • 更可靠,此时结果拒绝他们分布相同的原假设
  • 接下来进行Dunn的检验

Dunn检验

fileeorder=filee[order(filee$educ),]
Dunn_test(fileeorder$salary,7,c(4,11,7,3,3,1,1))
  • Dun的结果不理想

  • 没有任意2个样本拒绝了分布均值不同的假设

  • 所以,下面还是对样本的类别重新进行聚类

filee<-read.table("employee.txt",header = TRUE)
fi=filee
fi$educ[filee$educ <= 12] <- 'A'
fi$educ[filee$educ >= 13 & filee$educ <= 16] <- 'B'
fi$educ[filee$educ >= 17] <- 'C'
fi$educ <- factor(fi$educ, labels = c('A', 'B', 'C'))Dunn_test(fi$salary,k=3,c(15,10,5))
  • Dunn 检验结果也表明低学历和中等学历以及低学历和高等学历之间的工资水平存在显著差异

JT检验

JTnorm<-function(x,group){N<-length(x)index<-unique(group)k<-length(index)ns<-NULLfor(i in 1:k){ns<-c(ns,sum(group==index[i]))}Diffval<-NULLfor(i in 1:(k-1)){xi<-x[which(group==index[i])]for(j in(i+1):k){xj<-x[which(group==index[j])]Diffvali<-0for(l in 1:length(xj)) {Diffvali<-Diffvali+sum(xi-xj[l]<0)}Diffval<-c(Diffval,Diffvali)}}m.val<-(N^2-sum(ns^2))/4sd.val<-sqrt((N^2*(2*N+3)-sum(ns^2*(2*ns+3)))/72)zval<-(sum(Diffval)-m.val)/sd.val pval<-pnorm(zval,0,1,lower.tail = FALSE)list(ns=ns,k=k,Diffval=Diffval,J=sum(Diffval),m.val=m.val,sd.val=sd.val,zval=zval,pval=pval)
}

验证例4.5

jump=c(125,136,116,101,105,109,122,114,131,120,119,127,128,142,128,134,135,131,140,129)
gr.jump=factor(rep(1:3,c(6,6,8)))
JTnorm(jump,gr.jump)
  • 注意 为什么我的lower.tail=F失效,必须是FALSE
  • JT结果很显著0.0008,即样本的位置呈现出上升或下降趋势

手写作业

定理 4.1 的证明(提示:根据期望、方差和协方差定义出发进行证明,可以参考定理 3.1 或者第一章 P22 页推论 1.3 的证明)

P143 页:习题 4.1,要求写出 H 检验过程(使用大样本卡方分布近似,并用 R 函数 kruskal.test()来验证求解过程是否正确)

drug=c(83,64,67,62,70,85,81,80,78,88,89,79,90,95)
gr.drug=factor(rep(1:3,c(5,4,5)),labels = c("A","B","C"))
kruskal.test(drug,gr.drug)
#结果显著

非参数检验之KW单因素方差分析和JT检验相关推荐

  1. R语言基础 | 方差分析(1):单因素方差分析

    专注系列化.高质量的R语言教程 推文索引 | 联系小编 | 付费合集 方差分析(Analysis of Variance, ANOVA)于1918年由Ronald Fisher(也是F分布的提出者)提 ...

  2. R语言Scheffe’s检验进行事后检验(post hoc)实战:单因素方差分析告诉我们并不是所有的群体手段的效果是均等的,确切地找出哪些组彼此不同使用Scheffe’s检验

    R语言Scheffe's检验进行事后检验(post hoc)实战:单因素方差分析告诉我们并不是所有的群体手段的效果是均等的,确切地找出哪些组彼此不同使用Scheffe's检验 目录

  3. R语言Bonferroni校正的成对t检验进行事后检验(post hoc)实战:单因素方差分析告诉我们并不是所有的群体手段的效果是均等的,确切地找出哪些组彼此不同使用Bonferroni校正检验

    R语言Bonferroni校正的成对t检验进行事后检验(post hoc)实战:单因素方差分析告诉我们并不是所有的群体手段的效果是均等的,确切地找出哪些组彼此不同使用Bonferroni校正的成对t检 ...

  4. R语言差异检验:单因素方差分析

    文章目录 @[toc] 方差分析介绍 适用条件 分类 R语言 单因素方差分析示例 数据集 示例 多重比较 评估检验的假设条件 t检验可以解决单样本.双样本时的均数比较.当要比较的组多于两个时,t检验方 ...

  5. R语言aov函数进行单因素方差分析(One-way ANOVA)、使用Q-Q图来评估方差分析因变量的正态性、Bartlett验证方差的相等性(齐次性)、car包中的outlierTest函数异常检验

    R语言使用aov函数进行单因素方差分析(One-way ANOVA).使用Q-Q图来评估方差分析因变量的正态性假设.Bartlett检验验证方差的相等性(齐次性).car包中的outlierTest函 ...

  6. updatebyprimarykeyselective的where条件是全部字段_多组连续数据对比,不满足单因素方差分析的条件怎么办?...

    多组连续数据对比,不满足"单因素方差分析"的条件怎么办? (SPSS:Kruskal-Wallis H检验) 多组连续数据对比时,若不满足"单因素方差分析"的条 ...

  7. R语言实现单因素方差分析

    1.方差分析基本原理:是一种分析各类别自变量对数值因变量影响的一种统计方法.自变量对因变量的影响也称为自变量效应.由于影响效应的大小体现为因变量的误差里有多少是由自变量造成的,因此,方差分析通过对数据 ...

  8. R语言单因素方差分析及两两比较

    一.导语 两个样本均数的比较用t检验,那么多个样本均数的比较应该采用什么方法分析呢?就是接下来介绍的方差分析.方差分析由统计学家R.A.Fisher提出,又称为F检验.是通过对数据变异的分析来推断两个 ...

  9. 如何用R进行单因素方差分析

    单因素方差分析 本次的数据只是一个例子,可能有不符合实际的情况 1.配置数据,数据如下所示 数据总共为两列,第一列fpkm可以即基因或者是蛋白的表达量,第二列是样本的分组,简单来说就是,在本次数据中1 ...

最新文章

  1. vue 2 使用 Bus.js 实现兄弟 (非父子) 组件通信 简单案例
  2. spring 源码分析(1)-xml文件解析
  3. 再次遇到golang乱码问题,用simplifiedchinese解决
  4. 180多个web和desktop测试用例清单
  5. sklearn 与 xgboost 的组合使用
  6. 获取输入框内容,数值类型转换问题
  7. 发现同义词 python_查找相似/同义词/上下文单词Python
  8. 管家婆服务器怎么找文件夹,请问管家婆数据备份在哪里?如何恢复?
  9. netty服务器怎么推送消息,我来学Netty之推送消息给客户端
  10. python 微信图文消息接口_用Python实现微信公众号API素材库图文消息抓取
  11. 牛客小白月赛61-C-小喵觅食
  12. 卡方检验值转换为P值
  13. 应聘高薪工作,怎样写简历?
  14. 蝴蝶效应、青蛙现象、鳄鱼法则、鲇鱼效应、羊群效应、刺猬法则
  15. centos浏览器可以上外网但是ping不通
  16. python -pandas
  17. 实时监控Mysql等数据库变化_进行数据同步_了解Maxwell_--MaxWell工作笔记001
  18. 如何在topcoder上进行算法比赛
  19. UTF8 中文占几个字节
  20. 微信小程序-优化接口代码-提取公共接口路径

热门文章

  1. 【oiClass 2085】马(排序,DP)
  2. 读Applying Deep Learning To Airbnb Search有感
  3. phpcms实现PC网站接入微信Native支付
  4. 李飞飞团队新研究登Nature子刊!实现可信 AI,数据的设计、完善、评估是关键!...
  5. SPM 超级位置模型
  6. Bloom Filter 布隆过滤器
  7. 《惢客创业日记》2020.10.01(周四)最伟大的画家
  8. 微信小程序-手机号验证码登录
  9. 视频帧率与显示刷新率
  10. 汇编指令-MRS(读)和MSR(写)指令操作CPSR寄存器和SPSR寄存器使用(1)