数据分析-非参数秩方法
文章目录
- 两种处理方法比较的秩检验
- Wilcoxon秩和检验
- Smirnov检验
- 成对分组设计下两种处理方法的比较
- 符号检验
- Wilcoxon符号秩检验
- 多种处理方法比较
- Kruskal-Wallis检验
- 分组设计下多种处理方法的比较
- Friedman检验
前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站。
非参数秩方法,即不假定总体分布的具体形式,从数据本身获得所需信息,适用范围广,但忽略了分布类型,针对性差。
本文主要参考《数据分析》范金城,梅长林主编. -2版.
两种处理方法比较的秩检验
首先理解「秩」是什么,秩即顺序,是数据排序之后的位置。比如N个数据{3,2,4,1,5},若按从小到大排序可以得到排序结果{1,2,3,4,5},也就是第一个数据3的秩S1为3,以此类推S2=2,S3=4,S4=1,S5=5。
此节即通过秩来比较两种不同处理方法的优劣,也就是将N个数据分为两组,两组分别用两种不同的处理方法,分别为nnn和mmm个(mmm=N-nnn),共CNnC_N^{n}CNn种分法,每种分配方式出现概率为1CNn\frac{1}{C_N^{n}}CNn1。
检验零假设H0H_0H0:两方法处理效果无显著差异。由于分组是随机的,则秩(S1,S2,⋅⋅⋅,Sn)(S_1,S_2,···,S_n)(S1,S2,⋅⋅⋅,Sn)的零分布PH0{S1=s1,S2=s2,⋅⋅⋅,Sn=sn}=1CNnP_{H_0}\{S_1=s_1,S_2=s_2,···,S_n=s_n\}=\frac{1}{C_N^{n}}PH0{S1=s1,S2=s2,⋅⋅⋅,Sn=sn}=CNn1。
Wilcoxon秩和检验
- 单边假设检验
单边假设即在实验前认为新方法比旧方法好,比如是旧方法的改进版。备择假设H1H_1H1:新方法优于对照方法。
N个数据分为nnn和mmm个,排序后得到秩,秩分别记为(S1,S2,⋅⋅⋅,Sn)(S_1,S_2,···,S_n)(S1,S2,⋅⋅⋅,Sn)和(R1,R2,⋅⋅⋅,Rm)(R_1,R_2,···,R_m)(R1,R2,⋅⋅⋅,Rm),记秩和为WWW,即Ws=S1+S2+⋅⋅⋅+SnW_s=S_1+S_2+···+S_nWs=S1+S2+⋅⋅⋅+Sn,同理Wr=R1+R2+⋅⋅⋅+RmW_r=R_1+R_2+···+R_mWr=R1+R2+⋅⋅⋅+Rm,得到各种组合情况下的秩和后,即可得到对应零分布。
其实WsW_sWs和WrW_rWr的零分布是相同的,用来检验H0H_0H0也是等价的,即可以算nnn和mmm中较小一个即可。
根据零分布计算ppp值,p=PH0{Ws≥ws}p=P_{H_0}\{W_s≥w_s\}p=PH0{Ws≥ws},与题目给的显著水平α\alphaα比较,若p<αp<\alphap<α,则拒绝H0H_0H0,认为新方法比就方法好,否则接受H0H_0H0,认为两者不存在显著差异。
- 习题2.1.(1):求mmm=2,nnn=4情况下,Wilcoxon秩和统计量WsW_sWs和WrW_rWr的零分布。
解:(S1(S_1(S1,S2S_2S2,S3S_3S3,S4)S_4)S4)取各组值对应WsW_sWs如下表所示:
(S1(S_1(S1,S2S_2S2,S3S_3S3,S4)S_4)S4) | WsW_sWs |
---|---|
1 2 3 4 | 10 |
1 2 3 5 | 11 |
1 2 3 6 | 12 |
1 2 4 5 | 12 |
1 2 4 6 | 13 |
1 2 5 6 | 14 |
1 3 4 5 | 13 |
1 3 4 6 | 14 |
1 3 5 6 | 15 |
1 4 5 6 | 16 |
2 3 4 5 | 14 |
2 3 4 6 | 15 |
2 3 5 6 | 16 |
2 4 5 6 | 17 |
3 4 5 6 | 18 |
由上表得WsW_sWs的零分布,如下表所示:
WsW_sWs | PH0{Ws=ws}P_{H_0}\{W_s=w_s\}PH0{Ws=ws} |
---|---|
10 | 1/15 |
11 | 1/15 |
12 | 2/15 |
13 | 2/15 |
14 | 3/15 |
15 | 2/15 |
16 | 2/15 |
17 | 1/15 |
18 | 1/15 |
(R1(R_1(R1,R2)R_2)R2)取各组值对应WrW_rWr如下表所示:
(R1(R_1(R1,R2)R_2)R2) | WrW_rWr |
---|---|
1 2 | 3 |
1 3 | 4 |
1 4 | 5 |
1 5 | 6 |
1 6 | 7 |
2 3 | 5 |
2 4 | 6 |
2 5 | 7 |
2 6 | 8 |
3 4 | 7 |
3 5 | 8 |
3 6 | 9 |
4 5 | 9 |
4 6 | 10 |
5 6 | 11 |
由上表得WrW_rWr的零分布,如下表所示:
WrW_rWr | PH0{Wr=wr}P_{H_0}\{W_r=w_r\}PH0{Wr=wr} |
---|---|
3 | 1/15 |
4 | 1/15 |
5 | 2/15 |
6 | 2/15 |
7 | 3/15 |
8 | 2/15 |
9 | 2/15 |
10 | 1/15 |
11 | 1/15 |
- 双边假设检验
双边假设检验即两种方法对我们来说都是新方法,实验前不知道哪个更优。备择假设H1H_1H1:两方法有显著差异。
同样两组,换了符号为A、B,WAW_AWA为A组秩和,零分布求法一致,概率值PH0{WA≥wA}P_{H_0}\{W_A≥w_A\}PH0{WA≥wA}和PH0{WA≤wA}P_{H_0}\{W_A≤w_A\}PH0{WA≤wA},ppp值为这两个概率值中小于1/2的那个的2倍。
同样与显著水平α\alphaα比较,若p<αp<\alphap<α,则拒绝H0H_0H0,否则接受H0H_0H0,不再赘述。
- 结点处理
上述方法是不存在结点的情况,所谓结点可理解为排序相同的点,比如对实验结果排序时,是按档次评价的,若干个结果的属于一个档次,秩相同。
设ddd个个体形成一个结点,对应位置l,l+1,⋅⋅⋅,l+d−1l,l+1,···,l+d-1l,l+1,⋅⋅⋅,l+d−1,比如ABBC对应秩为1224。
使用中间秩=l+d−12l+\frac{d-1}{2}l+2d−1,记中间秩和为Ws∗W_s^*Ws∗和Wr∗W_r^*Wr∗,有
期望E(Ws∗)=12n(N+1)E(W_s^*)=\frac{1}{2}n(N+1)E(Ws∗)=21n(N+1)
方差Var(Ws∗)=112mn(N+1)−mn∑i=1ldi3−di12N(N−1)Var(W_s^*)=\frac{1}{12}mn(N+1)-\frac{mn\sum_{i=1}^ld_i^3-d_i}{12N(N-1)}Var(Ws∗)=121mn(N+1)−12N(N−1)mn∑i=1ldi3−di
用标准正态分布代替,Φ(c)=PH0(Ws∗−E(Ws∗)Var(Ws∗)≤c)\Phi(c)=P_{H_0}(\frac{W_s^*-E(W_s^*)}{\sqrt{Var(W_s^*)}}≤c)Φ(c)=PH0(Var(Ws∗)Ws∗−E(Ws∗)≤c)
p=1−Φ(c)p=1-\Phi(c)p=1−Φ(c),与题目显著水平α\alphaα比较,若p<αp<\alphap<α则拒绝H0H_0H0,反之接受H0H_0H0
公式很多很复杂,考前摇一摇。
- 习题2.4:为了比较两种不同的心理咨询方法的效果,将80位接受心理咨询的人随机地分为两组,每组40人,其中一组接受一般的心理咨询,另一组接受特殊的心理咨询,试验结束后,将每个人的心理调整效果做仔细评估,并分为好、较好、较差和差四档,数据如表2.23所示.
解:N=80,nnn=mmm=40,lll=4,d1d_1d1=12,d2d_2d2=16,d3d_3d3=31,d4d_4d4=21。
计算中间秩如下所示:
好:1+12−12=6.51+\frac{12-1}{2}=6.51+212−1=6.5
较好:13+16−12=20.513+\frac{16-1}{2}=20.513+216−1=20.5
较差:29+31−12=4429+\frac{31-1}{2}=4429+231−1=44
差:60+21−12=7060+\frac{21-1}{2}=7060+221−1=70
秩和Ws∗=8×6.5+10×20.5+14×44+8×70=1433W_s^*=8×6.5+10×20.5+14×44+8×70=1433Ws∗=8×6.5+10×20.5+14×44+8×70=1433
期望E(Ws∗)=1620E(W_s^*)=1620E(Ws∗)=1620
方差Var(Ws∗)=9855Var(W_s^*)=9855Var(Ws∗)=9855
p=PH0{Ws∗≥1433}=PH0(Ws∗−E(Ws∗)Var(Ws∗)≥1433−162099.272)≈1−Φ(−1.87)=0.03<0.10p=P_{H_0}\{W_s^*≥1433\}=P_{H_0}(\frac{W_s^*-E(W_s^*)}{\sqrt{Var(W_s^*)}}≥\frac{1433-1620}{99.272})≈1-\Phi(-1.87)=0.03<0.10p=PH0{Ws∗≥1433}=PH0(Var(Ws∗)Ws∗−E(Ws∗)≥99.2721433−1620)≈1−Φ(−1.87)=0.03<0.10
由于p<αp<\alphap<α,故拒绝H0H_0H0,认为特殊心理咨询方法优于一般方法。
Smirnov检验
当一组数据分散性小,一组数据分散性大时, Wilcoxon秩和检验不能区分这种差异。使用Smirnov检验能很好反映两种方法处理效果的各种差异。
定义经验分布函数Fk(x)=#{xi≤x}kF_k(x)=\frac{\#\{x_i≤x\}}{k}Fk(x)=k#{xi≤x},其中#{xi≤x}\#\{x_i≤x\}#{xi≤x}表示x1,x2,⋅⋅⋅,xkx_1,x_2,···,x_kx1,x2,⋅⋅⋅,xk中小于等于xxx的个数。比如1、2、3的经验函数分别为13\frac{1}{3}31、23\frac{2}{3}32、111。
定义统计量Dm,n=max∣Gm(x)−Fn(x)∣D_{m,n}=max| G_m(x)-F_n(x)|Dm,n=max∣Gm(x)−Fn(x)∣,即取两组经验分布函数差值的最大值。
p=PH0{Dm,n≥c}p=P_{H_0}\{D_{m,n}≥c\}p=PH0{Dm,n≥c},p<αp<\alphap<α时拒绝H0H_0H0,反之接受H0H_0H0。
- 习题2.5:下面是1996年华北五省市区和华东七省市的国民生产总值(GDP)的指数(前一年为100);
华北五省市区GDP指数: 109. 2,114.3,113.5,111.0,112.7
华东七省市的GDP指数: 113.0,112.2,112.7,114 4,115.4,113.4,112.2
利用Smirnov检验法检验这两个地区的GDP指数是否有显著差异(α\alphaα=0.10).
解:
将数据排序后得到秩,A:1 2 5 9 10;B:3 3 5 7 8 11 12
有序观测值 | Gm(x)G_m(x)Gm(x) | Fn(x)F_n(x)Fn(x) | ∣Gm(x)−Fn(x)∣| G_m(x)-F_n(x)|∣Gm(x)−Fn(x)∣ |
---|---|---|---|
z1z_1z1 | 0 | 1/5 | 1/5 |
z2z_2z2 | 0 | 2/5 | 1/5 |
z3z_3z3 | 2/7 | 2/5 | 4/35 |
z4z_4z4 | 2/7 | 2/5 | 4/35 |
z5z_5z5 | 3/7 | 3/5 | 6/35 |
z6z_6z6 | 3/7 | 3/5 | 6/35 |
z7z_7z7 | 4/7 | 3/5 | 1/35 |
z8z_8z8 | 5/7 | 3/5 | 4/35 |
z9z_9z9 | 5/7 | 4/5 | 3/35 |
z10z_{10}z10 | 5/7 | 1 | 2/7 |
z11z_{11}z11 | 6/7 | 1 | 1/7 |
z12z_{12}z12 | 1 | 1 | 0 |
由上表的D7,5D_{7,5}D7,5的观测值d=25d=\frac{2}{5}d=52
p=PH0{D7,5≥25}=112<αp=P_{H_0}\{D_{7,5}≥\frac{2}{5}\}=\frac{1}{12}<\alphap=PH0{D7,5≥52}=121<α
故拒绝H0H_0H0,认为这两个地区GDP有显著差异。
(插播反爬信息 )博主CSDN地址:https://wzlodq.blog.csdn.net/
成对分组设计下两种处理方法的比较
成对分组把数据分为若干组,每个组中的差异都很小,称为齐性组。再把齐性组分为两部分,分别接受两种方法的实验,检验两种方法效果差异。
符号检验
令Ii={1,第i对个体中,新方法效果优于对照方法0,否则I_i=\begin{cases}1,第i对个体中,新方法效果优于对照方法\\0,否则\end{cases}Ii={1,第i对个体中,新方法效果优于对照方法0,否则
记统计量SN=∑i=1NIiS_N=\sum_{i=1}^NI_iSN=∑i=1NIi
可以理解为每一对做差,取正号的总数,即符号检验。
由于每一对中两个数据随机分给两种实验方法,概率为12\frac{1}{2}21,有
PH0{SN=k}=12NCNkP_{H_0}\{S_N=k\}=\frac{1}{2^N}C_N^kPH0{SN=k}=2N1CNk,k=0,1,⋅⋅⋅,Nk=0,1,···,Nk=0,1,⋅⋅⋅,N
p=PH0{SN≥c}p=P_{H_0}\{S_N≥c\}p=PH0{SN≥c}
同样的,p<αp<\alphap<α时拒绝H0H_0H0,反之接受H0H_0H0。
- 习题2.7.(1):对NNN=4时求符号检验统计量SNS_NSN的零分布。
解:
PH0{SN=0}=120C40=116P_{H_0}\{S_N=0\}=\frac{1}{2^0}C_4^0=\frac{1}{16}PH0{SN=0}=201C40=161
PH0{SN=1}=121C41=416P_{H_0}\{S_N=1\}=\frac{1}{2^1}C_4^1=\frac{4}{16}PH0{SN=1}=211C41=164
PH0{SN=2}=122C42=616P_{H_0}\{S_N=2\}=\frac{1}{2^2}C_4^2=\frac{6}{16}PH0{SN=2}=221C42=166
PH0{SN=3}=123C43=416P_{H_0}\{S_N=3\}=\frac{1}{2^3}C_4^3=\frac{4}{16}PH0{SN=3}=231C43=164
PH0{SN=4}=124C44=116P_{H_0}\{S_N=4\}=\frac{1}{2^4}C_4^4=\frac{1}{16}PH0{SN=4}=241C44=161
Wilcoxon符号秩检验
符号检验中并未考虑差值的大小,Wilcoxon符号秩检验进一步考虑了差异值。
令N+N_+N+=新方法与对照方法效果度量值之差为正的配对数
对每个差值的绝对值赋予秩,并根据原差值赋予正负号,得到符号秩。
记S1<S2<⋅⋅⋅SN+S_1<S_2<···S_{N+}S1<S2<⋅⋅⋅SN+表示为正的秩,为负用RRR表示。
零分布PH0={Vs=v}=#{v;N}2NP_{H_0}=\{V_s=v\}=\frac{\#\{v;N\}}{2^N}PH0={Vs=v}=2N#{v;N},其中n=0,1,···,N(N+1)2\frac{N(N+1)}{2}2N(N+1)
其中,#{v;N}\#\{v;N\}#{v;N}表示所有可能出现的2N2^N2N种符号秩情形中,正号秩之和为vvv的个数。
定义秩和统计量Vs=S1+S2+⋅⋅⋅+SN+V_s=S_1+S_2+···+S_{N_+}Vs=S1+S2+⋅⋅⋅+SN+
p=PH0{Vs≥c}p=P_{H_0}\{V_s≥c\}p=PH0{Vs≥c}
- 习题2.9:对NNN=4,求Wilcoxon符号秩统计量VsV_sVs的零分布。
解:符号秩各种取值情况如下表所示:
符号秩 | Vs=vsV_s=v_sVs=vs |
---|---|
-1 -2 -3 -4 | 0 |
-1 -2 -3 4 | 4 |
-1 -2 3 -4 | 3 |
-1 2 -3 -4 | 2 |
1 -2 -3 -4 | 1 |
-1 -2 3 4 | 7 |
-1 2 -3 4 | 6 |
1 -2 -3 4 | 5 |
-1 2 3 -4 | 5 |
1 -2 3 -4 | 4 |
1 2 -3 -4 | 3 |
-1 2 3 4 | 9 |
1 -2 3 4 | 8 |
1 2 -3 4 | 7 |
1 2 3 -4 | 6 |
1 2 3 4 | 10 |
得VsV_sVs零分布:
VsV_sVs | PH0{Vs=vs}P_{H_0}\{V_s=v_s\}PH0{Vs=vs} |
---|---|
0 | 1/16 |
1 | 1/16 |
2 | 1/16 |
3 | 2/16 |
4 | 2/16 |
5 | 2/16 |
6 | 2/16 |
7 | 2/16 |
8 | 1/16 |
9 | 1/16 |
10 | 1/16 |
多种处理方法比较
前面都是两种处理方法的比较,现介绍三种及以上处理方法的比较。
Kruskal-Wallis检验
假设H0H_0H0:各处理方法的效果无显著差异。
令Ri+R_i^+Ri+表示各组秩和
统计量K=12N(N+1)∑i=1sRi+2ni−3(N+1)K=\frac{12}{N(N+1)}\sum_{i=1}^s\frac{R_{i+}^2}{n_i}-3(N+1)K=N(N+1)12∑i=1sniRi+2−3(N+1)
ppp由PH0{K≥c}P_{H_0}\{K≥c\}PH0{K≥c}确定。
援引书上例子:
分组设计下多种处理方法的比较
即将成对分组应用到多种处理方法中。
令RijR_{ij}Rij表示第jjj组中接受第iii种方法检验的个体的秩。
各组中sss个个体随机指定给sss个方法,即s!s!s!种分配法。
PH0{R11=r11,Rs1=rs1,⋅⋅⋅,R1N=r1N,RsN=rsN}=(1s!)NP_{H_0}\{R_{11}=r_{11},R_{s1}=r_{s1},···,R_{1N}=r_{1N},R_{sN}=r_{sN}\}={(\frac{1}{s!})}^NPH0{R11=r11,Rs1=rs1,⋅⋅⋅,R1N=r1N,RsN=rsN}=(s!1)N
Friedman检验
设接受第iii个方法实验的NNN个个体的秩的平均值为Ri⋅R_{i·}Ri⋅(i=1,2,···,s)
Ri⋅=1N(Ri1+Ri2+⋅⋅⋅+RiN)R_{i·}=\frac{1}{N}(R_{i1}+R_{i2}+···+R_{iN})Ri⋅=N1(Ri1+Ri2+⋅⋅⋅+RiN)
统计量Q=12Ns(s+1)∑i=1sRi+2−3N(s+1)Q=\frac{12}{Ns(s+1)}\sum_{i=1}^sR^2_{i+}-3N(s+1)Q=Ns(s+1)12∑i=1sRi+2−3N(s+1)
其中Ri+R_i^+Ri+仍是表示各组秩和
ppp由PH0{Q≥c}P_{H_0}\{Q≥c\}PH0{Q≥c}确定。
仍援引书上例子(计算量太大了,都是计算机算)
本文主要介绍了非参数秩方法中各种检测方法的原理,其实都有相应的封装可以调用的,比如Python中的Scipy库,下次介绍Scipy中具体编程应用(挖个坑)。
原创不易,请勿转载(本不富裕的访问量雪上加霜 )
博主首页:https://wzlodq.blog.csdn.net/
来都来了,不评论两句吗数据分析-非参数秩方法相关推荐
- Bootstrap方法(参数和非参数Bootstrap方法)、Matlab算例
非参数Bootstrap方法 设总体的分布FFF未知,但按放回抽样的方法抽取了一个容量为nnn的样本,称为Bootstrap样本或称为自助样本.独立地取多个Bootstrap样本,利用这些样本信息对总 ...
- 非参数密度估计(直方图与核密度估计)
主要讲述直方图与kernel density estimation,参考维基百科中的经典论述,从直方图和核密度估计的实现对比来说明这两种经典的非参数密度估计方法,具体的细节不做深入剖析. In sta ...
- matlab bootstrap,非参数bootstrap方法和其MATLAB实现_吴庆平.pdf
第34卷第2期第34卷第2期 丽丽 水水 学学 院院 学学 报报 2012年4月2012年4月 Vo1.34Vo1.34 No.2No.2 JOURNALJOURNAL OFOF LISHUILISH ...
- 精算模型10 非参数模型0 精算数据、非参数建模的思路概述
精算模型10 非参数模型0 精算数据.非参数建模的目标概述 数据类型 完整数据 非完整数据 数据分析目标 这是精算模型的第十部分,精算的非参数统计模型,从这一部分开始我们讨论精算建模的统计方法.在讨论 ...
- 不显示参数名_非参数检验 之 非参数卡方检验
序曲 快要临近春节了,但持续一年之久的疫情还在继续,不知是否会影响到今年的春节回家之路.今天故以杜甫的思乡诗开头. 月夜忆舍弟 唐 杜甫 戍鼓断人行,边秋一雁声. 露从今夜白,月是故乡明. 有弟皆分散 ...
- fMRI数据分析处理原理及方法fMRI数据分析处理原理及方法
fMRI数据分析处理原理及方法 2012-6-5 22:19 | 发布者: 仙豆 | 查看: 400 | 评论: 0 | 原作者: charcoal (黑丁) | 来自: 水木清华站 摘要 : 近年来 ...
- python 斯皮尔曼相关系数_使用Python计算非参数的秩相关
相关性是两个变量之间关联的度量. 当两个变量都有良好理解的高斯分布时,很容易计算和解释.而当我们不知道变量的分布时,我们必须使用非参数的秩相关(Rank Correlation,或称为等级相关)方法. ...
- python 命令行参数-python获取命令行参数的方法(汇总)
介绍python获取命令行参数的方法:getopt模和argparse模块. python版本:2.7 一.getopt模块 主要用到了模块中的函数: options, args = getopt.g ...
- 【机器学习】算法模型自动超参数优化方法
什么是超参数? 学习器模型中一般有两类参数,一类是可以从数据中学习估计得到,我们称为参数(Parameter).还有一类参数时无法从数据中估计,只能靠人的经验进行设计指定,我们称为超参数(Hyper ...
最新文章
- python必须连网开发吗_Python开发,请避开这些坑!
- PopupMenu消失(Dismiss)抓住
- JZOJ__Day 7:【普及模拟】max
- mysql用户权限表join_MyBatis映射利用mysql left join 解决N+1查询问题
- ActionScript 3 step by step (2) - 使用Trace()跟踪输出
- MyCat分布式数据库集群架构工作笔记0016---高可用_单表存储千万级_海量存储_垂直分库划分原则
- 二、kubernetes
- Java怎么实现文件数据拷贝
- python ttk.notebook_python - ttk.Notebook每个选项卡上的不同网格大小 - 堆栈内存溢出...
- 基于MATLAB 的X-CT图像重建计算机仿真实验研究实验
- (一)RFB协议概述
- 2022年中国镍期货成交量、成交金额、成交价格走势分析:镍开盘价持续走高[图]
- TSP问题解决:模拟退火、贪心法、爬山法,Python实现
- 读取JPEG文件的压缩质量/质量因子参数
- 数字社会案例集(1.0版本) 附下载
- 查表程序c8051汇编语言,汇编程序 查表求平方的实现
- Matplotlib二维箭头图
- Android各版本分布
- 论文中写伪代码的工具
- [考研经验]2018北京理工大学计算机专硕 初试复试全程复习回顾
热门文章