第六章非参数假设检验(2)

1.拟合优度检验

拟合优度，即利用总体XXX中抽取的样本X1,⋯,XnX_1,\cdots,X_nX1,⋯,Xn，来检验H0:r.v. X的分布为FH_0:\text{r.v. }X的分布为FH0:r.v. X的分布为F这一假设。然而，对于总体分布，用符号、不符合这种说法未免过于绝对，因此通常是提出一个介于0到1之间的数值来衡量拟合的优劣程度，称作拟合优度。

拟合优度一般如此定义：p(d0)=P(D≥d0∣H0)p(d_0)=P(D\ge d_0|H_0)p(d0)=P(D≥d0∣H0)，这里DDD是一种样本之于给定分布的偏差，是一个统计量，有许多的定义方式；d0d_0d0就是统计量DDD对于给定样本的观测值。

当理论分布完全已知的时候，可以采用Pearson χ2\chi^2χ2检验，它又分为几种类型。

随机变量XXX为离散型，且只取有限个值a1,⋯,ara_1,\cdots,a_ra1,⋯,ar的情形。

设X1,⋯,XnX_1,\cdots,X_nX1,⋯,Xn为从总体XXX中抽取的简单样本，理论分布为
F:(a1a2⋯arp1p2⋯pr)F:\left( \begin{array}{c} a_1&a_2&\cdots&a_r\\ p_1&p_2&\cdots&p_r \end{array} \right) F:(a1p1a2p2⋯⋯arpr)
且p1,⋯,prp_1,\cdots,p_rp1,⋯,pr已知，∑i=1rpi=1\sum_{i=1}^r p_i=1∑i=1rpi=1，检验的问题表示为
H0:P(X=ai)=pi,i=1,⋯,rH_0:P(X=a_i)=p_i,\quad i=1,\cdots,r H0:P(X=ai)=pi,i=1,⋯,r
设X1,⋯,XnX_1,\cdots,X_nX1,⋯,Xn中，等于aia_iai的个数为νi\nu_iνi（观察频数），按照分布FFF的理想情况，每一个aia_iai对应的理论频数应该是npinp_inpi，当nnn充分大的时候观察频数应该趋近于理论频数，因此取检验统计量为∑i=1rci(νi/n−pi)2\sum_{i=1}^rc_i(\nu_i/n-p_i)^2∑i=1rci(νi/n−pi)2，特别地，取ci=n/pic_i=n/p_ici=n/pi，得到
Kn=∑i=1r(νi−npi)2npi⟶Lχr−12K_n=\sum_{i=1}^r \frac{(\nu_i-np_i)^2}{np_i}\stackrel{\mathscr L}{\longrightarrow }\chi^2_{r-1} Kn=i=1∑rnpi(νi−npi)2⟶Lχr−12
这样，当KnK_nKn过大，具体地说就是Kn>χr−12(α)K_n>\chi^2_{r-1}(\alpha)Kn>χr−12(α)时拒绝H0H_0H0。按照前面的方式定义拟合优度，就是
p(k0)=P(Kn≥k0∣H0)≈P(χr−12≥k0)p(k_0)=\mathbf P(K_n\ge k_0|H_0)\approx\mathbf P(\chi^2_{r-1}\ge k_0) p(k0)=P(Kn≥k0∣H0)≈P(χr−12≥k0)
理论分布为任一确定分布的情形。

此时，取r−1r-1r−1个常数a0=−∞<a1<⋯<ar=∞a_0=-\infty<a_1<\cdots<a_r=\inftya0=−∞<a1<⋯<ar=∞，将数轴划分成rrr个子区间Ii=[ai−1,ai)I_i=[a_{i-1},a_i)Ii=[ai−1,ai)（负无穷处为开区间），并计算样本落在IiI_iIi上的概率pi=F(ai)−F(ai−1)p_i=F(a_i)-F(a_{i-1})pi=F(ai)−F(ai−1)，将其作为理论概率。这样，就转化成了理论分布为有限维离散分布的情形。
理论分布带有未知参数的情形。

这时的假设就变成H0:r.v. X∼F(x,θ10,⋯,θs0)H_0:\text{r.v. }X\sim F(x,\theta_1^0,\cdots,\theta_s^0)H0:r.v. X∼F(x,θ10,⋯,θs0)，也就是存在这样一组参数让总体符合分布。

对上一情况直接推广，设pj(θ)=P(X∈Ij)=F(aj;θ)−F(aj−1;θ)p_j(\boldsymbol \theta)=\mathbf P(X\in I_j)=F(a_j;\boldsymbol \theta)-F(a_{j-1};\boldsymbol \theta)pj(θ)=P(X∈Ij)=F(aj;θ)−F(aj−1;θ)，类似地可以求出
Kn(θ)=∑j=1r(νi−npi(θ))2npi(θ)K_n(\boldsymbol \theta)=\sum_{j=1}^r \frac{(\nu_i-np_i(\boldsymbol \theta))^2}{np_i(\boldsymbol \theta)} Kn(θ)=j=1∑rnpi(θ)(νi−npi(θ))2
此时的Kn(θ)K_n(\boldsymbol \theta)Kn(θ)由于θ\boldsymbol \thetaθ的存在还不能作为统计量，所以要对θ\boldsymbol \thetaθ作出估计，用θ^\hat {\boldsymbol \theta}θ^代入Kn(θ)K_n(\boldsymbol \theta)Kn(θ)，其中θ^\hat {\boldsymbol \theta}θ^也由样本X\boldsymbol XX使用极大似然方法估计出，并且有
Kn(θ^)⟶Lχr−1−s2K_n(\hat {\boldsymbol \theta})\stackrel{\mathscr L}{\longrightarrow }\chi^2_{r-1-s} Kn(θ^)⟶Lχr−1−s2
这样，当Kn(θ^)K_n(\hat {\boldsymbol \theta})Kn(θ^)过大，即Kn(θ^)>χr−1−s2(α)K_n(\hat {\boldsymbol \theta})>\chi^2_{r-1-s}(\alpha)Kn(θ^)>χr−1−s2(α)，则否定原假设。拟合优度自然就是p(k0∗)=P(Kn(θ^)≥k0∗)≈P(χr−1−s2≥k0∗)p(k_0^*)=\mathbf P(K_n(\hat{\boldsymbol \theta})\ge k_0^*)\approx\mathbf P(\chi^2_{r-1-s}\ge k_0^*)p(k0∗)=P(Kn(θ^)≥k0∗)≈P(χr−1−s2≥k0∗)。

2.列联表中的独立性检验

列联表主要是用于检验样本的两个属性之间是否独立的。假设总体中的每一个个体都可以按A,BA,BA,B属性分类，属性AAA有rrr个水平，分别是A1,⋯,ArA_1,\cdots,A_rA1,⋯,Ar；属性BBB有sss个水平B1,⋯,BsB_1,\cdots,B_sB1,⋯,Bs，这样，每个个体的观察结果为随机向量X=(X(1),X(2))X=(X^{(1)},X^{(2)})X=(X(1),X(2))，第XiX_iXi个个体的观察结果为(Ari,Bsi)(A_{r_i},B_{s_i})(Ari,Bsi)。一共有nnn个个体，且属性为(Ai,Bj)(A_i,B_j)(Ai,Bj)的个体有nijn_{ij}nij个，将数量列入表格，就做成r×sr\times sr×s列联表。要验证的假设是
H0:X(1),X(2)独立H_0:X^{(1)},X^{(2)}独立 H0:X(1),X(2)独立
现在将AAA的水平记作1,⋯,r1,\cdots,r1,⋯,r，BBB的水平记作1,⋯,s1,\cdots,s1,⋯,s。如果记P(X(1)=i,X(2)=j)=pij\mathbf P(X^{(1)}=i,X^{(2)}=j)=p_{ij}P(X(1)=i,X(2)=j)=pij，如果H0H_0H0成立，则有
pij=P(X(1)=i,X(2)=j)=P(X(1)=i)P(X(2)=j)=pi⋅p⋅jpi⋅=∑j=1spij,p⋅j=∑i=1rpijp_{ij}=\mathbf P(X^{(1)}=i,X^{(2)}=j)=\mathbf P(X^{(1)}=i)\mathbf P(X^{(2)}=j)=p_{i\cdot}p_{\cdot j}\\ p_{i\cdot}=\sum_{j=1}^sp_{ij},\quad p_{\cdot j}=\sum_{i=1}^r p_{ij} pij=P(X(1)=i,X(2)=j)=P(X(1)=i)P(X(2)=j)=pi⋅p⋅jpi⋅=j=1∑spij,p⋅j=i=1∑rpij
所以原假设H0H_0H0转化为H0:pij=pi⋅p⋅j,∀i,jH_0:p_{ij}=p_{i\cdot}p_{\cdot j},\forall i,jH0:pij=pi⋅p⋅j,∀i,j。此时如果将pi⋅,p⋅jp_{i\cdot},p_{\cdot j}pi⋅,p⋅j视为参数，则独立的未知参数有s+r−2s+r-2s+r−2个，此时计算得χ2\chi^2χ2统计量的值为
Kn∗=n(∑i=1r∑j=1snij2ni⋅n⋅j−1)K_n^*=n\left(\sum_{i=1}^r\sum_{j=1}^s\frac{n_{ij}^2}{n_{i\cdot}n_{\cdot j}}-1\right) Kn∗=n(i=1∑rj=1∑sni⋅n⋅jnij2−1)
当H0H_0H0时且n→∞n\to \inftyn→∞时，有Kn∗⟶Lχ(r−1)(s−1)2K_n^*\stackrel{\mathscr L}{\longrightarrow }\chi^2_{(r-1)(s-1)}Kn∗⟶Lχ(r−1)(s−1)2，如果两个属性独立则Kn∗K_n^*Kn∗不应该过大。如果Kn∗>χ(r−1)(s−1)2(α)K_n^*>\chi^2_{(r-1)(s-1)}(\alpha)Kn∗>χ(r−1)(s−1)2(α)则否定假设，否则接受。检验的拟合优度是
p(k0)=P(Kn∗≥k0∣H0)≈P(χ(r−1)(s−1)2≥k0)p(k_0)=\mathbf P(K_n^*\ge k_0|H_0)\approx\mathbf P(\chi^2_{(r-1)(s-1)}\ge k_0) p(k0)=P(Kn∗≥k0∣H0)≈P(χ(r−1)(s−1)2≥k0)
特别地当r=s=2r=s=2r=s=2时，
Kn∗=n(n11n22−n12n21)2n1⋅n2⋅n⋅1n⋅2⟶Lχ12K_n^*=\frac{n(n_{11}n_{22}-n_{12}n_{21})^2}{n_{1\cdot}n_{2\cdot}n_{\cdot1}n_{\cdot 2}}\stackrel{\mathscr L}{\longrightarrow }\chi^2_1 Kn∗=n1⋅n2⋅n⋅1n⋅2n(n11n22−n12n21)2⟶Lχ12

3.列联表中的齐一性检验

设有rrr个生产同一产品的工厂，生产sss个不同等级的产品，第iii个工厂的jjj等品率为pi(j)p_i(j)pi(j)，现在从第iii个工厂取出ni⋅n_{i\cdot}ni⋅个产品，记录jjj等品nijn_{ij}nij个。齐一性检验检验的是rrr个工厂产品质量相同，即
H0:p1(j)=p2(j)=⋯=pr(j),j=1,2,⋯,sH_0:p_1(j)=p_2(j)=\cdots=p_r(j),j=1,2,\cdots,s H0:p1(j)=p2(j)=⋯=pr(j),j=1,2,⋯,s
如果分布是完全已知的，即p1(j)=⋯pr(j)=pj0p_1(j)=\cdots p_r(j)=p_j^0p1(j)=⋯pr(j)=pj0，且p10,⋯,ps0p_1^0,\cdots,p_s^0p10,⋯,ps0均已知且和为1，此时
K=Kn=∑i=1r∑j=1s(nij−ni⋅pj0)2ni⋅pj0K=K_n=\sum_{i=1}^r\sum_{j=1}^s\frac{(n_{ij}-n_{i\cdot }p_j^0)^2}{n_{i\cdot }p_j^0} K=Kn=i=1∑rj=1∑sni⋅pj0(nij−ni⋅pj0)2
当H0H_0H0成立时，有Kn⟶Lχ(s−1)r2K_n\stackrel{\mathscr L}{\longrightarrow }\chi^2_{(s-1)r}Kn⟶Lχ(s−1)r2。

如果分布未知，则
Kn∗=n(∑i=1r∑j=1snij2ni⋅n⋅j−1)⟶Lχ(r−1)(s−1)2K_n^*=n\left( \sum_{i=1}^r\sum_{j=1}^s\frac{n_{ij}^2}{n_{i\cdot}n_{\cdot j}}-1 \right)\stackrel{\mathscr L}{\longrightarrow }\chi^2_{(r-1)(s-1)} Kn∗=n(i=1∑rj=1∑sni⋅n⋅jnij2−1)⟶Lχ(r−1)(s−1)2
齐一性检验与独立性检验的区别，就在于ni⋅n_{i\cdot}ni⋅是事先给定的，没有随机性；而独立性检验中ni⋅n_{i\cdot}ni⋅是随机变量。但在独立性检验中成立的结论在齐一性检验中依然适用。

4.柯尔莫哥洛夫检验

对于拟合优度检验，Pearsonχ2\chi^2χ2检验虽然适用于任何总体分布，但当理论分布是连续分布时，柯尔莫哥洛夫检验效果更好。

要检验如下假设H0:F(x)=F0(x)H_0:F(x)=F_0(x)H0:F(x)=F0(x)，则从样本出发得到经验分布函数记作Fn(x)F_n(x)Fn(x)，定义柯氏距离
Dn=sup⁡−∞<x<+∞∣Fn(x)−F0(x)∣D_n=\sup_{-\infty<x<+\infty}|F_n(x)-F_0(x)| Dn=−∞<x<+∞sup∣Fn(x)−F0(x)∣
为检验统计量，由格里汶科定理，当H0H_0H0成立时有P(lim⁡n→∞Dn=0)=1\mathbf P(\lim \limits_{n\to\infty}D_n=0)=1P(n→∞limDn=0)=1，也就是说DnD_nDn值过大时，倾向于否定假设H0H_0H0，拟合优度的计算公式是p(D0)=P(D≥D0∣H0)p(D_0)=\mathbf P(D\ge D_0|H_0)p(D0)=P(D≥D0∣H0)。需要确定一个常数，使得p(Dn,α)=αp(D_{n,\alpha})=\alphap(Dn,α)=α，这个常数就是DnD_nDn的临界值。当nnn较小时，Dn,αD_{n,\alpha}Dn,α的值可以由查表求出。

Dn,αD_{n,\alpha}Dn,α表格的制定依据是柯尔莫哥洛夫证明的极限定理：如果理论分布F0(x)F_0(x)F0(x)在R\mathbf RR上处处连续，则原假设成立时有
lim⁡n→∞P(Dn≤λn)=K(λ)={∑k=−∞∞(−1)ke−2k2λ2,λ>00,λ≤0\lim_{n\to \infty}\mathbf P\left(D_n\le \frac{\lambda }{\sqrt n}\right)=K(\lambda)= \left\{ \begin{array}l \sum \limits_{k=-\infty}^\infty(-1)^ke^{-2k^2\lambda^2},&\lambda>0\\ 0,&\lambda \le 0 \end{array} \right. n→∞limP(Dn≤nλ)=K(λ)=⎩⎨⎧k=−∞∑∞(−1)ke−2k2λ2,0,λ>0λ≤0

16.第六章非参数假设检验(2)相关推荐

第六章非编码RNA鉴定
第六章非编码RNA鉴定阅读量: 154 主要为RNA-seq相关知识,部分内容作笔记自查使用.如有错误或遗漏还请海涵,可评论或邮箱联系. 最后修改时间:2020-09-07 14:38:07 星 ...
非参数假设检验——Pearson检验法
1. 非参数假设检验常常事先并不知道总体的分布类型,这就要根据抽取样本所提供的信息,对总体分布的各种假设进行检验.称总体分布未知时所进行的假设检验为非参数假设检验. 2. Pearson检验法 / ...
假设检验 | 非参数假设检验 —— KS检验
目录 1.概述 2.优缺点 3.KS检验过程 4.python程序 1.概述 KS(Kolmogorov-Smirnow)是一种非参数的统计检验方法,是针对连续分布的检验.这种检测常被用来应用于比较单 ...
Palabos User Guide中文解读 | 第十六章 | 非局部操作的数据处理器和Block之间耦合
作者的话:本人在学习palabos时,发现国内中文资料甚少,恰好网上可以直接搜到palabos user guide这种英文资料,加之时间充裕,便打算开始翻译,翻了一节后发现这可能算侵权,就比较伤脑筋 ...
R语言实现统计分析——非参数假设检验
作者简介糖甜甜甜公众号:经管人学数据分析往期回顾: 词云一分钟了解周董的歌词非参数检验是指总体不服从正态分布,且分布情况不明时,用来检验数据是否来自同一个总体假设等一类检验方法.非参数检验通 ...
图信号非参数假设检验：一种生成代替图信号的谱方法——A Spectral Method for Generating Surrogate Graph Signals
本文利用图的傅里叶变换定义了一种生成代理图信号的新方法.该方法是基于图傅里叶系数的符号随机化,因此,代理图信号的相关结构(即图拓扑上的平滑性)是由测量数据强加的.所提出的替代数据生成方法可广泛应用于非 ...
R语言学习笔记6_非参数的假设检验
目录六.非参数的假设检验 6.1 单总体位置参数的检验 6.1.1 中位数的符号检验 6.1.2 Wilcoxon 符号秩检验(更有效) 6.2 分布的一致性检验:卡方检验 6.3 两总体的比较与检 ...
概率论与数理统计——参数假设检验
7.1 假设检验的基本概念目录 7.1 假设检验的基本概念一.假设检验问题 1. 假设检验的提出 2. 设定假设的原则,哪个作为原假设呢? 3. 假设检验问题的处理方法 4. 提出假设(例题分析) ...
我的R之路：参数假设检验
1 介绍假设检验是用来判断样本与样本,样本与总体的差异是由抽样误差引起还是本质差别造成的统计判断方法. 其基本原理先对总体特征作出某种假设,然后通过抽样研究的统计推理,对此假设应该被拒绝还是接受作出 ...

16.第六章非参数假设检验(2)

第六章非参数假设检验(2)

1.拟合优度检验

2.列联表中的独立性检验

3.列联表中的齐一性检验

4.柯尔莫哥洛夫检验

16.第六章非参数假设检验(2)相关推荐

最新文章

热门文章

16.第六章 非参数假设检验(2)

第六章 非参数假设检验(2)

1.拟合优度检验

2.列联表中的独立性检验

3.列联表中的齐一性检验

4.柯尔莫哥洛夫检验

16.第六章 非参数假设检验(2)相关推荐

最新文章

热门文章

16.第六章非参数假设检验(2)

第六章非参数假设检验(2)

16.第六章非参数假设检验(2)相关推荐