【非参数统计02】单一样本的位置推断问题:符号检验、分位数推断、Cox-Staut趋势存在性检验、随机游程检验、Wilcoxon符号秩检验、位置参数区间估计、正态记分、分布一致性检验、稳健性评价
目录导引
- 2 单一样本的位置推断
- 2.1 符号检验
- 2.1.2 大样本场合
- 2.1.3 配对样本
- 2.1.4 分位数检验
- 2.2 Cox-Staut 趋势存在性检验
- 2.2.1 最优权重
- 2.2.2 无权重的
- 2.2.3 另一种无权重的
- 2.3 随机游程检验
- 2.3.1 两类随机游程检验
- 2.3.1.1 精确分布讨论
- 2.3.1.2 大样本量下的处理
- 2.3.2 三类及多类游程检验
- 2.4 Wilcoxon 符号秩检验
- 2.4.1 Wilcoxon符号秩统计量
- 2.4.2 Wilcoxon符号秩检验及抽样分布
- 2.5 单组数据位置参数置信区间估计
- 2.5.1 基于顺序统计量
- 2.5.2 基于bootstrap
- 2.6 估计量的稳健性评估
- 2.7 正态记分检验
- 2.8 分布的一致性检验
- 2.8.1 χ2\chi^2χ2拟合优度检验
- 2.8.2 K-S正态性检验
- 2.8.3 Liliefor 正态分布检验
- 2.9 单一总体渐进相对效率对比
- 问题列表
这一个系列的笔记和整理希望可以帮助到正在学习非参数统计的同学。我会慢慢更新各个章节的内容。
2 单一样本的位置推断
2.1 符号检验
中位数检验定义检验问题如下:
H0:Me=M0↔H1:Me≠M0H_0:M_{e} = M_0 \leftrightarrow H_1:M_{e}\neq M_0 H0:Me=M0↔H1:Me=M0
定义Yi=I{Xi>M0}Y_i=I\{X_i > M_0\}Yi=I{Xi>M0},Zi=I{Xi<M0},i=1,2,...,nZ_i=I\{X_i < M_0 \}, i=1,2,...,nZi=I{Xi<M0},i=1,2,...,n
累积值计算:
S+=∑i=1nYi=∑i=1nI{Xi>M0}S−=∑i=1nZi=∑i=1nI{Xi<M0}\begin{aligned} S^+ &= \sum_{i=1}^n Y_i = \sum_{i=1}^n I\{X_i > M_0 \}\\ S^- &= \sum_{i=1}^n Z_i = \sum_{i=1}^n I\{X_i < M_0 \} \end{aligned} S+S−=i=1∑nYi=i=1∑nI{Xi>M0}=i=1∑nZi=i=1∑nI{Xi<M0}
取k=min{S+,S−}k=min\{S^+,S^-\}k=min{S+,S−},此时的假设检验问题转换为Y∼b(1,p)Y \sim b(1,p)Y∼b(1,p)的参数检验问题,其中p=P(X>M0),H0:p=0.5↔H1:p≠0.5p=P(X>M_0), H_0:p=0.5 \leftrightarrow H_1:p \neq 0.5p=P(X>M0),H0:p=0.5↔H1:p=0.5. 这个检验的拒绝域为
2∗Pbinom{K⩽k∣n,p=0.5}⩽α2*P_{binom}\{K\leqslant k|n,p=0.5\} \leqslant \alpha 2∗Pbinom{K⩽k∣n,p=0.5}⩽α
不看拒绝域直接算一个ppp值应该更方便
p=2∗P{K⩽k∣n,p=0.5}=2∑i=0kCnk0.5np=2*P\{K\leqslant k|n,p=0.5\} = 2\sum_{i=0}^k C_{n}^{k}0.5^{n} p=2∗P{K⩽k∣n,p=0.5}=2i=0∑kCnk0.5n
2.1.2 大样本场合
当样本量较大的时候,可以使用二项分布的正态近似进行检验。当S+∼B(n′,12)S^+ \sim B(n',\frac{1}{2})S+∼B(n′,21)时,S+∼N(n′2,n′4)S^+ \sim N(\frac{n'}{2}, \frac{n'}{4})S+∼N(2n′,4n′),定义渐进服从标准正态分布的统计量
Z=S+−n′2n′4→N(0,1),n→L+∞Z = \frac{S^+ - \frac{n'}{2}}{\sqrt{\frac{n'}{4}}} \to N(0,1), n\stackrel{\mathcal{L}}{\to} +\infty Z=4n′S+−2n′→N(0,1),n→L+∞
正态性修正
当n′n'n′不够大的时候,可以用正态性修正
Z=S+−n′2+Cn′4→N(0,1),n→L+∞Z = \frac{S^+ - \frac{n'}{2} + C}{\sqrt{\frac{n'}{4}}} \to N(0,1), n \stackrel{\mathcal{L}}{\to} +\infty Z=4n′S+−2n′+C→N(0,1),n→L+∞
其中,
C={−12,S+<n′212,S+>n′2C = \left \{ \begin{aligned} -\frac{1}{2} &, S^+<\frac{n'}{2}\\ \frac{1}{2} &, S^+>\frac{n'}{2} \end{aligned} \right . C=⎩⎪⎪⎨⎪⎪⎧−2121,S+<2n′,S+>2n′
2.1.3 配对样本
要熟悉怎么从一对样本中提炼出符号问题,假设我们的数据呈现{(xi,yi)}n\{(x_i,y_i)\}_{n}{(xi,yi)}n的形式,如果xi<yix_i<y_ixi<yi,可以记为+++,反之为−-−,相等为0.我们只比较+−+-+−的个数,就回到了2.1.1-2,4
的问题。
2.1.4 分位数检验
直接对于2.1.1
的分位数检验进行推广即可,注意S+S^+S+在原假设下服从的伯努利分布不再一定是b(n′,0.5)b(n',0.5)b(n′,0.5).一般意义下为S+∼b(n′,1−p0)S^+\sim b(n', 1-p_0)S+∼b(n′,1−p0)
例子
关心空气质量的0.25分位数是否在优
的水平
H0:M0.25⩽50,H1:M0.25>50H_0:M_{0.25}\leqslant50,\quad H_1:M_{0.25}>50 H0:M0.25⩽50,H1:M0.25>50
定义S+=∑i=1nYi,S−=∑i=1nZiS^+=\sum_{i=1}^n Y_i,\quad S^-=\sum_{i=1}^n Z_iS+=i=1∑nYi,S−=i=1∑nZi
其中Yi=I{Xi>M0.25}Y_i=I\{X_i>M_{0.25}\}Yi=I{Xi>M0.25},Zi=I{Xi<=M0.25}Z_i=I\{X_i<=M_{0.25}\}Zi=I{Xi<=M0.25}
数值计算如下
Splus = length(which(aqi$AQI>50))
Sneg = length(which(aqi$AQI<=50))
print(paste0('S^+ | ', Splus, ' | S^- | ', Sneg))
计算p值
P{S−⩽2∣n=34,p=0.25}=∑i=02Cnipi(1−p)n−i∣n−34,p=0.25\begin{aligned} P\{S^- \leqslant 2 | n = 34, p = 0.25\} &=\sum_{i=0}^2 C_{n}^i p^i(1-p)^{n-i} |_{n-34,p=0.25} \end{aligned} P{S−⩽2∣n=34,p=0.25}=i=0∑2Cnipi(1−p)n−i∣n−34,p=0.25
2.2 Cox-Staut 趋势存在性检验
2.2.1 最优权重
S1检验
首先,给出检验问题,在后面几个问题中都统一使用这样的双边趋势检验
。
H0:数据不存在趋势H1:数据存在趋势H_0: 数据不存在趋势 \quad H_1: 数据存在趋势 H0:数据不存在趋势H1:数据存在趋势
S1S_1S1统计量:
S1=∑k=1⌊N/2⌋(N−2k+1)hk,N−k+1S_1 = \sum_{k=1}^{\lfloor N/2 \rfloor }(N-2k+1)h_{k,N-k+1} S1=k=1∑⌊N/2⌋(N−2k+1)hk,N−k+1
其中
hk,N−k+1={1,yk>yN−k+10,yk<yN−k+1h_{k,N-k+1} = \begin{cases} 1, y_k > y_{N-k+1} \\ 0, y_k < y_{N-k+1} \end{cases} hk,N−k+1={1,yk>yN−k+10,yk<yN−k+1
本题中N=121,N/2=60.
下计算检验统计量S1∗S_1^*S1∗
S1∗=S1−18N2124N(N2−1)S_1^*=\frac{S_1-\frac{1}{8}N^2}{\sqrt{\frac{1}{24}N(N^2-1)}} S1∗=241N(N2−1)S1−81N2
2.2.2 无权重的
S2检验
S2=∑k=1⌊N/2⌋hk,⌊N/2⌋+kS_2 = \sum_{k=1}^{\lfloor N/2 \rfloor }h_{k,\lfloor N/2 \rfloor +k} S2=k=1∑⌊N/2⌋hk,⌊N/2⌋+k
2.2.3 另一种无权重的
S3检验
S3=∑k=1⌊N/3⌋hk,23N+k,其中N=121S_3 = \sum_{k=1}^{\lfloor N/3 \rfloor }h_{k,\frac{2}{3}N+k},其中N=121 S3=k=1∑⌊N/3⌋hk,32N+k,其中N=121
计算每一个数据对的符号,进行符号检验
S+=∑k=1⌊N/3⌋I(hk,23N+k>0)S−=∑k=1⌊N/3⌋I(hk,23N+k<0)S^+=\sum_{k=1}^{\lfloor N/3 \rfloor}I(h_{k,\frac{2}{3}N+k}>0)\\ S^-=\sum_{k=1}^{\lfloor N/3 \rfloor}I(h_{k,\frac{2}{3}N+k}<0) S+=k=1∑⌊N/3⌋I(hk,32N+k>0)S−=k=1∑⌊N/3⌋I(hk,32N+k<0)
继续原假设为无趋势
的双边检验,零假设下h~b(1,0.5)。计算
2P{K⩽min(S−,S+)∣N=40,p=0.5}=2∑i=0S+C40i0.5402P\{K\leqslant min(S^-,S^+)|N=40,p=0.5\} = 2\sum_{i=0}^{S^+} C_{40}^{i}0.5^{40} 2P{K⩽min(S−,S+)∣N=40,p=0.5}=2i=0∑S+C40i0.540
2.3 随机游程检验
2.3.1 两类随机游程检验
我们关心一个序列中的数据出现是否与顺序无关,比如股票的涨跌是否随机,某条街道发生交通事故的天数是否随机。很显然,在面对一个0−10-10−1串的时候,如果0,10,10,1出现的顺序是随机的,那么我们常常认为他们会均匀出现。但如果交替很不频繁,同个数字堆积着连续出现,那么可能存在趋势性规律或者周期性规律。
1111111000000 0-1交替过少 可能有趋势性规律
1100110101100 0-1交替过多 可能有周期性规律
游程
一个由0或1连续构成的串
游程长度
一个游程中数据的个数
一个序列中游程个数由RRR表示,RRR表示了0和1的交替轮换的频繁程度,R−1R-1R−1就是轮换次数。
2.3.1.1 精确分布讨论
随机游程检验也称为 Wald-Wolfowitz
游程检验
检验问题可以表达为
H0:数据出现顺序随机↔H1:数据出现顺序不随机H_0: 数据出现顺序随机 \leftrightarrow H_1: 数据出现顺序不随机 H0:数据出现顺序随机↔H1:数据出现顺序不随机
假设序列中由n0n_0n0个0,n1n_1n1个1,则在原假设成立情况下,每一个元素Xi∼B(1,p),p=n1n0+n1X_i \sim B(1,p),p=\frac{n_1}{n_0+n_1}Xi∼B(1,p),p=n0+n1n1,每一种序列出现的可能性是相等的,为(n1n)−1( _{n_1}^n )^{-1}(n1n)−1,关于游程数RRR我们可以计算概率分布。
当R=2kR=2kR=2k的时候,我们各有k个0游程和1游程,k次交替表示我们要从长度为n1n_1n1的1串中找到k-1个分点把1串分成k游程;同理0串也要找到k-1个分点分成k游程。寻找分点就是插板问题,n1n_1n1长度的串有n1−1n_1-1n1−1个板可以选。又因为先放0游程或者先放1游程有两种情况,所以:
P(R=2k)=2(k−1n0−1)(k−1n1−1)(n1n)P(R=2k) = \frac{2( _{k-1}^{n_0-1} )( _{k-1}^{n_1-1} )}{( _{n_1}^n )} P(R=2k)=(n1n)2(k−1n0−1)(k−1n1−1)
当R=2k+1R=2k+1R=2k+1的时候,如果有k个0游程,k+1个1游程,就是在1串中找到k-1个分点,0串中找到k各分点;另一种情况类似,容易得到:
P(R=2k+1)=(kn0−1)(k−1n1−1)+(k−1n0−1)(kn1−1)(n1n)P(R=2k+1) = \frac{( _{k}^{n_0-1} )( _{k-1}^{n_1-1} )+( _{k-1}^{n_0-1} )( _{k}^{n_1-1} )}{ ( _{n_1}^n )} P(R=2k+1)=(n1n)(kn0−1)(k−1n1−1)+(k−1n0−1)(kn1−1)
根据这些离散的概率表达,我们可以得到在H0H_0H0成立条件下,离谱的事情的发生概率P(R⩾r)P(R \geqslant r)P(R⩾r)或P(R⩽r)P(R\leqslant r)P(R⩽r),硬算这个的话需要查表,比如给出水平α=0.025\alpha=0.025α=0.025以及n0,n1n_0,n_1n0,n1时的临界值c1,c2c_1,c_2c1,c2,有
P(R⩽r)⩽α,P(R⩾r)⩾αP(R\leqslant r) \leqslant \alpha, \quad P(R \geqslant r) \geqslant \alpha P(R⩽r)⩽α,P(R⩾r)⩾α
2.3.1.2 大样本量下的处理
当n→∞n \to \inftyn→∞,根据精确分布的性质可以得到
E(R)=2n1n0n1+n0+1var(R)=2n1n0(2n1n0−n0−n1)(n1+n0)2(n1+n0−1)E(R)=\frac{2n_1n_0}{n_1+n_0}+1\\ var(R)=\frac{2n_1n_0(2n_1n_0-n_0-n_1)}{(n_1+n_0)^2(n_1+n_0-1)} E(R)=n1+n02n1n0+1var(R)=(n1+n0)2(n1+n0−1)2n1n0(2n1n0−n0−n1)
如果n1n0→γ\frac{n_1}{n_0} \to \gamman0n1→γ,可以继续化简得到
E(R)=2n11+γ+1var(R)≈4γn1(1+γ)3E(R)=\frac{2n_1}{1+\gamma}+1\\ var(R)\approx \frac{4\gamma n_1}{(1+\gamma)^3} E(R)=1+γ2n1+1var(R)≈(1+γ)34γn1
于是通过大样本下的中心极限定理,给出近似服从标准正态分布的统计量
Z=R−E(R)Var(R)=R−2n11+γ−14γn1(1+γ)3→LN(0,1)Z=\frac{R-E(R)}{\sqrt{Var(R)}}=\frac{R-\frac{2n_1}{1+\gamma}-1}{\sqrt{\frac{4\gamma n_1}{(1+\gamma)^3}}} \stackrel{\mathcal{L}}{\to} N(0,1) Z=Var(R)R−E(R)=(1+γ)34γn1R−1+γ2n1−1→LN(0,1)
一般计算的话直接拿这个ZZZ跟qnormαqnorm{\alpha}qnormα比较就好了。
也可以近似计算拒绝域的临界值
例题
一个检定装置收到下述信号,能否说该信号是纯粹随机干扰?
给出检验问题:
H0:信号是存粹随机干扰,↔H1:信号不是纯粹随机干扰H_0:信号是存粹随机干扰, \leftrightarrow H_1:信号不是纯粹随机干扰 H0:信号是存粹随机干扰,↔H1:信号不是纯粹随机干扰
在原假设成立的情况下,信号Xi∼B(1,p),p=n1nX_i\sim B(1,p),p=\frac{n_1}{n}Xi∼B(1,p),p=nn1
首先,计算基本的n,n0,n1,R,E(R),var(R)n,n_0,n_1,R,E(R),var(R)n,n0,n1,R,E(R),var(R),然后计算ZZZ,完事儿。
2.3.2 三类及多类游程检验
比如足球赛有输
,赢
,平局
三种情况,假设一串游程有k个不同的值,有出现频数n1,n2,...,nk,∑i=1kni=n,pi=ninn_1, n_2, ..., n_k, \sum_{i=1}^k n_i = n, p_i = \frac{n_i}{n}n1,n2,...,nk,∑i=1kni=n,pi=nni,对付这种问题的方法也是使用近似正态,一般要求n>12n>12n>12的情况下可以通过ZZZ的过大或者过小拒绝原假设。
E(R)=n(1−∑i=1kpi2)+1var(R)=n[∑i=1k(pi2−2pi3)+(∑i=1kpi2))2]\begin{aligned} E(R)&=n(1-\sum_{i=1}^k p_i^2)+1 \\ var(R)&=n[\sum_{i=1}^k(p_i^2-2p_i^3)+(\sum_{i=1}^k p_i^2))^2] \end{aligned} E(R)var(R)=n(1−i=1∑kpi2)+1=n[i=1∑k(pi2−2pi3)+(i=1∑kpi2))2]
2.4 Wilcoxon 符号秩检验
2.4.1 Wilcoxon符号秩统计量
前面介绍的统计推断仅仅依赖于数据符号,这类方法对连续分布的形态没有要求。Wilocoxon
符号秩检验讨论对称分布,检验一个分布是否对称。
对于对称分布,
- 对称中心只有一个,但是中位数可能有很多个。
- 由于对称中心是中位数,因此在对称中心两侧应该大致各有一半左右的数据。
- 对称中心两侧数据分布密度相近。
对称中心
称连续分布F(x)F(x)F(x)关于θ\thetaθ对称,如果∀x∈R,F(θ−x)=P(X<θ−x)=P(X>θ+x)=1−F(x=θ)\forall x \in \mathbb{R}, F(\theta -x)=P(X<\theta-x)=P(X>\theta+x)=1-F(x=\theta)∀x∈R,F(θ−x)=P(X<θ−x)=P(X>θ+x)=1−F(x=θ)
Wilcoxon符号秩统计量
先把数据取绝对值∣X1∣,∣X2∣,...,∣Xn∣|X_1|, |X_2|,..., |X_n|∣X1∣,∣X2∣,...,∣Xn∣,排序,得到绝对值顺序统计量∣X∣(1),∣X∣(2),...,∣X∣(n)|X|_{(1)}, |X|_{(2)},..., |X|_{(n)}∣X∣(1),∣X∣(2),...,∣X∣(n)。如果数据关于零对称,那么原来取正值的数据和原来取负值的数据应该均匀地落在这一绝对值顺序统计量序列中。
W+=∑j=1njWj=∑j=1nRj+S(Xj)W^+=\sum_{j=1}^n j W_j = \sum_{j=1}^nR_j^+ S(X_j) W+=j=1∑njWj=j=1∑nRj+S(Xj)
其中Rj+R_j^+Rj+是绝对值观测∣Xj∣|X_j|∣Xj∣,S(Xj)S(X_j)S(Xj)是符号示性函数,正为1,WjW_jWj就是与∣X∣(j)|X|_{(j)}∣X∣(j)对应的原样本点的示性函数S(XDj)S(X_{D_j})S(XDj),Rj+S(Xj)R_j^+S(X_j)Rj+S(Xj)被称为符号秩统计量。
设某一组样本为{9,13,−7,10,−18,4}\{ 9, 13, -7, 10, -18, 4\}{9,13,−7,10,−18,4},其绝对值秩Rj+R_j^+Rj+为{3,5,2,4,6,1}\{ 3, 5, 2, 4, 6, 1\}{3,5,2,4,6,1},示性函数值为{1,1,0,1,0,1}\{ 1, 1, 0, 1, 0, 1\}{1,1,0,1,0,1},矩阵乘法就得到W+=13W^+=13W+=13
下面有几个定理
[2] 如果原假设H0:θ=0H_0:\theta = 0H0:θ=0成立,则S(X1),S(X2),...,S(Xn)S(X_1), S(X_2), ..., S(X_n)S(X1),S(X2),...,S(Xn)独立于(R1+,R2+,...,Rn+)(R_1^+, R_2^+, ..., R_n^+)(R1+,R2+,...,Rn+).
[3] 如果原假设H0:θ=0H_0:\theta = 0H0:θ=0成立,则S(X1),S(X2),...,S(Xn)S(X_1), S(X_2), ..., S(X_n)S(X1),S(X2),...,S(Xn)独立于(D1,D2,...,Dn)(D_1, D_2, ..., D_n)(D1,D2,...,Dn). DjD_jDj是所谓的反秩,∣XDj∣=∣X∣(j)|X_{D_j}|=|X|_{(j)}∣XDj∣=∣X∣(j).
[4] 如果原假设H0:θ=0H_0:\theta = 0H0:θ=0成立,则W1,...,WnW_1,..., W_nW1,...,Wn实际上同分布,P(Wi=1)=P(Wi=1)=12P(W_i=1)=P(W_i=1)=\frac{1}{2}P(Wi=1)=P(Wi=1)=21
2.4.2 Wilcoxon符号秩检验及抽样分布
检验流程
H0:M⩽M0,↔H1:M>M0H_0:M\leqslant M_0, \leftrightarrow H_1:M>M_0 H0:M⩽M0,↔H1:M>M0
- 对所有的iii,计算∣Xi−M0∣|X_i-M_0|∣Xi−M0∣,为样本点到M0M_0M0的距离
- 绝对值排序,得到新的秩,如果有结,取平均秩处理。
- W+W^+W+等于Xi−M0>0X_i-M_0>0Xi−M0>0的∣Xi−M0∣|X_i-M_0|∣Xi−M0∣的秩和, W−W^-W−则等于Xi−M0<0X_i-M_0<0Xi−M0<0的∣Xi−M0∣|X_i-M_0|∣Xi−M0∣的秩和。二者之和W++W−=n(n+1)/2W^++W^-=n(n+1)/2W++W−=n(n+1)/2
- 估计
- WWW统计量值,查表
- 决策
W+W^+W+在原假设下的精确分布
首先明确原假设下Wj∼b(1,0.5)W_j\sim b(1,0.5)Wj∼b(1,0.5),那么
EetjWj=12etj+12e0=12(1+etj)Ee^{tjW_j}=\frac{1}{2}e^{tj}+\frac{1}{2}e^{0}=\frac{1}{2}(1+e^{tj}) EetjWj=21etj+21e0=21(1+etj)
Wilcoxon
符号秩统计量W+W^+W+的母函数
Mn(t)=EetW+=Eet∑jWj=Πj=1nEetjWj=12nΠj=1n(1+etj)M_n(t)=Ee^{tW^+}=Ee^{t\sum jW_j}= \Pi_{j=1}^n Ee^{tjW_j}=\frac{1}{2^n}\Pi_{j=1}^n(1+e^{tj})Mn(t)=EetW+=Eet∑jWj=Πj=1nEetjWj=2n1Πj=1n(1+etj)
根据母函数的性质
Mn(t)=PH0(W+=0)+PH0(W+=1)et+PH0(W+=2)e2t+...M_n(t)=P_{H_0}(W^+=0)+P_{H_0}(W^+=1)e^t\\+P_{H_0}(W^+=2)e^{2t}+...Mn(t)=PH0(W+=0)+PH0(W+=1)et+PH0(W+=2)e2t+...
所以很容易得到W+W^+W+的分布概率,展开算就好。
大样本W+W^+W+分布
大样本下用精确算法太累,可以如下近似正态分布
E(W+)=E(∑jWj)=n(n+1)4V(W+)=V(∑jWj))=∑j2E(Wj)=n(n+1)(2n+1)614E(W^+)=E(\sum jW_j) =\frac{n(n+1)}{4}\\ V(W^+)=V(\sum jW_j)) = \sum j^2 E(W_j) = \frac{n(n+1)(2n+1)}{6}\frac{1}{4} E(W+)=E(∑jWj)=4n(n+1)V(W+)=V(∑jWj))=∑j2E(Wj)=6n(n+1)(2n+1)41
自然可以构造ZZZ,值得一提的是,
- 如果样本量较小,分子加一项CCC进行连续性修正
- C=0.5C=0.5C=0.5如果W+>n(n+1)4W^+>\frac{n(n+1)}{4}W+>4n(n+1),反之取C=−0.5C=-0.5C=−0.5
- 如果有结,分母减一项∑i=1g(τ3−τ)48\frac{\sum_{i=1}^g (\tau^3-\tau)}{48}48∑i=1g(τ3−τ)
Walsh平均值
{Xu′:Xu′=xi+xj2,i⩽j,u=1,2,...,n(n+1)2}\{X_u':X_u'=\frac{x_i+x_j}{2},i\leqslant j, u=1,2,...,\frac{n(n+1)}{2}\} {Xu′:Xu′=2xi+xj,i⩽j,u=1,2,...,2n(n+1)}
唯一要注意的就是,i=ji=ji=j的时候也要算哦!
之前使用的Wilcoxon
符号秩统计量等价于Walsh
平均值的正数计数,
W+=#{Xu′>0}W^+= \# \{X_u'>0 \}W+=#{Xu′>0}
H-L估计量
用来估计分布的对称中心
假设X1,X2,...,XnX_1,X_2,...,X_nX1,X2,...,Xn独立同分布取自F(x−θ)F(x-\theta)F(x−θ),FFF关于零点对称,定义θ\thetaθ的Hodges-Lehmann
点估计量为Walsh
平均值的中位数
θ^=median{Xu′}\hat \theta = median\{ X_u'\} θ^=median{Xu′}
2.5 单组数据位置参数置信区间估计
2.5.1 基于顺序统计量
2.5.2 基于bootstrap
2.6 估计量的稳健性评估
新书
2.7 正态记分检验
正态记分检验是对于Wilcoxon
符号秩检验的一个变型,把秩改成正态分布分位点,将依赖于秩的检验转换为对分位点大小的检验。同时,这个检验对于分布尾部数据做差距放大处理,而对中间数据做差距压缩处理,强调尾部数据对于位置判断的影响。
从Wilcoxon
的检验问题开始,一个分布是否关于M0M_0M0对称:
H0:M=M0↔H1:M≠M0H_0: M=M_0\leftrightarrow H_1: M\neq M_0 H0:M=M0↔H1:M=M0
通过对于∣Xi−M0∣|X_i-M_0|∣Xi−M0∣的排序给出对应的秩RiR_iRi,给出符号正态记分
si=Φ−1(n+1+Ri2n+2)sgn(Xi−M0)s_i=\Phi^{-1}(\frac{n+1+R_i}{2n+2}) sgn(X_i-M_0) si=Φ−1(2n+2n+1+Ri)sgn(Xi−M0)
其中符号函数
sgn(Xi−M0)={1,Xi>M0−1,Xi<M0sgn(X_i-M_0)= \left \{ \begin{aligned} 1, &X_i >M_0 \\ -1, &X_i <M_0 \end{aligned} \right . sgn(Xi−M0)={1,−1,Xi>M0Xi<M0
在观测值总体分布接近正态情况或者大样本情况下,如下正态记分检验统计量近似服从标准正态分布
T=W∑i=1nsi2→LN(0,1)T=\frac{W}{\sqrt{\sum_{i=1}^n s_i^2}} \stackrel{\mathcal{L}}{\to} N(0,1) T=∑i=1nsi2W→LN(0,1)
拒绝域和检验问题方向
- 如果备择假设为双边的,那么要计算标准正态分布下的双边尾概率2P(x>∣T∣)2P(x>|T|)2P(x>∣T∣),越小越拒绝
- 如果是H1:M>M0H_1:M>M_0H1:M>M0,那么我们关注的是对称中心是否偏右很多,如果真实的对称中心在M0M_0M0右侧,这会导致WWW很大,因为大部分大秩的sis_isi都是正的。所以这时候我们的拒绝域是{T>z1−α2}\{T>z_{1-\frac{\alpha}{2}} \}{T>z1−2α},或者算p=P(x>T)=1−Φ(T)p=P(x>T)=1-\Phi(T)p=P(x>T)=1−Φ(T)
- 如果是H1:M<M0H_1:M<M_0H1:M<M0,相反,当WWW很小的时候会反映出真实的对称中心在M0M_0M0左侧,所以拒绝域是{T<zα2}\{T<z_{\frac{\alpha}{2}} \}{T<z2α},或者算p=P(x<T)=Φ(T)p=P(x<T)=\Phi(T)p=P(x<T)=Φ(T)
2.8 分布的一致性检验
现实应用当中我们经常需要检验一组数据是否来自于另外一种分布,比如
- 一组连续性数据是否来自与正态分布
- 一组离散型数据是否来自与PoissonPoissonPoisson分布
2.8.1 χ2\chi^2χ2拟合优度检验
这个检验非常基础,就是看真是观测数OiO_iOi与期望观测数EiE_iEi是否吻合。假设∀pi\forall p_i∀pi是理论分布,
H0:总体分布为∀pi,i=1,2,...,cH1:总体分布不为∀pi,i=1,2,...,c\begin{aligned} &H_0:总体分布为 \forall p_i,i=1,2,...,c \\ &H_1:总体分布不为 \forall p_i, i=1,2,...,c \end{aligned} H0:总体分布为∀pi,i=1,2,...,cH1:总体分布不为∀pi,i=1,2,...,c
通过总量计算期望观测数Ei=npi,E_i=np_i,Ei=npi,定义Pearson
χ2\chi^2χ2统计量
χ2=∑i=1c(Oi−Ei)2Ei=∑i=1cOi2Ei−2n+n\chi^2=\sum_{i=1}^c \frac{(O_i-E_i)^2}{E_i}=\sum_{i=1}^c \frac{O_i^2}{E_i}-2n+n χ2=i=1∑cEi(Oi−Ei)2=i=1∑cEiOi2−2n+n
χ2\chi^2χ2检验的拒绝域从来是统计量值越大的方向,因为统计量非负。这里拒绝域W={χ2>χα,c−12}W=\{\chi^2 > \chi^2_{\alpha, c-1}\}W={χ2>χα,c−12},c−1c-1c−1是自由度
应用
- 均匀分布的pip_ipi全等
- 泊松分布的P(X=x)=e−λλxx!P(X=x)=e^{-\lambda} \frac{\lambda^x}{x!}P(X=x)=e−λx!λx,而且其中的λ\lambdaλ是泊松分布的期望,需要通过数据估计λ^=xˉ\hat \lambda=\bar xλ^=xˉ
- 检验正态性,将数据做离散化分组处理,搞出每一组的组件概率算期望频数
2.8.2 K-S正态性检验
这是几组非常著名的关于正态性的检验Kolmogorov-Smirnov
,J-B
,Liliefor
K-S
方法的精神是以样本数据的累计频数分布和特定理论分布比较,如果相差很小,则支持推断该样本取自某特定分布族:
H0:样本所来自的总体分布服从某特定分布H1:样本所来自的总体分布不服从某特定分布\begin{aligned} &H_0:样本所来自的总体分布服从某特定分布 \\ &H_1:样本所来自的总体分布不服从某特定分布 \end{aligned} H0:样本所来自的总体分布服从某特定分布H1:样本所来自的总体分布不服从某特定分布
检验统计量D=max1⩽i⩽n∣Fn(x(i))−F0(x(i))∣D=\max\limits_{1\leqslant i \leqslant n} |F_n(x_{(i)})-F_0(x_{(i)})|D=1⩽i⩽nmax∣Fn(x(i))−F0(x(i))∣中前者是随机样本的累积概率函数,后者是理论分布函数。
检验标准需要查表K-S D临界值(单一样本)
,拒绝域为D>Dα,nD>D_{\alpha,n}D>Dα,n,单边。
2.8.3 Liliefor 正态分布检验
用样本均值xˉ\bar xxˉ和样本标准差sss代替总体的期望μ\muμ和标准差σ\sigmaσ,然后使用K-S
正态性检验法,统计量DDD查同一个表。
2.9 单一总体渐进相对效率对比
日后更新
问题列表
- 随机游程检验大样本情况下的n1n0→γ\frac{n_1}{n_0} \to \gamman0n1→γ怎么理解
- PDF P60也ZZZ得公式有没有写错
- 怎么近似计算拒绝域的临界值rl,rur_l,r_url,ru
- 分布一致性检验 有没有跟回归分析的类似
- 大作业怎么抽各个层的啊
- 母函Mn(t)M_n(t)Mn(t)数的性质
【非参数统计02】单一样本的位置推断问题:符号检验、分位数推断、Cox-Staut趋势存在性检验、随机游程检验、Wilcoxon符号秩检验、位置参数区间估计、正态记分、分布一致性检验、稳健性评价相关推荐
- SPSS单一样本的T检验
SPSS单一样本的T检验 如果已知总体均数,进行样本均数与总体均数之间的差异显著性检验属于单一样本的T检验.在SPSS中,单一样本的T检验由"One-Sample T Test"过 ...
- 单一样本T检验实例(用统计软件SPSS16.0实现)
二. 单一样本T检验实例与SPSS实现过程 (1) 实例 分析某班级学生的高考数学成绩和全国的平均成绩70之间是否存在显著性差异,数据如表1所示: (2) SPSS16.0实现过程 打开统计分析软件S ...
- 02.机器学习样本评估与选择
02.机器学习样本评估与选择 经验误差与过拟合 精度=1-错误率=1-错误样本数/总样本数 学习器的实际预测输出与样本的真实输出之间的差异称为"误差"(error),学习器在训练集 ...
- 非参数统计:两样本和多样本的Brown-Mood中位数检验;Wilcoxon(Mann-Whitney)秩和检验及有关置信区间;Kruskal-Wallis秩和检验
目录 两样本和多样本的Brown-Mood中位数检验 例3.1我国两个地区一些(分别为17个和15个)城镇职工的工资(元): Wilcoxon(Mann-Whitney)秩和检验及有关置信区间 例3. ...
- R语言回归模型构建、回归模型基本假设(正态性、线性、独立性、方差齐性)、回归模型诊断、car包诊断回归模型、特殊观察样本分析、数据变换、模型比较、特征筛选、交叉验证、预测变量相对重要度
R语言回归模型构建.回归模型基本假设(正态性.线性.独立性.方差齐性).回归模型诊断.car包诊断回归模型.特殊观察样本分析.数据变换.模型比较.特征筛选.交叉验证.预测变量相对重要度 目录
- 花书+吴恩达深度学习(二六)近似推断(EM, 变分推断)
文章目录 0. 前言 1. 将推断视为优化问题 1.1 期望最大化 EM 1.2 最大后验推断 MAP 1.3 稀疏编码 2. 变分推断 2.1 离散型潜变量 2.2 连续性潜变量 如果这篇文章对你有 ...
- R语言检验样本是否符合正态性(检验样本是否来自一个正态分布总体):shapiro.test函数检验样本是否符合正态分布(normality test)
R语言检验样本是否符合正态性(检验样本是否来自一个正态分布总体):shapiro.test函数检验样本是否符合正态分布(normality test) 目录
- R语言检验样本是否符合正态性(检验样本是否来自一个正态分布总体):使用nortest包的sf.test函数检验样本是否符合正态分布(normality test)
R语言检验样本是否符合正态性(检验样本是否来自一个正态分布总体):使用nortest包的sf.test函数检验样本是否符合正态分布(normality test) 目录
- 【愚公系列】2022年04月 微信小程序-项目篇(公交查询)-02周边站点-获取位置和城市信息
文章目录 前言 1.相关API 一.获取位置和城市信息 前言 1.相关API 逆地址解析:提供由经纬度到文字地址及相关位置信息的转换能力,广泛应用于物流.出行.O2O.社交等场景.服务响应速度快.稳定 ...
最新文章
- MySQL(MariaDB)常用DOM命令
- React 组件之间传递参数
- pyecharts离线使用说明
- 背包类树形DP 选课题解
- 了解linux服务器,教你快速了解一台Linux系统服务器的方法
- php oracle 锁表,频繁使用的一张表经常好被锁死?怎样处理!
- 用Python进行数据探索,探索竞赛优胜方案
- 历史上的今天(history)+ 勇者斗恶龙(dragon)
- *printf()格式化串安全漏洞分析(下)
- Google Maps API 初级2
- Emacs lisp函数调用defun(五)
- 惊了!一个程序员的水平能差到什么程度
- zblog php 安装,Zblog安装教程 zblogphp程序特色和环境要求_徐果萍博客
- python自学视频下载_Python下载哔哩哔哩学习视频
- RecyclerView添加表格分割线
- 微信转账一次显示两个_微信转账又出新玩法!同时满足两个条件,收款转账畅通无阻...
- jquery分页插件-sPage.js使用方法
- 政府部门网络建设解决方案全过程
- 2020 年 9 月程序员工资统计,工资中位数16500元!
- 查询快递 批量查询物流信息并筛选出无物流信单号