UA MATH564 概率论IV 次序统计量
UA MATH564 概率论IV 次序统计量
- 次序统计量的分布
- 例子
- 例1:均匀分布的次序统计量
- 例2:Dirichlet分布
次序统计量的分布
次序统计量的作用是比较大的,经常可以作为某些分布的充分统计量,统计量的含义以及次序统计量的重要性可以参考统计理论那个系列。假设样本为{X1,X2,⋯,Xn}\{X_1,X_2,\cdots,X_n\}{X1,X2,⋯,Xn},总体分布为F(X)F(X)F(X),概率密度为f(x)f(x)f(x)。将这组样本按从小到大的顺序排列,并记为{X(1),X(2),⋯,X(n)}\{X_{(1)},X_{(2)},\cdots,X_{(n)}\}{X(1),X(2),⋯,X(n)},则这种统计量叫做样本的次序统计量。
定理1(单个次序统计量的分布)
FX(j)=∑k=jnCnk[F(x)]k[1−F(x)]n−kF_{X_{(j)}} = \sum_{k=j}^n C_n^k [F(x)]^k[1-F(x)]^{n-k}FX(j)=k=j∑nCnk[F(x)]k[1−F(x)]n−k
证明
先描述一个比较直观的推导:要计算X(j)X_{(j)}X(j)的分布就是要想办法估计P(X(j)≤x)P(X_{(j)} \le x)P(X(j)≤x),显然X(1)X_{(1)}X(1)到X(j−1)X_{(j-1)}X(j−1)也要小于xxx。这意味着在原来的nnn个样本{X1,X2,⋯,Xn}\{X_1,X_2,\cdots,X_n\}{X1,X2,⋯,Xn}中,至少有jjj个比xxx小。简单随机样本独立同分布,因此比xxx小的样本数目服从二项分布binom(n,F(x))binom(n,F(x))binom(n,F(x))。如果有k≥jk\ge jk≥j个比xxx小,那么概率就是Cnk[F(x)]k[1−F(x)]n−kC_n^k [F(x)]^k[1-F(x)]^{n-k}Cnk[F(x)]k[1−F(x)]n−k,对所有可能的kkk求和就可以得到P(X(j)≤x)P(X_{(j)} \le x)P(X(j)≤x)。
下面给出正式证明:
定义Yj=I(−∞,x](Xj)Y_j = I_{(-\infty,x]}(X_j)Yj=I(−∞,x](Xj),记
p=P(Yj=1)=P(Xj≤x)=F(x)p = P(Y_j=1)=P(X_j \le x) = F(x)p=P(Yj=1)=P(Xj≤x)=F(x)
从而Yj∼Ber(F(x))Y_j \sim Ber(F(x))Yj∼Ber(F(x))。定义Sn=∑j=1nYjS_n = \sum_{j=1}^n Y_jSn=∑j=1nYj,根据Bernoulli分布的可加性,Sn∼Binom(n,F(x))S_n \sim Binom(n,F(x))Sn∼Binom(n,F(x))。从而
FX(j)=P(X(j)≤x)=P(Sn≥j)=∑k=jnCnk[F(x)]k[1−F(x)]n−kF_{X_{(j)}} = P(X_{(j)} \le x) = P(S_n \ge j) \\ = \sum_{k=j}^n C_n^k [F(x)]^k[1-F(x)]^{n-k}FX(j)=P(X(j)≤x)=P(Sn≥j)=k=j∑nCnk[F(x)]k[1−F(x)]n−k
定理2(单个次序统计量的概率密度)
fX(j)(x)=jCnj[F(x)]j−1[1−F(x)]n−jf(x)f_{X_{(j)}}(x) = jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x)fX(j)(x)=jCnj[F(x)]j−1[1−F(x)]n−jf(x)
证明
这个其实可以直接硬算,但这里给一个比较直观的推导:考虑
fX(j)(x)Δx=P(x≤X(j)<x+Δx)f_{X_{(j)}}(x) \Delta x = P(x \le X_{(j)}<x+\Delta x)fX(j)(x)Δx=P(x≤X(j)<x+Δx)
这个概率可以分成三部分来求:
- 有一个样本在[x,x+Δx)[x,x+\Delta x)[x,x+Δx)中;
- 有j−1j-1j−1个样本在(∞,x)(\infty,x)(∞,x)中;
- 有n−jn-jn−j个样本在[x+Δx,+∞)[x+\Delta x,+\infty)[x+Δx,+∞)中;
第一条对应的概率为Cn1f(x)ΔxC_n^1f(x) \Delta xCn1f(x)Δx;第二条对应的概率为Cn−1j−1[F(x)]j−1C_{n-1}^{j-1}[F(x)]^{j-1}Cn−1j−1[F(x)]j−1;第三条对应的概率为[1−F(x)]n−j[1-F(x)]^{n-j}[1−F(x)]n−j。因此
fX(j)(x)Δx=[Cn1f(x)Δx][Cn−1j−1[F(x)]j−1][[1−F(x)]n−j]=jCnj[F(x)]j−1[1−F(x)]n−jf(x)Δxf_{X_{(j)}}(x) \Delta x = [C_n^1f(x) \Delta x][C_{n-1}^{j-1}[F(x)]^{j-1}][[1-F(x)]^{n-j}] \\ =jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x) \Delta xfX(j)(x)Δx=[Cn1f(x)Δx][Cn−1j−1[F(x)]j−1][[1−F(x)]n−j]=jCnj[F(x)]j−1[1−F(x)]n−jf(x)Δx
这里只用了一个nCn−1j−1=jCnjnC_{n-1}^{j-1} = jC_n^jnCn−1j−1=jCnj的关系。
定理3(两个次序统计量的联合概率密度)不妨假设j>ij>ij>i,则
fX(i),X(j)(xi,xj)=(n)2f(xi)f(xj)Cn−2i−1Cn−i−3j−i−1[F(xi)]i−1[F(xj)−F(xi)]j−i−1[1−F(xj)]n−jf_{X_{(i)},X_{(j)}}(x_i,x_j)=(n)_2f(x_{i})f(x_{j}) C_{n-2}^{i-1}C_{n-i-3}^{j-i-1}[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j}fX(i),X(j)(xi,xj)=(n)2f(xi)f(xj)Cn−2i−1Cn−i−3j−i−1[F(xi)]i−1[F(xj)−F(xi)]j−i−1[1−F(xj)]n−j
证明
用上面那个定理那种比较直观的推导办法。
fX(i),X(j)(xi,xj)(Δx)2=P(xi≤X(i)<xi+Δx,xj≤X(j)<xj+Δx)f_{X_{(i)},X_{(j)}}(x_i,x_j) (\Delta x)^2 = P(x_i \le X_{(i)} < x_i + \Delta x, x_j\le X_{(j)} < x_j + \Delta x)fX(i),X(j)(xi,xj)(Δx)2=P(xi≤X(i)<xi+Δx,xj≤X(j)<xj+Δx)
将这个概率分成四部分计算:
- 有两个样本,一个在[xi,xi+Δx)[x_i,x_i+\Delta x)[xi,xi+Δx)中,另一个在[xj,xj+Δx)[x_j,x_j+\Delta x)[xj,xj+Δx)中;
- 有i−1i-1i−1个样本在(∞,xi)(\infty,x_i)(∞,xi)中;
- 有j−i−1j-i-1j−i−1个样本在[xi+Δx,xj][x_i+\Delta x,x_j][xi+Δx,xj]中;
- 有n−jn-jn−j个样本在[xj+Δx,+∞)[x_j+\Delta x,+\infty)[xj+Δx,+∞)中;
第一条对应的概率是(n)2f(xi)Δxf(xj)Δx(n)_2f(x_i)\Delta x f(x_j)\Delta x(n)2f(xi)Δxf(xj)Δx;第二条对应的概率是Cn−2i−1[F(xi)]i−1C_{n-2}^{i-1}[F(x_i)]^{i-1}Cn−2i−1[F(xi)]i−1;第三条对应的概率是Cn−i−3j−i−1[F(xj)−F(xi)]j−i−1C_{n-i-3}^{j-i-1}[F(x_j)-F(x_i)]^{j-i-1}Cn−i−3j−i−1[F(xj)−F(xi)]j−i−1;第四条对应的概率是[1−F(xj)]n−j[1-F(x_j)]^{n-j}[1−F(xj)]n−j。因此
fX(i),X(j)(xi,xj)(Δx)2=[(n)2f(xi)Δxf(xj)Δx][Cn−2i−1[F(xi)]i−1][Cn−i−3j−i−1[F(xj)−F(xi)]j−i−1][[1−F(xj)]n−j]f_{X_{(i)},X_{(j)}}(x_i,x_j) (\Delta x)^2=[(n)_2f(x_i)\Delta x f(x_j)\Delta x][C_{n-2}^{i-1}[F(x_i)]^{i-1}][C_{n-i-3}^{j-i-1}[F(x_j)-F(x_i)]^{j-i-1}][[1-F(x_j)]^{n-j}]fX(i),X(j)(xi,xj)(Δx)2=[(n)2f(xi)Δxf(xj)Δx][Cn−2i−1[F(xi)]i−1][Cn−i−3j−i−1[F(xj)−F(xi)]j−i−1][[1−F(xj)]n−j]
例子
例1:均匀分布的次序统计量
假设{U1,⋯,Un}\{U_1,\cdots,U_n\}{U1,⋯,Un}是一组[0,1][0,1][0,1]上的均匀分布的简单随机样本,则
F(x)=x,f(x)=1F(x)=x,f(x) = 1F(x)=x,f(x)=1
根据定理2:
fU(j)(x)=jCnj[F(x)]j−1[1−F(x)]n−jf(x)=n!(j−1)!(n−j)!xj−1(1−x)n−j=Γ(n+1)Γ(j)Γ(n−j+1)xj−1(1−x)n−jf_{U_{(j)}}(x) = jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x) \\ = \frac{n!}{(j-1)!(n-j)!}x^{j-1}(1-x)^{n-j} \\ = \frac{\Gamma(n+1)}{\Gamma{(j)}\Gamma(n-j+1)}x^{j-1}(1-x)^{n-j}fU(j)(x)=jCnj[F(x)]j−1[1−F(x)]n−jf(x)=(j−1)!(n−j)!n!xj−1(1−x)n−j=Γ(j)Γ(n−j+1)Γ(n+1)xj−1(1−x)n−j
因此U(j)∼Beta(j,n−j+1)U_{(j)} \sim Beta(j,n-j+1)U(j)∼Beta(j,n−j+1)。即均匀分布U[0,1]U[0,1]U[0,1]的次序统计量会服从beta分布。根据定理3:
fU(i),U(j)(xi,xj)=(n)2Cn−2i−1Cn−i−3j−i−1[F(xi)]i−1[F(xj)−F(xi)]j−i−1[1−F(xj)]n−j=n!(i−1)!(j−i−1)!(n−j)!xii−1(xj−xi)j−i−1(1−xj)n−j=Γ(n+1)Γ(i)Γ(j−i)Γ(n−j+1)xii−1(xj−xi)j−i−1(1−xi−(xj−xi))n−jf_{U_{(i)},U_{(j)}}(x_i,x_j)=(n)_2C_{n-2}^{i-1}C_{n-i-3}^{j-i-1}[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j} \\ = \frac{n!}{(i-1)!(j-i-1)!(n-j)!}x_i^{i-1}(x_j-x_i)^{j-i-1}(1-x_j)^{n-j} \\ =\frac{\Gamma(n+1)}{\Gamma(i)\Gamma(j-i)\Gamma(n-j+1)} x_i^{i-1}(x_j-x_i)^{j-i-1}(1-x_i - (x_j-x_i))^{n-j}fU(i),U(j)(xi,xj)=(n)2Cn−2i−1Cn−i−3j−i−1[F(xi)]i−1[F(xj)−F(xi)]j−i−1[1−F(xj)]n−j=(i−1)!(j−i−1)!(n−j)!n!xii−1(xj−xi)j−i−1(1−xj)n−j=Γ(i)Γ(j−i)Γ(n−j+1)Γ(n+1)xii−1(xj−xi)j−i−1(1−xi−(xj−xi))n−j
记ui=xi,uj=xj−xiu_i=x_i,u_j=x_j-x_iui=xi,uj=xj−xi,
fU(i),U(j)(ui,uj)=Γ(n+1)Γ(i)Γ(j−i)Γ(n−j+1)uii−1ujj−i−1(1−ui−uj)n−jf_{U_{(i)},U_{(j)}}(u_i,u_j)=\frac{\Gamma(n+1)}{\Gamma(i)\Gamma(j-i)\Gamma(n-j+1)} u_i^{i-1}u_j^{j-i-1}(1-u_i-u_j)^{n-j}fU(i),U(j)(ui,uj)=Γ(i)Γ(j−i)Γ(n−j+1)Γ(n+1)uii−1ujj−i−1(1−ui−uj)n−j
这个是二元的beta分布,可以记为beta(i,j−i,n−j+1)beta(i,j-i,n-j+1)beta(i,j−i,n−j+1)。
例2:Dirichlet分布
在上面的例子中,提到一个多元beta分布的东西,但它一般被称为Dirichlet分布,其一般形式为
f(x∣α)=Γ(∑i=1nαi)∏i=1nΓ(αi)∏i=1nxiαi−1f(x|\alpha) = \frac{\Gamma(\sum_{i=1}^n \alpha_i)}{\prod_{i=1}^n \Gamma(\alpha_i)} \prod_{i=1}^n x_i^{\alpha_i-1}f(x∣α)=∏i=1nΓ(αi)Γ(∑i=1nαi)i=1∏nxiαi−1
这个分布定义在n−1n-1n−1维(因为是n−1n-1n−1维的线性流形)的单纯形Δn−1={x:∑i=1nxi=1,xi≥0}\Delta^{n-1}=\{x:\sum_{i=1}^n x_i=1,x_i \ge 0\}Δn−1={x:∑i=1nxi=1,xi≥0}上,分布可以记为Dir(α1,⋯,αn)Dir(\alpha_1,\cdots,\alpha_n)Dir(α1,⋯,αn)。关于Dirichlet分布有几个有趣的性质:
- αi=1,∀i\alpha_i=1,\forall iαi=1,∀i,Dirichlet分布退化为单纯形Δn\Delta^nΔn上的均匀分布;
- (X1,⋯,Xi+Xi+1,⋯,Xn)∼Dir(α1,⋯,αi+αi+1,⋯,αn)(X_1,\cdots,X_i+X_{i+1},\cdots,X_n)\sim Dir(\alpha_1,\cdots,\alpha_i+\alpha_{i+1},\cdots,\alpha_n)(X1,⋯,Xi+Xi+1,⋯,Xn)∼Dir(α1,⋯,αi+αi+1,⋯,αn)
- Xi∼beta(αi,∑j=1nαj−αi)X_i \sim beta(\alpha_i,\sum_{j=1}^n \alpha_j - \alpha_i)Xi∼beta(αi,∑j=1nαj−αi)
- {U1,⋯,Un}\{U_1,\cdots,U_n\}{U1,⋯,Un}的mmm个次序统计量(序号为i1,⋯,imi_{1},\cdots,i_{m}i1,⋯,im)的联合分布为Dir(i1,i2−i2,⋯,n−im+1)Dir(i_1,i_2-i_2,\cdots,n-i_m+1)Dir(i1,i2−i2,⋯,n−im+1)
UA MATH564 概率论IV 次序统计量相关推荐
- UA MATH564 概率论IV 次序统计量例题3
UA MATH564 概率论IV 次序统计量例题3 次序统计量常用公式 答案 次序统计量常用公式 定理1(单个次序统计量的分布) FX(j)=∑k=jnCnk[F(x)]k[1−F(x)]n−kF_{ ...
- UA MATH564 概率论IV 次序统计量例题2
UA MATH564 概率论IV 次序统计量例题2 次序统计量常用公式 答案 次序统计量常用公式 定理1(单个次序统计量的分布) FX(j)=∑k=jnCnk[F(x)]k[1−F(x)]n−kF_{ ...
- UA MATH564 概率论IV 次序统计量例题1
UA MATH564 概率论IV 次序统计量例题1 题目 次序统计量常用公式 答案 题目 例1 X1,⋯,Xn∼iidU(0,θ)X_1,\cdots,X_n \sim_{iid} U(0,\thet ...
- UA MATH564 概率论 Dirichlet分布
UA MATH564 概率论 Dirichlet分布 在UA MATH564 概率论IV 次序统计量中,我们介绍了均匀分布U(0,1)U(0,1)U(0,1)的多个次序统计量的联合分布就是Dirich ...
- UA MATH564 概率论VI 数理统计基础3 卡方分布上
UA MATH564 概率论VI 数理统计基础3 卡方分布上 卡方分布 卡方分布的分布函数 中心化卡方分布 一般的卡方分布 卡方分布 这里给出卡方分布的一般性定义.假设X1,⋯,XnX_1,\cdot ...
- UA MATH564 概率论VI 数理统计基础2 多元正态分布
UA MATH564 概率论VI 数理统计基础2 多元正态分布 矩母函数 概率密度 多元正态分布的矩 条件分布 独立性 抽样分布简单地说就是统计量服从的分布,正态分布时最常用的总体分布,因此研究正态总 ...
- UA MATH564 概率论VI 数理统计基础1
UA MATH564 概率论VI 数理统计基础1 样本均值与样本方差 正态样本的均值与方差的性质 样本均值与样本方差 样本均值和样本方差是经常用到的两个统计量,大部分正态假设的统计模型均值和方差的OL ...
- UA MATH564 概率论V 中心极限定理
UA MATH564 概率论V 中心极限定理 随机变量序列的极限 收敛模式之间的关系 大数法则 中心极限定理 Classical Central Limit Theorem Sugden法则 Delt ...
- UA MATH564 概率论 多元随机变量的变换 理论与应用2
UA MATH564 概率论 多元随机变量的变换 几个例题 例5 X1,X2,X3∼iidEXP(λ)X_1,X_2,X_3 \sim_{iid} EXP(\lambda)X1,X2,X3∼ii ...
最新文章
- HDFS Federation与HDFS High Availability详解
- PHP5.3.8连接Sql Server SQLSRV30
- apache httpd 1
- 以太坊代币空投合约的实现
- 互联网架构为什么要做服务化
- 入侵检测系统基础知识
- 基于jsp+servlet完成的用户注册
- oracle as sydba,Oracle数据库之SQL*Plus工具使用 sqlplus / as sysdba登录
- mybatis实战教程(mybatis in action)之三:实现数据的增删改查
- 1068. Find More Coins (30)
- 计组_IEEE754_练习题
- 根据TTL值判断目标主机的类型
- 关于在window下使用docker的备选方案
- 利用工具,促进有效沟通
- POI导出之我的实践篇
- linux运行.xpi,XPI 文件扩展名: 它是什么以及如何打开它?
- .styl格式的CSS样式文件是什么文件
- 爆品思维——TRIZ创新方法在工作中的运用--张维明老师--沪师刘建
- wsl2 安装 Centos8
- R2DBC Unable to create a ConnectionFactory for ‘ConnectionFactoryOptions