UA MATH564 概率论IV 次序统计量

  • 次序统计量的分布
  • 例子
    • 例1:均匀分布的次序统计量
    • 例2:Dirichlet分布

次序统计量的分布

次序统计量的作用是比较大的,经常可以作为某些分布的充分统计量,统计量的含义以及次序统计量的重要性可以参考统计理论那个系列。假设样本为{X1,X2,⋯,Xn}\{X_1,X_2,\cdots,X_n\}{X1​,X2​,⋯,Xn​},总体分布为F(X)F(X)F(X),概率密度为f(x)f(x)f(x)。将这组样本按从小到大的顺序排列,并记为{X(1),X(2),⋯,X(n)}\{X_{(1)},X_{(2)},\cdots,X_{(n)}\}{X(1)​,X(2)​,⋯,X(n)​},则这种统计量叫做样本的次序统计量。

定理1(单个次序统计量的分布)
FX(j)=∑k=jnCnk[F(x)]k[1−F(x)]n−kF_{X_{(j)}} = \sum_{k=j}^n C_n^k [F(x)]^k[1-F(x)]^{n-k}FX(j)​​=k=j∑n​Cnk​[F(x)]k[1−F(x)]n−k
证明
先描述一个比较直观的推导:要计算X(j)X_{(j)}X(j)​的分布就是要想办法估计P(X(j)≤x)P(X_{(j)} \le x)P(X(j)​≤x),显然X(1)X_{(1)}X(1)​到X(j−1)X_{(j-1)}X(j−1)​也要小于xxx。这意味着在原来的nnn个样本{X1,X2,⋯,Xn}\{X_1,X_2,\cdots,X_n\}{X1​,X2​,⋯,Xn​}中,至少有jjj个比xxx小。简单随机样本独立同分布,因此比xxx小的样本数目服从二项分布binom(n,F(x))binom(n,F(x))binom(n,F(x))。如果有k≥jk\ge jk≥j个比xxx小,那么概率就是Cnk[F(x)]k[1−F(x)]n−kC_n^k [F(x)]^k[1-F(x)]^{n-k}Cnk​[F(x)]k[1−F(x)]n−k,对所有可能的kkk求和就可以得到P(X(j)≤x)P(X_{(j)} \le x)P(X(j)​≤x)。
下面给出正式证明:
定义Yj=I(−∞,x](Xj)Y_j = I_{(-\infty,x]}(X_j)Yj​=I(−∞,x]​(Xj​),记
p=P(Yj=1)=P(Xj≤x)=F(x)p = P(Y_j=1)=P(X_j \le x) = F(x)p=P(Yj​=1)=P(Xj​≤x)=F(x)
从而Yj∼Ber(F(x))Y_j \sim Ber(F(x))Yj​∼Ber(F(x))。定义Sn=∑j=1nYjS_n = \sum_{j=1}^n Y_jSn​=∑j=1n​Yj​,根据Bernoulli分布的可加性,Sn∼Binom(n,F(x))S_n \sim Binom(n,F(x))Sn​∼Binom(n,F(x))。从而
FX(j)=P(X(j)≤x)=P(Sn≥j)=∑k=jnCnk[F(x)]k[1−F(x)]n−kF_{X_{(j)}} = P(X_{(j)} \le x) = P(S_n \ge j) \\ = \sum_{k=j}^n C_n^k [F(x)]^k[1-F(x)]^{n-k}FX(j)​​=P(X(j)​≤x)=P(Sn​≥j)=k=j∑n​Cnk​[F(x)]k[1−F(x)]n−k

定理2(单个次序统计量的概率密度)
fX(j)(x)=jCnj[F(x)]j−1[1−F(x)]n−jf(x)f_{X_{(j)}}(x) = jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x)fX(j)​​(x)=jCnj​[F(x)]j−1[1−F(x)]n−jf(x)
证明
这个其实可以直接硬算,但这里给一个比较直观的推导:考虑
fX(j)(x)Δx=P(x≤X(j)<x+Δx)f_{X_{(j)}}(x) \Delta x = P(x \le X_{(j)}<x+\Delta x)fX(j)​​(x)Δx=P(x≤X(j)​<x+Δx)
这个概率可以分成三部分来求:

  1. 有一个样本在[x,x+Δx)[x,x+\Delta x)[x,x+Δx)中;
  2. 有j−1j-1j−1个样本在(∞,x)(\infty,x)(∞,x)中;
  3. 有n−jn-jn−j个样本在[x+Δx,+∞)[x+\Delta x,+\infty)[x+Δx,+∞)中;

第一条对应的概率为Cn1f(x)ΔxC_n^1f(x) \Delta xCn1​f(x)Δx;第二条对应的概率为Cn−1j−1[F(x)]j−1C_{n-1}^{j-1}[F(x)]^{j-1}Cn−1j−1​[F(x)]j−1;第三条对应的概率为[1−F(x)]n−j[1-F(x)]^{n-j}[1−F(x)]n−j。因此
fX(j)(x)Δx=[Cn1f(x)Δx][Cn−1j−1[F(x)]j−1][[1−F(x)]n−j]=jCnj[F(x)]j−1[1−F(x)]n−jf(x)Δxf_{X_{(j)}}(x) \Delta x = [C_n^1f(x) \Delta x][C_{n-1}^{j-1}[F(x)]^{j-1}][[1-F(x)]^{n-j}] \\ =jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x) \Delta xfX(j)​​(x)Δx=[Cn1​f(x)Δx][Cn−1j−1​[F(x)]j−1][[1−F(x)]n−j]=jCnj​[F(x)]j−1[1−F(x)]n−jf(x)Δx
这里只用了一个nCn−1j−1=jCnjnC_{n-1}^{j-1} = jC_n^jnCn−1j−1​=jCnj​的关系。

定理3(两个次序统计量的联合概率密度)不妨假设j>ij>ij>i,则
fX(i),X(j)(xi,xj)=(n)2f(xi)f(xj)Cn−2i−1Cn−i−3j−i−1[F(xi)]i−1[F(xj)−F(xi)]j−i−1[1−F(xj)]n−jf_{X_{(i)},X_{(j)}}(x_i,x_j)=(n)_2f(x_{i})f(x_{j}) C_{n-2}^{i-1}C_{n-i-3}^{j-i-1}[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j}fX(i)​,X(j)​​(xi​,xj​)=(n)2​f(xi​)f(xj​)Cn−2i−1​Cn−i−3j−i−1​[F(xi​)]i−1[F(xj​)−F(xi​)]j−i−1[1−F(xj​)]n−j
证明
用上面那个定理那种比较直观的推导办法。
fX(i),X(j)(xi,xj)(Δx)2=P(xi≤X(i)<xi+Δx,xj≤X(j)<xj+Δx)f_{X_{(i)},X_{(j)}}(x_i,x_j) (\Delta x)^2 = P(x_i \le X_{(i)} < x_i + \Delta x, x_j\le X_{(j)} < x_j + \Delta x)fX(i)​,X(j)​​(xi​,xj​)(Δx)2=P(xi​≤X(i)​<xi​+Δx,xj​≤X(j)​<xj​+Δx)
将这个概率分成四部分计算:

  1. 有两个样本,一个在[xi,xi+Δx)[x_i,x_i+\Delta x)[xi​,xi​+Δx)中,另一个在[xj,xj+Δx)[x_j,x_j+\Delta x)[xj​,xj​+Δx)中;
  2. 有i−1i-1i−1个样本在(∞,xi)(\infty,x_i)(∞,xi​)中;
  3. 有j−i−1j-i-1j−i−1个样本在[xi+Δx,xj][x_i+\Delta x,x_j][xi​+Δx,xj​]中;
  4. 有n−jn-jn−j个样本在[xj+Δx,+∞)[x_j+\Delta x,+\infty)[xj​+Δx,+∞)中;

第一条对应的概率是(n)2f(xi)Δxf(xj)Δx(n)_2f(x_i)\Delta x f(x_j)\Delta x(n)2​f(xi​)Δxf(xj​)Δx;第二条对应的概率是Cn−2i−1[F(xi)]i−1C_{n-2}^{i-1}[F(x_i)]^{i-1}Cn−2i−1​[F(xi​)]i−1;第三条对应的概率是Cn−i−3j−i−1[F(xj)−F(xi)]j−i−1C_{n-i-3}^{j-i-1}[F(x_j)-F(x_i)]^{j-i-1}Cn−i−3j−i−1​[F(xj​)−F(xi​)]j−i−1;第四条对应的概率是[1−F(xj)]n−j[1-F(x_j)]^{n-j}[1−F(xj​)]n−j。因此
fX(i),X(j)(xi,xj)(Δx)2=[(n)2f(xi)Δxf(xj)Δx][Cn−2i−1[F(xi)]i−1][Cn−i−3j−i−1[F(xj)−F(xi)]j−i−1][[1−F(xj)]n−j]f_{X_{(i)},X_{(j)}}(x_i,x_j) (\Delta x)^2=[(n)_2f(x_i)\Delta x f(x_j)\Delta x][C_{n-2}^{i-1}[F(x_i)]^{i-1}][C_{n-i-3}^{j-i-1}[F(x_j)-F(x_i)]^{j-i-1}][[1-F(x_j)]^{n-j}]fX(i)​,X(j)​​(xi​,xj​)(Δx)2=[(n)2​f(xi​)Δxf(xj​)Δx][Cn−2i−1​[F(xi​)]i−1][Cn−i−3j−i−1​[F(xj​)−F(xi​)]j−i−1][[1−F(xj​)]n−j]

例子

例1:均匀分布的次序统计量

假设{U1,⋯,Un}\{U_1,\cdots,U_n\}{U1​,⋯,Un​}是一组[0,1][0,1][0,1]上的均匀分布的简单随机样本,则
F(x)=x,f(x)=1F(x)=x,f(x) = 1F(x)=x,f(x)=1
根据定理2:
fU(j)(x)=jCnj[F(x)]j−1[1−F(x)]n−jf(x)=n!(j−1)!(n−j)!xj−1(1−x)n−j=Γ(n+1)Γ(j)Γ(n−j+1)xj−1(1−x)n−jf_{U_{(j)}}(x) = jC_n^j [F(x)]^{j-1}[1-F(x)]^{n-j}f(x) \\ = \frac{n!}{(j-1)!(n-j)!}x^{j-1}(1-x)^{n-j} \\ = \frac{\Gamma(n+1)}{\Gamma{(j)}\Gamma(n-j+1)}x^{j-1}(1-x)^{n-j}fU(j)​​(x)=jCnj​[F(x)]j−1[1−F(x)]n−jf(x)=(j−1)!(n−j)!n!​xj−1(1−x)n−j=Γ(j)Γ(n−j+1)Γ(n+1)​xj−1(1−x)n−j
因此U(j)∼Beta(j,n−j+1)U_{(j)} \sim Beta(j,n-j+1)U(j)​∼Beta(j,n−j+1)。即均匀分布U[0,1]U[0,1]U[0,1]的次序统计量会服从beta分布。根据定理3:
fU(i),U(j)(xi,xj)=(n)2Cn−2i−1Cn−i−3j−i−1[F(xi)]i−1[F(xj)−F(xi)]j−i−1[1−F(xj)]n−j=n!(i−1)!(j−i−1)!(n−j)!xii−1(xj−xi)j−i−1(1−xj)n−j=Γ(n+1)Γ(i)Γ(j−i)Γ(n−j+1)xii−1(xj−xi)j−i−1(1−xi−(xj−xi))n−jf_{U_{(i)},U_{(j)}}(x_i,x_j)=(n)_2C_{n-2}^{i-1}C_{n-i-3}^{j-i-1}[F(x_i)]^{i-1}[F(x_j)-F(x_i)]^{j-i-1}[1-F(x_j)]^{n-j} \\ = \frac{n!}{(i-1)!(j-i-1)!(n-j)!}x_i^{i-1}(x_j-x_i)^{j-i-1}(1-x_j)^{n-j} \\ =\frac{\Gamma(n+1)}{\Gamma(i)\Gamma(j-i)\Gamma(n-j+1)} x_i^{i-1}(x_j-x_i)^{j-i-1}(1-x_i - (x_j-x_i))^{n-j}fU(i)​,U(j)​​(xi​,xj​)=(n)2​Cn−2i−1​Cn−i−3j−i−1​[F(xi​)]i−1[F(xj​)−F(xi​)]j−i−1[1−F(xj​)]n−j=(i−1)!(j−i−1)!(n−j)!n!​xii−1​(xj​−xi​)j−i−1(1−xj​)n−j=Γ(i)Γ(j−i)Γ(n−j+1)Γ(n+1)​xii−1​(xj​−xi​)j−i−1(1−xi​−(xj​−xi​))n−j
记ui=xi,uj=xj−xiu_i=x_i,u_j=x_j-x_iui​=xi​,uj​=xj​−xi​,
fU(i),U(j)(ui,uj)=Γ(n+1)Γ(i)Γ(j−i)Γ(n−j+1)uii−1ujj−i−1(1−ui−uj)n−jf_{U_{(i)},U_{(j)}}(u_i,u_j)=\frac{\Gamma(n+1)}{\Gamma(i)\Gamma(j-i)\Gamma(n-j+1)} u_i^{i-1}u_j^{j-i-1}(1-u_i-u_j)^{n-j}fU(i)​,U(j)​​(ui​,uj​)=Γ(i)Γ(j−i)Γ(n−j+1)Γ(n+1)​uii−1​ujj−i−1​(1−ui​−uj​)n−j
这个是二元的beta分布,可以记为beta(i,j−i,n−j+1)beta(i,j-i,n-j+1)beta(i,j−i,n−j+1)。

例2:Dirichlet分布

在上面的例子中,提到一个多元beta分布的东西,但它一般被称为Dirichlet分布,其一般形式为
f(x∣α)=Γ(∑i=1nαi)∏i=1nΓ(αi)∏i=1nxiαi−1f(x|\alpha) = \frac{\Gamma(\sum_{i=1}^n \alpha_i)}{\prod_{i=1}^n \Gamma(\alpha_i)} \prod_{i=1}^n x_i^{\alpha_i-1}f(x∣α)=∏i=1n​Γ(αi​)Γ(∑i=1n​αi​)​i=1∏n​xiαi​−1​
这个分布定义在n−1n-1n−1维(因为是n−1n-1n−1维的线性流形)的单纯形Δn−1={x:∑i=1nxi=1,xi≥0}\Delta^{n-1}=\{x:\sum_{i=1}^n x_i=1,x_i \ge 0\}Δn−1={x:∑i=1n​xi​=1,xi​≥0}上,分布可以记为Dir(α1,⋯,αn)Dir(\alpha_1,\cdots,\alpha_n)Dir(α1​,⋯,αn​)。关于Dirichlet分布有几个有趣的性质:

  1. αi=1,∀i\alpha_i=1,\forall iαi​=1,∀i,Dirichlet分布退化为单纯形Δn\Delta^nΔn上的均匀分布;
  2. (X1,⋯,Xi+Xi+1,⋯,Xn)∼Dir(α1,⋯,αi+αi+1,⋯,αn)(X_1,\cdots,X_i+X_{i+1},\cdots,X_n)\sim Dir(\alpha_1,\cdots,\alpha_i+\alpha_{i+1},\cdots,\alpha_n)(X1​,⋯,Xi​+Xi+1​,⋯,Xn​)∼Dir(α1​,⋯,αi​+αi+1​,⋯,αn​)
  3. Xi∼beta(αi,∑j=1nαj−αi)X_i \sim beta(\alpha_i,\sum_{j=1}^n \alpha_j - \alpha_i)Xi​∼beta(αi​,∑j=1n​αj​−αi​)
  4. {U1,⋯,Un}\{U_1,\cdots,U_n\}{U1​,⋯,Un​}的mmm个次序统计量(序号为i1,⋯,imi_{1},\cdots,i_{m}i1​,⋯,im​)的联合分布为Dir(i1,i2−i2,⋯,n−im+1)Dir(i_1,i_2-i_2,\cdots,n-i_m+1)Dir(i1​,i2​−i2​,⋯,n−im​+1)

UA MATH564 概率论IV 次序统计量相关推荐

  1. UA MATH564 概率论IV 次序统计量例题3

    UA MATH564 概率论IV 次序统计量例题3 次序统计量常用公式 答案 次序统计量常用公式 定理1(单个次序统计量的分布) FX(j)=∑k=jnCnk[F(x)]k[1−F(x)]n−kF_{ ...

  2. UA MATH564 概率论IV 次序统计量例题2

    UA MATH564 概率论IV 次序统计量例题2 次序统计量常用公式 答案 次序统计量常用公式 定理1(单个次序统计量的分布) FX(j)=∑k=jnCnk[F(x)]k[1−F(x)]n−kF_{ ...

  3. UA MATH564 概率论IV 次序统计量例题1

    UA MATH564 概率论IV 次序统计量例题1 题目 次序统计量常用公式 答案 题目 例1 X1,⋯,Xn∼iidU(0,θ)X_1,\cdots,X_n \sim_{iid} U(0,\thet ...

  4. UA MATH564 概率论 Dirichlet分布

    UA MATH564 概率论 Dirichlet分布 在UA MATH564 概率论IV 次序统计量中,我们介绍了均匀分布U(0,1)U(0,1)U(0,1)的多个次序统计量的联合分布就是Dirich ...

  5. UA MATH564 概率论VI 数理统计基础3 卡方分布上

    UA MATH564 概率论VI 数理统计基础3 卡方分布上 卡方分布 卡方分布的分布函数 中心化卡方分布 一般的卡方分布 卡方分布 这里给出卡方分布的一般性定义.假设X1,⋯,XnX_1,\cdot ...

  6. UA MATH564 概率论VI 数理统计基础2 多元正态分布

    UA MATH564 概率论VI 数理统计基础2 多元正态分布 矩母函数 概率密度 多元正态分布的矩 条件分布 独立性 抽样分布简单地说就是统计量服从的分布,正态分布时最常用的总体分布,因此研究正态总 ...

  7. UA MATH564 概率论VI 数理统计基础1

    UA MATH564 概率论VI 数理统计基础1 样本均值与样本方差 正态样本的均值与方差的性质 样本均值与样本方差 样本均值和样本方差是经常用到的两个统计量,大部分正态假设的统计模型均值和方差的OL ...

  8. UA MATH564 概率论V 中心极限定理

    UA MATH564 概率论V 中心极限定理 随机变量序列的极限 收敛模式之间的关系 大数法则 中心极限定理 Classical Central Limit Theorem Sugden法则 Delt ...

  9. UA MATH564 概率论 多元随机变量的变换 理论与应用2

    UA MATH564 概率论 多元随机变量的变换 几个例题 例5 X1,X2,X3∼iidEXP(λ)X_1,X_2,X_3 \sim_{iid} EXP(\lambda)X1​,X2​,X3​∼ii ...

最新文章

  1. HDFS Federation与HDFS High Availability详解
  2. PHP5.3.8连接Sql Server SQLSRV30
  3. apache httpd 1
  4. 以太坊代币空投合约的实现
  5. 互联网架构为什么要做服务化
  6. 入侵检测系统基础知识
  7. 基于jsp+servlet完成的用户注册
  8. oracle as sydba,Oracle数据库之SQL*Plus工具使用 sqlplus / as sysdba登录
  9. mybatis实战教程(mybatis in action)之三:实现数据的增删改查
  10. 1068. Find More Coins (30)
  11. 计组_IEEE754_练习题
  12. 根据TTL值判断目标主机的类型
  13. 关于在window下使用docker的备选方案
  14. 利用工具,促进有效沟通
  15. POI导出之我的实践篇
  16. linux运行.xpi,XPI 文件扩展名: 它是什么以及如何打开它?
  17. .styl格式的CSS样式文件是什么文件
  18. 爆品思维——TRIZ创新方法在工作中的运用--张维明老师--沪师刘建
  19. wsl2 安装 Centos8
  20. R2DBC Unable to create a ConnectionFactory for ‘ConnectionFactoryOptions

热门文章

  1. DES加密解密算法Java实现
  2. 罗斯蒙特电磁流量计8723说明书_罗斯蒙特8732EM电磁流量计变送器如何接线!
  3. java 向上取整_java 中的异常处理和常用类使用
  4. idea mybatis generator插件_Mybatis使用自定义插件去掉POJO的Getter和Setter方法
  5. js 获取地址栏参数
  6. Backbonejs之view的基本用法
  7. CTFshow php特性 web131
  8. Windows 软RAID 1操作教程
  9. 【生成函数基础题】hdu1085 hdu1028
  10. 3.2 matlab用if语句实现选择结构