UA MATH566 统计理论 截断数据

  • Truncated
    • Left-Trancated
    • Right-Truncated
    • 一个例子:双截断正态分布
      • 双截断正态分布的完备最小充分统计量

这一讲介绍随机变量的两种特殊变换:删失(censoring)与截断(truncated)。这两种变换在实际应用中非常常见,在医学、工程学、经济学的研究中,由于观察、记录数据的限制,从总体到样本的采样过程中常常伴随删失或截断的变换。假设我们需要观察的随机变量为XXX,X∈RX \in \mathbb{R}X∈R,它的累积分布函数为FX(x)F_X(x)FX​(x),概率密度函数为fX(x)f_X(x)fX​(x)。如果我们能观察到并记录下XXX的所有可能的值,就称这样的数据为完整数据(Complete Data);由于观察、记录数据的限制,我们只记录XXX的部分数据,忽略观察到的其他数据,这时的数据就叫截断数据;如果记录的数据只是一个模糊的范围,比如75岁以上、年收入120万以上,这样的数据叫做删失数据。

Truncated

截断数据简单一点,先介绍随机变量截断的处理方法。截断有两种,左截断和右截断,一般用条件分布来描述。假设我们要观察的随机变量是XXX,它的协变量(covariate)是ZZZ(协变量的含义是属于同一个个体的不同特征,比如研究人体脚长与身高,体重的关系,对每一个测量个体记录脚长、身高、体重、臂长、腰臀比,那么臂长、腰臀比、身高就是体重的协变量),记XXX与ZZZ的联合分布为FX,Z(x,z;θ)F_{X,Z}(x,z;\theta)FX,Z​(x,z;θ),联合概率密度为fX,Z(x,z;θ)f_{X,Z}(x,z;\theta)fX,Z​(x,z;θ),θ\thetaθ为未知参数,ZZZ的边缘分布为FZ(z;θ)F_Z(z;\theta)FZ​(z;θ),边缘密度为fZ(z;θ)f_{Z}(z;\theta)fZ​(z;θ)。

Left-Trancated

假设截断规则是Z≥LZ \ge LZ≥L,称这样的截断为左截断。比如对退休老人年均可支配收入的调查,XXX就是年均可支配收入,ZZZ就是个体的年龄,当ZZZ超过退休年龄时才去观察并记录XXX的值。样本与X,Z∣Z≥LX,Z|Z \ge LX,Z∣Z≥L同分布,记为
G(x,z)=P(X≤x,Z≤z∣Z≥L)=P(X≤x,L≤Z≤z)P(Z≥L)=FX,Z(x,z)−FX,Z(x,L)1−FZ(L)G(x,z) = P(X \le x,Z \le z|Z \ge L) = \frac{P(X \le x,L \le Z \le z)}{P(Z \ge L)} = \frac{F_{X,Z}(x,z) - F_{X,Z}(x,L)}{1-F_{Z}(L)}G(x,z)=P(X≤x,Z≤z∣Z≥L)=P(Z≥L)P(X≤x,L≤Z≤z)​=1−FZ​(L)FX,Z​(x,z)−FX,Z​(x,L)​

它的概率密度为
g(x,z)=∂2G(x,z)∂x∂z=fX,Z(x,z)1−FZ(L)g(x,z) = \frac{\partial^2 G(x,z)}{\partial x \partial z} = \frac{f_{X,Z}(x,z)}{1-F_{Z}(L)}g(x,z)=∂x∂z∂2G(x,z)​=1−FZ​(L)fX,Z​(x,z)​
假设一组简单随机样本为{(Xi,Zi)}i=1n\{(X_i,Z_i)\}_{i=1}^n{(Xi​,Zi​)}i=1n​,如果这是完整数据,那么MLE为
θ^MLE=arg max⁡θ∑i=1nlog⁡fX,Z(Xi,Zi;θ)\hat{\theta}_{MLE} = \argmax_{\theta} \sum_{i=1}^n \log f_{X,Z}(X_i,Z_i;\theta)θ^MLE​=θargmax​i=1∑n​logfX,Z​(Xi​,Zi​;θ)

如果这是左截断数据,那么参数的MLE为
θ~MLE=arg max⁡θ∑i=1nlog⁡fX,Z(Xi,Zi;θ)1−FZ(L)=arg max⁡θ∑i=1nlog⁡fX,Z(Xi,Zi;θ)=θ^MLE\tilde{\theta}_{MLE} = \argmax_{\theta} \sum_{i=1}^n \log \frac{f_{X,Z}(X_i,Z_i;\theta)}{1-F_{Z}(L)} = \argmax_{\theta} \sum_{i=1}^n \log f_{X,Z}(X_i,Z_i;\theta) = \hat{\theta}_{MLE}θ~MLE​=θargmax​i=1∑n​log1−FZ​(L)fX,Z​(Xi​,Zi​;θ)​=θargmax​i=1∑n​logfX,Z​(Xi​,Zi​;θ)=θ^MLE​

即基于左截断数据计算得到的MLE与完整数据计算得到的MLE是等价的。

Right-Truncated

假设截断规则是Z≤RZ \le RZ≤R,称这样的截断为右截断。比如要观察艾滋病潜伏期内白细胞数目的变化规律,那么XXX就是白细胞数目,ZZZ就是暴露时间,在发病前才观察并记录个体的白细胞数。样本与X,Z∣Z≤RX,Z|Z \le RX,Z∣Z≤R同分布,这里的处理方法与左截断类似:将ZZZ的取值限制为Z≤RZ \le RZ≤R,

G(x,z)=P(X≤x,Z≤z∣Z≤R)=P(X≤x,Z≤min⁡(z,R))P(Z≤R)=FX,Z(x,z)FZ(R),z≤RG(x,z) = P(X \le x,Z \le z|Z \le R) = \frac{P(X \le x, Z \le \min(z,R))}{P(Z \le R)} = \frac{F_{X,Z}(x,z)}{F_{Z}(R)} ,z \le R G(x,z)=P(X≤x,Z≤z∣Z≤R)=P(Z≤R)P(X≤x,Z≤min(z,R))​=FZ​(R)FX,Z​(x,z)​,z≤R

它的概率密度为
g(x,z)=∂2G(x,z)∂x∂z=fX,Z(x,z)FZ(R)g(x,z) = \frac{\partial^2 G(x,z)}{\partial x \partial z} = \frac{f_{X,Z}(x,z)}{F_{Z}(R)}g(x,z)=∂x∂z∂2G(x,z)​=FZ​(R)fX,Z​(x,z)​

参数的MLE为
θ˘MLE=arg max⁡θ∑i=1nlog⁡fX,Z(Xi,Zi;θ)1−FZ(L)=arg max⁡θ∑i=1nlog⁡fX,Z(Xi,Zi;θ)=θ^MLE\breve{\theta}_{MLE} = \argmax_{\theta} \sum_{i=1}^n \log \frac{f_{X,Z}(X_i,Z_i;\theta)}{1-F_{Z}(L)} = \argmax_{\theta} \sum_{i=1}^n \log f_{X,Z}(X_i,Z_i;\theta) = \hat{\theta}_{MLE}θ˘MLE​=θargmax​i=1∑n​log1−FZ​(L)fX,Z​(Xi​,Zi​;θ)​=θargmax​i=1∑n​logfX,Z​(Xi​,Zi​;θ)=θ^MLE​

即基于右截断数据计算得到的MLE与完整数据计算得到的MLE是等价的。

一个例子:双截断正态分布

假设总体为X∼N(μ,1)X \sim N(\mu,1)X∼N(μ,1),截断规则为L≤X≤RL \le X \le RL≤X≤R(称这样的截断为双截断),样本为{Xi}i=1n\{X_i\}_{i=1}^n{Xi​}i=1n​,求样本的联合分布与μ\muμ的MLE。限制XXX的取值为[L,R][L,R][L,R],则截断数据的分布为
P(X≤x∣L≤X≤R)=P(L≤X≤x)P(L≤X≤R)=FX(x)−FX(L)FX(R)−FX(L)P(X \le x| L \le X \le R) = \frac{P(L \le X \le x)}{P(L \le X \le R) }= \frac{F_X(x) - F_X(L)}{F_X(R) - F_X(L)}P(X≤x∣L≤X≤R)=P(L≤X≤R)P(L≤X≤x)​=FX​(R)−FX​(L)FX​(x)−FX​(L)​

它的概率密度为
g(x)=fX(x)FX(R)−FX(L)g(x) = \frac{f_X(x)}{F_X(R) - F_X(L)}g(x)=FX​(R)−FX​(L)fX​(x)​
因为截断不影响MLE,因此参数的最大似然估计为
μ^=1n∑i=1nXi\hat{\mu} = \frac{1}{n} \sum_{i=1}^n X_iμ^​=n1​i=1∑n​Xi​

需要注意的是,尽管MLE的形式没有发生变化,但样本的分布是在总体分布上做了截断了,所以MLE的性质可能与完整数据的MLE不一样了。完整数据的MLE是UMVUE,下面验证双截断数据的MLE是否仍然是UMVUE:
Eμ^=1n∑i=1nEXiE\hat{\mu} = \frac{1}{n} \sum_{i=1}^n EX_iEμ^​=n1​i=1∑n​EXi​

计算截断后的均值:
EXi=∫LRxg(x)dx=12π[FX(R)−FX(L)]∫LRxe−(x−μ)22dxEX_i = \int_{L}^R xg(x)dx = \frac{1}{\sqrt{2\pi}[F_X(R) - F_X(L)]}\int_{L}^R xe^{-\frac{(x-\mu)^2}{2}}dxEXi​=∫LR​xg(x)dx=2π​[FX​(R)−FX​(L)]1​∫LR​xe−2(x−μ)2​dx

计算积分
∫LRxe−(x−μ)22dx=∫LR(x−μ)e−(x−μ)22d(x−μ)+μ∫LRe−(x−μ)22dx=e−(R−μ)22−e−(L−μ)22+μ2π[FX(R)−FX(L)]\int_{L}^R xe^{-\frac{(x-\mu)^2}{2}}dx = \int_{L}^R (x-\mu)e^{-\frac{(x-\mu)^2}{2}}d(x-\mu) + \mu \int_{L}^R e^{-\frac{(x-\mu)^2}{2}}dx \\ = e^{-\frac{(R-\mu)^2}{2}} - e^{-\frac{(L-\mu)^2}{2}} + \mu\sqrt{2\pi}[F_X(R) - F_X(L)]∫LR​xe−2(x−μ)2​dx=∫LR​(x−μ)e−2(x−μ)2​d(x−μ)+μ∫LR​e−2(x−μ)2​dx=e−2(R−μ)2​−e−2(L−μ)2​+μ2π​[FX​(R)−FX​(L)]

因此
EXi=μ+fX(R)−fX(L)FX(R)−FX(L)Eμ^=1n∑i=1nEXi=μ+fX(R)−fX(L)FX(R)−FX(L)≠μEX_i = \mu + \frac{f_X(R) - f_X(L)}{F_X(R) - F_X(L)} \\ E\hat{\mu} = \frac{1}{n} \sum_{i=1}^n EX_i = \mu + \frac{f_X(R) - f_X(L)}{F_X(R) - F_X(L)} \ne \muEXi​=μ+FX​(R)−FX​(L)fX​(R)−fX​(L)​Eμ^​=n1​i=1∑n​EXi​=μ+FX​(R)−FX​(L)fX​(R)−fX​(L)​​=μ

显然这不是无偏估计。

双截断正态分布的完备最小充分统计量

样本的联合密度为
∏i=1ng(Xi)=∏i=1ne−(Xi−μ)222π[FX(R)−FX(L)]=(2π)n/2e−∑i=1nXi22[FX(R)−FX(L)]ne−nμ22eμ∑i=1nXi\prod_{i=1}^n g(X_i) = \prod_{i=1}^n \frac{e^{-\frac{(X_i-\mu)^2}{2}}}{\sqrt{2\pi}[F_X(R) - F_X(L)]} \\= (2\pi)^{n/2}e^{-\sum_{i=1}^n \frac{X_i^2}{2}}[F_X(R) - F_X(L)]^n e^{-\frac{n\mu^2}{2}} e^{\mu\sum_{i=1}^n X_i}i=1∏n​g(Xi​)=i=1∏n​2π​[FX​(R)−FX​(L)]e−2(Xi​−μ)2​​=(2π)n/2e−∑i=1n​2Xi2​​[FX​(R)−FX​(L)]ne−2nμ2​eμ∑i=1n​Xi​

其中(2π)n/2(2\pi)^{n/2}(2π)n/2是常数,e−∑i=1nXi22e^{-\sum_{i=1}^n \frac{X_i^2}{2}}e−∑i=1n​2Xi2​​只与样本有关,[FX(R)−FX(L)]ne−nμ22[F_X(R) - F_X(L)]^n e^{-\frac{n\mu^2}{2}}[FX​(R)−FX​(L)]ne−2nμ2​只与μ\muμ有关,根据Neyman-Fisher定理,∑i=1nXi\sum_{i=1}^n X_i∑i=1n​Xi​是充分统计量。假设{Yi}i=1n\{Y_i\}_{i=1}^n{Yi​}i=1n​是另一组随机样本,则
∏i=1ng(Xi)∏i=1ng(Yi)=(2π)n/2e−∑i=1nXi22[FX(R)−FX(L)]ne−nμ22eμ∑i=1nXi(2π)n/2e−∑i=1nYi22[FX(R)−FX(L)]ne−nμ22eμ∑i=1nYi=e∑i=1nYi22−∑i=1nXi22eμ(∑i=1nXi−∑i=1nYi)\frac{\prod_{i=1}^n g(X_i)}{\prod_{i=1}^n g(Y_i)} = \frac{(2\pi)^{n/2}e^{-\sum_{i=1}^n \frac{X_i^2}{2}}[F_X(R) - F_X(L)]^n e^{-\frac{n\mu^2}{2}} e^{\mu\sum_{i=1}^n X_i}}{(2\pi)^{n/2}e^{-\sum_{i=1}^n \frac{Y_i^2}{2}}[F_X(R) - F_X(L)]^n e^{-\frac{n\mu^2}{2}} e^{\mu\sum_{i=1}^n Y_i}} \\ = e^{\sum_{i=1}^n \frac{Y_i^2}{2}-\sum_{i=1}^n \frac{X_i^2}{2}}e^{\mu(\sum_{i=1}^n X_i-\sum_{i=1}^n Y_i)}∏i=1n​g(Yi​)∏i=1n​g(Xi​)​=(2π)n/2e−∑i=1n​2Yi2​​[FX​(R)−FX​(L)]ne−2nμ2​eμ∑i=1n​Yi​(2π)n/2e−∑i=1n​2Xi2​​[FX​(R)−FX​(L)]ne−2nμ2​eμ∑i=1n​Xi​​=e∑i=1n​2Yi2​​−∑i=1n​2Xi2​​eμ(∑i=1n​Xi​−∑i=1n​Yi​)

要让这个似然比与参数μ\muμ无关,需要∑i=1nXi−∑i=1nYi=0\sum_{i=1}^n X_i-\sum_{i=1}^n Y_i=0∑i=1n​Xi​−∑i=1n​Yi​=0,因此∑i=1nXi\sum_{i=1}^n X_i∑i=1n​Xi​是最小充分统计量。假设h(T)h(T)h(T)是TTT的概率空间上的任一可测函数,T=∑i=1nXiT=\sum_{i=1}^n X_iT=∑i=1n​Xi​。考虑完备性之前先研究一下TTT的分布。因为
FX(R)−FX(L)=P(L≤X≤R)=P(L−μ≤X−μ≤R−μ)=Φ(R−μ)−Φ(L−μ)F_X(R) - F_X(L)=P(L \le X \le R) \\ = P(L-\mu \le X -\mu \le R - \mu) = \Phi(R-\mu)-\Phi(L-\mu)FX​(R)−FX​(L)=P(L≤X≤R)=P(L−μ≤X−μ≤R−μ)=Φ(R−μ)−Φ(L−μ)

其中Φ\PhiΦ是标准正态分布的分布函数。因此
g(x)=fX(x)Φ(R−μ)−Φ(L−μ)g(x) = \frac{f_X(x)}{ \Phi(R-\mu)-\Phi(L-\mu)}g(x)=Φ(R−μ)−Φ(L−μ)fX​(x)​

它的矩母函数为
MX(t)=EetX=∫LRetxfX(x)Φ(R−μ)−Φ(L−μ)dx=exp⁡(μt+t22)Φ(R−μ)−Φ(L−μ)M_X(t) = Ee^{tX} = \int_{L}^R e^{tx}\frac{f_X(x)}{ \Phi(R-\mu)-\Phi(L-\mu)}dx = \frac{\exp \left( \mu t + \frac{t^2}{2} \right)}{ \Phi(R-\mu)-\Phi(L-\mu)}MX​(t)=EetX=∫LR​etxΦ(R−μ)−Φ(L−μ)fX​(x)​dx=Φ(R−μ)−Φ(L−μ)exp(μt+2t2​)​

从而TTT的矩母函数是
MT(t)=[exp⁡(μt+t22)Φ(R−μ)−Φ(L−μ)]nM_{T}(t) = \left[ \frac{\exp \left( \mu t + \frac{t^2}{2} \right)}{ \Phi(R-\mu)-\Phi(L-\mu)} \right]^n MT​(t)=⎣⎡​Φ(R−μ)−Φ(L−μ)exp(μt+2t2​)​⎦⎤​n

由此可以观察发现TTT的概率密度为
fT(t)=exp⁡(−(t−nμ)22n)2π[Φ(R−μ)−Φ(L−μ)]nf_T(t) = \frac{\exp \left( - \frac{(t-n\mu)^2}{2n}\right)}{\sqrt{2\pi}[ \Phi(R-\mu)-\Phi(L-\mu)]^n}fT​(t)=2π​[Φ(R−μ)−Φ(L−μ)]nexp(−2n(t−nμ)2​)​

假设h(T)h(T)h(T)是TTT的概率空间中的任一可测函数,则
E[h(T)]=12π[Φ(R−μ)−Φ(L−μ)]n∫LRh(t)exp⁡(−(t−nμ)22n)dt=1[Φ(R−μ)−Φ(L−μ)]nW[h(nx)I(nL,nR)]E[h(T)] =\frac{1}{\sqrt{2\pi}[ \Phi(R-\mu)-\Phi(L-\mu)]^n}\int_{L}^{R} h(t)\exp \left( - \frac{(t-n\mu)^2}{2n}\right)dt \\ =\frac{1}{[ \Phi(R-\mu)-\Phi(L-\mu)]^n}W[h(nx)I(nL,nR)]E[h(T)]=2π​[Φ(R−μ)−Φ(L−μ)]n1​∫LR​h(t)exp(−2n(t−nμ)2​)dt=[Φ(R−μ)−Φ(L−μ)]n1​W[h(nx)I(nL,nR)]

其中W[]W[]W[]表示函数的Weierstrass变换,根据Weierstrass变换的完备性,要让E[h(T)]=0E[h(T)]=0E[h(T)]=0,除非
h(nx)I(nL,nR)=0,a.s.h(nx)I(nL,nR) = 0,a.s.h(nx)I(nL,nR)=0,a.s.,也就是h(nx)=0,a.s.h(nx) = 0,a.s.h(nx)=0,a.s.。因此TTT是完备统计量。综上,TTT是完备的最小充分统计量。

UA MATH566 统计理论 截断数据相关推荐

  1. UA MATH566 统计理论10 Bootstrap简介

    UA MATH566 统计理论10 Bootstrap简介 Bootstrap是用来替代基于CDF的一些统计计算的手段:当真实的CDF(记为F∈FF \in \mathbb{F}F∈F,F\mathb ...

  2. UA MATH566 统计理论8 用Pivot构造置信区间

    UA MATH566 统计理论8 用Pivot构造置信区间 用Pivot构造置信区间 一般性方法 最优置信区间 置信区间的频率派解释 上一讲介绍的构造置信区间的方法是根据假设检验导出置信区间,但我们感 ...

  3. UA MATH566 统计理论5 假设检验:p值

    UA MATH566 统计理论5 假设检验:p值 p-value 做实证研究的paper大多数都要汇报p值,并且几乎是只看p值的.2016年ASA做了一个关于p值的statement,指出了关于p值的 ...

  4. UA MATH566 统计理论 一个例题 Hierarchical Model的统计性质

    UA MATH566 统计理论 一个例题 Hierarchical Model的统计性质 Y∣X∼Pois(X)Y|X \sim Pois(X)Y∣X∼Pois(X) and X∼Γ(α,β)X \s ...

  5. UA MATH566 统计理论 推导卡方拟合优度检验

    UA MATH566 统计理论 推导卡方拟合优度检验 卡方拟合优度检验主要是检验categorical data的,假设一共有ddd种category,每一种理论比例为pip_ipi​,满足 ∑i=1 ...

  6. UA MATH566 统计理论 Bayes统计基础

    UA MATH566 统计理论 Bayes统计基础 共轭分布 基于后验概率预测新的观测值 Bayes统计思想的基础是Bayes公式 P(Ci∣A)=P(A,Ci)P(A)=P(A∣Ci)P(Ci)∑i ...

  7. UA MATH566 统计理论 概念与定理总结

    UA MATH566 统计理论 概念与定理总结 Part 1 Exponential Family Tip 1: Form of Exponential Family f(x∣η)=h(x)exp⁡( ...

  8. UA MATH566 统计理论 QE练习 位置变换后的指数分布

    UA MATH566 统计理论 QE练习 位置变换后的指数分布 2016年1月第六题 2018年5月第六题 2016年1月第六题 Part a Joint likelihood is L(θ)=exp ...

  9. UA MATH566 统计理论 Fisher信息论的性质下

    UA MATH566 统计理论 Fisher信息量的性质下 辅助统计量的Fisher信息为0 分布族参数变换后的Fisher信息 统计量的Fisher信息的有界性 下面介绍一些Fisher信息量的常用 ...

最新文章

  1. Linux_DNS服务器
  2. 真正从零开始了解 Julia
  3. mxnet常规优化器用法
  4. php mysql 正则表达式_MYSQL使用正则表达式过滤数据_MySQL
  5. [USACO12FEB]牛的IDCow IDs
  6. python列表的append/entend/insert
  7. 利用python生成一个导出数据库的bat脚本文件
  8. 用__asm写c函数[秋镇菜]
  9. 分布式服务框架原理与实践pdf_阿里架构师的架构探险之路:从零开始写分布式服务框架...
  10. opengl GPU 纹理加速优化
  11. java面试要点---ibatiS框架的使用方法介绍---随时更新
  12. 空气培养皿采样后保存_六级撞击式微生物采样器是什么?用途有哪些?
  13. 中颖内带LED资源驱动代码
  14. 多媒体技术开发迎来新常态
  15. 用LinkedList方法模拟栈的数据结构
  16. Golang map有序化
  17. JAVA一些方法技巧
  18. 日期偏移INTERVAL * DAY
  19. 心形线方程-Geek献给女友的爱意情人节
  20. android4.4风格,Android 4.4消息汇总 扁平化风格来袭

热门文章

  1. 开发源码常用网站参考
  2. C#获取控制台句柄的方法
  3. Leetcode 147. 对链表进行插入排序 解题思路及C++实现
  4. 初始化列表||类对象作为类成员|| 静态成员
  5. 数据预处理——数据清洗、异常值与重复数据的检测
  6. MySQL 数据库利用alter语句修改表字段属性实例演示,如何拓展表字段长度,sql语句修改表字段名称和类型
  7. Python 技术篇-文件操控:文件的移动和复制
  8. 单点效率测试工具:F8秒表
  9. [YTU]_2429( C语言习题 学生成绩输入和输出)
  10. 求有环单链表的链表长