UA MATH566 统计理论截断数据

Truncated
- Left-Trancated
- Right-Truncated
- 一个例子：双截断正态分布
- - 双截断正态分布的完备最小充分统计量

这一讲介绍随机变量的两种特殊变换：删失（censoring）与截断（truncated）。这两种变换在实际应用中非常常见，在医学、工程学、经济学的研究中，由于观察、记录数据的限制，从总体到样本的采样过程中常常伴随删失或截断的变换。假设我们需要观察的随机变量为XXX，X∈RX \in \mathbb{R}X∈R，它的累积分布函数为FX(x)F_X(x)FX(x)，概率密度函数为fX(x)f_X(x)fX(x)。如果我们能观察到并记录下XXX的所有可能的值，就称这样的数据为完整数据（Complete Data）；由于观察、记录数据的限制，我们只记录XXX的部分数据，忽略观察到的其他数据，这时的数据就叫截断数据；如果记录的数据只是一个模糊的范围，比如75岁以上、年收入120万以上，这样的数据叫做删失数据。

Truncated

截断数据简单一点，先介绍随机变量截断的处理方法。截断有两种，左截断和右截断，一般用条件分布来描述。假设我们要观察的随机变量是XXX，它的协变量（covariate）是ZZZ（协变量的含义是属于同一个个体的不同特征，比如研究人体脚长与身高，体重的关系，对每一个测量个体记录脚长、身高、体重、臂长、腰臀比，那么臂长、腰臀比、身高就是体重的协变量），记XXX与ZZZ的联合分布为FX,Z(x,z;θ)F_{X,Z}(x,z;\theta)FX,Z(x,z;θ)，联合概率密度为fX,Z(x,z;θ)f_{X,Z}(x,z;\theta)fX,Z(x,z;θ)，θ\thetaθ为未知参数，ZZZ的边缘分布为FZ(z;θ)F_Z(z;\theta)FZ(z;θ)，边缘密度为fZ(z;θ)f_{Z}(z;\theta)fZ(z;θ)。

Left-Trancated

假设截断规则是Z≥LZ \ge LZ≥L，称这样的截断为左截断。比如对退休老人年均可支配收入的调查，XXX就是年均可支配收入，ZZZ就是个体的年龄，当ZZZ超过退休年龄时才去观察并记录XXX的值。样本与X,Z∣Z≥LX,Z|Z \ge LX,Z∣Z≥L同分布，记为
G(x,z)=P(X≤x,Z≤z∣Z≥L)=P(X≤x,L≤Z≤z)P(Z≥L)=FX,Z(x,z)−FX,Z(x,L)1−FZ(L)G(x,z) = P(X \le x,Z \le z|Z \ge L) = \frac{P(X \le x,L \le Z \le z)}{P(Z \ge L)} = \frac{F_{X,Z}(x,z) - F_{X,Z}(x,L)}{1-F_{Z}(L)}G(x,z)=P(X≤x,Z≤z∣Z≥L)=P(Z≥L)P(X≤x,L≤Z≤z)=1−FZ(L)FX,Z(x,z)−FX,Z(x,L)

它的概率密度为
g(x,z)=∂2G(x,z)∂x∂z=fX,Z(x,z)1−FZ(L)g(x,z) = \frac{\partial^2 G(x,z)}{\partial x \partial z} = \frac{f_{X,Z}(x,z)}{1-F_{Z}(L)}g(x,z)=∂x∂z∂2G(x,z)=1−FZ(L)fX,Z(x,z)
假设一组简单随机样本为{(Xi,Zi)}i=1n\{(X_i,Z_i)\}_{i=1}^n{(Xi,Zi)}i=1n，如果这是完整数据，那么MLE为
θ^MLE=arg max⁡θ∑i=1nlog⁡fX,Z(Xi,Zi;θ)\hat{\theta}_{MLE} = \argmax_{\theta} \sum_{i=1}^n \log f_{X,Z}(X_i,Z_i;\theta)θ^MLE=θargmaxi=1∑nlogfX,Z(Xi,Zi;θ)

如果这是左截断数据，那么参数的MLE为
θ~MLE=arg max⁡θ∑i=1nlog⁡fX,Z(Xi,Zi;θ)1−FZ(L)=arg max⁡θ∑i=1nlog⁡fX,Z(Xi,Zi;θ)=θ^MLE\tilde{\theta}_{MLE} = \argmax_{\theta} \sum_{i=1}^n \log \frac{f_{X,Z}(X_i,Z_i;\theta)}{1-F_{Z}(L)} = \argmax_{\theta} \sum_{i=1}^n \log f_{X,Z}(X_i,Z_i;\theta) = \hat{\theta}_{MLE}θ~MLE=θargmaxi=1∑nlog1−FZ(L)fX,Z(Xi,Zi;θ)=θargmaxi=1∑nlogfX,Z(Xi,Zi;θ)=θ^MLE

即基于左截断数据计算得到的MLE与完整数据计算得到的MLE是等价的。

Right-Truncated

假设截断规则是Z≤RZ \le RZ≤R，称这样的截断为右截断。比如要观察艾滋病潜伏期内白细胞数目的变化规律，那么XXX就是白细胞数目，ZZZ就是暴露时间，在发病前才观察并记录个体的白细胞数。样本与X,Z∣Z≤RX,Z|Z \le RX,Z∣Z≤R同分布，这里的处理方法与左截断类似：将ZZZ的取值限制为Z≤RZ \le RZ≤R，

G(x,z)=P(X≤x,Z≤z∣Z≤R)=P(X≤x,Z≤min⁡(z,R))P(Z≤R)=FX,Z(x,z)FZ(R),z≤RG(x,z) = P(X \le x,Z \le z|Z \le R) = \frac{P(X \le x, Z \le \min(z,R))}{P(Z \le R)} = \frac{F_{X,Z}(x,z)}{F_{Z}(R)} ,z \le R G(x,z)=P(X≤x,Z≤z∣Z≤R)=P(Z≤R)P(X≤x,Z≤min(z,R))=FZ(R)FX,Z(x,z),z≤R

它的概率密度为
g(x,z)=∂2G(x,z)∂x∂z=fX,Z(x,z)FZ(R)g(x,z) = \frac{\partial^2 G(x,z)}{\partial x \partial z} = \frac{f_{X,Z}(x,z)}{F_{Z}(R)}g(x,z)=∂x∂z∂2G(x,z)=FZ(R)fX,Z(x,z)

参数的MLE为
θ˘MLE=arg max⁡θ∑i=1nlog⁡fX,Z(Xi,Zi;θ)1−FZ(L)=arg max⁡θ∑i=1nlog⁡fX,Z(Xi,Zi;θ)=θ^MLE\breve{\theta}_{MLE} = \argmax_{\theta} \sum_{i=1}^n \log \frac{f_{X,Z}(X_i,Z_i;\theta)}{1-F_{Z}(L)} = \argmax_{\theta} \sum_{i=1}^n \log f_{X,Z}(X_i,Z_i;\theta) = \hat{\theta}_{MLE}θ˘MLE=θargmaxi=1∑nlog1−FZ(L)fX,Z(Xi,Zi;θ)=θargmaxi=1∑nlogfX,Z(Xi,Zi;θ)=θ^MLE

即基于右截断数据计算得到的MLE与完整数据计算得到的MLE是等价的。

一个例子：双截断正态分布

假设总体为X∼N(μ,1)X \sim N(\mu,1)X∼N(μ,1)，截断规则为L≤X≤RL \le X \le RL≤X≤R（称这样的截断为双截断），样本为{Xi}i=1n\{X_i\}_{i=1}^n{Xi}i=1n，求样本的联合分布与μ\muμ的MLE。限制XXX的取值为[L,R][L,R][L,R]，则截断数据的分布为
P(X≤x∣L≤X≤R)=P(L≤X≤x)P(L≤X≤R)=FX(x)−FX(L)FX(R)−FX(L)P(X \le x| L \le X \le R) = \frac{P(L \le X \le x)}{P(L \le X \le R) }= \frac{F_X(x) - F_X(L)}{F_X(R) - F_X(L)}P(X≤x∣L≤X≤R)=P(L≤X≤R)P(L≤X≤x)=FX(R)−FX(L)FX(x)−FX(L)

它的概率密度为
g(x)=fX(x)FX(R)−FX(L)g(x) = \frac{f_X(x)}{F_X(R) - F_X(L)}g(x)=FX(R)−FX(L)fX(x)
因为截断不影响MLE，因此参数的最大似然估计为
μ^=1n∑i=1nXi\hat{\mu} = \frac{1}{n} \sum_{i=1}^n X_iμ^=n1i=1∑nXi

需要注意的是，尽管MLE的形式没有发生变化，但样本的分布是在总体分布上做了截断了，所以MLE的性质可能与完整数据的MLE不一样了。完整数据的MLE是UMVUE，下面验证双截断数据的MLE是否仍然是UMVUE：
Eμ^=1n∑i=1nEXiE\hat{\mu} = \frac{1}{n} \sum_{i=1}^n EX_iEμ^=n1i=1∑nEXi

计算截断后的均值：
EXi=∫LRxg(x)dx=12π[FX(R)−FX(L)]∫LRxe−(x−μ)22dxEX_i = \int_{L}^R xg(x)dx = \frac{1}{\sqrt{2\pi}[F_X(R) - F_X(L)]}\int_{L}^R xe^{-\frac{(x-\mu)^2}{2}}dxEXi=∫LRxg(x)dx=2π[FX(R)−FX(L)]1∫LRxe−2(x−μ)2dx

计算积分
∫LRxe−(x−μ)22dx=∫LR(x−μ)e−(x−μ)22d(x−μ)+μ∫LRe−(x−μ)22dx=e−(R−μ)22−e−(L−μ)22+μ2π[FX(R)−FX(L)]\int_{L}^R xe^{-\frac{(x-\mu)^2}{2}}dx = \int_{L}^R (x-\mu)e^{-\frac{(x-\mu)^2}{2}}d(x-\mu) + \mu \int_{L}^R e^{-\frac{(x-\mu)^2}{2}}dx \\ = e^{-\frac{(R-\mu)^2}{2}} - e^{-\frac{(L-\mu)^2}{2}} + \mu\sqrt{2\pi}[F_X(R) - F_X(L)]∫LRxe−2(x−μ)2dx=∫LR(x−μ)e−2(x−μ)2d(x−μ)+μ∫LRe−2(x−μ)2dx=e−2(R−μ)2−e−2(L−μ)2+μ2π[FX(R)−FX(L)]

因此
EXi=μ+fX(R)−fX(L)FX(R)−FX(L)Eμ^=1n∑i=1nEXi=μ+fX(R)−fX(L)FX(R)−FX(L)≠μEX_i = \mu + \frac{f_X(R) - f_X(L)}{F_X(R) - F_X(L)} \\ E\hat{\mu} = \frac{1}{n} \sum_{i=1}^n EX_i = \mu + \frac{f_X(R) - f_X(L)}{F_X(R) - F_X(L)} \ne \muEXi=μ+FX(R)−FX(L)fX(R)−fX(L)Eμ^=n1i=1∑nEXi=μ+FX(R)−FX(L)fX(R)−fX(L)=μ

显然这不是无偏估计。

双截断正态分布的完备最小充分统计量

样本的联合密度为
∏i=1ng(Xi)=∏i=1ne−(Xi−μ)222π[FX(R)−FX(L)]=(2π)n/2e−∑i=1nXi22[FX(R)−FX(L)]ne−nμ22eμ∑i=1nXi\prod_{i=1}^n g(X_i) = \prod_{i=1}^n \frac{e^{-\frac{(X_i-\mu)^2}{2}}}{\sqrt{2\pi}[F_X(R) - F_X(L)]} \\= (2\pi)^{n/2}e^{-\sum_{i=1}^n \frac{X_i^2}{2}}[F_X(R) - F_X(L)]^n e^{-\frac{n\mu^2}{2}} e^{\mu\sum_{i=1}^n X_i}i=1∏ng(Xi)=i=1∏n2π[FX(R)−FX(L)]e−2(Xi−μ)2=(2π)n/2e−∑i=1n2Xi2[FX(R)−FX(L)]ne−2nμ2eμ∑i=1nXi

其中(2π)n/2(2\pi)^{n/2}(2π)n/2是常数，e−∑i=1nXi22e^{-\sum_{i=1}^n \frac{X_i^2}{2}}e−∑i=1n2Xi2只与样本有关，[FX(R)−FX(L)]ne−nμ22[F_X(R) - F_X(L)]^n e^{-\frac{n\mu^2}{2}}[FX(R)−FX(L)]ne−2nμ2只与μ\muμ有关，根据Neyman-Fisher定理，∑i=1nXi\sum_{i=1}^n X_i∑i=1nXi是充分统计量。假设{Yi}i=1n\{Y_i\}_{i=1}^n{Yi}i=1n是另一组随机样本，则
∏i=1ng(Xi)∏i=1ng(Yi)=(2π)n/2e−∑i=1nXi22[FX(R)−FX(L)]ne−nμ22eμ∑i=1nXi(2π)n/2e−∑i=1nYi22[FX(R)−FX(L)]ne−nμ22eμ∑i=1nYi=e∑i=1nYi22−∑i=1nXi22eμ(∑i=1nXi−∑i=1nYi)\frac{\prod_{i=1}^n g(X_i)}{\prod_{i=1}^n g(Y_i)} = \frac{(2\pi)^{n/2}e^{-\sum_{i=1}^n \frac{X_i^2}{2}}[F_X(R) - F_X(L)]^n e^{-\frac{n\mu^2}{2}} e^{\mu\sum_{i=1}^n X_i}}{(2\pi)^{n/2}e^{-\sum_{i=1}^n \frac{Y_i^2}{2}}[F_X(R) - F_X(L)]^n e^{-\frac{n\mu^2}{2}} e^{\mu\sum_{i=1}^n Y_i}} \\ = e^{\sum_{i=1}^n \frac{Y_i^2}{2}-\sum_{i=1}^n \frac{X_i^2}{2}}e^{\mu(\sum_{i=1}^n X_i-\sum_{i=1}^n Y_i)}∏i=1ng(Yi)∏i=1ng(Xi)=(2π)n/2e−∑i=1n2Yi2[FX(R)−FX(L)]ne−2nμ2eμ∑i=1nYi(2π)n/2e−∑i=1n2Xi2[FX(R)−FX(L)]ne−2nμ2eμ∑i=1nXi=e∑i=1n2Yi2−∑i=1n2Xi2eμ(∑i=1nXi−∑i=1nYi)

要让这个似然比与参数μ\muμ无关，需要∑i=1nXi−∑i=1nYi=0\sum_{i=1}^n X_i-\sum_{i=1}^n Y_i=0∑i=1nXi−∑i=1nYi=0，因此∑i=1nXi\sum_{i=1}^n X_i∑i=1nXi是最小充分统计量。假设h(T)h(T)h(T)是TTT的概率空间上的任一可测函数，T=∑i=1nXiT=\sum_{i=1}^n X_iT=∑i=1nXi。考虑完备性之前先研究一下TTT的分布。因为
FX(R)−FX(L)=P(L≤X≤R)=P(L−μ≤X−μ≤R−μ)=Φ(R−μ)−Φ(L−μ)F_X(R) - F_X(L)=P(L \le X \le R) \\ = P(L-\mu \le X -\mu \le R - \mu) = \Phi(R-\mu)-\Phi(L-\mu)FX(R)−FX(L)=P(L≤X≤R)=P(L−μ≤X−μ≤R−μ)=Φ(R−μ)−Φ(L−μ)

其中Φ\PhiΦ是标准正态分布的分布函数。因此
g(x)=fX(x)Φ(R−μ)−Φ(L−μ)g(x) = \frac{f_X(x)}{ \Phi(R-\mu)-\Phi(L-\mu)}g(x)=Φ(R−μ)−Φ(L−μ)fX(x)

它的矩母函数为
MX(t)=EetX=∫LRetxfX(x)Φ(R−μ)−Φ(L−μ)dx=exp⁡(μt+t22)Φ(R−μ)−Φ(L−μ)M_X(t) = Ee^{tX} = \int_{L}^R e^{tx}\frac{f_X(x)}{ \Phi(R-\mu)-\Phi(L-\mu)}dx = \frac{\exp \left( \mu t + \frac{t^2}{2} \right)}{ \Phi(R-\mu)-\Phi(L-\mu)}MX(t)=EetX=∫LRetxΦ(R−μ)−Φ(L−μ)fX(x)dx=Φ(R−μ)−Φ(L−μ)exp(μt+2t2)

从而TTT的矩母函数是
MT(t)=[exp⁡(μt+t22)Φ(R−μ)−Φ(L−μ)]nM_{T}(t) = \left[ \frac{\exp \left( \mu t + \frac{t^2}{2} \right)}{ \Phi(R-\mu)-\Phi(L-\mu)} \right]^n MT(t)=⎣⎡Φ(R−μ)−Φ(L−μ)exp(μt+2t2)⎦⎤n

由此可以观察发现TTT的概率密度为
fT(t)=exp⁡(−(t−nμ)22n)2π[Φ(R−μ)−Φ(L−μ)]nf_T(t) = \frac{\exp \left( - \frac{(t-n\mu)^2}{2n}\right)}{\sqrt{2\pi}[ \Phi(R-\mu)-\Phi(L-\mu)]^n}fT(t)=2π[Φ(R−μ)−Φ(L−μ)]nexp(−2n(t−nμ)2)

假设h(T)h(T)h(T)是TTT的概率空间中的任一可测函数，则
E[h(T)]=12π[Φ(R−μ)−Φ(L−μ)]n∫LRh(t)exp⁡(−(t−nμ)22n)dt=1[Φ(R−μ)−Φ(L−μ)]nW[h(nx)I(nL,nR)]E[h(T)] =\frac{1}{\sqrt{2\pi}[ \Phi(R-\mu)-\Phi(L-\mu)]^n}\int_{L}^{R} h(t)\exp \left( - \frac{(t-n\mu)^2}{2n}\right)dt \\ =\frac{1}{[ \Phi(R-\mu)-\Phi(L-\mu)]^n}W[h(nx)I(nL,nR)]E[h(T)]=2π[Φ(R−μ)−Φ(L−μ)]n1∫LRh(t)exp(−2n(t−nμ)2)dt=[Φ(R−μ)−Φ(L−μ)]n1W[h(nx)I(nL,nR)]

其中W[]W[]W[]表示函数的Weierstrass变换，根据Weierstrass变换的完备性，要让E[h(T)]=0E[h(T)]=0E[h(T)]=0，除非
h(nx)I(nL,nR)=0,a.s.h(nx)I(nL,nR) = 0,a.s.h(nx)I(nL,nR)=0,a.s.，也就是h(nx)=0,a.s.h(nx) = 0,a.s.h(nx)=0,a.s.。因此TTT是完备统计量。综上，TTT是完备的最小充分统计量。

UA MATH566 统计理论截断数据相关推荐

UA MATH566 统计理论10 Bootstrap简介
UA MATH566 统计理论10 Bootstrap简介 Bootstrap是用来替代基于CDF的一些统计计算的手段:当真实的CDF(记为F∈FF \in \mathbb{F}F∈F,F\mathb ...
UA MATH566 统计理论8 用Pivot构造置信区间
UA MATH566 统计理论8 用Pivot构造置信区间用Pivot构造置信区间一般性方法最优置信区间置信区间的频率派解释上一讲介绍的构造置信区间的方法是根据假设检验导出置信区间,但我们感 ...
UA MATH566 统计理论5 假设检验：p值
UA MATH566 统计理论5 假设检验:p值 p-value 做实证研究的paper大多数都要汇报p值,并且几乎是只看p值的.2016年ASA做了一个关于p值的statement,指出了关于p值的 ...
UA MATH566 统计理论一个例题 Hierarchical Model的统计性质
UA MATH566 统计理论一个例题 Hierarchical Model的统计性质 Y∣X∼Pois(X)Y|X \sim Pois(X)Y∣X∼Pois(X) and X∼Γ(α,β)X \s ...
UA MATH566 统计理论推导卡方拟合优度检验
UA MATH566 统计理论推导卡方拟合优度检验卡方拟合优度检验主要是检验categorical data的,假设一共有ddd种category,每一种理论比例为pip_ipi,满足 ∑i=1 ...
UA MATH566 统计理论 Bayes统计基础
UA MATH566 统计理论 Bayes统计基础共轭分布基于后验概率预测新的观测值 Bayes统计思想的基础是Bayes公式 P(Ci∣A)=P(A,Ci)P(A)=P(A∣Ci)P(Ci)∑i ...
UA MATH566 统计理论概念与定理总结
UA MATH566 统计理论概念与定理总结 Part 1 Exponential Family Tip 1: Form of Exponential Family f(x∣η)=h(x)exp⁡( ...
UA MATH566 统计理论 QE练习位置变换后的指数分布
UA MATH566 统计理论 QE练习位置变换后的指数分布 2016年1月第六题 2018年5月第六题 2016年1月第六题 Part a Joint likelihood is L(θ)=exp ...
UA MATH566 统计理论 Fisher信息论的性质下
UA MATH566 统计理论 Fisher信息量的性质下辅助统计量的Fisher信息为0 分布族参数变换后的Fisher信息统计量的Fisher信息的有界性下面介绍一些Fisher信息量的常用 ...

UA MATH566 统计理论截断数据

UA MATH566 统计理论截断数据

Truncated

Left-Trancated

Right-Truncated

一个例子：双截断正态分布

双截断正态分布的完备最小充分统计量

UA MATH566 统计理论截断数据相关推荐

最新文章

热门文章

UA MATH566 统计理论 截断数据

UA MATH566 统计理论 截断数据

Truncated

Left-Trancated

Right-Truncated

一个例子：双截断正态分布

双截断正态分布的完备最小充分统计量

UA MATH566 统计理论 截断数据相关推荐

最新文章

热门文章

UA MATH566 统计理论截断数据

UA MATH566 统计理论截断数据

UA MATH566 统计理论截断数据相关推荐