UA MATH566 统计理论 截断数据
UA MATH566 统计理论 截断数据
- Truncated
- Left-Trancated
- Right-Truncated
- 一个例子:双截断正态分布
- 双截断正态分布的完备最小充分统计量
这一讲介绍随机变量的两种特殊变换:删失(censoring)与截断(truncated)。这两种变换在实际应用中非常常见,在医学、工程学、经济学的研究中,由于观察、记录数据的限制,从总体到样本的采样过程中常常伴随删失或截断的变换。假设我们需要观察的随机变量为XXX,X∈RX \in \mathbb{R}X∈R,它的累积分布函数为FX(x)F_X(x)FX(x),概率密度函数为fX(x)f_X(x)fX(x)。如果我们能观察到并记录下XXX的所有可能的值,就称这样的数据为完整数据(Complete Data);由于观察、记录数据的限制,我们只记录XXX的部分数据,忽略观察到的其他数据,这时的数据就叫截断数据;如果记录的数据只是一个模糊的范围,比如75岁以上、年收入120万以上,这样的数据叫做删失数据。
Truncated
截断数据简单一点,先介绍随机变量截断的处理方法。截断有两种,左截断和右截断,一般用条件分布来描述。假设我们要观察的随机变量是XXX,它的协变量(covariate)是ZZZ(协变量的含义是属于同一个个体的不同特征,比如研究人体脚长与身高,体重的关系,对每一个测量个体记录脚长、身高、体重、臂长、腰臀比,那么臂长、腰臀比、身高就是体重的协变量),记XXX与ZZZ的联合分布为FX,Z(x,z;θ)F_{X,Z}(x,z;\theta)FX,Z(x,z;θ),联合概率密度为fX,Z(x,z;θ)f_{X,Z}(x,z;\theta)fX,Z(x,z;θ),θ\thetaθ为未知参数,ZZZ的边缘分布为FZ(z;θ)F_Z(z;\theta)FZ(z;θ),边缘密度为fZ(z;θ)f_{Z}(z;\theta)fZ(z;θ)。
Left-Trancated
假设截断规则是Z≥LZ \ge LZ≥L,称这样的截断为左截断。比如对退休老人年均可支配收入的调查,XXX就是年均可支配收入,ZZZ就是个体的年龄,当ZZZ超过退休年龄时才去观察并记录XXX的值。样本与X,Z∣Z≥LX,Z|Z \ge LX,Z∣Z≥L同分布,记为
G(x,z)=P(X≤x,Z≤z∣Z≥L)=P(X≤x,L≤Z≤z)P(Z≥L)=FX,Z(x,z)−FX,Z(x,L)1−FZ(L)G(x,z) = P(X \le x,Z \le z|Z \ge L) = \frac{P(X \le x,L \le Z \le z)}{P(Z \ge L)} = \frac{F_{X,Z}(x,z) - F_{X,Z}(x,L)}{1-F_{Z}(L)}G(x,z)=P(X≤x,Z≤z∣Z≥L)=P(Z≥L)P(X≤x,L≤Z≤z)=1−FZ(L)FX,Z(x,z)−FX,Z(x,L)
它的概率密度为
g(x,z)=∂2G(x,z)∂x∂z=fX,Z(x,z)1−FZ(L)g(x,z) = \frac{\partial^2 G(x,z)}{\partial x \partial z} = \frac{f_{X,Z}(x,z)}{1-F_{Z}(L)}g(x,z)=∂x∂z∂2G(x,z)=1−FZ(L)fX,Z(x,z)
假设一组简单随机样本为{(Xi,Zi)}i=1n\{(X_i,Z_i)\}_{i=1}^n{(Xi,Zi)}i=1n,如果这是完整数据,那么MLE为
θ^MLE=arg maxθ∑i=1nlogfX,Z(Xi,Zi;θ)\hat{\theta}_{MLE} = \argmax_{\theta} \sum_{i=1}^n \log f_{X,Z}(X_i,Z_i;\theta)θ^MLE=θargmaxi=1∑nlogfX,Z(Xi,Zi;θ)
如果这是左截断数据,那么参数的MLE为
θ~MLE=arg maxθ∑i=1nlogfX,Z(Xi,Zi;θ)1−FZ(L)=arg maxθ∑i=1nlogfX,Z(Xi,Zi;θ)=θ^MLE\tilde{\theta}_{MLE} = \argmax_{\theta} \sum_{i=1}^n \log \frac{f_{X,Z}(X_i,Z_i;\theta)}{1-F_{Z}(L)} = \argmax_{\theta} \sum_{i=1}^n \log f_{X,Z}(X_i,Z_i;\theta) = \hat{\theta}_{MLE}θ~MLE=θargmaxi=1∑nlog1−FZ(L)fX,Z(Xi,Zi;θ)=θargmaxi=1∑nlogfX,Z(Xi,Zi;θ)=θ^MLE
即基于左截断数据计算得到的MLE与完整数据计算得到的MLE是等价的。
Right-Truncated
假设截断规则是Z≤RZ \le RZ≤R,称这样的截断为右截断。比如要观察艾滋病潜伏期内白细胞数目的变化规律,那么XXX就是白细胞数目,ZZZ就是暴露时间,在发病前才观察并记录个体的白细胞数。样本与X,Z∣Z≤RX,Z|Z \le RX,Z∣Z≤R同分布,这里的处理方法与左截断类似:将ZZZ的取值限制为Z≤RZ \le RZ≤R,
G(x,z)=P(X≤x,Z≤z∣Z≤R)=P(X≤x,Z≤min(z,R))P(Z≤R)=FX,Z(x,z)FZ(R),z≤RG(x,z) = P(X \le x,Z \le z|Z \le R) = \frac{P(X \le x, Z \le \min(z,R))}{P(Z \le R)} = \frac{F_{X,Z}(x,z)}{F_{Z}(R)} ,z \le R G(x,z)=P(X≤x,Z≤z∣Z≤R)=P(Z≤R)P(X≤x,Z≤min(z,R))=FZ(R)FX,Z(x,z),z≤R
它的概率密度为
g(x,z)=∂2G(x,z)∂x∂z=fX,Z(x,z)FZ(R)g(x,z) = \frac{\partial^2 G(x,z)}{\partial x \partial z} = \frac{f_{X,Z}(x,z)}{F_{Z}(R)}g(x,z)=∂x∂z∂2G(x,z)=FZ(R)fX,Z(x,z)
参数的MLE为
θ˘MLE=arg maxθ∑i=1nlogfX,Z(Xi,Zi;θ)1−FZ(L)=arg maxθ∑i=1nlogfX,Z(Xi,Zi;θ)=θ^MLE\breve{\theta}_{MLE} = \argmax_{\theta} \sum_{i=1}^n \log \frac{f_{X,Z}(X_i,Z_i;\theta)}{1-F_{Z}(L)} = \argmax_{\theta} \sum_{i=1}^n \log f_{X,Z}(X_i,Z_i;\theta) = \hat{\theta}_{MLE}θ˘MLE=θargmaxi=1∑nlog1−FZ(L)fX,Z(Xi,Zi;θ)=θargmaxi=1∑nlogfX,Z(Xi,Zi;θ)=θ^MLE
即基于右截断数据计算得到的MLE与完整数据计算得到的MLE是等价的。
一个例子:双截断正态分布
假设总体为X∼N(μ,1)X \sim N(\mu,1)X∼N(μ,1),截断规则为L≤X≤RL \le X \le RL≤X≤R(称这样的截断为双截断),样本为{Xi}i=1n\{X_i\}_{i=1}^n{Xi}i=1n,求样本的联合分布与μ\muμ的MLE。限制XXX的取值为[L,R][L,R][L,R],则截断数据的分布为
P(X≤x∣L≤X≤R)=P(L≤X≤x)P(L≤X≤R)=FX(x)−FX(L)FX(R)−FX(L)P(X \le x| L \le X \le R) = \frac{P(L \le X \le x)}{P(L \le X \le R) }= \frac{F_X(x) - F_X(L)}{F_X(R) - F_X(L)}P(X≤x∣L≤X≤R)=P(L≤X≤R)P(L≤X≤x)=FX(R)−FX(L)FX(x)−FX(L)
它的概率密度为
g(x)=fX(x)FX(R)−FX(L)g(x) = \frac{f_X(x)}{F_X(R) - F_X(L)}g(x)=FX(R)−FX(L)fX(x)
因为截断不影响MLE,因此参数的最大似然估计为
μ^=1n∑i=1nXi\hat{\mu} = \frac{1}{n} \sum_{i=1}^n X_iμ^=n1i=1∑nXi
需要注意的是,尽管MLE的形式没有发生变化,但样本的分布是在总体分布上做了截断了,所以MLE的性质可能与完整数据的MLE不一样了。完整数据的MLE是UMVUE,下面验证双截断数据的MLE是否仍然是UMVUE:
Eμ^=1n∑i=1nEXiE\hat{\mu} = \frac{1}{n} \sum_{i=1}^n EX_iEμ^=n1i=1∑nEXi
计算截断后的均值:
EXi=∫LRxg(x)dx=12π[FX(R)−FX(L)]∫LRxe−(x−μ)22dxEX_i = \int_{L}^R xg(x)dx = \frac{1}{\sqrt{2\pi}[F_X(R) - F_X(L)]}\int_{L}^R xe^{-\frac{(x-\mu)^2}{2}}dxEXi=∫LRxg(x)dx=2π[FX(R)−FX(L)]1∫LRxe−2(x−μ)2dx
计算积分
∫LRxe−(x−μ)22dx=∫LR(x−μ)e−(x−μ)22d(x−μ)+μ∫LRe−(x−μ)22dx=e−(R−μ)22−e−(L−μ)22+μ2π[FX(R)−FX(L)]\int_{L}^R xe^{-\frac{(x-\mu)^2}{2}}dx = \int_{L}^R (x-\mu)e^{-\frac{(x-\mu)^2}{2}}d(x-\mu) + \mu \int_{L}^R e^{-\frac{(x-\mu)^2}{2}}dx \\ = e^{-\frac{(R-\mu)^2}{2}} - e^{-\frac{(L-\mu)^2}{2}} + \mu\sqrt{2\pi}[F_X(R) - F_X(L)]∫LRxe−2(x−μ)2dx=∫LR(x−μ)e−2(x−μ)2d(x−μ)+μ∫LRe−2(x−μ)2dx=e−2(R−μ)2−e−2(L−μ)2+μ2π[FX(R)−FX(L)]
因此
EXi=μ+fX(R)−fX(L)FX(R)−FX(L)Eμ^=1n∑i=1nEXi=μ+fX(R)−fX(L)FX(R)−FX(L)≠μEX_i = \mu + \frac{f_X(R) - f_X(L)}{F_X(R) - F_X(L)} \\ E\hat{\mu} = \frac{1}{n} \sum_{i=1}^n EX_i = \mu + \frac{f_X(R) - f_X(L)}{F_X(R) - F_X(L)} \ne \muEXi=μ+FX(R)−FX(L)fX(R)−fX(L)Eμ^=n1i=1∑nEXi=μ+FX(R)−FX(L)fX(R)−fX(L)=μ
显然这不是无偏估计。
双截断正态分布的完备最小充分统计量
样本的联合密度为
∏i=1ng(Xi)=∏i=1ne−(Xi−μ)222π[FX(R)−FX(L)]=(2π)n/2e−∑i=1nXi22[FX(R)−FX(L)]ne−nμ22eμ∑i=1nXi\prod_{i=1}^n g(X_i) = \prod_{i=1}^n \frac{e^{-\frac{(X_i-\mu)^2}{2}}}{\sqrt{2\pi}[F_X(R) - F_X(L)]} \\= (2\pi)^{n/2}e^{-\sum_{i=1}^n \frac{X_i^2}{2}}[F_X(R) - F_X(L)]^n e^{-\frac{n\mu^2}{2}} e^{\mu\sum_{i=1}^n X_i}i=1∏ng(Xi)=i=1∏n2π[FX(R)−FX(L)]e−2(Xi−μ)2=(2π)n/2e−∑i=1n2Xi2[FX(R)−FX(L)]ne−2nμ2eμ∑i=1nXi
其中(2π)n/2(2\pi)^{n/2}(2π)n/2是常数,e−∑i=1nXi22e^{-\sum_{i=1}^n \frac{X_i^2}{2}}e−∑i=1n2Xi2只与样本有关,[FX(R)−FX(L)]ne−nμ22[F_X(R) - F_X(L)]^n e^{-\frac{n\mu^2}{2}}[FX(R)−FX(L)]ne−2nμ2只与μ\muμ有关,根据Neyman-Fisher定理,∑i=1nXi\sum_{i=1}^n X_i∑i=1nXi是充分统计量。假设{Yi}i=1n\{Y_i\}_{i=1}^n{Yi}i=1n是另一组随机样本,则
∏i=1ng(Xi)∏i=1ng(Yi)=(2π)n/2e−∑i=1nXi22[FX(R)−FX(L)]ne−nμ22eμ∑i=1nXi(2π)n/2e−∑i=1nYi22[FX(R)−FX(L)]ne−nμ22eμ∑i=1nYi=e∑i=1nYi22−∑i=1nXi22eμ(∑i=1nXi−∑i=1nYi)\frac{\prod_{i=1}^n g(X_i)}{\prod_{i=1}^n g(Y_i)} = \frac{(2\pi)^{n/2}e^{-\sum_{i=1}^n \frac{X_i^2}{2}}[F_X(R) - F_X(L)]^n e^{-\frac{n\mu^2}{2}} e^{\mu\sum_{i=1}^n X_i}}{(2\pi)^{n/2}e^{-\sum_{i=1}^n \frac{Y_i^2}{2}}[F_X(R) - F_X(L)]^n e^{-\frac{n\mu^2}{2}} e^{\mu\sum_{i=1}^n Y_i}} \\ = e^{\sum_{i=1}^n \frac{Y_i^2}{2}-\sum_{i=1}^n \frac{X_i^2}{2}}e^{\mu(\sum_{i=1}^n X_i-\sum_{i=1}^n Y_i)}∏i=1ng(Yi)∏i=1ng(Xi)=(2π)n/2e−∑i=1n2Yi2[FX(R)−FX(L)]ne−2nμ2eμ∑i=1nYi(2π)n/2e−∑i=1n2Xi2[FX(R)−FX(L)]ne−2nμ2eμ∑i=1nXi=e∑i=1n2Yi2−∑i=1n2Xi2eμ(∑i=1nXi−∑i=1nYi)
要让这个似然比与参数μ\muμ无关,需要∑i=1nXi−∑i=1nYi=0\sum_{i=1}^n X_i-\sum_{i=1}^n Y_i=0∑i=1nXi−∑i=1nYi=0,因此∑i=1nXi\sum_{i=1}^n X_i∑i=1nXi是最小充分统计量。假设h(T)h(T)h(T)是TTT的概率空间上的任一可测函数,T=∑i=1nXiT=\sum_{i=1}^n X_iT=∑i=1nXi。考虑完备性之前先研究一下TTT的分布。因为
FX(R)−FX(L)=P(L≤X≤R)=P(L−μ≤X−μ≤R−μ)=Φ(R−μ)−Φ(L−μ)F_X(R) - F_X(L)=P(L \le X \le R) \\ = P(L-\mu \le X -\mu \le R - \mu) = \Phi(R-\mu)-\Phi(L-\mu)FX(R)−FX(L)=P(L≤X≤R)=P(L−μ≤X−μ≤R−μ)=Φ(R−μ)−Φ(L−μ)
其中Φ\PhiΦ是标准正态分布的分布函数。因此
g(x)=fX(x)Φ(R−μ)−Φ(L−μ)g(x) = \frac{f_X(x)}{ \Phi(R-\mu)-\Phi(L-\mu)}g(x)=Φ(R−μ)−Φ(L−μ)fX(x)
它的矩母函数为
MX(t)=EetX=∫LRetxfX(x)Φ(R−μ)−Φ(L−μ)dx=exp(μt+t22)Φ(R−μ)−Φ(L−μ)M_X(t) = Ee^{tX} = \int_{L}^R e^{tx}\frac{f_X(x)}{ \Phi(R-\mu)-\Phi(L-\mu)}dx = \frac{\exp \left( \mu t + \frac{t^2}{2} \right)}{ \Phi(R-\mu)-\Phi(L-\mu)}MX(t)=EetX=∫LRetxΦ(R−μ)−Φ(L−μ)fX(x)dx=Φ(R−μ)−Φ(L−μ)exp(μt+2t2)
从而TTT的矩母函数是
MT(t)=[exp(μt+t22)Φ(R−μ)−Φ(L−μ)]nM_{T}(t) = \left[ \frac{\exp \left( \mu t + \frac{t^2}{2} \right)}{ \Phi(R-\mu)-\Phi(L-\mu)} \right]^n MT(t)=⎣⎡Φ(R−μ)−Φ(L−μ)exp(μt+2t2)⎦⎤n
由此可以观察发现TTT的概率密度为
fT(t)=exp(−(t−nμ)22n)2π[Φ(R−μ)−Φ(L−μ)]nf_T(t) = \frac{\exp \left( - \frac{(t-n\mu)^2}{2n}\right)}{\sqrt{2\pi}[ \Phi(R-\mu)-\Phi(L-\mu)]^n}fT(t)=2π[Φ(R−μ)−Φ(L−μ)]nexp(−2n(t−nμ)2)
假设h(T)h(T)h(T)是TTT的概率空间中的任一可测函数,则
E[h(T)]=12π[Φ(R−μ)−Φ(L−μ)]n∫LRh(t)exp(−(t−nμ)22n)dt=1[Φ(R−μ)−Φ(L−μ)]nW[h(nx)I(nL,nR)]E[h(T)] =\frac{1}{\sqrt{2\pi}[ \Phi(R-\mu)-\Phi(L-\mu)]^n}\int_{L}^{R} h(t)\exp \left( - \frac{(t-n\mu)^2}{2n}\right)dt \\ =\frac{1}{[ \Phi(R-\mu)-\Phi(L-\mu)]^n}W[h(nx)I(nL,nR)]E[h(T)]=2π[Φ(R−μ)−Φ(L−μ)]n1∫LRh(t)exp(−2n(t−nμ)2)dt=[Φ(R−μ)−Φ(L−μ)]n1W[h(nx)I(nL,nR)]
其中W[]W[]W[]表示函数的Weierstrass变换,根据Weierstrass变换的完备性,要让E[h(T)]=0E[h(T)]=0E[h(T)]=0,除非
h(nx)I(nL,nR)=0,a.s.h(nx)I(nL,nR) = 0,a.s.h(nx)I(nL,nR)=0,a.s.,也就是h(nx)=0,a.s.h(nx) = 0,a.s.h(nx)=0,a.s.。因此TTT是完备统计量。综上,TTT是完备的最小充分统计量。
UA MATH566 统计理论 截断数据相关推荐
- UA MATH566 统计理论10 Bootstrap简介
UA MATH566 统计理论10 Bootstrap简介 Bootstrap是用来替代基于CDF的一些统计计算的手段:当真实的CDF(记为F∈FF \in \mathbb{F}F∈F,F\mathb ...
- UA MATH566 统计理论8 用Pivot构造置信区间
UA MATH566 统计理论8 用Pivot构造置信区间 用Pivot构造置信区间 一般性方法 最优置信区间 置信区间的频率派解释 上一讲介绍的构造置信区间的方法是根据假设检验导出置信区间,但我们感 ...
- UA MATH566 统计理论5 假设检验:p值
UA MATH566 统计理论5 假设检验:p值 p-value 做实证研究的paper大多数都要汇报p值,并且几乎是只看p值的.2016年ASA做了一个关于p值的statement,指出了关于p值的 ...
- UA MATH566 统计理论 一个例题 Hierarchical Model的统计性质
UA MATH566 统计理论 一个例题 Hierarchical Model的统计性质 Y∣X∼Pois(X)Y|X \sim Pois(X)Y∣X∼Pois(X) and X∼Γ(α,β)X \s ...
- UA MATH566 统计理论 推导卡方拟合优度检验
UA MATH566 统计理论 推导卡方拟合优度检验 卡方拟合优度检验主要是检验categorical data的,假设一共有ddd种category,每一种理论比例为pip_ipi,满足 ∑i=1 ...
- UA MATH566 统计理论 Bayes统计基础
UA MATH566 统计理论 Bayes统计基础 共轭分布 基于后验概率预测新的观测值 Bayes统计思想的基础是Bayes公式 P(Ci∣A)=P(A,Ci)P(A)=P(A∣Ci)P(Ci)∑i ...
- UA MATH566 统计理论 概念与定理总结
UA MATH566 统计理论 概念与定理总结 Part 1 Exponential Family Tip 1: Form of Exponential Family f(x∣η)=h(x)exp( ...
- UA MATH566 统计理论 QE练习 位置变换后的指数分布
UA MATH566 统计理论 QE练习 位置变换后的指数分布 2016年1月第六题 2018年5月第六题 2016年1月第六题 Part a Joint likelihood is L(θ)=exp ...
- UA MATH566 统计理论 Fisher信息论的性质下
UA MATH566 统计理论 Fisher信息量的性质下 辅助统计量的Fisher信息为0 分布族参数变换后的Fisher信息 统计量的Fisher信息的有界性 下面介绍一些Fisher信息量的常用 ...
最新文章
- Linux_DNS服务器
- 真正从零开始了解 Julia
- mxnet常规优化器用法
- php mysql 正则表达式_MYSQL使用正则表达式过滤数据_MySQL
- [USACO12FEB]牛的IDCow IDs
- python列表的append/entend/insert
- 利用python生成一个导出数据库的bat脚本文件
- 用__asm写c函数[秋镇菜]
- 分布式服务框架原理与实践pdf_阿里架构师的架构探险之路:从零开始写分布式服务框架...
- opengl GPU 纹理加速优化
- java面试要点---ibatiS框架的使用方法介绍---随时更新
- 空气培养皿采样后保存_六级撞击式微生物采样器是什么?用途有哪些?
- 中颖内带LED资源驱动代码
- 多媒体技术开发迎来新常态
- 用LinkedList方法模拟栈的数据结构
- Golang map有序化
- JAVA一些方法技巧
- 日期偏移INTERVAL * DAY
- 心形线方程-Geek献给女友的爱意情人节
- android4.4风格,Android 4.4消息汇总 扁平化风格来袭
热门文章
- 开发源码常用网站参考
- C#获取控制台句柄的方法
- Leetcode 147. 对链表进行插入排序 解题思路及C++实现
- 初始化列表||类对象作为类成员|| 静态成员
- 数据预处理——数据清洗、异常值与重复数据的检测
- MySQL 数据库利用alter语句修改表字段属性实例演示,如何拓展表字段长度,sql语句修改表字段名称和类型
- Python 技术篇-文件操控:文件的移动和复制
- 单点效率测试工具:F8秒表
- [YTU]_2429( C语言习题 学生成绩输入和输出)
- 求有环单链表的链表长