漫步数理统计二十八—

假设有kk个分布，它们的pdf分别为f1(x),f2(x),…,fk(x)f_1(x),f_2(x),\ldots,f_k(x)，支撑为1,2,…,k\mathcal{S_1,S_2,\ldots,S_k}，均值为μ1,μ2,…,μk\mu_1,\mu_2,\ldots,\mu_k，方差为σ21,σ22,…,σ2k\sigma_1^2,\sigma_2^2,\ldots,\sigma_k^2，正的混合概率p1,p2,…,pkp_1,p_2,\ldots,p_k且满足p1+p2+⋯+pk=1p_1+p_2+\cdots+p_k=1，令=∪ki=1i\mathcal{S}=\cup_{i=1}^k\mathcal{S}_i且考虑函数

f(x)=p1f1(x)+p2f2(x)+⋯+pkfk(x)=∑i=1kpifi(x),x∈

f(x)=p_1f_1(x)+p_2f_2(x)+\cdots+p_kf_k(x)=\sum_{i=1}^kp_if_i(x),\quad x\in\mathcal{S}

注意f(x)f(x)是非负的且在(−∞,∞)(-\infty,\infty)上积分为1；因此f(x)f(x)是某连续型随机变量XX的pdf，XX的均值为

E(X)=∑i=1kpi∫∞−∞xfi(x)dx=∑i=1kpiμi=μ¯

E(X)=\sum_{i=1}^kp_i\int_{-\infty}^{\infty}xf_i(x)dx=\sum_{i=1}^kp_i\mu_i=\bar{\mu}

即μ1,μ2,…,μk\mu_1,\mu_2,\ldots,\mu_k的加权平均，方差等于

var(X)=∑i=1kpi∫∞−∞(x−μ¯)2fi(x)dx=∑i=1kpi∫∞−∞[(x−μi)+(μi−μ¯)]2fi(x)dx=∑i=1kpi∫∞−∞(x−μi)2fi(x)dx+∑i=1kpi(μi−μ¯)2∫∞−∞fi(x)dx

\begin{align*} var(X) &=\sum_{i=1}^kp_i\int_{-\infty}^{\infty}(x-\bar{\mu})^2f_i(x)dx\\ &=\sum_{i=1}^kp_i\int_{-\infty}^{\infty}[(x-\mu_i)+(\mu_i-\bar{\mu})]^2f_i(x)dx\\ &=\sum_{i=1}^kp_i\int_{-\infty}^{\infty}(x-\mu_i)^2f_i(x)dx+\sum_{i=1}^kp_i(\mu_i-\bar{\mu})^2\int_{-\infty}^{\infty}f_i(x)dx \end{align*}

交叉相的积分为零。即

var(X)=∑i=1kpiσ2i+∑i=1kpi(μi−μ¯)2

var(X)=\sum_{i=1}^kp_i\sigma_i^2+\sum_{i=1}^kp_i(\mu_i-\bar{\mu})^2

注意方差不单单是kk个方差的加权平均，还包括一个正值，涉及到均值的加权方差。

注1：\textbf{注1：}注意区分kk个分布的混合与kk个随机变量的混合∑aiXi\sum a_iX_i 。

接下来介绍一些分布。首先是参数α>0,β>0\alpha>0,\beta>0的对数伽玛pdf，形式为

f1(x)={1Γ(α)βαx−(1+β)/β(logx)α−10x>1elsewhere

f_1(x)= \begin{cases} \frac{1}{\Gamma(\alpha)\beta^{\alpha}}x^{-(1+\beta)/\beta}(\log x)^{\alpha-1}&x>1\\ 0&elsewhere \end{cases}

用logΓ(α,β)\log\Gamma(\alpha,\beta)表示该分布。

例1：\textbf{例1：}精算师发现对数伽玛与伽玛分布很适合为索赔分布建模。假设X1X_1满足logΓ(α1,β1)\log\Gamma(\alpha_1,\beta_1)，X2X_2满足Γ(α2,β2)\Gamma(\alpha_2,\beta_2)，混合概率为p,(1−p)p,(1-p)，那么混合分布的pdf为

f(x)=⎧⎩⎨⎪⎪⎪⎪⎪⎪1−pβα22Γ(α2)xα2−1e−x/β2pβα11Γ(α1)(logx)α1−1x−(β1+1)/β1+1βα22Γ(α2)xα2−1e−x/β200<x≤11<xelsewhere

f(x)= \begin{cases} \frac{1-p}{\beta_2^{\alpha_2}\Gamma(\alpha_2)}x^{\alpha_2-1}e^{-x/\beta_2}&0

假设β1<2−1\beta_1，该混合分布的均值与方差为

μσ2=p(1−β1)−α1+(1−p)α2β2=p[(1−2β1)−α1−(1−β1)−2α1]+(1−p)α2β22+p(1−p)[(1−β1)−α1−α2β2]2

\begin{align*} \mu&=p(1-\beta_1)^{-\alpha_1}+(1-p)\alpha_2\beta_2\\ \sigma^2&=p[(1-2\beta_1)^{-\alpha_1}-(1-\beta_1)^{-2\alpha_1}]\\ &\quad +(1-p)\alpha_2\beta_2^2+p(1-p)[(1-\beta_1)^{-\alpha_1}-\alpha_2\beta_2]^2 \end{align*}

混合分布有时候也成为复合。进一步我们没必要限制在有限多个分布。如下面的例子所示，连续的加权函数可以替换p1,p2,…,pkp_1,p_2,\ldots,p_k；即积分替换求和符号。

例2：\textbf{例2：}令XθX_{\theta}是参数为θ\theta的泊松随机变量，对每个不同的θ\theta值，我们想得到无限多个混合的泊松分布，我们取加权函数为θ\theta的pdf，即参数为α,β\alpha,\beta的伽玛函数，对x=0,1,2,…x=0,1,2,\ldots，复合分布的pmf为

p(x)=∫∞0[1βαΓ(α)θα−1e−θ/β][θxe−θx!]dθ=1Γ(α)βαx!∫∞0θα+x−1e−θ(1+β)/βdθ=Γ(α+x)βxΓ(α)x!(1+β)α+x

\begin{align*} p(x) &=\int_0^\infty\left[\frac{1}{\beta^\alpha\Gamma(\alpha)}\theta^{\alpha-1}e^{-\theta/\beta}\right]\left[\frac{\theta^xe^{-\theta}}{x!}\right]d\theta\\ &=\frac{1}{\Gamma(\alpha)\beta^\alpha x!}\int_0^\infty\theta^{\alpha+x-1}e^{-\theta(1+\beta)/\beta}d\theta\\ &=\frac{\Gamma(\alpha+x)\beta^x}{\Gamma(\alpha)x!(1+\beta)^{\alpha+x}} \end{align*}

其中第三行使用了变换替换t=θ(1+β)/βt=\theta(1+\beta)/\beta。

当α=r,β=(1−p)/p\alpha=r,\beta=(1-p)/p其中0<p<1,r0

为正整数时，pmf变成

p(x)=(r+x−1)!(r−1)!pr(1−p)xx!, x=0,1,2,…

p(x)=\frac{(r+x-1)!}{(r-1)!}\frac{p^r(1-p)^x}{x!},\ x=0,1,2,\ldots

这个复合分布就是成功概率为pp的独立重复试验成功次数超过rr的概率；这是负二项分布的形式，在车祸数量的问题中负二项分布是很好的模型。

在复合分布中，我们也可以将XX的原分布看成给定θ\theta的条件分布，用f(x|θ)f(x|\theta)表示，那么加权函数可以看成θ\theta的pdfg(θ)g(\theta)。联合pdf为f(x|θ)g(θ)f(x|\theta)g(\theta)且复合pdf可以看成θ\theta的边缘pdf

h(x)=∫θg(θ)f(x|θ)dθ

h(x)=\int_{\theta}g(\theta)f(x|\theta)d\theta

当θ\theta是离散分布时积分符号改成求和符号。假设正态分布的均值为0方差为σ2=1/θ>0\sigma^2=1/\theta>0，其中θ\theta来自某个随机模型。方便起见，我们说后者为参数α,β\alpha,\beta的伽玛分布，那么给定θ,X\theta,X是条件N(0,1/θ)N(0,1/\theta)分布，使得X,θX,\theta的联合分布为

f(x|θ)g(θ)=[θ√2π‾‾‾√exp(−θx22)][1βαΓ(α)θα−1exp(−θ/β)]

f(x|\theta)g(\theta)=\left[\frac{\sqrt{\theta}}{\sqrt{2\pi}}\exp\left(\frac{-\theta x^2}{2}\right)\right]\left[\frac{1}{\beta^\alpha\Gamma(\alpha)}\theta^{\alpha-1}\exp(-\theta/\beta)\right]

其中−∞<x<∞,0<θ<∞-\infty，因此(h(x))(h(x))的边缘pdf通过积分θ\theta即可求出；即

h(x)=∫∞0βα+1/2−1βα2π‾‾‾√Γ(α)exp[−θ(x22+1β)]dθ

h(x)=\int_0^{\infty}\frac{\beta^{\alpha+1/2-1}}{\beta^\alpha\sqrt{2\pi}\Gamma(\alpha)}\exp\left[-\theta\left(\frac{x^2}{2}+\frac{1}{\beta}\right)\right]d\theta

通过比较参数α+12,[(1/β)+(x2/2)]−1\alpha+\frac{1}{2},[(1/\beta)+(x^2/2)]^{-1}的伽玛pdf，我们可以得到

h(x)=Γ(α+12)βα2π‾‾‾√Γ(α)(2β2+βx2)α+1/2, ∞<x<∞

h(x)=\frac{\Gamma(\alpha+\frac{1}{2})}{\beta^\alpha\sqrt{2\pi}\Gamma(\alpha)}\left(\frac{2\beta}{2+\beta x^2}\right)^{\alpha+1/2},\ \infty

有趣的是如果α=r/2,β=2/r\alpha=r/2,\beta=2/r，其中rr为正整数，那么XX就是自由度为rr的tt分布，即我们得到了tt分布的推广形式。注意得出的分布相比开始的条件正态分布有更严重的厚尾现象。

例3：\textbf{例3：}假设我们有一个二项分布，但是我们不确定成功的概率pp。假设pp来自某个随机过程，它满足参数α,β\alpha,\beta的贝塔pdf，那么nn个独立试验成功的次数XX满足条件二项分布，使得X,pX,p的联合pdf为

p(x|p)g(p)=n!x!(n−x)!px(1−p)n−xΓ(α+β)Γ(α)Γ(β)pα−1(1−p)β−1

p(x|p)g(p)=\frac{n!}{x!(n-x)!}p^x(1-p)^{n-x}\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}p^{\alpha-1}(1-p)^{\beta-1}

其中x=0,1,…,n,0<p<1x=0,1,\ldots,n,0

。那么XX的无条件pdf为

h(x)=∫10n!Γ(α+β)x!(n−x)!Γ(α)Γ(β)px+α−1(1−p)n−x+β−1dp=n!Γ(α+β)Γ(x+α)Γ(n−x+β)x!(n−x)!Γ(α)Γ(β)Γ(n+α+β),x=0,1,2,…,n

\begin{align*} h(x) &=\int_0^1\frac{n!\Gamma(\alpha+\beta)}{x!(n-x)!\Gamma(\alpha)\Gamma(\beta)}p^{x+\alpha-1}(1-p)^{n-x+\beta-1}dp\\ &=\frac{n!\Gamma(\alpha+\beta)\Gamma(x+\alpha)\Gamma(n-x+\beta)}{x!(n-x)!\Gamma(\alpha)\Gamma(\beta)\Gamma(n+\alpha+\beta)},x=0,1,2,\ldots,n \end{align*}

现在假设α,β\alpha,\beta是正整数；因为Γ(k)=(k−1)!\Gamma(k)=(k-1)!，这个无条件pdf可以写成

h(x)=n!(α+β−1)!(x+α−1)!(n−x+β−1)!x!(n−x)!(α−1)!(β−1)!(n+α+β−1)!,x=0,1,2,…,n

h(x)=\frac{n!(\alpha+\beta-1)!(x+\alpha-1)!(n-x+\beta-1)!}{x!(n-x)!(\alpha-1)!(\beta-1)!(n+\alpha+\beta-1)!},x=0,1,2,\ldots,n

因为条件均值E(X|p)=npE(X|p)=np，无条件均值为nα/(α+β)n\alpha/(\alpha+\beta)，这是因为贝塔分布的均值等于α/(α+β)\alpha/(\alpha+\beta)。

例4：\textbf{例4：}假设XX满足参数为k,θ−1k,\theta^{-1}的条件伽玛pdf，θ\theta的加权函数是参数为α,β\alpha,\beta的伽玛pdf，所以XX的无条件pdf为

h(x)=∫∞0[θα−1e−θ/ββαΓ(α)][θkxk−1e−θxΓ(k)]dθ=∫∞0xk−1θα+k−1βαΓ(α)Γ(k)e−θ(1+βx)/βdθ

\begin{align*} h(x) &=\int_0^\infty\left[\frac{\theta^{\alpha-1}e^{-\theta/\beta}}{\beta^\alpha\Gamma(\alpha)}\right]\left[\frac{\theta^kx^{k-1}e^{-\theta x}}{\Gamma(k)}\right]d\theta\\ &=\int_0^\infty\frac{x^{k-1}\theta^{\alpha+k-1}}{\beta^\alpha\Gamma(\alpha)\Gamma(k)}e^{-\theta(1+\beta x)/\beta}d\theta \end{align*}

比较参数为α+k,β/(1+βx)\alpha+k,\beta/(1+\beta x)的伽玛pdf，从而得到

h(x)=Γ(α+k)βkxk−1Γ(α)Γ(k)(1+βx)α+k, 0<x<∞

h(x)=\frac{\Gamma(\alpha+k)\beta^kx^{k-1}}{\Gamma(\alpha)\Gamma(k)(1+\beta x)^{\alpha+k}},\ 0

这是广义的ParetoPareto分布(广义FF分布)，当然当k=1k=1(XX是条件指数分布)，那么pdf为

h(x)=αβ(1+βx)−(α+1),0<x<∞

h(x)=\alpha\beta(1+\beta x)^{-(\alpha+1)},0

这是ParetoParetopdf。这两个复合pdf都比开始的伽玛分布有严重的厚尾。

广义ParetoPareto分布无法用简单的闭形式表达，但是ParetoPareto分布可以

H(x)=∫x0αβ(1+βt)−(α+1)dt=1−(1+βx)−α, 0≤x<∞

H(x)=\int_0^x\alpha\beta(1+\beta t)^{-(\alpha+1)}dt=1-(1+\beta x)^{-\alpha},\ 0\leq x

从中我们通过X=YτX=Y^{\tau}可以得到另一种有用的长尾分布，其中0<τ0，所以YY的cdf为

G(y)=P(Y≤y)=P[X1/τ≤y]=P[X≤yτ]

G(y)=P(Y\leq y)=P[X^{1/\tau}\leq y]=P[X\leq y^{\tau}]

因此，这个概率等于

G(y)=H(yτ)=1−(1+βyτ)−α,0≤y<∞

G(y)=H(y^{\tau})=1-(1+\beta y^{\tau})^{-\alpha},0\leq y

对应的pdf为

G′(y)=g(y)=αβτyτ−1(1+βyτ)α+1,0<y<∞

G^\prime(y)=g(y)=\frac{\alpha\beta\tau y^{\tau-1}}{(1+\beta y^{\tau})^{\alpha+1}},0

我们称这个分布为变换ParetoPareto分布或者BurrBurr分布，它给出了建模厚尾分布的分布。

漫步数理统计二十八——混合分布相关推荐

漫步数理统计二十五——正态分布
正态分布的动机源于中心极限定理(我们后面会介绍这个定理),这个定理说明正态分布为应用于统计推断提供了重要的一族分布,我们首先从标准正态分布开始. 考虑积分 I=∫∞−∞12π‾‾‾√exp(−z22) ...
漫步数理统计二十二——二项及相关分布
之前我们介绍了均匀分布与超几何分布,这篇文章我们讨论一些其他在统计中经常使用的分布,首先从二项与相关分布开始. 伯努利试验是一个随机试验,输出为两个相互独立且有穷中的一个,例如成功或失败(男或女,生或 ...
漫步最优化二十八——三次插值法
没有你的世界,\textbf{没有你的世界,} 我会灵魂失控.\textbf{我会灵魂失控.} 没有你的世界,\textbf{没有你的世界,} 我被乌云拖着走.\textbf{我被乌云拖着走.} 没有 ...
漫步数理统计二十九——函数期望
令X=(X1,-,Xn)′\mathbf{X}=(X_1,\ldots,X_n)^\prime表示某试验的随机变量,我们一般对X\mathbf{X}的函数感兴趣,表示为T=T(X)T=T(\mathb ...
漫步数理统计二十——多元随机变量
两个随机变量的概念立即可以扩展到nn个随机变量,下面就是nn个随机变量空间的定义. 定义1:\textbf{定义1:}考虑一个随机试验,其样本空间为C\textbf{C},随机变量XiX_i给每个元素 ...
漫步数学分析二十八——狄利克雷与阿贝尔测试
在我们判断一致收敛的时候,某些情况下魏尔斯特拉斯M测试会失效,为此挪威数学家尼尔斯阿贝尔(Niels Abel)以及狄利克雷(Dirichlet)分别提出了两种测试方法,这些方法对许多实例都是非常有用 ...
漫步数理统计二十四——伽玛、卡方与贝塔分布
本篇博文我们讲介绍伽玛(Γ\Gamma),卡方(χ2\chi^2)与贝塔(β\beta)分布.在高等微积分中已经证明过,对于α>0\alpha>0,积分 ∫∞0yα−1e−ydy \int ...
漫步数理统计二十六——多元正态分布
本片博文介绍多元正态分布,我们以nn维随机变量为主,但给出n=2n=2时二元情况的一些实例.与上篇文章一样,我们首先介绍标准情况然后扩展到一般情况,当然这里会用到向量与矩阵符号. 考虑随机向量Z=(Z ...
2008R2Win7管理二十八Mail之基本使用
2008R2Win7管理二十八Mail之基本使用上篇我们已经安装好了exchange2010,呵呵本片简单介绍和看下ex2010的基本界面和使用安装完成打开exchange控制台如图所示汗,有试 ...

漫步数理统计二十八——混合分布

漫步数理统计二十八——混合分布相关推荐

最新文章

热门文章