漫步数理统计二十四——伽玛、卡方与贝塔分布
本篇博文我们讲介绍伽玛(Γ\Gamma),卡方(χ2\chi^2)与贝塔(β\beta)分布。在高等微积分中已经证明过,对于α>0\alpha>0,积分
\int_0^\infty y^{\alpha-1}e^{-y}dy
存在且积分值为正数,这个积分称为α\alpha的伽玛函数,写成
\Gamma(\alpha)=\int_0^\infty y^{\alpha-1}e^{-y}dy
如果α=1\alpha=1,显然
\Gamma(1)=\int_0^\infty e^{-y}dy=1
如果α>1\alpha>1,用分部积分法可得
\Gamma(\alpha)=(\alpha-1)\int_0^\infty y^{\alpha-2}e^{-y}dy=(\alpha-1)\Gamma(\alpha-1)
因此如果α\alpha是比1大的正整数,那么
\Gamma(\alpha)=(\alpha-1)(\alpha-2)\cdots(3)(2)(1)\Gamma(1)=(\alpha-1)!
因为Γ(1)=1\Gamma(1)=1,这表明我们可以取0!=10!=1。
我们用积分形式定义了Γ(α)\Gamma(\alpha),现在我们引入新变量y=x/βy=x/\beta,其中β>0\beta>0,那么
\Gamma(\alpha)=\int_0^\infty\left(\frac{x}{\beta}\right)^{\alpha-1}e^{x/\beta}\left(\frac{1}{\beta}\right)dx
或者等价的
1=\int_0^\infty\frac{1}{\Gamma(\alpha)\beta^\alpha}x^{\alpha-1}e^{-x/\beta}dx
因为α>0,β>0,Γ(α)>0\alpha>0,\beta>0,\Gamma(\alpha)>0,所以
f(x)= \begin{cases} \frac{1}{\Gamma(\alpha)\beta^\alpha}x^{\alpha-1}e^{-x/\beta}&0
是连续型随机变量的pdf,有这种pdf形式的随机变量XX满足参数为α,β\alpha,\beta的伽玛分布,写作XX满足Γ(α,β)\Gamma(\alpha,\beta)分布。
注1:\textbf{注1:}伽玛分布是等待时间的概率模型;例如在寿命测试中,直到死亡的等待时间是用伽玛分布建模的随机变量。为了理解这个,假设泊松假定以及区间长度ww是时间区间,特别地令随机变量WW是得到kk变化量所需要的时间,其中kk是固定的正整数,那么WW的cdf为
G(w)=P(W\leq w)=1-P(W>w)
然而对于w>0w>0,事件W>wW>w等价于时间区间ww内少于kk变化量的概率,即如果随机变量XX是区间ww内的变化量,那么
P(W>w)=\sum_{x=0}^{k-1}P(X=x)=\sum_{x=0}^{k-1}\frac{(\lambda w)^xe^{-\lambda w}}{x!}
读者需要证明
\int_{\lambda w}^\infty\frac{z^{k-1}e^{-z}}{(k-1)!}dx=\sum_{x=0}^{k-1}\frac{(\lambda w)^xe^{-\lambda w}}{x!}
如果我们接受这个结论,那么对w>0w>0我们有
G(w)=1-\int_{\lambda w}^\infty\frac{z^{k-1}e^{-z}}{\Gamma(k)}dz=\int_0^{\lambda w}\frac{z^{k-1}e^{-z}}{\Gamma(k)}dz
且对于w≤0,G(w)=0w\leq 0,G(w)=0。如果我们改变积分变量,将z=λyz=\lambda y代入的
G(w)=\int_0^w\frac{\lambda^ky^{k-1}e^{-\lambda y}}{\Gamma(k)}dy,w>0
且对于w≤0,G(w)=0w\leq 0,G(w)=0。所以WW的pdf为
g(w)=G^\prime(w)= \begin{cases} \frac{\lambda^ky^{k-1}e^{-\lambda y}}{\Gamma(k)}&0
即WW满足α=k,β=1/λ\alpha=k,\beta=1/\lambda的伽玛分布,如果WW是第一次变化的等待时间,即k=1k=1,那么WW的pdf为
g(w)= \begin{cases} \lambda e^{-\lambda w}&0
WW满足参数为λ\lambda的指数分布。
接下来计算伽玛分布的mgf。因为
\begin{align*} M(t) &=\int_0^\infty e^{tx}\frac{1}{\Gamma(\alpha)\beta^\alpha}x^{\alpha-1}e^{-x/\beta}dx\\ &=\int_0^\infty\frac{1}{\Gamma(\alpha)\beta^\alpha}x^{\alpha-1}e^{-x(1-\beta t)/\beta}dx \end{align*}
我们可以令y=x(1−βt)/β,t<1/βy=x(1-\beta t)/\beta,t或者x=βy/(1−βt)x=\beta y/(1-\beta t) 得到
M(t)=\int_0^\infty\frac{\beta/(1-\beta t)}{\Gamma(\alpha)\beta^\alpha}\left(\frac{\beta y}{1-\beta t}\right)^{\alpha-1}e^{-y}dy
即
\begin{align*} M(t) &=\left(\frac{1}{1-\beta t}\right)^\alpha\int_0^\infty\frac{1}{\Gamma(\alpha)}y^{\alpha-1}e^{-y}dy\\ &=\frac{1}{(1-\beta t)^\alpha},t
现在
M^\prime(t)=(-\alpha)(1-\beta t)^{-\alpha-1}(-\beta)
且
M^{''}(t)=(-\alpha)(-\alpha-1)(1-\beta t)^{-\alpha-2}(-\beta)^2
因此对于伽玛分布我们有
\mu=M^\prime(0)=\alpha\beta
且
\sigma^2=M^{''}(0)-\mu^2=\alpha(\alpha+1)\beta^2-\alpha^2\beta^2=\alpha\beta^2
例1:\textbf{例1:}令等待时间WW满足α=k,β=1/λ\alpha=k,\beta=1/\lambda的伽玛pdf,那么E(W)=k/λE(W)=k/\lambda。如果k=1k=1,那么E(W)=1/λE(W)=1/\lambda;即对于k=1k=1变化的期望等待时间等于λ\lambda的倒数。
例2:\textbf{例2:}令XX表示随机变量,使得
E(X^m)=\frac{(m+3)!}{3!}3^m,m=1,2,3,\ldots
那么XX的mgf为级数
M(t)=1+\frac{4!3}{3!1!}t+\frac{5!3^2}{3!2!}t^2+\frac{6!3^3}{3!3!}t^3+\cdots
然而这是(1−3t)−4(1-3t)^{-4}的麦克劳林级数,假设−1<3t<1-1。因此XX满足α=4,β=3\alpha=4,\beta=3的伽玛分布。
注2:\textbf{注2:}伽玛分布不仅是等待时间的模型,也是许多非负连续型随机变量的模型。例如某些收入的分布可以用伽玛分布来建模,这是因为α,β\alpha,\beta提供了很大的灵活性,图11给出了几个伽玛概率密度函数。
图1
现在我们考虑伽玛分布的一个特例,即α=r/2\alpha=r/2,其中rr是一个正数且β=2\beta=2。对于一个连续型的随机变量,其pdf为
f(x)= \begin{cases} \frac{1}{\Gamma(r/2)2^{r/2}}x^{r/2-1}e^{-x/2}&0
且mgf为
M(t)=(1-2t)^{-r/2},t
那么称该变量满足卡方分布,任意这种形式的f(x)f(x)称为卡方pdf,卡方分布的均值与方差分别为μ=αβ=(r/2)2=r,σ2=αβ2=(r/2)22=2r\mu=\alpha\beta=(r/2)2=r,\sigma^2=\alpha\beta^2=(r/2)2^2=2r,我们称参数rr为卡方分布的自由度。因为卡方分布在统计中扮演着重要角色且经常出现,所以为了简洁XX是χ2\chi^2意味着随机变量XX满足自由度为rr的卡方分布。
例3:\textbf{例3:}如果XX满足pdf
f(x)= \begin{cases} \frac{1}{4}xe^{-x/2}&0
那么XX是χ2(4)\chi^2(4),这里μ=4,σ2=8,M(t)=(1−2t)−2,t<12\mu=4,\sigma^2=8,M(t)=(1-2t)^{-2},t。
例4:\textbf{例4:}如果XX有mgfM(t)=(1−2t)−8,t<12M(t)=(1-2t)^{-8},t,那么XX是χ2(16)\chi^2(16)。
如果随机变量XX是χ2(r)\chi^2(r),那么c1<c2c_1时我们有
P(c_1
这是因为P(X=c2)=0P(X=c_2)=0。为了计算概率,我们需要像
P(X\leq x)=\int_0^x\frac{1}{\Gamma(r/2)2^{r/2}}w^{r/2-1}e^{-w/2}dw
这样的值,这些值有表可供查询。
下面的结论之后还会用几次;因此我们用定理的形式给出。
定理1:\textbf{定理1:}令XX满足χ2(r)\chi^2(r)分布,如果k>−r/2k>-r/2,那么E(Xk)E(X^k)存在且等于
E(X^k)=\frac{2^k\Gamma(\frac{r}{2}+k)}{\Gamma(\frac{r}{2})},if\ k>-r/2
证明:\textbf{证明:}注意
E(X^k)=\int_0^\infty\frac{1}{\Gamma(\frac{r}{2})2^{r/2}}x^{(r/2)+k-1}e^{-x/2}dx
变量替换u=x/2u=x/2可得
E(X^k)=\int_0^\infty\frac{1}{\Gamma(\frac{r}{2})2^{r/2-1}}2^{(r/2)+k-1}u^{(r/2)+k-1}e^{-u}du
这就是要求的揭露。||||
注意如果kk是一个非负整数,那么k>−(r/2)k>-(r/2)总是为真,因此χ2\chi^2分布的所有矩存在且kk阶矩如定理所示。
例5:\textbf{例5:}令XX是χ2(10)\chi^2(10),那么通过查表可得,
\begin{align*} P(3.25\leq X\leq 20.5) &=P(X\leq 20.5)-P(X\leq 3.5)\\ &=0.975-0.025=0.95 \end{align*}
如果P(a<X)=0.05P(a,那么P(X≤a)=0.95P(X\leq a)=0.95,通过查表可得a=18.3a=18.3。
例6:\textbf{例6:}令XX满足α=r/2\alpha=r/2的伽玛分布,其中rr是正整数且β>0\beta>0。定义随机变量Y=2X/βY=2X/\beta,我们要求YY的pdf。现在YY的cdf为
G(y)=P(Y\leq y)=P\left(X\leq\frac{\beta y}{2}\right)
如果y≤0y\leq 0,那么G(y)=0G(y)=0;但是如果y>0y>0,那么
G(y)=\int_0^{\beta y/2}\frac{1}{\Gamma(r/2)\beta^{r/2}}x^{r/2-1}e^{-x/\beta}dx
因此YY的pdf为
\begin{align*} g(y) &=G^\prime(y)=\frac{\beta/2}{\Gamma(r/2)\beta^{r/2}}(\beta y/2)^{r/2-1}e^{-y/2}\\ &=\frac{1}{\Gamma(r/2)2^{r/2}}y^{r/2-1}e^{-y/2} \end{align*}
即YY是χ2(r)\chi^2(r)。
伽玛分布最重要的一条性质是其加性。
定理2:\textbf{定理2:}令X1,…,XnX_1,\ldots,X_n是独立随机变量,假设对于i=1,…,ni=1,\ldots,n,XiX_i满足Γ(αi,β)\Gamma(\alpha_i,\beta)分布,令Y=Σni=1XiY=\Sigma_{i=1}^nX_i,那么YY满足Γ(Σni=1αiβ)\Gamma(\Sigma_{i=1}^n\alpha_i\beta)分布。
证明:\textbf{证明:}利用独立性与伽玛分布的mgf,对于t<1/βt我们有
\begin{align*} M_Y(t) &=E[\exp\{t\sum_{i=1}^nX_i\}]=\prod_{i=1}^nE[\exp\{tX_i\}]\\ &=\prod_{i=1}^n(1-\beta t)^{-\alpha_i}=(1-\beta t)^{-\Sigma_{i=1}^n\alpha_i} \end{align*}
这就是Γ(Σni=1αi,β)\Gamma(\Sigma_{i=1}^n\alpha_i,\beta)分布的mgf。||||
之后我们会用到χ2\chi^2分布的一个性质,为了方便我们将结论以推论的形式给出,因为β=2,Σαi=Σri/2\beta=2,\Sigma\alpha_i=\Sigma r_i/2。
推论1:\textbf{推论1:}令X1,…,XnX_1,\ldots,X_n是独立随机变量,对于i=1,…,ni=1,\ldots,n,假设XiX_i满足χ2(ri)\chi^2(r_i)分布,令Y=Σni=1XiY=\Sigma_{i=1}^nX_i,那么YY满足χ2(Σni=1ri)\chi^2(\Sigma_{i=1}^nr_i)分布。
最后在介绍一个重要的分布,即贝塔分布,它是由一对独立的Γ\Gamma随机变量推导来的。令X1,X2X_1,X_2是满足Γ\Gamma分布的两个独立随机变量,其联合pdf为
h(x_1,x_2)=\frac{1}{\Gamma(\alpha)\Gamma(\beta)}x_1^{\alpha-1}x_2^{\beta-1}e^{-x_1-x_2},0
其余地方为零,其中α>0,β>0\alpha>0,\beta>0。令Y1=X1+X2Y_1=X_1+X_2且Y2=X1/(X1+X2)Y_2=X_1/(X_1+X_2),我们将说明Y1,Y2Y_1,Y_2是独立的。
空间\mathcal{S}是x1x2x_1x_2平面的第一象限,排除坐标轴上的点。那么
\begin{align*} &y_1=u_1(x_1,x_2)=x_1+x_2\\ &y_2=u_2(x_1,x_2)=\frac{x_1}{x_1+x_2} \end{align*}
可以写成x1=y1y2,x2=y1(1−y2)x_1=y_1y_2,x_2=y_1(1-y_2),所以
J= \begin{vmatrix} y_2&y_1\\ 1-y_2&-y_1 \end{vmatrix} =-y_1\not\equiv0
这个变换时一对一的且将\mathcal{S}映射到y1y2y_1y_2平面上的={(y1,y2):0<y1<∞,0<y2<1}\mathcal{T}=\{(y_1,y_2):0,那么Y1,Y2Y_1,Y_2的联合pdf为
\begin{align*} g(y_1,y_2) &=(y_1)\frac{1}{\Gamma(\alpha)\Gamma(\beta)}(y_1y_2)^{\alpha-1}[y_1(1-y_2)]^{\beta-1}e^{-y_1}\\ &=\begin{cases} \frac{y_2^{\alpha-1}(1-y_2)^{\beta-1}}{\Gamma(\alpha)\Gamma(\beta)}y_1^{\alpha+\beta-1}e^{-y_1}&0
所以他们是独立的随机变量。Y2Y_2的边缘pdf为
\begin{align*} g_2(y_2) &=\frac{y_2^{\alpha-1}(1-y_2)^{\beta-1}}{\Gamma(\alpha)\Gamma(\beta)}\int_0^\infty y_1^{\alpha+\beta-1}e^{-y_1}&0
这个pdf就是参数为α,β\alpha,\beta的贝塔分布。因为g(y1,y2)≡g1(y1)g2(y2)g(y_1,y_2)\equiv g_1(y_1)g_2(y_2),所以Y1Y_1的pdf一定为
g_1(y_1)= \begin{cases} \frac{1}{\Gamma(\alpha+\beta)}y_1^{\alpha+\beta-1}e^{-y_1}&0
这是参数值为α+β,1\alpha+\beta,1的伽玛分布。
很容易得出参数为α,β\alpha,\beta的贝塔分布其均值与方差分别为
\mu=\frac{\alpha}{\alpha+\beta},\sigma^2=\frac{\alpha\beta}{(\alpha+\beta+1)(\alpha+\beta)^2}
最后这个例子中随机变量的分布是由伽玛随机变量变换推导出来的。
例7:\textbf{例7:}(狄利克雷函分布)令X1,X2,…,Xk+1X_1,X_2,\ldots,X_{k+1}是独立随机变量,每个都满足β=1\beta=1的伽玛分布,这些变量的联合pdf可能写成
h(x_1,x_2,\ldots,x_{k+1})= \begin{cases} \prod_{i=1}^{k+1}\frac{1}{\Gamma(\alpha_i)}x_i^{\alpha_i-1}e^{-x_i}&0
令
Y_i=\frac{X_i}{X_1+X_2+\cdots+X_{k+1}},i=1,2,\ldots,k
且Yk+1=X1+X2+⋯+Xk+1Y_{k+1}=X_1+X_2+\cdots+X_{k+1}表示k+1k+1个新变量,相关变换将={(x1,…,xk+1):0<xi<∞,i=1,…,k+1}\mathcal{A}=\{(x_1,\ldots,x_{k+1}):0 映射到空间
\mathcal{B}=\{(y_1,\ldots,y_k,y_{k+1}):0
单值逆函数是x1=y1yk+1,…,xk=ykyk+1,xk+1=yk+1(1−y1−⋯−yk)x_1=y_1y_{k+1},\ldots,x_k=y_ky_{k+1},x_{k+1}=y_{k+1}(1-y_1-\cdots-y_k),使得雅克比为
J= \begin{vmatrix} y_{k+1}&0&\cdots&0&y_1\\ 0&y_{k+1}&\cdots&0&y_2\\ \vdots&\vdots&&\vdots&\vdots\\ 0&0&\cdots&y_{k+1}&y_{k}\\ -y_{k+1}&-y_{k+1}&\cdots&-y_{k+1}&(1-y_1-\cdots-y_k) \end{vmatrix} =y_{k+1}^k
因此Y1,…,Yk,Yk+1Y_1,\ldots,Y_k,Y_{k+1}的联合pdf为
\frac{y_{k+1}^{\alpha_1+\cdots+\alpha_{k+1}-1}y_1^{\alpha_1-1}\cdots y_k^{\alpha_k-1}(1-y_1-\cdots-y_k)^{\alpha_{k+1}-1}e^{-y_{k+1}}}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_k)\Gamma(\alpha_{k+1})}
其余地方为零,这里(y1,…,yk,yk+1)∈(y_1,\ldots,y_k,y_{k+1})\in\mathcal{B}。Y1,…,YkY_1,\ldots,Y_k 的联合pdf为
g(y_1,\ldots,y_k)=\frac{\Gamma(\alpha_1+\cdots+\alpha_{k+1})}{\Gamma(\alpha_1)\cdots\Gamma(\alpha_{k+1})}y_1^{\alpha_1-1}\cdots y_k^{\alpha_k-1}(1-y_1-\cdots-y_k)^{\alpha_{k+1}-1}
0<yi,i=1,…,k,y1+⋯+yk<10,函数gg在其他地方等于零。有这种联合pdf形式的随机变量Y1,…,YkY_1,\ldots,Y_k 有狄利克雷pdf,而且从Y1,…,Yk,Yk+1Y_1,\ldots,Y_k,Y_{k+1}的联合pdf 可以看出Yk+1Y_{k+1}满足参数为α1+⋯+αk+αk+1,β=1\alpha_1+\cdots+\alpha_k+\alpha_{k+1},\beta=1的伽玛分布,Yk+1Y_{k+1}与Y1,Y2,…,YkY_1,Y_2,\ldots,Y_k无关。
漫步数理统计二十四——伽玛、卡方与贝塔分布相关推荐
- 漫步数理统计二十五——正态分布
正态分布的动机源于中心极限定理(我们后面会介绍这个定理),这个定理说明正态分布为应用于统计推断提供了重要的一族分布,我们首先从标准正态分布开始. 考虑积分 I=∫∞−∞12π‾‾‾√exp(−z22) ...
- 漫步最优化二十四——二分搜索
你喜欢有小情绪,\textbf{你喜欢有小情绪,} 像夜晚的月亮,\textbf{像夜晚的月亮,} 但各有各的精彩.\textbf{但各有各的精彩.} 你情感丰富,\textbf{你情感丰富,} 时常 ...
- 漫步数理统计二十八——混合分布
假设有kk个分布,它们的pdf分别为f1(x),f2(x),-,fk(x)f_1(x),f_2(x),\ldots,f_k(x),支撑为1,2,-,k\mathcal{S_1,S_2,\ldot ...
- 漫步数理统计二十二——二项及相关分布
之前我们介绍了均匀分布与超几何分布,这篇文章我们讨论一些其他在统计中经常使用的分布,首先从二项与相关分布开始. 伯努利试验是一个随机试验,输出为两个相互独立且有穷中的一个,例如成功或失败(男或女,生或 ...
- 漫步线性代数二十四——行列式应用
本篇文章介绍四个应用:AA的逆,求解Ax=bAx=b,盒子的体积以及主元.他们都是线性代数里面非常关键的计算,而行列式给出了这些答案的公式. 1.计算A−1A^{-1}.2×22\times 2矩阵展 ...
- 漫步数理统计二十九——函数期望
令X=(X1,-,Xn)′\mathbf{X}=(X_1,\ldots,X_n)^\prime表示某试验的随机变量,我们一般对X\mathbf{X}的函数感兴趣,表示为T=T(X)T=T(\mathb ...
- 漫步数理统计二十——多元随机变量
两个随机变量的概念立即可以扩展到nn个随机变量,下面就是nn个随机变量空间的定义. 定义1:\textbf{定义1:}考虑一个随机试验,其样本空间为C\textbf{C},随机变量XiX_i给每个元素 ...
- 漫步数学分析二十四——连续函数空间
固定集合A⊂RnA\subset R^n并且考虑所有函数f:A→Rmf:A\to R^m的集合VV,那么VV可以看成一个向量空间.在VV中,零向量就是对于所有的x∈Ax\in A函数等于0的函数.另外 ...
- 漫步微积分二十四——定积分引言
在之前的文章中我们提到过,微积分就是与曲线有关的两种计算方法即 曲线上切线的斜率 曲线围成的面积 当然,这将主题描述的过于简单,因为它强调微积分作为几何的工具,没有说它在科学研究中起着不可或缺的作用. ...
最新文章
- 【Ubuntu】使用过的ubuntu工具记录
- 爬虫神器xpath的用法(一)
- 新概念一册电子书课本_新概念英语第二册完整版:音频+动画视频+课本图文讲解...
- mysql安装报错 1130_关于Linux编译安装会无法远程登录,报错:1130-host ... is not allowed to connect to this MySql server...
- Pricing debug - update
- Java Fork / Join进行并行编程
- 你所不知道的mybatis居然也有拦截器
- 安装ssr_网易《代号SSR》电脑版教程!
- 这简直比高考容易多了...3个月自学转行软件测试,懒散人的一次自我突破!
- 【C/C++】概念: VC虚函数布局引发的问题
- [渝粤教育] 中国地质大学 审计学 复习题
- Oracle用户权限分配的具体方法
- 博客园园龄,还有比我老的吗?
- 《keras中文文档》资料分享
- 【FPGA与深度学习】基于FPGA的深度学习CNN加速器设计
- 陈丹琦新作:关系抽取新SOTA,用pipeline方式挫败joint模型
- 叶卡捷琳娜与狄德罗的故事
- 60秒倒计时实现的两种方式
- html css网页代码,源码附上
- win7下笔记本电脑给手机开热点
热门文章
- gps校时器(NTP卫星授时服务器)场景应用技术分析
- FDK算法的实现过程
- 【数字图像处理】六.MFC空间几何变换之图像平移、镜像、旋转、缩放具体解释...
- XTransfer外贸收款账户和传统收款账户的区别?
- 笔记:linux fastDFS搭建及设置自启动
- Spring Aspect的Execution表达式
- 向世界介绍我的家乡-----黑龙江省
- P1003 [NOIP2011 提高组] 铺地毯
- 高斯模糊java代码_Java 实现高斯模糊算法
- kali流量转发后依然断网_运用Kali搭建钓鱼WIFI