漫步数理统计二十八——混合分布
假设有kk个分布,它们的pdf分别为f1(x),f2(x),…,fk(x)f_1(x),f_2(x),\ldots,f_k(x),支撑为1,2,…,k\mathcal{S_1,S_2,\ldots,S_k},均值为μ1,μ2,…,μk\mu_1,\mu_2,\ldots,\mu_k,方差为σ21,σ22,…,σ2k\sigma_1^2,\sigma_2^2,\ldots,\sigma_k^2,正的混合概率p1,p2,…,pkp_1,p_2,\ldots,p_k且满足p1+p2+⋯+pk=1p_1+p_2+\cdots+p_k=1,令=∪ki=1i\mathcal{S}=\cup_{i=1}^k\mathcal{S}_i且考虑函数
f(x)=p_1f_1(x)+p_2f_2(x)+\cdots+p_kf_k(x)=\sum_{i=1}^kp_if_i(x),\quad x\in\mathcal{S}
注意f(x)f(x)是非负的且在(−∞,∞)(-\infty,\infty)上积分为1;因此f(x)f(x)是某连续型随机变量XX的pdf,XX的均值为
E(X)=\sum_{i=1}^kp_i\int_{-\infty}^{\infty}xf_i(x)dx=\sum_{i=1}^kp_i\mu_i=\bar{\mu}
即μ1,μ2,…,μk\mu_1,\mu_2,\ldots,\mu_k的加权平均,方差等于
\begin{align*} var(X) &=\sum_{i=1}^kp_i\int_{-\infty}^{\infty}(x-\bar{\mu})^2f_i(x)dx\\ &=\sum_{i=1}^kp_i\int_{-\infty}^{\infty}[(x-\mu_i)+(\mu_i-\bar{\mu})]^2f_i(x)dx\\ &=\sum_{i=1}^kp_i\int_{-\infty}^{\infty}(x-\mu_i)^2f_i(x)dx+\sum_{i=1}^kp_i(\mu_i-\bar{\mu})^2\int_{-\infty}^{\infty}f_i(x)dx \end{align*}
交叉相的积分为零。即
var(X)=\sum_{i=1}^kp_i\sigma_i^2+\sum_{i=1}^kp_i(\mu_i-\bar{\mu})^2
注意方差不单单是kk个方差的加权平均,还包括一个正值,涉及到均值的加权方差。
注1:\textbf{注1:}注意区分kk个分布的混合与kk个随机变量的混合∑aiXi\sum a_iX_i 。
接下来介绍一些分布。首先是参数α>0,β>0\alpha>0,\beta>0的对数伽玛pdf,形式为
f_1(x)= \begin{cases} \frac{1}{\Gamma(\alpha)\beta^{\alpha}}x^{-(1+\beta)/\beta}(\log x)^{\alpha-1}&x>1\\ 0&elsewhere \end{cases}
用logΓ(α,β)\log\Gamma(\alpha,\beta)表示该分布。
例1:\textbf{例1:}精算师发现对数伽玛与伽玛分布很适合为索赔分布建模。假设X1X_1满足logΓ(α1,β1)\log\Gamma(\alpha_1,\beta_1),X2X_2满足Γ(α2,β2)\Gamma(\alpha_2,\beta_2),混合概率为p,(1−p)p,(1-p),那么混合分布的pdf为
f(x)= \begin{cases} \frac{1-p}{\beta_2^{\alpha_2}\Gamma(\alpha_2)}x^{\alpha_2-1}e^{-x/\beta_2}&0
假设β1<2−1\beta_1,该混合分布的均值与方差为
\begin{align*} \mu&=p(1-\beta_1)^{-\alpha_1}+(1-p)\alpha_2\beta_2\\ \sigma^2&=p[(1-2\beta_1)^{-\alpha_1}-(1-\beta_1)^{-2\alpha_1}]\\ &\quad +(1-p)\alpha_2\beta_2^2+p(1-p)[(1-\beta_1)^{-\alpha_1}-\alpha_2\beta_2]^2 \end{align*}
混合分布有时候也成为复合。进一步我们没必要限制在有限多个分布。如下面的例子所示,连续的加权函数可以替换p1,p2,…,pkp_1,p_2,\ldots,p_k;即积分替换求和符号。
例2:\textbf{例2:}令XθX_{\theta}是参数为θ\theta的泊松随机变量,对每个不同的θ\theta值,我们想得到无限多个混合的泊松分布,我们取加权函数为θ\theta的pdf,即参数为α,β\alpha,\beta的伽玛函数,对x=0,1,2,…x=0,1,2,\ldots,复合分布的pmf为
\begin{align*} p(x) &=\int_0^\infty\left[\frac{1}{\beta^\alpha\Gamma(\alpha)}\theta^{\alpha-1}e^{-\theta/\beta}\right]\left[\frac{\theta^xe^{-\theta}}{x!}\right]d\theta\\ &=\frac{1}{\Gamma(\alpha)\beta^\alpha x!}\int_0^\infty\theta^{\alpha+x-1}e^{-\theta(1+\beta)/\beta}d\theta\\ &=\frac{\Gamma(\alpha+x)\beta^x}{\Gamma(\alpha)x!(1+\beta)^{\alpha+x}} \end{align*}
其中第三行使用了变换替换t=θ(1+β)/βt=\theta(1+\beta)/\beta。
当α=r,β=(1−p)/p\alpha=r,\beta=(1-p)/p其中0<p<1,r0
为正整数时,pmf变成
p(x)=\frac{(r+x-1)!}{(r-1)!}\frac{p^r(1-p)^x}{x!},\ x=0,1,2,\ldots
这个复合分布就是成功概率为pp的独立重复试验成功次数超过rr的概率;这是负二项分布的形式,在车祸数量的问题中负二项分布是很好的模型。
在复合分布中,我们也可以将XX的原分布看成给定θ\theta的条件分布,用f(x|θ)f(x|\theta)表示,那么加权函数可以看成θ\theta的pdfg(θ)g(\theta)。联合pdf为f(x|θ)g(θ)f(x|\theta)g(\theta)且复合pdf可以看成θ\theta的边缘pdf
h(x)=\int_{\theta}g(\theta)f(x|\theta)d\theta
当θ\theta是离散分布时积分符号改成求和符号。假设正态分布的均值为0方差为σ2=1/θ>0\sigma^2=1/\theta>0,其中θ\theta来自某个随机模型。方便起见,我们说后者为参数α,β\alpha,\beta的伽玛分布,那么给定θ,X\theta,X是条件N(0,1/θ)N(0,1/\theta)分布,使得X,θX,\theta的联合分布为
f(x|\theta)g(\theta)=\left[\frac{\sqrt{\theta}}{\sqrt{2\pi}}\exp\left(\frac{-\theta x^2}{2}\right)\right]\left[\frac{1}{\beta^\alpha\Gamma(\alpha)}\theta^{\alpha-1}\exp(-\theta/\beta)\right]
其中−∞<x<∞,0<θ<∞-\infty,因此(h(x))(h(x))的边缘pdf通过积分θ\theta即可求出;即
h(x)=\int_0^{\infty}\frac{\beta^{\alpha+1/2-1}}{\beta^\alpha\sqrt{2\pi}\Gamma(\alpha)}\exp\left[-\theta\left(\frac{x^2}{2}+\frac{1}{\beta}\right)\right]d\theta
通过比较参数α+12,[(1/β)+(x2/2)]−1\alpha+\frac{1}{2},[(1/\beta)+(x^2/2)]^{-1}的伽玛pdf,我们可以得到
h(x)=\frac{\Gamma(\alpha+\frac{1}{2})}{\beta^\alpha\sqrt{2\pi}\Gamma(\alpha)}\left(\frac{2\beta}{2+\beta x^2}\right)^{\alpha+1/2},\ \infty
有趣的是如果α=r/2,β=2/r\alpha=r/2,\beta=2/r,其中rr为正整数,那么XX就是自由度为rr的tt分布,即我们得到了tt分布的推广形式。注意得出的分布相比开始的条件正态分布有更严重的厚尾现象。
例3:\textbf{例3:}假设我们有一个二项分布,但是我们不确定成功的概率pp。假设pp来自某个随机过程,它满足参数α,β\alpha,\beta的贝塔pdf,那么nn个独立试验成功的次数XX满足条件二项分布,使得X,pX,p的联合pdf为
p(x|p)g(p)=\frac{n!}{x!(n-x)!}p^x(1-p)^{n-x}\frac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)}p^{\alpha-1}(1-p)^{\beta-1}
其中x=0,1,…,n,0<p<1x=0,1,\ldots,n,0
。那么XX的无条件pdf为
\begin{align*} h(x) &=\int_0^1\frac{n!\Gamma(\alpha+\beta)}{x!(n-x)!\Gamma(\alpha)\Gamma(\beta)}p^{x+\alpha-1}(1-p)^{n-x+\beta-1}dp\\ &=\frac{n!\Gamma(\alpha+\beta)\Gamma(x+\alpha)\Gamma(n-x+\beta)}{x!(n-x)!\Gamma(\alpha)\Gamma(\beta)\Gamma(n+\alpha+\beta)},x=0,1,2,\ldots,n \end{align*}
现在假设α,β\alpha,\beta是正整数;因为Γ(k)=(k−1)!\Gamma(k)=(k-1)!,这个无条件pdf可以写成
h(x)=\frac{n!(\alpha+\beta-1)!(x+\alpha-1)!(n-x+\beta-1)!}{x!(n-x)!(\alpha-1)!(\beta-1)!(n+\alpha+\beta-1)!},x=0,1,2,\ldots,n
因为条件均值E(X|p)=npE(X|p)=np,无条件均值为nα/(α+β)n\alpha/(\alpha+\beta),这是因为贝塔分布的均值等于α/(α+β)\alpha/(\alpha+\beta)。
例4:\textbf{例4:}假设XX满足参数为k,θ−1k,\theta^{-1}的条件伽玛pdf,θ\theta的加权函数是参数为α,β\alpha,\beta的伽玛pdf,所以XX的无条件pdf为
\begin{align*} h(x) &=\int_0^\infty\left[\frac{\theta^{\alpha-1}e^{-\theta/\beta}}{\beta^\alpha\Gamma(\alpha)}\right]\left[\frac{\theta^kx^{k-1}e^{-\theta x}}{\Gamma(k)}\right]d\theta\\ &=\int_0^\infty\frac{x^{k-1}\theta^{\alpha+k-1}}{\beta^\alpha\Gamma(\alpha)\Gamma(k)}e^{-\theta(1+\beta x)/\beta}d\theta \end{align*}
比较参数为α+k,β/(1+βx)\alpha+k,\beta/(1+\beta x)的伽玛pdf,从而得到
h(x)=\frac{\Gamma(\alpha+k)\beta^kx^{k-1}}{\Gamma(\alpha)\Gamma(k)(1+\beta x)^{\alpha+k}},\ 0
这是广义的ParetoPareto分布(广义FF分布),当然当k=1k=1(XX是条件指数分布),那么pdf为
h(x)=\alpha\beta(1+\beta x)^{-(\alpha+1)},0
这是ParetoParetopdf。这两个复合pdf都比开始的伽玛分布有严重的厚尾。
广义ParetoPareto分布无法用简单的闭形式表达,但是ParetoPareto分布可以
H(x)=\int_0^x\alpha\beta(1+\beta t)^{-(\alpha+1)}dt=1-(1+\beta x)^{-\alpha},\ 0\leq x
从中我们通过X=YτX=Y^{\tau}可以得到另一种有用的长尾分布,其中0<τ0,所以YY的cdf为
G(y)=P(Y\leq y)=P[X^{1/\tau}\leq y]=P[X\leq y^{\tau}]
因此,这个概率等于
G(y)=H(y^{\tau})=1-(1+\beta y^{\tau})^{-\alpha},0\leq y
对应的pdf为
G^\prime(y)=g(y)=\frac{\alpha\beta\tau y^{\tau-1}}{(1+\beta y^{\tau})^{\alpha+1}},0
我们称这个分布为变换ParetoPareto分布或者BurrBurr分布,它给出了建模厚尾分布的分布。
漫步数理统计二十八——混合分布相关推荐
- 漫步数理统计二十五——正态分布
正态分布的动机源于中心极限定理(我们后面会介绍这个定理),这个定理说明正态分布为应用于统计推断提供了重要的一族分布,我们首先从标准正态分布开始. 考虑积分 I=∫∞−∞12π‾‾‾√exp(−z22) ...
- 漫步数理统计二十二——二项及相关分布
之前我们介绍了均匀分布与超几何分布,这篇文章我们讨论一些其他在统计中经常使用的分布,首先从二项与相关分布开始. 伯努利试验是一个随机试验,输出为两个相互独立且有穷中的一个,例如成功或失败(男或女,生或 ...
- 漫步最优化二十八——三次插值法
没有你的世界,\textbf{没有你的世界,} 我会灵魂失控.\textbf{我会灵魂失控.} 没有你的世界,\textbf{没有你的世界,} 我被乌云拖着走.\textbf{我被乌云拖着走.} 没有 ...
- 漫步数理统计二十九——函数期望
令X=(X1,-,Xn)′\mathbf{X}=(X_1,\ldots,X_n)^\prime表示某试验的随机变量,我们一般对X\mathbf{X}的函数感兴趣,表示为T=T(X)T=T(\mathb ...
- 漫步数理统计二十——多元随机变量
两个随机变量的概念立即可以扩展到nn个随机变量,下面就是nn个随机变量空间的定义. 定义1:\textbf{定义1:}考虑一个随机试验,其样本空间为C\textbf{C},随机变量XiX_i给每个元素 ...
- 漫步数学分析二十八——狄利克雷与阿贝尔测试
在我们判断一致收敛的时候,某些情况下魏尔斯特拉斯M测试会失效,为此挪威数学家尼尔斯阿贝尔(Niels Abel)以及狄利克雷(Dirichlet)分别提出了两种测试方法,这些方法对许多实例都是非常有用 ...
- 漫步数理统计二十四——伽玛、卡方与贝塔分布
本篇博文我们讲介绍伽玛(Γ\Gamma),卡方(χ2\chi^2)与贝塔(β\beta)分布.在高等微积分中已经证明过,对于α>0\alpha>0,积分 ∫∞0yα−1e−ydy \int ...
- 漫步数理统计二十六——多元正态分布
本片博文介绍多元正态分布,我们以nn维随机变量为主,但给出n=2n=2时二元情况的一些实例.与上篇文章一样,我们首先介绍标准情况然后扩展到一般情况,当然这里会用到向量与矩阵符号. 考虑随机向量Z=(Z ...
- 2008R2Win7管理二十八Mail之基本使用
2008R2Win7管理二十八Mail之基本使用 上篇我们已经安装好了exchange2010,呵呵本片简单介绍和看下ex2010的基本界面和使用 安装完成打开exchange控制台如图所示 汗,有试 ...
最新文章
- 一篇文章让你了解智能合约以及和区块链的关系
- java 的继承_关于java中的继承
- 类的继承定义一个computer类在此基础上派生出两个子类(继承与多态绑定)
- qt creator:一款能够在windows/linux/mac系统上开发c程序的IDE
- 数据结构与算法(C#版)第二章 C#语言与面向对象技术(下)V1.0
- resnet152训练_Resnet-152的图像预处理
- 第十五:Pytest-html报告修改与汉化
- poi excel 导入导出
- Anaconda中如何查看已经安装的包
- mysql_safe作用_mysqld_safe
- Jupyter Notebook 数学公式
- 第六次毕业设计任务书
- mysql front不能上到_mysqlfront不能上到Mysql服务器连接quot;192.168.5.*_MySQL
- thx是什么意思_在高数中thx表示什么意思-thx-数学-别杂南同学
- 文华学院计算机专业考研,英语复试第1,初试375分,她从文华学院跨专业考研华中科技大学...
- CCF推荐|中科院2区生物信息与计算机类SCI征稿~
- docker 安装mysql,不区分大小写配置
- 电子邮件客户端软件--foxmail(2)
- MFC Group Box 组合框的简单使用 笔记
- 数据库用户权限的授予
热门文章
- 汤阳光 Hibernate笔记
- MySQL学习笔记之MySQL安装详解
- 剑指Offer:二进制中1的个数
- 我的家庭私有云计划-10
- 使用 javascript 标记高亮关键词
- 容器编排技术 -- Kubernetes 联邦 Deployment
- 分布式MinIO快速入门 ​​​​​​​
- 高性能分布式事物中间件Sharding-Sphere介绍
- UC神马数据采集api
- c语言 结构体练习之 实现产品销售记录的相关功能