Beta分布与Dirichlet分布的定义域均为[0,1],在实际使用中,通常将两者作为概率的分布,Beta分布描述的是单变量分布,Dirichlet分布描述的是多变量分布,因此,Beta分布可作为二项分布的先验概率,Dirichlet分布可作为多项分布的先验概率。这两个分布都用到了Gamma函数,所以,首先了解一下Gamma函数。

1. Gamma函数

  首先看其表达式
   Γ(x)=∫∞0tx−1e−tdt \Gamma(x)=\int_0^\infty t^{x-1} e^{-t}dt
这样的表达看懂都很难,更不知道那些数学家怎么想出来的。据LDA数学八卦中记录,在Gamma函数的发现中做出主要贡献的数学家有哥德巴赫、丹尼尔·伯努利(不是伯努利分布的那个伯努利),最终由欧拉解决这个问题(这些大数学家互相都认识的啊)。
  Gamma函数是对阶乘在实数领域的扩展,也就是说, Γ(x+1)=xΓ(x) \Gamma(x+1) = x \Gamma(x),下面用分部积分的方法进行推导,如不关心,可以略过。
  

Γ(x)=∫∞0tx−1e−tdt=1x∫∞0e−tdtx=1x(e−ttx|∞0−∫∞0txde−t)=1x∫∞0txe−tdt=1xΓ(x+1)

\begin{align} \Gamma(x)&=\int_0^\infty t^{x-1} e^{-t}dt \\&=\frac{1}{x} \int_0^\infty e^{-t}dt^x \\&=\frac{1}{x}(e^{-t} t^x |_0^\infty - \int_0^\infty t^x de^{-t}) \\&=\frac{1}{x} \int_0^\infty t^x e^{-t} dt \\&= \frac{1}{x} \Gamma(x+1)\end{align}
据PRML第71页(2.14)式,Gamma函数在Beta分布和Dirichlet分布中起到了归一化的作用。

2. Beta分布

  Beta分布描述的是定义在区间[0,1]上随机变量的概率分布,由两个参数 α>0 \alpha>0和 β>0 \beta>0决定,通常记为 μ∼Beta(μ|α,β) \mu \sim Beta(\mu|\alpha,\beta),其概率密度函数如下
   P(μ|α,β)=Γ(α+β)Γ(α)Γ(β)μα−1(1−μ)β−1=1B(α,β)μα−1(1−μ)β−1 P(\mu|\alpha,\beta) = \dfrac{\Gamma(\alpha+\beta)}{\Gamma(\alpha)\Gamma(\beta)} \mu^{\alpha-1} (1-\mu)^{\beta-1} = \dfrac{1}{B(\alpha,\beta)} \mu^{\alpha-1} (1-\mu)^{\beta-1}
其中, Γ(⋅) \Gamma(\cdot)就是Gamma函数, B(α,β) B(\alpha,\beta)为Beta函数,并且
   B(α,β)=Γ(α)Γ(β)Γ(α+β) B(\alpha,\beta) = \dfrac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}
Beta分布的概率密度函数曲线如下图:(摘自wikipedia Beta distribution)

由于Beta分布定义在区间[0,1]上,所以适合作为概率的分布。第一段提到Beta分布可作为二项分布的先验概率,那就需要从二项分布的定义来理解Beta分布的形式。已知二项分布的形式为:
   p(x=k|n,μ)=Cknμk(1−μ)n−k p(x=k|n,\mu) = C_n^k \mu^k (1-\mu)^{n-k}
对 μ \mu进行后验概率估计时,其似然项是 μ \mu和 (1−μ) (1-\mu)的指数形式,如果先验概率也选择为 μ \mu和 (1−μ) (1-\mu)的指数形式,那么后验概率就仍然保持这种指数形式,这种性质叫做共轭分布,我们会在后面的文章中对共轭分布进行介绍。
因此,Beta分布就是 μ \mu和 (1−μ) (1-\mu)的指数形式,其中Beta函数为归一化系数。Beta分布的均值和方差分别为
   E[μ]=αα+β E[\mu] = \dfrac{\alpha}{\alpha+\beta}
   var(μ)=αβ(α+β)2(α+β+1) var(\mu) = \dfrac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}

3. Dirichlet分布

  Dirichlet分布是关于定义在区间[0,1]上的多个随机变量的联合概率分布,假设有 d d个变量μi\mu_i,并且 ∑di=1μi=1 \sum_{i=1}^d \mu_i = 1,记 μ=(μ1,μ2,...,μd) \boldsymbol{\mu} = (\mu_1,\mu_2,...,\mu_d),每个 μi \mu_i对应一个参数 αi>0 \alpha_i>0,记 α=(α1,α2,...,αd) \boldsymbol{\alpha} = (\alpha_1,\alpha_2,...,\alpha_d), α^=∑di=1αi \hat{\alpha} = \sum_{i=1}^d \alpha_i,那么它的概率密度函数为
p(μ|α)=Dir(μ|α)=Γ(α^)Γ(α1)⋯Γ(αd)∏di=1μαi−1i p(\boldsymbol{\mu}|\boldsymbol{\alpha}) = Dir(\boldsymbol{\mu}|\boldsymbol{\alpha}) = \dfrac{\Gamma(\hat\alpha)}{\Gamma(\alpha_1) \cdots \Gamma(\alpha_d)} \prod_{i=1}^d \mu_i^{\alpha_i-1}
  Dirichlet分布的每一个随机变量具有统计量如下:
   E[μi]=αiα^ E[\mu_i] = \dfrac{\alpha_i}{\hat\alpha}
   var(μi)=αi(α^−αi)α^2(α^+1) var(\mu_i) = \dfrac{\alpha_i (\hat\alpha-\alpha_i)}{\hat\alpha^2(\hat\alpha+1)}
   cov(μi,μj)=αiαjα^2(α^+1) cov(\mu_i,\mu_j) = \dfrac{\alpha_i \alpha_j}{\hat\alpha^2(\hat\alpha+1)}
  由于Dirichlet分布描述的是多个定义于区间[0,1]的随机变量的概率分布,所以通常将其用作多项分布参数 μi \mu_i的概率分布。

概率分布之Beta分布与Dirichlet分布相关推荐

  1. 机器学习知识点(二十八)Beta分布和Dirichlet分布理解

    1.二者关系: Dirichlet分布是Beta分布的多元推广.Beta分布是二项式分布的共轭分布,Dirichlet分布是多项式分布的共轭分布. 通常情况下,我们说的分布都是关于某个参数的函数,把对 ...

  2. 机器学习中的数学——常用概率分布(十一):狄利克雷分布(Dirichlet分布)

    分类目录:<机器学习中的数学>总目录 相关文章: · 常用概率分布(一):伯努利分布(Bernoulli分布) · 常用概率分布(二):范畴分布(Multinoulli分布) · 常用概率 ...

  3. 统计机器学习-Gamma分布、Beta分布、Dirichlet分布

    1. Gamma 分布 参考https://zhuanlan.zhihu.com/p/37976562 模型假设事件单位时间内发生α\alphaα次,则发生xxx次所经过的时间 1.1 Gamma 函 ...

  4. probility and statistic(4) gamma分布、beta分布、dirichlet分布、卡方分布、t分布

    共轭分布.gamma分布.beta分布.dirichlet分布.卡方分布.t分布 1.共轭分布 在贝叶斯统计中,如果后验分布与先验分布属于同类(分布形式相同),则先验分布与后验分布被称为共轭分布,而先 ...

  5. 伯努利分布、二项分布、多项分布、Beta分布、Dirichlet分布

    https://blog.csdn.net/michael_r_chang/article/details/39188321 https://www.cnblogs.com/wybang/p/3206 ...

  6. Gamma分布、Beta分布、Dirichlet分布

    Γ\Gamma 函数 Γ\Gamma 函数是阶乘在实数上的推广,定义为: Γ(x)=∫+∞0tx−1e−t dt \Gamma(x) = \int_{0}^{+\infty} t^{x-1} e^{- ...

  7. Gamma分布,Beta分布,多项式分布,Dirichlet狄利克雷分布

    如何通俗理解 beta 分布?(很好理解,beta就是二项式分布的先验分布) 所谓共轭先验就是先验分布是beta分布,而后验分布同样是beta分布. 超详细理解Gamma分布,Beta分布,多项式分布 ...

  8. 伯努利分布、二项分布、Beta分布、多项分布和Dirichlet分布与他们之间的关系,以及在LDA中的应用

    在看LDA的时候,遇到的数学公式分布有些多,因此在这里总结一下思路. 一.伯努利试验.伯努利过程与伯努利分布 先说一下什么是伯努利试验: 维基百科伯努利试验中: 伯努利试验(Bernoulli tri ...

  9. 概率分布(多项分布,Dirichlet分布)

    在机器学习领域中,概率模型是一个常用的利器.用它来对问题进行建模,有几点好处:1)当给定参数分布的假设空间后,可以通过很严格的数学推导,得到模型的似然分布,这样模型有很好的概率解释:2)可以利用现有的 ...

最新文章

  1. 手写一个简单的HashMap,搞定挑剔面试官
  2. python基础教程书籍推荐-Python大神推荐给小白的36本入门书籍
  3. DDL触发器与DML触发器比较
  4. 计算机组成原理—地址码
  5. 三叔学FPGA系列之二:Cyclone V中的POR、配置、初始化,以及复位
  6. linux进程自动启动,linux 嵌入式 自启动 系统自动登录-自动启动程序或脚本
  7. 埃博拉疫情蔓延在进行中
  8. Android 四大组件学习之Activity四
  9. 如何下载城通网盘的东西?
  10. 华为手机如何给应用加锁_如何设置华为手机应用程序锁?
  11. 图片底色去除vue+canvas(简易版)
  12. mysql max() grou by 的使用小记
  13. 怀旧服务器联盟优势,魔兽世界tbc联盟服务器选哪个_wowtbc怀旧服联盟服务器排名_3DM网游...
  14. 建造者模式之Java实战个人理解和图解
  15. echart实现地球外环绕卫星效果
  16. tensorflow常用函数
  17. 杭电操作系统实验三--- 实现模拟shell(arm架构华为云)
  18. 万物互联背景下的边缘计算安全需求与挑战
  19. AutoJs学习-实现自动加群成员好友
  20. android SharedPreferences 存储对象

热门文章

  1. eXtremeDB 基本操作
  2. Oracle数据库单表循环提取输出
  3. java swing mysql实现的仓库库存管理系统
  4. python支持的编程范式有_转并修改:Python编程范式(Programming Paradigm)
  5. light 1144 spoj 4168
  6. ESP32 LVGL8.1 实现太空人显示(29)
  7. [转载] 在Tiled Map中使用碰撞检测
  8. 字母大小写排序--C语言
  9. 如何查看电脑桌面路径
  10. 第一个redis应用方法导致的提示redis LRANGE命令超时问题的解决