浅谈狄利克雷分布的概念与简单使用。

文章目录

  • 定义
    • 二项分布(Binomial Distribution)
    • 多项分布(Multinomial Distribution)
    • 贝塔分布(Beta Distribution)
    • 狄利克雷分布(Dirichlet Distribution)
  • 共轭先验(Conjugate Prior)
  • 狄利克雷过程(Dirichlet Process)

定义

首先介绍基本定义。

二项分布(Binomial Distribution)

进行nnn次独立随机试验,出现结果1的概率是ppp,如果用随机变量XXX表示结果111出现的次数,那么:
P(X=m)=(nm)pm(1−p)n−m,m=0,1,2,…,nP(X=m) = \begin{pmatrix} n \\ m \end{pmatrix}p^{m}(1-p)^{n-m},\quad m = 0,1,2,\dots,nP(X=m)=(nm​)pm(1−p)n−m,m=0,1,2,…,n 如果n=1n=1n=1,那么二项分布等同于伯努利分布(Bernoulli Distribution)。

多项分布(Multinomial Distribution)

下面我们将二项拓展到多项。进行nnn次独立随机试验,每次实验结果有kkk种,其中第iii种出现的概率为pip_{i}pi​,第iii种出现的次数为nin_{i}ni​,如果用随机变量X={X1,X2,…,Xk}X = \{X_{1},X_{2},\dots,X_{k}\}X={X1​,X2​,…,Xk​}表示试验所有可能结果的次数,那么:
P(X1=n1,X2=n2,…,Xk=nk)=n!n1!n2!⋯nk!p1n1p2n2⋯p3n3=n!∏i=1kni!∏i=1kpini\begin{aligned} P(X_{1}=n_{1},X_{2}=n_{2},\dots,X_{k}=n_{k}) &= \frac{n!}{n_{1}!n_{2}!\cdots n_{k}!}p_{1}^{n_{1}}p_{2}^{n_{2}}\cdots p_{3}^{n_{3}} \\ &=\frac{n!}{\prod_{i=1}^{k}n_{i}!}\prod_{i=1}^{k}p_{i}^{n_{i}} \end{aligned}P(X1​=n1​,X2​=n2​,…,Xk​=nk​)​=n1​!n2​!⋯nk​!n!​p1n1​​p2n2​​⋯p3n3​​=∏i=1k​ni​!n!​i=1∏k​pini​​​ 记作X∼Mult(n,p)X\sim\mathrm{Mult}(n,p)X∼Mult(n,p)。
如果n=1n=1n=1,那么多项分布等同于类别分布(Categorical Distribution)。可以看出,二项分布是多项分布的特殊情况,而伯努利分布式类别分布的特殊情况。

贝塔分布(Beta Distribution)

以上均是离散随机变量的概率分布,下面考虑连续随机变量的情况。此时我们需要研究概率密度。设XXX为连续随机变量,取值范围为[0,1][0,1][0,1],其概率密度函数为:
p(x)={1B(s,t)xs−1(1−x)t−1,0≤x≤10,otherwisep(x) = \left\{ \begin{aligned} &\frac{1}{B(s,t)}x^{s-1}(1-x)^{t-1}, \quad & 0\leq x\leq 1 \\ &0, & \text{otherwise} \end{aligned} \right.p(x)=⎩⎪⎨⎪⎧​​B(s,t)1​xs−1(1−x)t−1,0,​0≤x≤1otherwise​ 其中 s>0,t>0s>0, t>0s>0,t>0是参数。贝塔分布表示为X∼Beta(s,t)X\sim\mathrm{Beta}(s,t)X∼Beta(s,t),概率密度取值如下图所示。

贝塔分布是均匀分布的更一般形式。
B(⋅)B(\cdot)B(⋅) 是贝塔函数 B(s,t)=∫01xs−1(1−x)t−1dx=Γ(s)Γ(t)Γ(s+t),Γ(s)≜∫0∞xs−1e−xdx,s>0B(s,t) = \int_{0}^{1}x^{s-1}(1-x)^{t-1}\mathrm{d}x = \frac{\Gamma(s)\Gamma(t)}{\Gamma(s+t)}, \quad \Gamma(s) \triangleq\int_{0}^{\infty}x^{s-1}e^{-x}\mathrm{d}x, s>0B(s,t)=∫01​xs−1(1−x)t−1dx=Γ(s+t)Γ(s)Γ(t)​,Γ(s)≜∫0∞​xs−1e−xdx,s>0 Γ(⋅)\Gamma(\cdot)Γ(⋅) 是伽马函数。伽马函数具有性质:Γ(s+1)=sΓ(s)\Gamma(s+1) = s\Gamma(s)Γ(s+1)=sΓ(s),且当sss是自然数时有:Γ(s+1)=s!\Gamma(s+1) = s!Γ(s+1)=s!。此时可以看出,当s,ts,ts,t是自然数时 B(s,t)=(s−1)!(t−1)!(s+t−1)!B(s,t) = \frac{(s-1)!(t-1)!}{(s+t-1)!}B(s,t)=(s+t−1)!(s−1)!(t−1)!​ 贝塔函数取值分布 如下图所示。

狄利克雷分布(Dirichlet Distribution)

下面我们再扩展到多元连续随机变量。狄利克雷分布是贝塔分布的扩展。定义多元连续随机变量θ={θ1,θ2,…,θk}\theta = \{\theta_{1},\theta_{2},\dots,\theta_{k}\}θ={θ1​,θ2​,…,θk​}的概率密度函数为
p(θ∣α)=Γ(∑i=1kαi)∏i=1kΓ(αi)∏i=1kθiαi−1,αi>0,i=1,2,…,kp(\theta|\alpha) = \frac{\Gamma\left( \sum_{i=1}^{k}\alpha_{i} \right)}{\prod_{i=1}^{k}\Gamma(\alpha_{i})}\prod_{i=1}^{k}\theta_{i}^{\alpha_{i}-1},\quad \alpha_{i}>0,\quad i = 1,2,\dots,kp(θ∣α)=∏i=1k​Γ(αi​)Γ(∑i=1k​αi​)​i=1∏k​θiαi​−1​,αi​>0,i=1,2,…,k 其中 ∑i=1kθi=1,θi≥0\sum_{i=1}^{k}\theta_{i} = 1, \theta_{i}\geq 0∑i=1k​θi​=1,θi​≥0,则称随机变量 θ\thetaθ 服从参数为 α\alphaα 的狄利克雷分布,记作 θ∼Dir(α)\theta\sim\mathrm{Dir}(\alpha)θ∼Dir(α)。
方便起见,我们定义 B(α)≜∏i=1kΓ(αi)Γ(∑i=1kαi)B(\alpha) \triangleq \frac{\prod_{i=1}^{k}\Gamma(\alpha_{i})}{\Gamma\left( \sum_{i=1}^{k}\alpha_{i} \right)}B(α)≜Γ(∑i=1k​αi​)∏i=1k​Γ(αi​)​ 那么狄利克雷分布的概率密度函数可以表示为 p(θ∣α)=1B(α)∏i=1kθiαi−1p(\theta|\alpha) = \frac{1}{B(\alpha)}\prod_{i=1}^{k}\theta_{i}^{\alpha_{i}-1}p(θ∣α)=B(α)1​i=1∏k​θiαi​−1​ B(α)B(\alpha)B(α) 又称多元贝塔函数或扩展贝塔函数,其积分表示为 B(α)=∫∏i=1kθiαi−1dθB(\alpha) = \int\prod_{i=1}^{k}\theta_{i}^{\alpha_{i} - 1}\mathrm{d}\thetaB(α)=∫i=1∏k​θiαi​−1​dθ

共轭先验(Conjugate Prior)

共轭分布常在贝叶斯学习中使用,共轭分布的好处是便于从先验分布计算后验分布。如果后验分布与先验分布属于同类,则先验分布于后验分布成为共轭分布,先验分布成为共轭先验。狄利克雷分布属于指数分布族,常作为多项分布的共轭先验分布使用。作为共轭先验的狄利克雷分布的参数被成为超参数

假设随机变量XXX服从集合W={w1,w2,…,wk}W=\{w_{1},w_{2},\dots,w_{k}\}W={w1​,w2​,…,wk​}上的多项分布,即X∼Mult(n,θ)X\sim \mathrm{Mult}(n,\theta)X∼Mult(n,θ)。将样本数据表示为DDD,目标是计算在样本数据DDD给定的条件下参数θ\thetaθ的后验概率p(θ∣D)p(\theta|D)p(θ∣D)。此时对于给定样本DDD的似然函数是 p(D∣θ)=θ1n1θ2n2⋯θknk=∏i=1kθinip(D|\theta) = \theta_{1}^{n_{1}}\theta_{2}^{n_{2}}\cdots \theta_{k}^{n_{k}} = \prod_{i=1}^{k}\theta_{i}^{n_{i}}p(D∣θ)=θ1n1​​θ2n2​​⋯θknk​​=i=1∏k​θini​​ 我们假设随机变量 θ\thetaθ 服从狄利克雷分布 p(θ∣α)p(\theta|\alpha)p(θ∣α),即 θ∼Dir(α)\theta\sim\mathrm{Dir}(\alpha)θ∼Dir(α)。此时随机变量 θ\thetaθ 的先验分布为 p(θ∣α)=1B(α)∏i=1kθiαi−1,αi>0p(\theta|\alpha) = \frac{1}{B(\alpha)}\prod_{i=1}^{k}\theta_{i}^{\alpha_{i}-1} ,\quad \alpha_{i} > 0p(θ∣α)=B(α)1​i=1∏k​θiαi​−1​,αi​>0 根据贝叶斯公式,给定样本数据DDD的条件下,θ\thetaθ的后验分布是 p(θ∣D,α)=p(D∣θ)p(θ∣α)p(D∣α)=∏i=1kθini1B(α)θiαi−1∫∏i=1kθini1B(α)θiαi−1dθ=1B(α+n)∏i=1kθiαi+ni−1=Dir(θ∣α+n)\begin{aligned} p(\theta|D,\alpha) &= \frac{p(D|\theta)p(\theta|\alpha)}{p(D|\alpha)} \\ &=\frac{\prod_{i=1}^{k}\theta_{i}^{n_{i}}\frac{1}{B(\alpha)}\theta_{i}^{\alpha_{i}-1}}{\int\prod_{i=1}^{k}\theta_{i}^{n_{i}}\frac{1}{B(\alpha)}\theta_{i}^{\alpha_{i}-1} \mathrm{d}\theta} \\ &=\frac{1}{B(\alpha+n)}\prod_{i=1}^{k}\theta_{i}^{\alpha_{i}+n_{i}-1} \\ &=\mathrm{Dir}(\theta|\alpha+n) \end{aligned}p(θ∣D,α)​=p(D∣α)p(D∣θ)p(θ∣α)​=∫∏i=1k​θini​​B(α)1​θiαi​−1​dθ∏i=1k​θini​​B(α)1​θiαi​−1​​=B(α+n)1​i=1∏k​θiαi​+ni​−1​=Dir(θ∣α+n)​ 此时θ\thetaθ的后验分布也是狄利克雷分布,所以狄利克雷分布是多项分布的共轭先验。同时,贝塔分布也是二项分布的共轭先验。

狄利克雷过程(Dirichlet Process)

未完待续……


  • 感谢 李航——《统计学习方法》第2版

浅谈狄利克雷分布——Dirichlet Distribution相关推荐

  1. Python计算狄利克雷分布(Dirichlet Distribution)密度估计

    数学推导.狄利克雷分布和狄利克雷函数等可以参考:https://www.datalearner.com/blog/1051459673766843#5%E3%80%81%E5%90%8E%E9%AA% ...

  2. 【Basis】狄利克雷分布

    初次看狄利克雷分布,比较懵,主要是它有很多先行知识,所以我先介绍狄利克雷分布用到的多项式分布.gamma 函数.beta分布,然后再介绍狄利克雷分布.参考文献见文章末. 目录 一.多项式分布 mult ...

  3. 伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布(似然与概率)

    瑞士数学家雅克·伯努利(Jacques Bernoulli,1654-1705)首次研究独立重复试验(每次成功率为p).在他去世后的第8年(1713年),他侄子尼克拉斯出版了伯努利的著作<推测术 ...

  4. 贝塔分布与狄利克雷分布

    文章目录 0. 补充知识 0.1 贝塔函数 B(P,Q)\Beta(P, Q)B(P,Q) 0.2 伽马函数 Γ(x)\Gamma(x)Γ(x) 1. 贝塔分布 (Beta Distribution) ...

  5. 狄利克雷分布公式_Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)...

    Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程) Dirichlet Distribution(狄利克雷分布)与Dirichlet Pr ...

  6. 伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布、高斯分布

    文章目录 伯努利分布 二项分布 多项分布 贝塔分布 狄利克雷分布 高斯分布 伯努利分布 伯努利分布,又名两点分布或0-1分布,介绍伯努利分布前首先需要引入伯努利试验. 伯努利试验是只有两种可能结果的单 ...

  7. 二项分布_贝塔分布(multivariate Beta distribution)_多项分布_狄利克雷分布(Dirichlet distribution)_贝叶斯理论公式浅述

    二项分布_贝塔分布(multivariate Beta distribution)_多项分布_狄利克雷分布(Dirichlet distribution)_贝叶斯理论公式浅述 参考书籍<统计学习 ...

  8. Dirichlet distribution狄利克雷分布

    狄利克雷分布 狄利克雷分布(维基百科)是一组连续多变量概率分布,是多变量普遍化的B分布. 为了纪念德国数学家约翰·彼得·古斯塔夫·勒热纳·狄利克雷(Peter Gustav Lejeune Diric ...

  9. Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)

    Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程) 请看,我师兄的写的文章http://www.datalearner.com/blog/ ...

最新文章

  1. 微型计算机组成部分db,微机原理复习(2)
  2. 算法-----------乘积最大子数组(Java版本)
  3. oracle之 变更OS时间对数据库的影响
  4. 关于 WPF Loading初始界面的实现方式
  5. linux内核杂记(12)-进程调度(7)
  6. 【Python】机器学习绘图神器Matplotlib首秀!
  7. 面向对象与面向过程在软件开发中的应用
  8. JavaScript实现k-Means算法(附完整源码)
  9. ansys怎么删除线段_科学网—ansys常用命令 - 刘敬寿的博文
  10. (85)FPGA面试题-FIFO深度计算
  11. 2018年9月计算机英语统考,2018年9月大学英语统考题库 2018年9月网络统考英语B复习资料.doc...
  12. 腾讯云Nginx配置https
  13. k-means算法概述
  14. 十二、Object类
  15. js读取服务器上的文件,js读取远程文件服务器
  16. 在win7中chm打不开的方法
  17. 计算机麦克风测试,如何进行电脑话筒测试?电脑麦克风如何设置?
  18. 能上QQ微信,打不开网页
  19. 苹果开发者怎么避免封号
  20. c语言实现注册页面窗口,C语言控制台程序实现的注册登录

热门文章

  1. (三)Java的基本程序结构(二)---数据输入、控制流、大数、数组
  2. python脚本开头怎么写_浅谈Python脚本开头及导包注释自动添加方法
  3. 使用php解析url中出现\u002乱码问题的方法
  4. 【运筹学】对偶理论 : 总结 ( 对偶理论 | 原问题与对偶问题对应关系 | 对偶理论的相关结论 ) ★★★
  5. SpringSecurity+jwt安全框架
  6. 小米air2se耳机只有一边有声音怎么办_小米无线蓝牙耳机Air2 SE——性价比背后的妥协之作...
  7. Photoshop基础2——工具
  8. Letv电视品牌升级为乐融,携手漫威打造超级营销
  9. AA Master考试认证笔记
  10. Mathorcup数学建模竞赛第六届-【妈妈杯】A题:基于模糊综合评价和灰色关联度的淡水养殖池塘水华分析、预测及净化模型(附一等奖获奖论文和matlab代码)