文章目录

  • 伯努利分布
  • 二项分布
  • 多项分布
  • 贝塔分布
  • 狄利克雷分布
  • 高斯分布

伯努利分布

伯努利分布,又名两点分布或0-1分布,介绍伯努利分布前首先需要引入伯努利试验。
伯努利试验是只有两种可能结果的单次随机试验,即对于一个随机变量X而言:
P(X=1)=pP(X=0)=1−p\begin{array}{l}{P(X=1)=p} \\ {P(X=0)=1-p}\end{array} P(X=1)=pP(X=0)=1−p​
伯努利试验都可以表达为“是或否”的问题。
如果试验E是一个伯努利试验,将E独立重复地进行n次,则称这一串重复的独立试验为n重伯努利试验。
进行一次伯努利试验,成功(X=1)概率为p,失败(X=0)概率为1-p,则称随机变量X服从伯努利分布。
其概率质量函数为:
f(x)=px(1−p)1−xf(x)=p^{x}(1-p)^{1-x} f(x)=px(1−p)1−x
伯努利分布的
EX=p,DX=p(1−p)E X=p, \quad D X=p(1-p) EX=p,DX=p(1−p)
伯努利分布是一个离散型概率分布,是N=1时二项分布的特殊情况。
伯努利分布的典型例子:抛一次硬币是正面向上吗?刚出生的小孩是个女孩吗?

二项分布

二项分布是n重伯努利试验成功次数X的离散概率分布。
如果试验E是一个n重伯努利试验,每次伯努利试验的成功概率为p,X代表成功的次数,则X的概率分布是二项分布,记为
X∼B(n,p)X \sim B(n, p) X∼B(n,p)
其概率质量函数为:
P{X=k}=Cnkpk(1−p)n−k,k=0,1,2,…,nP\{X=k\}=C_{n}^{k} p^{k}(1-p)^{n-k}, k=0,1,2, \ldots, n P{X=k}=Cnk​pk(1−p)n−k,k=0,1,2,…,n
显然
∑k=0nP{X=k}=∑k=0nCnkpk(1−p)n−k=[p+(1−p)]n=1\sum_{k=0}^{n} P\{X=k\}=\sum_{k=0}^{n} C_{n}^{k} p^{k}(1-p)^{n-k}=[p+(1-p)]^{n}=1 k=0∑n​P{X=k}=k=0∑n​Cnk​pk(1−p)n−k=[p+(1−p)]n=1
伯努利分布是二项分布在n=1时的特例。
二项分布名称的由来,是由于其概率质量函数中使用了二项系数,该系数是二项式定理中的系数,二项式定理由牛顿提出:
(x+y)n=Cnkxkyn−k(x+y)^{n}=C_{n}^{k} x^{k} y^{n-k} (x+y)n=Cnk​xkyn−k
二项分布的典型例子是扔硬币,硬币正面朝上概率为p, 重复扔n次硬币,k次为正面的概率即为一个二项分布概率。

多项分布

多项式分布是二项式分布的推广。二项式做n次伯努利实验,规定了每次试验的结果只有两个。
如果现在还是做n次试验,只不过每次试验的结果可以有多m个,且m个结果发生的概率互斥且和为1,则发生其中一个结果X次的概率就是多项分布。
扔骰子是典型的多项式分布。扔骰子,不同于扔硬币,骰子有6个面对应6个不同的点数,这样单次每个点数朝上的概率都是1/6(对应p1~p6,它们的值不一定都是1/6,只要和为1且互斥即可,比如一个形状不规则的骰子),重复扔n次,如果问有k次都是点数6朝上的概率就是:
P{X=k}=Cnkp6k(1−p6)n−k,k=0,1,2,…,nP\{X=k\}=C_{n}^{k} p_{6}^{k}\left(1-p_{6}\right)^{n-k}, k=0,1,2, \ldots, n P{X=k}=Cnk​p6k​(1−p6​)n−k,k=0,1,2,…,n
多项式分布的概率质量函数为:
P(X1=k1,X2=k2,⋯ ,Xn=kn)=n!((k1!)(k2!)⋯(Kn!))∏i=1n(Piki)P(X_{1}=k_{1}, X_{2}=k_{2},\cdots, X_{n}=k_{n})=\frac{n!}{((k_{1} !)(k_{2} !) \cdots(K_{n} !))} \prod_{i=1}^{n}(P_{i}^{k_{i}}) P(X1​=k1​,X2​=k2​,⋯,Xn​=kn​)=((k1​!)(k2​!)⋯(Kn​!))n!​i=1∏n​(Piki​​)
where∑i=0nki=nwhere\sum_{i=0}^{n} k_{i}=n wherei=0∑n​ki​=n
如:
假设萤火虫对食物的喜欢次序为:花粉,蚜虫,面团。假设20%的萤火虫喜欢花粉,35%的萤火虫喜欢蚜虫,45%的萤火虫喜欢面团。我们对30只萤火虫做实验,发现8只喜欢花粉,10只喜欢蚜虫,12只喜欢面团,则这件事的概率为
P(N1=8,N2=10,N3=12)=30!8!10!12!0.280.35100.4512P\left(N_{1}=8, N_{2}=10, N_{3}=12\right)=\frac{30 !}{8 ! 10 ! 12 !} 0.2^{8} 0.35^{10} 0.45^{12} P(N1​=8,N2​=10,N3​=12)=8!10!12!30!​0.280.35100.4512

贝塔分布

β分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时,它可以给出了所有概率出现的可能性大小。
举例:
棒球运动中有一个指标就是棒球击球率,即用一个运动员击中的球数除以击球的总数,我们一般认为0.266是正常水平的击球率,而如果击球率高达0.3就被认为是非常优秀的。
现在有一个棒球运动员,我们希望能够预测他在这一赛季中的棒球击球率是多少。你可能就会直接计算棒球击球率,用击中的数除以击球数,但是如果这个棒球运动员只打了一次,而且还命中了,那么他就击球率就是100%了,这显然是不合理的,我们也不会这么预测。因为我们都有一个先验期望。根据历史情况,我们认为一个运动员大概的击球率应当是在0.21到0.35之间。
对于上面这个问题,我们可以用一个二项分布表示(一系列成功或失败),一个最好的方法来表示这些经验(在统计中称为先验信息)就是用β分布,这表示在我们没有看到这个运动员打球之前,我们就有了一个大概的范围。β分布的定义域是(0,1)这就跟概率的范围是一样的。
接下来我们将这些先验信息转换为β分布的参数,我们知道一个击球率应该是平均0.27左右,而他的范围是0.21到0.35,那么根据这个信息,我们可以取:
a=81,β=219a=81, \beta=219 a=81,β=219
之所以取α=81,β=219是因为beta分布的均值是
αα+β=8181+219=0.27\frac{\alpha}{\alpha+\beta}=\frac{81}{81+219}=0.27 α+βα​=81+21981​=0.27
β分布为:
β(81,219)\beta(81,219) β(81,219)
我们可以据此画出概率分布图,图上的x轴就表示各个击球率的取值,x对应的y值就是这个击球率所对应的概率。也就是说β分布可以看作一个概率的概率分布。这个分布主要落在(0.2,0.35)间,这是从经验中得出的合理的范围。
现在我们考虑一个运动员新打了一次球,得到一个新数据“一击一中”。这时候我们就可以用这个数据更新我们的分布,让上图的曲线做一些移动去适应我们的新信息。
β分布在数学上与二项分布是共轭先验的。所谓共轭先验就是先验分布是β分布,而后验分布同样是β分布。
于是β分布变为:
β(α0+hits ,β0+misses )\beta\left(\alpha_{0}+\text { hits }, \beta_{0}+\text { misses }\right) β(α0​+ hits ,β0​+ misses )
其中α0和β0是一开始的参数,对于上面的例子,是81和219。
现在有了新数据一击一中,于是hits=1,misses=0。
如果我们得到了更多的数据,假设一共打了300次,其中击中了100次,200次没击中,那么这一新分布就是:
β(81+100,219+200)\beta(81+100,219+200) β(81+100,219+200)
这时画出新的概率分布可以发现曲线变得更加尖,并且平移到了一个右边的位置,表示比平均水平要高。

根据这个新的β分布,我们可以得出他的数学期望为:
αα+β=82+10082+100+219+200=0.303\frac{\alpha}{\alpha+\beta}=\frac{82+100}{82+100+219+200}=0.303 α+βα​=82+100+219+20082+100​=0.303
这一结果要比直接估计要小
100100+200=0.333\frac{100}{100+200}=0.333 100+200100​=0.333
这是因为我们加入了先验信息:这个运动员在击球之前他已经成功了81次,失败了219次。
对于一个我们不知道概率是什么,而又有一些合理的猜测时,β分布能很好的作为一个表示概率的概率分布。
二项分布的似然函数为:
P(data ∣θ)∝θz(1−θ)N−zP(\text { data } | \theta) \propto \theta^{z}(1-\theta)^{N-z} P( data ∣θ)∝θz(1−θ)N−z
z=∑i=1NXiz=\sum_{i=1}^{N} X_{i} z=i=1∑N​Xi​
β分布的概率密度函数为:
(a,b)=θa−1(1−θ)b−1B(a,b)∝θa−1(1−θ)b−1(a, b)=\frac{\theta^{a-1}(1-\theta)^{b-1}}{B(a, b)} \propto \theta^{a-1}(1-\theta)^{b-1} (a,b)=B(a,b)θa−1(1−θ)b−1​∝θa−1(1−θ)b−1
在β分布中,B函数是一个标准化函数,它只是为了使得这个分布的概率密度积分等于1才加上的。
贝叶斯估计:
我们做贝叶斯估计的目的就是要在给定数据的情况下求出θ的值,所以我们的目的是求解如下后验概率:
P(θ∣data)=P(data ∣θ)P(θ)P(data )∝P(data ∣θ)P(θ)P(\theta | d a t a)=\frac{P(\text { data } | \theta) P(\theta)}{P(\text { data })} \propto P(\text { data } | \theta) P(\theta) P(θ∣data)=P( data )P( data ∣θ)P(θ)​∝P( data ∣θ)P(θ)
因为P(data)与我们所需要估计的θ是独立的,因此我们可以不考虑它。我们称P(data|θ)为似然函数,P(θ)为先验分布。

β分布与二项分布的共轭先验性质:

我们将β分布代进贝叶斯估计中的P(θ)中,将二项分布的似然函数代入P(data|θ)中,可以得到:
P(θ∣data )∝θz(1−θ)N−zθa−1(1−θ)b−1P(\theta | \text { data }) \propto \theta^{z}(1-\theta)^{N-z} \theta^{a-1}(1-\theta)^{b-1} P(θ∣ data )∝θz(1−θ)N−zθa−1(1−θ)b−1
∝θa+z−1(1−θ)b+N−z−1\propto \theta^{a+z-1}(1-\theta)^{b+N-z-1} ∝θa+z−1(1−θ)b+N−z−1
假设
a′=a+za^{\prime}=a+z a′=a+z
b′=b+N−zb^{\prime}=b+N-z b′=b+N−z
我们发现这个贝叶斯估计服从
(a′,b′)\left(a^{\prime}, b^{\prime}\right) (a′,b′)
分布,我们只要用B函数将它标准化就得到我们的后验概率:
P(θ∣data)=θa′−1(1−θ)b′−1B(a′,b′)P(\theta | d a t a)=\frac{\theta^{a^{\prime}-1}(1-\theta)^{b^{\prime}-1}}{B\left(a^{\prime}, b^{\prime}\right)} P(θ∣data)=B(a′,b′)θa′−1(1−θ)b′−1​

狄利克雷分布

Dirichlet分布可以看做是分布之上的分布。
在伯努利分布里,参数μ就是抛硬币取某一面的概率,因为伯努利分布的状态空间只有{0,1}。但是在多项分布里,因为状态空间有K个取值,因此μ变成了向量。
多项分布的likelihood函数形式是:
∏μxmi\prod \mu_{x}^{m_{i}} ∏μxmi​​
因此狄利克雷分布的函数形式如下:
p(μ∣α)∝∏k=1Kμkαk−1p(\mu | \alpha) \propto \prod_{k=1}^{K} \mu_{k}^{\alpha_{k-1}} p(μ∣α)∝k=1∏K​μkαk−1​​
∑kμk=1,α⃗=(α1,…,αk)\sum_{k} \mu_{k}=1, \vec{\alpha}=\left(\alpha_{1}, \ldots, \alpha_{k}\right) k∑​μk​=1,α=(α1​,…,αk​)
是迪利特雷参数,把上式归一化为真正的迪利特雷分布为:
Dir⁡(μ∣α)=Γ(α0)Γ(α1)…Γ(αk)∏k=1Kμkαk−1\operatorname{Dir}(\mu | \alpha)=\frac{\Gamma\left(\alpha_{0}\right)}{\Gamma\left(\alpha_{1}\right) \ldots \Gamma\left(\alpha_{k}\right)} \prod_{k=1}^{K} \mu_{k}^{\alpha_{k}-1} Dir(μ∣α)=Γ(α1​)…Γ(αk​)Γ(α0​)​k=1∏K​μkαk​−1​
a0=∑k=1Kαka_{0}=\sum_{k=1}^{K} \alpha_{k} a0​=k=1∑K​αk​
这个函数和贝塔分布有点像,跟多项式分布也有点像。就像β分布那样,狄利克雷分布就是它所对应的后验多项分布的参数μ的分布,只不过μ是一个向量。
举例:
假设我们有一个骰子,其有六面,分别为{1,2,3,4,5,6}。现在我们做了10000次投掷的实验,得到的实验结果是六面分别出现了{2000,2000,2000,2000,1000,1000}次,如果用每一面出现的次数与试验总数的比值估计这个面出现的概率,则我们得到六面出现的概率,分别为{0.2,0.2,0.2,0.2,0.1,0.1}。现在,我们还不满足,我们想要做10000次试验,每次试验中我们都投掷骰子10000次。我们想知道,骰子六面出现概率为{0.2,0.2,0.2,0.2,0.1,0.1}的概率是多少(说不定下次试验统计得到的概率为{0.1, 0.1, 0.2, 0.2, 0.2, 0.2}这样了)。这样我们就在思考骰子六面出现概率分布这样的分布之上的分布。而这样一个分布就是Dirichlet分布。

高斯分布

其实就是正态分布,又叫高斯分布。
若随机变量X服从一个数学期望为μ、方差为σ2的正态分布,则其概率密度函数为:
f(x)=1σ2πe−(x−μ)22σ2f(x)=\frac{1}{\sigma \sqrt{2 \pi}} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} f(x)=σ2π​1​e−2σ2(x−μ)2​
正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ=0,σ2=1时的正态分布是标准正态分布。

伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布、高斯分布相关推荐

  1. 二项分布_贝塔分布(multivariate Beta distribution)_多项分布_狄利克雷分布(Dirichlet distribution)_贝叶斯理论公式浅述

    二项分布_贝塔分布(multivariate Beta distribution)_多项分布_狄利克雷分布(Dirichlet distribution)_贝叶斯理论公式浅述 参考书籍<统计学习 ...

  2. 二项分布 多项分布 伽马函数 Beta分布

    http://blog.csdn.net/shuimu12345678/article/details/30773929 0-1分布: 在一次试验中,要么为0要么为1的分布,叫0-1分布. 二项分布: ...

  3. 二项分布 , 多项分布, 以及与之对应的beta分布和狄利克雷分布

    1. 二项分布与beta分布对应 2. 多项分布与狄利克雷分布对应 3. 二项分布是什么?n次bernuli试验服从 二项分布 二项分布是N次重复bernuli试验结果的分布. bernuli实验是什 ...

  4. 狄利克雷分布公式_二项分布 , 多项分布, 以及与之对应的beta分布和狄利克雷分布...

    1. 二项分布与beta分布对应 2. 多项分布与狄利克雷分布对应 3. 二项分布是什么?n次bernuli试验服从 二项分布 二项分布是N次重复bernuli试验结果的分布. bernuli实验是什 ...

  5. 伯努利分布、二项分布、多项分布、贝塔分布、狄利克雷分布(似然与概率)

    瑞士数学家雅克·伯努利(Jacques Bernoulli,1654-1705)首次研究独立重复试验(每次成功率为p).在他去世后的第8年(1713年),他侄子尼克拉斯出版了伯努利的著作<推测术 ...

  6. 伯努利分布、二项分布、多项分布、Beta分布、Dirichlet分布

    https://blog.csdn.net/michael_r_chang/article/details/39188321 https://www.cnblogs.com/wybang/p/3206 ...

  7. 伯努利分布、二项分布、Beta分布、多项分布和Dirichlet分布与他们之间的关系,以及在LDA中的应用

    在看LDA的时候,遇到的数学公式分布有些多,因此在这里总结一下思路. 一.伯努利试验.伯努利过程与伯努利分布 先说一下什么是伯努利试验: 维基百科伯努利试验中: 伯努利试验(Bernoulli tri ...

  8. 干货| 详解狄利克雷分布(LDA)、二项分布、Beta分布、多项分布

    最近在撰写笔记 [Sklearn源码学习笔记](含官网样例解读)无监督学习之高斯混合模型 的过程中,官方Sklearn源码中BayesianGaussianMixture()方法涉及到狄利克雷分布相关 ...

  9. 贝塔分布与狄利克雷分布

    文章目录 0. 补充知识 0.1 贝塔函数 B(P,Q)\Beta(P, Q)B(P,Q) 0.2 伽马函数 Γ(x)\Gamma(x)Γ(x) 1. 贝塔分布 (Beta Distribution) ...

最新文章

  1. Visual Studio 11增强HTML5和JS的支持
  2. 从Linux内核中获取真随机数【转】
  3. mysql动态分区_MySQL动态创建分区
  4. 形式化方法、《大象:Thinking in UML》
  5. pythonATM自动存取款机7天密码保护
  6. 框架学习之Hibernate 第十节 事务原理与分析
  7. php从头部添加,php如何向header头添加Authorization信息?
  8. OpenGL shader 中关于顶点坐标值的思考
  9. 电大计算机考试将网页保存到桌面,电大计算机网考小抄.pdf
  10. Azkaban的Web Server源码探究系列22: 一次性执行execute的提交准备
  11. Taints和Tolerations联用,将pod部署到k8s的master节点
  12. 蓝牙通信-搜索附近的蓝牙设备
  13. 2018计算机java二级题库6_2018年计算机二级考试JAVA试题及答案六
  14. Pycharm中英文语言切换以及背景色更改问题
  15. (一)目标检测经典模型回顾
  16. 444 nginx_nginx发布静态资源
  17. 吉洪诺夫正则化(Tikhonov regularization )
  18. 打开chm手册显示已取消到该网页的导航
  19. 计算机的新兴技术在测绘工程领域的应用,测绘新技术在测绘工程测量中应用探讨.doc...
  20. Chef入门详解 Chef安装 Chef使用

热门文章

  1. 【java】学生成绩分级ABCDE(起点闭关计划)
  2. 百度经纬度坐标转换官方方法
  3. 今天终于弄懂了Linux输入法是怎么会事了
  4. 查询用户uid和gid_在AIX上标准化用户UID和GID号
  5. 低功耗设计(一) —— 设计原理
  6. 直播技术中的编解码、直播协议、网络传输与简单实现
  7. 【20190423】【笔经、面经集】2019年暑期实习找工作经历,分享给大家,也给自己长个记性~(持续更新)
  8. 快捷提交代码到Github
  9. Red Hat Ansible Automation Platform 安装
  10. NOIp2011数字反转