共轭分布、gamma分布、beta分布、dirichlet分布、卡方分布、t分布

1.共轭分布

在贝叶斯统计中,如果后验分布与先验分布属于同类(分布形式相同),则先验分布与后验分布被称为共轭分布,而先验分布被称为似然函数的共轭先验。

先验分布(prior):在没有看到观测数据时,由我们的经验给出来的参数的概率分布称为先验分布
似然函数(likelihood):关于统计模型中的参数的函数,表示模型参数中的可能性
后验分布(Posterior):考虑和给出相关证据或数据后所得到的条件概率分布

P(θ∣X)=P(X∣θ)P(θ)∫P(X∣θ)P(θ)dθ(P(θ)为先验分布,P(X∣θ)为似然函数,P(θ∣X)为后验分布)P(\theta|X) = \frac{P(X|\theta)P(\theta)}{\int P(X|\theta)P(\theta)d\theta}(P(\theta)为先验分布,P(X|\theta)为似然函数,P(\theta|X) 为后验分布)P(θ∣X)=∫P(X∣θ)P(θ)dθP(X∣θ)P(θ)​(P(θ)为先验分布,P(X∣θ)为似然函数,P(θ∣X)为后验分布)
这里分母可以理解为是正则化,使得最终概率相加为1,符合基本约束的作用(分母这里一直纠结,还不太理解)
这里后验分布 就正比于 先验分布*似然函数,如果当我们将似然函数和先验分布式子对应代入,正则化后所得后验分布与先验分布形式相同,那就说明他们是共轭分布。

举例:
就拿最简单的抛硬币来说,通常我们认为一枚硬币正常情况下,正面朝上的概率为1/2,这种在没有看到观测数据的情况下,由我们经验给出的概率值就是先验概率,但是贝叶斯统计中,正面朝上的概率是一个分布,即可能有很高的概率是1/2,也有一定的概率是其他值,这样的一个给定初始参数的一个概率分布就是先验分布,我们假设他服从beta分布P(π∣α,β)=πα−1(1−π)β−1B(α,β)P(\pi|\alpha,\beta) =\frac{\pi^{\alpha-1}(1-\pi)^{\beta-1}}{B(\alpha,\beta)}P(π∣α,β)=B(α,β)πα−1(1−π)β−1​

紧接着我们抛了n次硬币发现,结果x次正面,这时候我们就会根据我们的实验结果得到一个似然函数P(x∣n,π)=Cnxπx(1−π)n−xP(x|n,\pi) = C_n^x\pi^x(1-\pi)^{n-x}P(x∣n,π)=Cnx​πx(1−π)n−x,这个似然函数反应了当前参数下出现这种结果的似然性,(极大似然估计中的参数theta是未知的,这里theta是有了先验分布的)

P(x∣n,π)P(π∣α,β)=Cnxπx(1−π)n−xπα−1(1−π)β−1B(α,β)=Cnxπx+α−1(1−π)n−x+β−1B(α,β)=Cnxbeta(x+α,n−x+β)∝beta(x+α,n−x+β)P(x|n,\pi)P(\pi|\alpha,\beta)=C_n^x\pi^x(1-\pi)^{n-x} \frac{\pi^{\alpha-1}(1-\pi)^{\beta-1}}{B(\alpha,\beta)}=\frac{C_n^x\pi^{x+\alpha-1}(1-\pi)^{n-x+\beta-1}}{B(\alpha,\beta)}=C_n^xbeta(x+\alpha,n-x+\beta)\propto beta(x+\alpha,n-x+\beta)P(x∣n,π)P(π∣α,β)=Cnx​πx(1−π)n−xB(α,β)πα−1(1−π)β−1​=B(α,β)Cnx​πx+α−1(1−π)n−x+β−1​=Cnx​beta(x+α,n−x+β)∝beta(x+α,n−x+β)
这里得到的便是与后验分布成正比的一个新的参数公式,即后验分布仍然是一个beta分布,所以beta分布就是一个共轭分布,同样二项分布也是一个共轭分布,(之前一直纳闷看到beta分布和二项分布是共轭分布,原来指的是beta分布是共轭分布,二项分布也是共轭分布,还以为他们两个是1和-1是相反数这种关系一样,所以一直和概念对不上,现在明白了)

共轭分布的意义在于因为后验分布和先验分布形式相近,只是参数有所不同,这意味着当我们获得新的观察数据时,我们就能直接通过参数更新,获得新的后验分布,此后验分布将会在下次新数据到来的时候成为新的先验分布。如此一来,我们更新后验分布就不需要通过大量的计算,十分方便。

2.beta分布

beta分布其实是一个对概率求概率分布的分布,就比如上面的硬币正面朝上概率的概率分布
概率密度函数:fx(x;α,β)=xα−1(1−x)β−1B(α,β)f_x(x;\alpha,\beta)=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{B(\alpha,\beta)}fx​(x;α,β)=B(α,β)xα−1(1−x)β−1​
其中B(α,β)=∫01μα−1(1−μ)β−1dμB(\alpha,\beta)=\int_0^1\mu^{\alpha-1}(1-\mu)^{\beta-1}d\muB(α,β)=∫01​μα−1(1−μ)β−1dμ

期望:E(X)=αα+βE(X) = \frac{\alpha}{\alpha+\beta}E(X)=α+βα​
方差:V(X)=αβ(α+β)2(α+β+1)V(X) = \frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}V(X)=(α+β)2(α+β+1)αβ​

3.gamma分布

前一篇文章,我们讲了指数分布,他是用来描述要等到一个随机事件的发生需要多长时间,相比于指数分布,gamma分布就是指数分布的拓展,他描述的是要等到n个随机事件都发生需要多长时间

概率密度函数:fx(x;α,β)=βαΓ(α)xα−1e−βxf_x(x;\alpha,\beta) = \frac{\beta^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\beta x}fx​(x;α,β)=Γ(α)βα​xα−1e−βx
其中Γ(α)=∫0∞tα−1e−tdt\Gamma(\alpha)=\int_0^\infin t^{\alpha-1}e^{-t}dtΓ(α)=∫0∞​tα−1e−tdt

期望:E(X)=αβE(X) = \frac{\alpha}{\beta}E(X)=βα​
方差:V(x)=αβ2V(x) = \frac{\alpha}{\beta ^2}V(x)=β2α​

关于gamma分布,这篇答文写的比较好

4.狄利克雷分布(Dirichlet)

狄利克雷分布 是beta分布在多维度上的推广,Beta分布是二项式分布的共轭先验,Dirichlet分布是多项式分布的共轭先验,其实将我们上述硬币的例子改为骰子,也就是将beta分布改为了Dirichlet分布

他的密度函数为:

5.卡方分布(Chi-squared)与 卡方检验

若n个相互独立的随机变量ξ1,ξ2,……,ξn\xi_1,\xi_2,……,\xi_nξ1​,ξ2​,……,ξn​均服从标准正态分布,则这n个服从标准正态分布的变量的平方和构成一个新的随机变量,这个新的随机变量分布规律服从卡方分布

概率密度函数:

期望:E(χ2(v))=vE(\chi^2(v)) = vE(χ2(v))=v
方差:V(χ2(v))=2vV(\chi^2(v)) = 2vV(χ2(v))=2v

自由度(degree of freedom, df) 指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本数量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数
性质:

1.卡方分布在第一象限内,都是正值,随着参数vvv的增大,卡方分布逐渐趋向于正态分布
2.卡方分布随着自由度v的增大,卡方分布向正无穷方向延伸,因为均值v越来越大,同时方差2v也越来越大,所以也更宽阔
3.不同的自由度决定不同的卡方分布,自由度越小,分布越偏斜。
4.若χ(v1)和χ(v2)相互独立,则χ(v1)+χ(v2)\chi(v_1)和\chi(v_2)相互独立,则\chi(v_1)+\chi(v_2)χ(v1​)和χ(v2​)相互独立,则χ(v1​)+χ(v2​)服从卡方分布,并且自由度为v1+v2v_1 + v_2v1​+v2​

卡方分布的一个应用在于卡方检验:
卡方检验就是统计样本的实际观测值与理论推断值之间的偏离程度,实际观测值与理论推断值之间的偏离程度就决定卡方值的大小,如果卡方值越大,二者偏差程度越大;反之,二者偏差越小;若两个值完全相等时,卡方值就为0,表明理论值完全符合。

卡方检验的计算公式为χ2=∑(A−T)2T\chi^2 = \sum\frac{(A-T)^2}{T}χ2=∑T(A−T)2​
举个卡方检验的例子:
这篇文章的例子举得很好

在假设检验中,拒绝域就是拒绝该假设的取值范围,拒绝域的大小和检验水平取值α\alphaα有关,常用α\alphaα取值由0.1,0.05,0.01,α\alphaα越小,表示拒绝域就越小,就越难拒绝原假设。假设我们现在单边检验α=0.05\alpha=0.05α=0.05,拒绝域的边界就是该假设检验的临界值,也就是我们通常查表的值,查表的值就代表,当前我们这个分布在这一点x, 1−P(X<x)=0.051-P(X<x) = 0.051−P(X<x)=0.05, 对于大于x的点,就落入了拒绝域,所以平时我们求得的值如果小于临界值就接受,否则就拒绝

6.t分布与t检验

假设X服从标准正态分布N(0,1),Y服从χ2(n)\chi^2(n)χ2(n)分布,那么Z=XY/nZ=\frac{X}{\sqrt{Y/n}}Z=Y/n​X​就称为自由度为n的t分布,随着自由度n的逐渐增大,它更趋向于标准正态分布,常常用于根据小样本来估计呈正态分布且方差值未知的样本的均值,

概率密度函数:fZ(x)=Γ(n+12)nπΓ(n/2)(1+x2n)−n+12f_Z(x)=\frac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(n/2)}(1+\frac{x^2}{n})^{-\frac{n+1}{2}}fZ​(x)=nπ​Γ(n/2)Γ(2n+1​)​(1+nx2​)−2n+1​
期望:E(Z)=0其中(n>1)E(Z) = 0 其中(n>1)E(Z)=0其中(n>1)
方差:D(Z)=nn−2其中(n>2)D(Z) =\frac{n}{n-2} 其中(n>2)D(Z)=n−2n​其中(n>2)

t分布可以应用在t检验:
t检验,通常会应用于三种情况的检验,分别是单样本t检验、双样本t检验和配对样本t检验。

1.单样本t检验: 单样本t检验就是用于检验一列变量均值与某一特定数字间有无统计学差异,单样本t检验也称为样本均值(xbar)和总体均值(μ)的比较性检验,对于该检验方法而言,要求样本满足两个前提假设,分别是样本服从正态分布假设,以及样本之间满足独立性假设(即样本之间不存在相关性)。下面利用统计学中的四步法完成单样本t检验:

例题:工商局在检验某厂商生成的矿泉水时,需要验证矿泉水的净含量是否如厂商所说的550ml?

第一步:提出原假设和备择假设

         原假设:H(0):样本均值和总体均值相等备择假设:H(1):样本均值和总体均值不等

第二步:构造统计量
t=X‾−μsn∼t(n−1)t = \frac{\overline{X}-\mu}{\frac{s}{\sqrt{n}}} \sim t(n-1)t=n​s​X−μ​∼t(n−1)
其中,s为样本标准差。在原假设满足的情况下,t统计量服从自由度为n-1的t分布。

第三步:计算t统计量
根据如上数据,可计算样本均值X‾\overline{X}X为550.75,样本标准差s为4.25,所以t统计量的值为0.706

第四步:查表
对比计算的t统计量和理论t分布的临界值,如果统计量的值大于临界值,则拒绝原假设(即认为样本均值与总体均值之间存在显著的差异),否则接受原假设。参照t分布的临界值表,在置信水平为0.05,自由度为15的情况下,对应的临界值为0.821。对比发现,t统计量0.706是小于临界值0.821的,故不能拒绝原假设,即认为饮料净含量的检验结果是合格的。

2.独立样本t检验
独立样本t检验,是针对两组不相关样本(各样本量可以相等也可以不相等),检验它们在某数值型指标上,均值之间的差异。对于该检验方法而言,同样需要满足两个前提假设,即样本服从正态分布,且样本之间不存在相关性。与单样本t检验相比,还存在一个非常重要的差异,就是构造t统计量时需要考虑两组样本的方差是否满足齐性(即方差相等)。

例题:在某次校园体检中,校长很关心初二年级和初三年级学生在视力方面是否存在一定的差异?
第一步:提出原假设和备择假设

原假设:两独立样本变量均值相等
备择假设:两独立样本变量均值不等

第二步:构建统计量
当两组样本方差相等时:

其中,n1为样本组1的样本量,n2为样本组2的样本量,S1,22S_{1,2}^{2}S1,22​由两组样本的方差构成,它的计算公式为:

在原假设满足的情况下,t统计量服从自由度为n1+n2-2的t分布。

当两组方差不等时:

其中,df为方差不相等时,t统计量的自由度,其计算公式如下:

第三步:计算统计量
在计算t统计量之前,应该检验两样本之间的方差是否相等。方差齐次性检验
第四步:查表

3.配对样本t检验

配对样本t检验,是针对同一组样本在不同场景下,某数值型指标均值之间的差异。实际上读者也可以将该检验理解为单样本t检验,检验的是两配对样本差值的均值是否等于0,如果等于0,则认为配对样本之间的均值没有差异,否则存在差异。所以,该检验也遵循两个前提假设,即正态性分布假设和样本独立性假设。下面利用统计学中的四步法完成配对样本的t检验

第一步:提出原假设和备择假设

原假设:两配对样本均值相等
备择假设:两配对样本均值不等

第二步:构造t统计量
t=X‾−0sn∼t(n−1)t = \frac{\overline{X}-0}{\frac{s}{\sqrt{n}}} \sim t(n-1)t=n​s​X−0​∼t(n−1)
其中,X‾\overline{X}X为配对样本差的均值,s为配对样本差的标准差。在原假设满足的情况下,t统计量服从自由度为n-1的t分布。

第三步:计算统计量
根据步骤二中的计算公式,可以计算得到配对样本t检验的统计量值,这里不妨以我国各省2016年和2017年的人均可支配收入数据为例(数据来源于中国统计局),判断2016年和2017年该指标是否存在显著差异。

第四步:查表

probility and statistic(4) gamma分布、beta分布、dirichlet分布、卡方分布、t分布相关推荐

  1. 统计学(1)二项分布 几何分布 泊松分布 指数分布 正态分布 gamma分布 beta分布

    分布与分布关系 1.二项分布 2.几何分布 3.泊松分布 4.二项分布转化泊松分布,泊松转化正态分布 5.指数分布 6.gamma分布 7.泊松.指数.gamma三者关系 8.Beta分布 1.二项分 ...

  2. 各类分布----二项分布,泊松分布,负二项分布,gamma 分布,高斯分布,学生分布,Z分布...

    伯努利实验: 如果无穷随机变量序列  是独立同分布(i.i.d.)的,而且每个随机变量  都服从参数为p的伯努利分布,那么随机变量  就形成参数为p的一系列伯努利试验.同样,如果n个随机变量  独立同 ...

  3. 分布问题(二元,多元变量分布,Beta,Dir)

    这涉及到数学的概率问题. 二元变量分布:       伯努利分布,就是0-1分布(比如一次抛硬币,正面朝上概率) 那么一次抛硬币的概率分布如下: 假设训练数据如下: 那么根据最大似然估计(MLE),我 ...

  4. 狄利克雷分布公式_Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)...

    Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程) Dirichlet Distribution(狄利克雷分布)与Dirichlet Pr ...

  5. 常用的概率分布:二项式分布,贝塔分布,狄里克雷分布

    知识点:伯努利分布.二项式分布.多项式分布.先验概率,后验概率,共轭分布.贝塔分布.贝塔-二项分布.负二项分布.狄里克雷分布,伽马函数.分布 一,伯努利分布(bernouli distribution ...

  6. t分布 u分布 卡方分布_f分布t分布与卡方分布

    <f分布t分布与卡方分布>由会员分享,可在线阅读,更多相关<f分布t分布与卡方分布(8页珍藏版)>请在人人文库网上搜索. 1.1.4 常用的分布及其分位数1. 卡平方分布卡平方 ...

  7. Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程)

    Dirichlet Distribution(狄利克雷分布)与Dirichlet Process(狄利克雷过程) 请看,我师兄的写的文章http://www.datalearner.com/blog/ ...

  8. 2×3卡方检验prism_抽样分布之卡方分布02 – 分布拟合优度检验

    前一篇说了卡方分布的定义和来由,以及卡方统计量,这次介绍下如何像卡尔·皮尔逊(Karl·Pearson)一样通过卡方统计量来做分布拟合优度检验Goodness-of-fit Test for Dist ...

  9. 狄利克雷过程(dirichlet process )和分布

    狄利克雷过程(dirichlet process )是目前变参数学习(non parameter)非常流行的一个理论,很多的工作都是基于这个理论来进行的,如HDP(hierarchical diric ...

最新文章

  1. mongodb - 前端form表单数据传输,在保存和清除的数据格式的处理程序的 - 非递归...
  2. TBluetoothLE.OnDisconnectDevice
  3. 批处理以当前时间为文件名创建文件
  4. SpringBoot学习系列之一
  5. linux bash source 0,linux中BASH_SOURCE[0](转)
  6. Vue.js 相关知识(动画)
  7. 静态的html页面想要设置使用浏览器缓存
  8. PS基础教程[1]如何制作微信泡泡
  9. Thinkphp 实现上一篇与下一篇的方法
  10. intellij 出现“Usage of API documented as @since 1.8+”的解决办法
  11. win7 32位机安装VMware win7 64位虚拟机
  12. 福禄克FLUKE BT521 BT520 BT510 BT508护航储能电池安全
  13. 读研规划,准研究生们看看哦!!!!!!!!!!!!!
  14. Php区分自然量跟aso量,ASO优化——判断下载量与评论的比例关系
  15. Django+Vue开发生鲜电商平台之3.数据模型设计和资源导入
  16. YUV转RGB(Android)
  17. 移动支付模式方面的技术
  18. 译:在ROS上发布Odometry信息
  19. js 排班插件_js jquery 实现 排班,轮班,日历,日程。使用fullcalendar 插件
  20. 《利用python进行数据分析》第二版 第14章-数据分析示例 学习笔记1

热门文章

  1. Archimate设计案例:银行门店数字化转型
  2. volatile与指针
  3. bShare分享-分享到微信、微博、QQ
  4. 团队协作远程办公,有哪些好用的app?
  5. 局域网ARP攻击问题
  6. 【网络安全】基于centos7搭建discuz+redis服务
  7. 闪灵s-cms 5.0 20220328版 去广告 破解过程 思路
  8. drupal心得:难的价值、未来趋势、拥抱王者
  9. 赫容俏的优势在哪里?
  10. 《Python数据可视化之Matplotlib与Pyecharts》之旭日图