贝叶斯推断

1、背景

概率论中频率学派(frequentist)与贝叶斯学派(bayeser)关于概率对象的分配是存在歧义的。频率学派认为,仅有数据样本服从概率分布,而参数是数值未知的固定值,其P值及置信区间是基于长期重复采样下的频率特性。而贝叶斯学派认为,无论是数据或是参数都是可以具有概率分布的,因而贝叶斯定理可用于了解不可观测的参数概率以及可观测的数据样本。

2、基础知识

贝叶斯定理:
P(A∣B)=P(A)⋅P(B∣A)P(A)P(A|B)=\frac{P(A) \cdot P(B|A)}{P(A)} P(A∣B)=P(A)P(A)⋅P(B∣A)​

3、贝叶斯推断-理论

已知样本数据y=(y1,y2,⋯,yn)\bm{y}=(y_{1},y_{2},\cdots,y_{n})y=(y1​,y2​,⋯,yn​),求解参数θ\bm{\theta}θ的贝叶斯估计。参数θ\bm{\theta}θ和数据样本y\bm{y}y的联合分布P(y,θ)P(\bm{y},\bm{\theta})P(y,θ)可以分解为P(θ)P(\bm{\theta})P(θ)与P(y∣θ)P(\bm{y}|\bm{\theta})P(y∣θ)的乘积。故条件密度P(θ∣y)P(\bm{\theta}|\bm{y})P(θ∣y)可以表达为:
P(θ∣y)=P(y,θ)P(y)=P(θ)⋅P(y∣θ)P(y)P(\bm{\theta}|\bm{y})=\frac{P(\bm{y},\bm{\theta})}{P(\bm{y})}=\frac{P(\bm{\theta}) \cdot P(\bm{y}|\bm{\theta})}{P(\bm{y})}P(θ∣y)=P(y)P(y,θ)​=P(y)P(θ)⋅P(y∣θ)​
P(θ∣y)P(\bm{\theta}|\bm{y})P(θ∣y)是基于样本数据y\bm{y}y的参数θ的\bm{\theta}的θ的后验概率(密度)。
P(θ)P(\bm{\theta})P(θ)是参数θ\bm{\theta}θ的先验分布,该分布是不基于观测样本信息,而是基于样本数据之外的信息,如曾经的经验或是主观的专家建议等,通常认为这部分信息是暂时的且不完成的。
P(y∣θ)P(\bm{y}|\bm{\theta})P(y∣θ)被认为是y\bm{y}y固定的,关于参数θ\bm{\theta}θ的函数,即似然函数。
P(y)P(\bm{y})P(y)是联合分布关于y\bm{y}y的边际分布,通常是使得P(θ∣y)P(\bm{\theta}|\bm{y})P(θ∣y)满足概率性质的常数。

4、贝叶斯推断-示例

4.1、问题描述

假设一枚硬币并非质地均匀的,即投掷该枚硬币头朝上的概率并不一定是0.5,令θ\bm{\theta}θ为头面朝上的概率。实验NNN次,其中YYY次,头面朝上,讨论θ\bm{\theta}θ。

4.2、贝叶斯推断推理过程

4.2.1、先验分布的确定

通常会以Y/NY/NY/N作为θ\bm{\theta}θ的估计值,但这真的准确么,当N=100,Y=48N=100,Y=48N=100,Y=48时,0.48即是θ\bm{\theta}θ的估计值。但这种情况我们更愿意相信硬币质地是均匀的,因为质地均匀的硬币投掷100次,其中48次朝上是完全有可能的。因而,与其认为θ=0.48\bm{\theta}=0.48θ=0.48,贝叶斯学派更愿意假设θ\bm{\theta}θ的先验分布,以进行更进一步的研究。
假设θ\bm{\theta}θ的先验分布是贝塔分布,即:
P(θ)=θα−1⋅(1−θ)β−1B(α,β)P(\bm{\theta})=\frac{\theta^{\alpha-1}\cdot (1-\theta)^{\beta-1}}{B(\alpha,\beta)}P(θ)=B(α,β)θα−1⋅(1−θ)β−1​
根据贝塔分布性质可知,
E(θ)=μ=αα+βE(\theta)=\mu=\frac{\alpha}{\alpha+\beta}E(θ)=μ=α+βα​
Var(θ)=σ2=α⋅β(α+β)2⋅(α+β+1)Var(\theta)=\sigma^2=\frac{\alpha\cdot \beta}{(\alpha+\beta)^2\cdot (\alpha+\beta+1)}Var(θ)=σ2=(α+β)2⋅(α+β+1)α⋅β​
反解α,β\alpha,\betaα,β:
α=(1−μσ2−1μ)⋅μ2\alpha=(\frac{1-\mu}{\sigma^2}-\frac{1}{\mu})\cdot \mu^2α=(σ21−μ​−μ1​)⋅μ2
β=α⋅(1μ−1)\beta=\alpha\cdot (\frac{1}{\mu}-1)β=α⋅(μ1​−1)
可以根据反解公式依据我们喜欢的期望方差性质设定α,β\alpha,\betaα,β。

4.2.2、由先验推后验

投掷硬币头朝上的随机服从伯努利分布B(n,θ)B(n,\theta)B(n,θ),即数据样本似然分布是:
P(y∣θ)=Cny⋅θy⋅(1−θ)n−yP(\bm{y}|\bm{\theta})=C_n^y\cdot \theta^y\cdot (1-\theta)^{n-y}P(y∣θ)=Cny​⋅θy⋅(1−θ)n−y
现根据先验分布,从样本数据中学习后验分布,利用贝叶斯定理可知:
P(θ∣y)=P(θ)⋅P(y∣θ)∫P(y,θ)dθP(\bm{\theta}|\bm{y})=\frac{P(\bm{\theta}) \cdot P(\bm{y}|\bm{\theta})}{\int{P(\bm{y},\bm{\theta})d\bm{\theta}}}P(θ∣y)=∫P(y,θ)dθP(θ)⋅P(y∣θ)​
将先验分布及似然分布带入分子即有:
P(θ)⋅P(y∣θ)=θα−1⋅(1−θ)β−1B(α,β)⋅Cny⋅θy⋅(1−θ)n−y=Cny⋅θα+y−1⋅(1−θ)β+n−y−1B(α,β)P(\bm{\theta}) \cdot P(\bm{y}|\bm{\theta})=\frac{\theta^{\alpha-1}\cdot (1-\theta)^{\beta-1}}{B(\alpha,\beta)}\cdot C_n^y\cdot \theta^y\cdot (1-\theta)^{n-y}=C_n^y\cdot \frac{\theta^{\alpha+y-1}\cdot (1-\theta)^{\beta+n-y-1}}{B(\alpha,\beta)}P(θ)⋅P(y∣θ)=B(α,β)θα−1⋅(1−θ)β−1​⋅Cny​⋅θy⋅(1−θ)n−y=Cny​⋅B(α,β)θα+y−1⋅(1−θ)β+n−y−1​
将先验分布及似然分布带入分布有:
∫P(y,θ)dθ=∫Cny⋅θα+y−1⋅(1−θ)β+n−y−1B(α,β)dθ=CnyB(α,β)⋅∫θα+y−1⋅(1−θ)β+n−y−1dθ=Cny⋅B(α+y,β+n−y)B(α,β)\int{P(\bm{y},\bm{\theta})d\bm{\theta}}=\int{C_n^y\cdot \frac{\theta^{\alpha+y-1}\cdot (1-\theta)^{\beta+n-y-1}}{B(\alpha,\beta)}d\theta}=\frac{C_n^y}{B(\alpha,\beta)}\cdot \int{\theta^{\alpha+y-1}\cdot (1-\theta)^{\beta+n-y-1}d\theta}=C_n^y\cdot \frac{B(\alpha+y,\beta+n-y)}{B(\alpha,\beta)}∫P(y,θ)dθ=∫Cny​⋅B(α,β)θα+y−1⋅(1−θ)β+n−y−1​dθ=B(α,β)Cny​​⋅∫θα+y−1⋅(1−θ)β+n−y−1dθ=Cny​⋅B(α,β)B(α+y,β+n−y)​
分子分母带入贝叶斯公式,即有:
P(θ∣y)=θα+y−1⋅(1−θ)β+n−y−1B(α+y,β+n−y)P(\bm{\theta}|\bm{y})=\frac{\theta^{\alpha+y-1}\cdot (1-\theta)^{\beta+n-y-1}}{B(\alpha+y,\beta+n-y)}P(θ∣y)=B(α+y,β+n−y)θα+y−1⋅(1−θ)β+n−y−1​
后验分布P(θ∣y)P(\bm{\theta}|\bm{y})P(θ∣y)服从分布Beta(α+y,β+n−y)Beta(\alpha+y,\beta+n-y)Beta(α+y,β+n−y)。

4.3贝叶斯推断结果

后验分布P(θ∣y)P(\bm{\theta}|\bm{y})P(θ∣y)代表了基于观测数据y\bm{y}y的参数θ\bm{\theta}θ的全部信息,我们任何关于θ\bm{\theta}θ的说法都须基于该后验分布。如我们可以将后验分布的期望、中位数、众数作为参数θ\bm{\theta}θ的点估计。当然我们也可以寻找参数θ\bm{\theta}θ的区间估计,我们称θ\bm{\theta}θ的可信区间(credible interval),如可信度为95%的可信区间[a,b][a,b][a,b],代表参数落入该区间的可能性为95%。可信区间不同于置信区间(confidence interval),置信区间含义是,重复采样平均情况下,仅有95%的情况下置信区间会包含该参数估计。

5、后记

先验分布的选取通常是有技巧的,常常选取先验分布与后验分布具有相同类型,称为共轭先验,例如示例中,先验分布为贝塔分布,在似然分布是二项分布时,后验分布也是贝塔分布,即成贝塔分布在似然分布是二项分布时是共轭先验分布。选择共轭先验分布,会使得在求解后验分布表达式时的积分值易于求解。

6、参考

本文来自家教学生的课程知识(decision and risk),若有侵权请及时联系,本人立即删改。本文由英文版本经本作者加工理解而写,仅供本人自己学习所用,不准勿喷。

那些年我做家教学过的东西_决策与风险decision and risk_1_贝叶斯推断Bayes Inference相关推荐

  1. 用“真快乐”切入社交电商后,国美做“家装”能否多点开花?

    成立三十多年,国美经历过最好年代,也错过了最好的年代.曾经国美作为零售霸主可谓风光无限,2004年上市随即创始人黄光裕就成为了胡润百富榜首富,但如今国美市占比仅达5.3%跌落零售霸主神坛. 今年黄光裕 ...

  2. “躺平家”出世,阿里做家装成不成?

    比买房更让消费者心累的莫过于装修了. 大到装修整体风格,小到灯具的颜色,无一例外都需要消费者费心费力挑选.想找一站式全包式的装修服务呢又太贵,亲力亲为却总有踩不完的坑.可以说,消费者是谈装修色变. 而 ...

  3. 装修房子流程攻略 让你不再做家装小白

    装修房子可是一个大工程,特别是对于许多第一次装修房子的业主来说,对于装修更是一无所知,所以这个时候装修流程就很重要了.现在我们就一起来看下装修房子流程攻略,包你看完以后,再也不是家装小白了. 装修房子 ...

  4. 任务驱动在计算机教学中的应用,浅谈任务驱动法在《计算机应用基础》教学中的应用_优秀论文...

    <浅谈任务驱动法在<计算机应用基础>教学中的应用_优秀论文>由会员分享,可在线阅读,更多相关<浅谈任务驱动法在<计算机应用基础>教学中的应用_优秀论文(8页珍 ...

  5. 使用java做paypal开发时购买东西支付不成功的原因

    使用java做paypal开发时购买东西支付不成功的原因 没有设置网站习惯设定,登陆自己的paypal账户,在网站习惯设定上填写回调的url路径,这样就可以 支付成功了并且异步修改订单的状态. 支付成 ...

  6. 浅谈计算机教学论文,浅谈计算机在教学中的作用_优秀论文

    <浅谈计算机在教学中的作用_优秀论文>由会员分享,可在线阅读,更多相关<浅谈计算机在教学中的作用_优秀论文(5页珍藏版)>请在人人文库网上搜索. 1.浅谈计算机在教学中的作用论 ...

  7. 使用MATLAB贝叶斯工具箱(BNT),进行吉布斯采样(Gibbs Sampling)之前需要做的编译工作...

    使用BNT(Bayesian Networks Toolbox)进行推断时,内置了吉布斯采样算法(即gibbs_sampling_inf_engine),但是如果调用这个引擎做推断会报错.报错内容大概 ...

  8. 【译文】利用STAN做贝叶斯回归分析:Part 1 正态回归

    [译文]利用STAN做贝叶斯回归分析:Part 1 正态回归 作者 Lionel Hertzog 本文将介绍如何在R中做贝叶斯回归分析,你能在文末的参考文献中找到相关主题的更多信息. 贝叶斯回归 贝叶 ...

  9. 一定要做自己最内行的东西,一定要在自己本身的职位上来提升自己

    一定要做自己最内行的东西,一定要在自己本身的职位上来提升自己 转载于:https://www.cnblogs.com/omygod/archive/2009/12/09/1620159.html

最新文章

  1. 黄峥辞职,拼多多何去何从?
  2. 嵩天python笔记_第一篇python笔记
  3. 鸟哥的Linux私房菜(服务器)- 簡易 OpenWebMail 設定
  4. virtualbox 安装虚拟机(centos7) 并映射本地文件夹至虚拟机(增强工具)
  5. Jmeter常见问题
  6. zabbix监控部署 与添加主机
  7. Line RichEdit类
  8. 《第一本docker书》第4章 使用docker镜像和仓库 读书笔记
  9. PowerMock进行mock测试
  10. Java中的恒等于号怎么输入_Java---java基础语法03---运算符
  11. 对比三菱, 横河PLC快速入门 第一章
  12. 什么样的域名是一级域名?和二级域名有什么关系?
  13. ios相机黑边_iOS照相机去黑框
  14. 汽车维修企业管理【2】
  15. 极值点偏移问题的处理策略及探究(作业帮的毕冶老师总结)
  16. CVPR 2022 Oral | 视频文本预训练新SOTA!港大腾讯推出基于多项选择题的借口任务...
  17. Wavel Sequence HDU - 6078 (dp)
  18. 【JAVA工具类】批量修改文件名称修改成特定名称
  19. (26)盘古自研框架BackPropagation
  20. 灌水滴~~ 讨论下怎样用电脑上手机3GQQ的西游

热门文章

  1. 程序员都应该知道的福利
  2. 酷炫一款动态背景(HTML +js canvas)
  3. 工业智能网关BL110应用之63:如何实现智能楼宇控制BACnet 接入金鸽Modbus云平台
  4. 教你在微信头像上加口号,很实用!
  5. 2013再见,2014,在路上
  6. ds18b20温度转换指令_DS18B20温度传感器使用方法以及代码
  7. 湿度控制c语言程序,基于51单片机的湿度控制系统设计.doc
  8. TFT型液晶显示模块能够依据不同的需求分为几类?
  9. 微服务-Nacos动态配置中心
  10. AMOLED Demura技术分享