UA MATH566 统计理论 Bayes统计基础

  • 共轭分布
    • 基于后验概率预测新的观测值

Bayes统计思想的基础是Bayes公式
P(Ci∣A)=P(A,Ci)P(A)=P(A∣Ci)P(Ci)∑i=1nP(A∣Ci)P(Ci)P(C_i|A) = \frac{P(A,C_i)}{P(A)}= \frac{P(A|C_i)P(C_i)}{\sum_{i=1}^n P(A|C_i)P(C_i)}P(Ci​∣A)=P(A)P(A,Ci​)​=∑i=1n​P(A∣Ci​)P(Ci​)P(A∣Ci​)P(Ci​)​

其中P(Ci)P(C_i)P(Ci​)是先验概率,P(A∣Ci)P(A|C_i)P(A∣Ci​)是似然,P(Ci∣A)P(C_i|A)P(Ci​∣A)是后验概率。频率派统计关注的焦点是似然函数(样本信息),贝叶斯学派则使用似然函数(样本信息)与先验概率(先验信息)。

假设随机变量为XXX,定义在概率空间(Ω,F,Pθ)(\Omega,\mathcal{F},P_{\theta})(Ω,F,Pθ​)上,f(x,θ)f(x,\theta)f(x,θ)是概率PθP_{\theta}Pθ​的密度函数。贝叶斯统计认为θ\thetaθ也是一个随机变量,定义在参数空间Θ\ThetaΘ上,概率密度为π(θ)\pi(\theta)π(θ),即先验密度。根据贝叶斯公式,给定一组样本X\textbf{X}X,参数的后验密度为
π(θ∣X)=f(X,θ)f(X)=∏i=1nf(xi∣θ)π(θ)∫Θ∏i=1nf(xi∣θ)π(θ)dθ\pi(\theta|\textbf{X}) = \frac{f(\textbf{X},\theta)}{f(\textbf{X})} = \frac{\prod_{i=1}^nf(x_i|\theta)\pi(\theta)}{\int_{\Theta} \prod_{i=1}^nf(x_i|\theta)\pi(\theta)d\theta}π(θ∣X)=f(X)f(X,θ)​=∫Θ​∏i=1n​f(xi​∣θ)π(θ)dθ∏i=1n​f(xi​∣θ)π(θ)​

基于后验密度可以计算后验风险(参考UA MATH574M 统计学习I 监督学习理论),然后做一些统计决策。比如使用平方损失,后验均值就是参数的Bayes估计;使用绝对值损失,后验中位数就是参数的Bayes估计。后验密度的含义就是给定样本时参数的密度函数,因此用后验密度的分位点就可以构成参数的置信区间,何种置信区间叫做可信区间(Credible Intervals)。后验密度中与参数有关的部分被称为后验核(kernel),大部分分布凭核就可以识别出来,比如

分布
N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2) exp(−12σ2(x−μ)2)exp(-\frac{1}{2\sigma^2}(x-\mu)^2)exp(−2σ21​(x−μ)2)
Γ(α,λ)\Gamma(\alpha,\lambda)Γ(α,λ) xα−1e−λxx^{\alpha-1}e^{-\lambda x}xα−1e−λx
Beta(α,β)Beta(\alpha,\beta)Beta(α,β) xα−1(1−x)β−1x^{\alpha-1}(1-x)^{\beta-1}xα−1(1−x)β−1

例1 假设Ber(p)Ber(p)Ber(p)中p∼Beta(α,β)p \sim Beta(\alpha,\beta)p∼Beta(α,β),则
π(p∣X)∝p∑i=1nXi(1−p)n−∑i=1nXipα−1(1−p)β−1=p∑i=1nXi+α−1(1−p)n−∑i=1nXi+β−1\pi(p|\textbf{X}) \propto p^{\sum_{i=1}^nX_i}(1-p)^{n-\sum_{i=1}^nX_i}p^{\alpha-1}(1-p)^{\beta-1} = p^{\sum_{i=1}^nX_i+\alpha-1}(1-p)^{n-\sum_{i=1}^nX_i+\beta-1}π(p∣X)∝p∑i=1n​Xi​(1−p)n−∑i=1n​Xi​pα−1(1−p)β−1=p∑i=1n​Xi​+α−1(1−p)n−∑i=1n​Xi​+β−1

这说明p∣X∼Beta(∑i=1nXi+α,n−∑i=1nXi+β)p|\textbf{X}\sim Beta(\sum_{i=1}^nX_i+\alpha,n-\sum_{i=1}^nX_i+\beta)p∣X∼Beta(∑i=1n​Xi​+α,n−∑i=1n​Xi​+β)

例2 假设多元分布(1;p1,⋯,pr)(1;p_1,\cdots,p_r)(1;p1​,⋯,pr​)中(p1,⋯,pr)∼Dir(α1,⋯,αr)(p_1,\cdots,p_r) \sim Dir(\alpha_1,\cdots,\alpha_r)(p1​,⋯,pr​)∼Dir(α1​,⋯,αr​),则
π(p1,⋯,pr∣X)∝∏i=1rpi∑i=1nXi∏i=1rpiαi−1=∏i=1rpi∑i=1nXi+α−1\pi(p_1,\cdots,p_r|\textbf{X}) \propto \prod_{i=1}^r p_i^{\sum_{i=1}^n X_i} \prod_{i=1}^r p_i^{\alpha_i-1} = \prod_{i=1}^rp_i^{\sum_{i=1}^n X_i+\alpha-1}π(p1​,⋯,pr​∣X)∝i=1∏r​pi∑i=1n​Xi​​i=1∏r​piαi​−1​=i=1∏r​pi∑i=1n​Xi​+α−1​

这说明(p1,⋯,pr)∣X∼Dir(∑i=1nX1+α1,⋯,∑i=1nXr+αr)(p_1,\cdots,p_r)|\textbf{X}\sim Dir(\sum_{i=1}^n X_1+\alpha_1,\cdots,\sum_{i=1}^n X_r+\alpha_r)(p1​,⋯,pr​)∣X∼Dir(∑i=1n​X1​+α1​,⋯,∑i=1n​Xr​+αr​),其中X1,⋯,XrX_1,\cdots,X_rX1​,⋯,Xr​都是Bernoulli变量。

共轭分布

上面的两个例子有一个很重要的性质,先验分布与后验分布都是beta分布,我们称这种先验分布与后验分布相同时的分布为共轭分布族,更准确一点,称Beta分布是Ber(p)Ber(p)Ber(p)的共轭分布族,从先验到后验的参数变换规则是
Beta(α,β)→Beta(∑i=1nXi+α,n−∑i=1nXi+β)Beta(\alpha,\beta) \to Beta(\sum_{i=1}^nX_i+\alpha,n-\sum_{i=1}^nX_i+\beta)Beta(α,β)→Beta(i=1∑n​Xi​+α,n−i=1∑n​Xi​+β)

下面列出了一些典型的共轭分布族的表:

统计模型 共轭分布族的参数变换
Ber(p)Ber(p)Ber(p) Beta(α,β)→Beta(∑i=1nXi+α,n−∑i=1nXi+β)Beta(\alpha,\beta) \to Beta(\sum_{i=1}^nX_i+\alpha,n-\sum_{i=1}^nX_i+\beta)Beta(α,β)→Beta(∑i=1n​Xi​+α,n−∑i=1n​Xi​+β)
N(θ,σ02)N(\theta,\sigma_0^2)N(θ,σ02​),σ02\sigma^2_0σ02​已知 N(θ1,1λ0)→N(λ0θ1+(n/σ02)Xˉλ0+n/σ02,σ02n+λ0σ02)N(\theta_1,\frac{1}{\lambda_0}) \to N(\frac{\lambda_0\theta_1 + (n/\sigma_0^2)\bar{X}}{\lambda_0+n/\sigma^2_0},\frac{\sigma_0^2}{n+\lambda_0\sigma^2_0})N(θ1​,λ0​1​)→N(λ0​+n/σ02​λ0​θ1​+(n/σ02​)Xˉ​,n+λ0​σ02​σ02​​)
Pois(λ)Pois(\lambda)Pois(λ) Γ(α,β)→Γ(α+∑i=1nXi,β+n)\Gamma(\alpha,\beta) \to \Gamma(\alpha+\sum_{i=1}^n X_i,\beta+n)Γ(α,β)→Γ(α+∑i=1n​Xi​,β+n)

基于后验概率预测新的观测值

基于样本X={X1,⋯,Xn}\textbf{X} = \{X_1,\cdots,X_n\}X={X1​,⋯,Xn​}预测新的观测值X∗X_*X∗​,只需要根据下面的公式就可以计算出新观测值的分布:
fX∗∣X(x∗)=∫Θf(x∗∣θ)π(θ∣X)dθf_{X_*|\textbf{X}}(x_*) = \int_{\Theta} f(x_*|\theta)\pi(\theta|\textbf{X})d\thetafX∗​∣X​(x∗​)=∫Θ​f(x∗​∣θ)π(θ∣X)dθ

下面列出了上表共轭分布族的新观测值分布:

统计模型 共轭分布族新观测值的分布
Ber(p)Ber(p)Ber(p) Ber(β+n−∑i=1nXiα+β+n)Ber(\frac{\beta + n - \sum_{i=1}^n X_i}{\alpha+\beta+n})Ber(α+β+nβ+n−∑i=1n​Xi​​)
N(θ,σ02)N(\theta,\sigma_0^2)N(θ,σ02​),σ02\sigma^2_0σ02​已知 N(λ0θ1+(n/σ02)Xˉλ0+n/σ02,σ02n+λ0σ02+1λ0)N(\frac{\lambda_0\theta_1 + (n/\sigma_0^2)\bar{X}}{\lambda_0+n/\sigma^2_0},\frac{\sigma_0^2}{n+\lambda_0\sigma^2_0}+\frac{1}{\lambda_0})N(λ0​+n/σ02​λ0​θ1​+(n/σ02​)Xˉ​,n+λ0​σ02​σ02​​+λ0​1​)
Pois(λ)Pois(\lambda)Pois(λ) Negbin(∑i=1nXi+α,1n+β+1)Negbin(\sum_{i=1}^n X_i +\alpha,\frac{1}{n+\beta+1})Negbin(∑i=1n​Xi​+α,n+β+11​)

第三个结果是比较意外的,在共轭分布下,新观测服从负二项分布而不是原来的Poisson分布,这里给一个简单的推导:
fX∗∣X(x∗)=∫Θf(x∗∣θ)π(θ∣X)dθ=∫0∞λX∗X∗!e−λλα+∑i=1nXi−1(β+n)α+∑i=1nXiΓ(α+∑i=1nXi)e−(α+∑i=1nXi)λdλ=(β+n)α+∑i=1nXiΓ(α+∑i=1nXi)X∗!∫0∞λ∑i=1nXi+α+X∗−1e−(n+β+1)λdλ=(β+n)α+∑i=1nXiΓ(α+∑i=1nXi)X∗!Γ(α+∑i=1nXi+X∗)(n+β+1)∑i=1nXi+α+X∗=C∑i=1nXi+α+X∗−1∑i=1nXi+α(n+βn+β+1)n+∑i=1nXi(1n+β+1)X∗f_{X_*|\textbf{X}}(x_*) = \int_{\Theta} f(x_*|\theta)\pi(\theta|\textbf{X})d\theta \\ = \int_0^{\infty} \frac{\lambda^{X_*}}{X_*!}e^{-\lambda}\frac{\lambda^{\alpha+\sum_{i=1}^n X_i-1}(\beta+n)^{\alpha+\sum_{i=1}^nX_i}}{\Gamma(\alpha+\sum_{i=1}^nX_i)}e^{-(\alpha+\sum_{i=1}^nX_i)\lambda}d\lambda \\ = \frac{(\beta+n)^{\alpha+\sum_{i=1}^nX_i}}{\Gamma(\alpha+\sum_{i=1}^nX_i)X_{*}!}\int_0^{\infty} \lambda^{\sum_{i=1}^n X_i+\alpha+X_{*}-1}e^{-(n+\beta+1)\lambda}d\lambda \\ = \frac{(\beta+n)^{\alpha+\sum_{i=1}^nX_i}}{\Gamma(\alpha+\sum_{i=1}^nX_i)X_{*}!}\frac{\Gamma(\alpha+\sum_{i=1}^nX_i+X_{*})}{(n+\beta+1)^{\sum_{i=1}^n X_i + \alpha + X_{*}}} \\ = C_{\sum_{i=1}^n X_i + \alpha + X_{*}-1}^{\sum_{i=1}^n X_i + \alpha} \left( \frac{n+\beta}{n+\beta+1} \right)^{n+\sum_{i=1}^n X_i}\left( \frac{1}{n+\beta+1} \right)^{X_*}fX∗​∣X​(x∗​)=∫Θ​f(x∗​∣θ)π(θ∣X)dθ=∫0∞​X∗​!λX∗​​e−λΓ(α+∑i=1n​Xi​)λα+∑i=1n​Xi​−1(β+n)α+∑i=1n​Xi​​e−(α+∑i=1n​Xi​)λdλ=Γ(α+∑i=1n​Xi​)X∗​!(β+n)α+∑i=1n​Xi​​∫0∞​λ∑i=1n​Xi​+α+X∗​−1e−(n+β+1)λdλ=Γ(α+∑i=1n​Xi​)X∗​!(β+n)α+∑i=1n​Xi​​(n+β+1)∑i=1n​Xi​+α+X∗​Γ(α+∑i=1n​Xi​+X∗​)​=C∑i=1n​Xi​+α+X∗​−1∑i=1n​Xi​+α​(n+β+1n+β​)n+∑i=1n​Xi​(n+β+11​)X∗​

UA MATH566 统计理论 Bayes统计基础相关推荐

  1. UA MATH566 统计理论 QE练习 位置变换后的指数分布

    UA MATH566 统计理论 QE练习 位置变换后的指数分布 2016年1月第六题 2018年5月第六题 2016年1月第六题 Part a Joint likelihood is L(θ)=exp ...

  2. UA MATH566 统计理论7 还有一个例子:推导卡方检验

    UA MATH566 统计理论7 还有一个例子:推导卡方检验 均值已知 均值未知 前面的文章中我们已经推导了Z检验和T检验,Z检验是方差已知时比较单个或两个正态总体均值的方法:T检验是方差未知时比较单 ...

  3. UA MATH566 统计理论 QE练习题1

    UA MATH566 统计理论 QE练习题1 第四题 第五题 第六题 2014年1月理论题目4-6. Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDIwNzk3NA==,size ...

  4. UA MATH566 统计理论1 充分统计量

    UA MATH566 统计理论1 充分统计量 指数族 自然形式 充分统计量 Neyman-Fisher因子分解定理 Bayes充分性 最小充分统计量 完备性 分布族的完备性 统计量的完备性 辅助统计量 ...

  5. UA MATH566 统计理论 一个例题 Hierarchical Model的统计性质

    UA MATH566 统计理论 一个例题 Hierarchical Model的统计性质 Y∣X∼Pois(X)Y|X \sim Pois(X)Y∣X∼Pois(X) and X∼Γ(α,β)X \s ...

  6. UA MATH566 统计理论 推导卡方拟合优度检验

    UA MATH566 统计理论 推导卡方拟合优度检验 卡方拟合优度检验主要是检验categorical data的,假设一共有ddd种category,每一种理论比例为pip_ipi​,满足 ∑i=1 ...

  7. UA MATH566 统计理论 概念与定理总结

    UA MATH566 统计理论 概念与定理总结 Part 1 Exponential Family Tip 1: Form of Exponential Family f(x∣η)=h(x)exp⁡( ...

  8. UA MATH566 统计理论 Fisher信息论的性质下

    UA MATH566 统计理论 Fisher信息量的性质下 辅助统计量的Fisher信息为0 分布族参数变换后的Fisher信息 统计量的Fisher信息的有界性 下面介绍一些Fisher信息量的常用 ...

  9. UA MATH566 统计理论 Fisher信息量的性质上

    UA MATH566 统计理论 Fisher信息量的性质上 Fisher信息量的定义 Fisher信息量的数学意义 C-R下界是由Fisher统计量定义的,在推导C-R下界的时候,我们只是把下界的逆定 ...

最新文章

  1. Netflix 开源用于 Spring Boot的 GraphQL 服务框架DGS
  2. 转载--web前端工程化
  3. 说说 Spring 事务管理的实现类
  4. 解决vs新建项目是模板丢失的问题
  5. 老司机实战Windows Server Docker:5 Windows Server Dockerfile葵花宝典
  6. 避免switch嵌套的一种方法
  7. swing组建的层次
  8. 【华为云技术分享】云容器引擎 CCE权限管理实践
  9. 软件工程实验报告三--需求分析及文档编写(模板)
  10. 小米4C关闭html查看器,小米4C解锁教程_小米4C一键解锁Bootloader的方法
  11. EasyExcel 固定(冻结)单元格
  12. 图文讲解Python数据可视化神器
  13. 计算机基础知识赏花主观题,春光无限好,正是花开时 快收好这份赏花指南!...
  14. 无线网络打印机服务器安装步骤,在win7安装带网络服务器的打印机步骤.ppt
  15. Analytic hierarchy process
  16. 【Linux学习-入门推荐】
  17. java里面的语法糖(糖衣语法)
  18. 关于PTA题目集1-3的总结
  19. WEB安全新玩法 [11] 防范批量注册
  20. 企鹅号如何开通流量主收益

热门文章

  1. GCN代码超详解析Two-stream adaptive graph convolutional network for Skeleton-Based Action Recognition(一)
  2. 电脑的cpu是怎么制作的?
  3. ubuntu 10.04源 更新源列表
  4. vue动态绑定class,tab切换非常好用
  5. Linux 技术篇-使用vim命令创建、编辑文件内容实例演示,linux修改文档方法
  6. JavaScript 技术篇-通过代码获取dom元素绑定的监听事件,chrome浏览器查看js元素绑定的监听事件
  7. STM32 HAL库 串口DMA(收发)和STM32串口中断接收(接收时间管理机制)+ESP8266 wifi模组通信问题
  8. stm32 systick定时器
  9. Y1ng‘s BabyCode
  10. opencv copyto函数