UA MATH566 统计理论 Bayes统计基础

共轭分布
- 基于后验概率预测新的观测值

Bayes统计思想的基础是Bayes公式
P(Ci∣A)=P(A,Ci)P(A)=P(A∣Ci)P(Ci)∑i=1nP(A∣Ci)P(Ci)P(C_i|A) = \frac{P(A,C_i)}{P(A)}= \frac{P(A|C_i)P(C_i)}{\sum_{i=1}^n P(A|C_i)P(C_i)}P(Ci∣A)=P(A)P(A,Ci)=∑i=1nP(A∣Ci)P(Ci)P(A∣Ci)P(Ci)

其中P(Ci)P(C_i)P(Ci)是先验概率，P(A∣Ci)P(A|C_i)P(A∣Ci)是似然，P(Ci∣A)P(C_i|A)P(Ci∣A)是后验概率。频率派统计关注的焦点是似然函数（样本信息），贝叶斯学派则使用似然函数（样本信息）与先验概率（先验信息）。

假设随机变量为XXX，定义在概率空间(Ω,F,Pθ)(\Omega,\mathcal{F},P_{\theta})(Ω,F,Pθ)上，f(x,θ)f(x,\theta)f(x,θ)是概率PθP_{\theta}Pθ的密度函数。贝叶斯统计认为θ\thetaθ也是一个随机变量，定义在参数空间Θ\ThetaΘ上，概率密度为π(θ)\pi(\theta)π(θ)，即先验密度。根据贝叶斯公式，给定一组样本X\textbf{X}X，参数的后验密度为
π(θ∣X)=f(X,θ)f(X)=∏i=1nf(xi∣θ)π(θ)∫Θ∏i=1nf(xi∣θ)π(θ)dθ\pi(\theta|\textbf{X}) = \frac{f(\textbf{X},\theta)}{f(\textbf{X})} = \frac{\prod_{i=1}^nf(x_i|\theta)\pi(\theta)}{\int_{\Theta} \prod_{i=1}^nf(x_i|\theta)\pi(\theta)d\theta}π(θ∣X)=f(X)f(X,θ)=∫Θ∏i=1nf(xi∣θ)π(θ)dθ∏i=1nf(xi∣θ)π(θ)

基于后验密度可以计算后验风险（参考UA MATH574M 统计学习I 监督学习理论），然后做一些统计决策。比如使用平方损失，后验均值就是参数的Bayes估计；使用绝对值损失，后验中位数就是参数的Bayes估计。后验密度的含义就是给定样本时参数的密度函数，因此用后验密度的分位点就可以构成参数的置信区间，何种置信区间叫做可信区间（Credible Intervals）。后验密度中与参数有关的部分被称为后验核（kernel），大部分分布凭核就可以识别出来，比如

分布	核
N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)	exp(−12σ2(x−μ)2)exp(-\frac{1}{2\sigma^2}(x-\mu)^2)exp(−2σ21(x−μ)2)
Γ(α,λ)\Gamma(\alpha,\lambda)Γ(α,λ)	xα−1e−λxx^{\alpha-1}e^{-\lambda x}xα−1e−λx
Beta(α,β)Beta(\alpha,\beta)Beta(α,β)	xα−1(1−x)β−1x^{\alpha-1}(1-x)^{\beta-1}xα−1(1−x)β−1

例1 假设Ber(p)Ber(p)Ber(p)中p∼Beta(α,β)p \sim Beta(\alpha,\beta)p∼Beta(α,β)，则
π(p∣X)∝p∑i=1nXi(1−p)n−∑i=1nXipα−1(1−p)β−1=p∑i=1nXi+α−1(1−p)n−∑i=1nXi+β−1\pi(p|\textbf{X}) \propto p^{\sum_{i=1}^nX_i}(1-p)^{n-\sum_{i=1}^nX_i}p^{\alpha-1}(1-p)^{\beta-1} = p^{\sum_{i=1}^nX_i+\alpha-1}(1-p)^{n-\sum_{i=1}^nX_i+\beta-1}π(p∣X)∝p∑i=1nXi(1−p)n−∑i=1nXipα−1(1−p)β−1=p∑i=1nXi+α−1(1−p)n−∑i=1nXi+β−1

这说明p∣X∼Beta(∑i=1nXi+α,n−∑i=1nXi+β)p|\textbf{X}\sim Beta(\sum_{i=1}^nX_i+\alpha,n-\sum_{i=1}^nX_i+\beta)p∣X∼Beta(∑i=1nXi+α,n−∑i=1nXi+β)

例2 假设多元分布(1;p1,⋯,pr)(1;p_1,\cdots,p_r)(1;p1,⋯,pr)中(p1,⋯,pr)∼Dir(α1,⋯,αr)(p_1,\cdots,p_r) \sim Dir(\alpha_1,\cdots,\alpha_r)(p1,⋯,pr)∼Dir(α1,⋯,αr)，则
π(p1,⋯,pr∣X)∝∏i=1rpi∑i=1nXi∏i=1rpiαi−1=∏i=1rpi∑i=1nXi+α−1\pi(p_1,\cdots,p_r|\textbf{X}) \propto \prod_{i=1}^r p_i^{\sum_{i=1}^n X_i} \prod_{i=1}^r p_i^{\alpha_i-1} = \prod_{i=1}^rp_i^{\sum_{i=1}^n X_i+\alpha-1}π(p1,⋯,pr∣X)∝i=1∏rpi∑i=1nXii=1∏rpiαi−1=i=1∏rpi∑i=1nXi+α−1

这说明(p1,⋯,pr)∣X∼Dir(∑i=1nX1+α1,⋯,∑i=1nXr+αr)(p_1,\cdots,p_r)|\textbf{X}\sim Dir(\sum_{i=1}^n X_1+\alpha_1,\cdots,\sum_{i=1}^n X_r+\alpha_r)(p1,⋯,pr)∣X∼Dir(∑i=1nX1+α1,⋯,∑i=1nXr+αr)，其中X1,⋯,XrX_1,\cdots,X_rX1,⋯,Xr都是Bernoulli变量。

共轭分布

上面的两个例子有一个很重要的性质，先验分布与后验分布都是beta分布，我们称这种先验分布与后验分布相同时的分布为共轭分布族，更准确一点，称Beta分布是Ber(p)Ber(p)Ber(p)的共轭分布族，从先验到后验的参数变换规则是
Beta(α,β)→Beta(∑i=1nXi+α,n−∑i=1nXi+β)Beta(\alpha,\beta) \to Beta(\sum_{i=1}^nX_i+\alpha,n-\sum_{i=1}^nX_i+\beta)Beta(α,β)→Beta(i=1∑nXi+α,n−i=1∑nXi+β)

下面列出了一些典型的共轭分布族的表：

统计模型	共轭分布族的参数变换
Ber(p)Ber(p)Ber(p)	Beta(α,β)→Beta(∑i=1nXi+α,n−∑i=1nXi+β)Beta(\alpha,\beta) \to Beta(\sum_{i=1}^nX_i+\alpha,n-\sum_{i=1}^nX_i+\beta)Beta(α,β)→Beta(∑i=1nXi+α,n−∑i=1nXi+β)
N(θ,σ02)N(\theta,\sigma_0^2)N(θ,σ02)，σ02\sigma^2_0σ02已知	N(θ1,1λ0)→N(λ0θ1+(n/σ02)Xˉλ0+n/σ02,σ02n+λ0σ02)N(\theta_1,\frac{1}{\lambda_0}) \to N(\frac{\lambda_0\theta_1 + (n/\sigma_0^2)\bar{X}}{\lambda_0+n/\sigma^2_0},\frac{\sigma_0^2}{n+\lambda_0\sigma^2_0})N(θ1,λ01)→N(λ0+n/σ02λ0θ1+(n/σ02)Xˉ,n+λ0σ02σ02)
Pois(λ)Pois(\lambda)Pois(λ)	Γ(α,β)→Γ(α+∑i=1nXi,β+n)\Gamma(\alpha,\beta) \to \Gamma(\alpha+\sum_{i=1}^n X_i,\beta+n)Γ(α,β)→Γ(α+∑i=1nXi,β+n)

基于后验概率预测新的观测值

基于样本X={X1,⋯,Xn}\textbf{X} = \{X_1,\cdots,X_n\}X={X1,⋯,Xn}预测新的观测值X∗X_*X∗，只需要根据下面的公式就可以计算出新观测值的分布：
fX∗∣X(x∗)=∫Θf(x∗∣θ)π(θ∣X)dθf_{X_*|\textbf{X}}(x_*) = \int_{\Theta} f(x_*|\theta)\pi(\theta|\textbf{X})d\thetafX∗∣X(x∗)=∫Θf(x∗∣θ)π(θ∣X)dθ

下面列出了上表共轭分布族的新观测值分布：

统计模型	共轭分布族新观测值的分布
Ber(p)Ber(p)Ber(p)	Ber(β+n−∑i=1nXiα+β+n)Ber(\frac{\beta + n - \sum_{i=1}^n X_i}{\alpha+\beta+n})Ber(α+β+nβ+n−∑i=1nXi)
N(θ,σ02)N(\theta,\sigma_0^2)N(θ,σ02)，σ02\sigma^2_0σ02已知	N(λ0θ1+(n/σ02)Xˉλ0+n/σ02,σ02n+λ0σ02+1λ0)N(\frac{\lambda_0\theta_1 + (n/\sigma_0^2)\bar{X}}{\lambda_0+n/\sigma^2_0},\frac{\sigma_0^2}{n+\lambda_0\sigma^2_0}+\frac{1}{\lambda_0})N(λ0+n/σ02λ0θ1+(n/σ02)Xˉ,n+λ0σ02σ02+λ01)
Pois(λ)Pois(\lambda)Pois(λ)	Negbin(∑i=1nXi+α,1n+β+1)Negbin(\sum_{i=1}^n X_i +\alpha,\frac{1}{n+\beta+1})Negbin(∑i=1nXi+α,n+β+11)

第三个结果是比较意外的，在共轭分布下，新观测服从负二项分布而不是原来的Poisson分布，这里给一个简单的推导：
fX∗∣X(x∗)=∫Θf(x∗∣θ)π(θ∣X)dθ=∫0∞λX∗X∗!e−λλα+∑i=1nXi−1(β+n)α+∑i=1nXiΓ(α+∑i=1nXi)e−(α+∑i=1nXi)λdλ=(β+n)α+∑i=1nXiΓ(α+∑i=1nXi)X∗!∫0∞λ∑i=1nXi+α+X∗−1e−(n+β+1)λdλ=(β+n)α+∑i=1nXiΓ(α+∑i=1nXi)X∗!Γ(α+∑i=1nXi+X∗)(n+β+1)∑i=1nXi+α+X∗=C∑i=1nXi+α+X∗−1∑i=1nXi+α(n+βn+β+1)n+∑i=1nXi(1n+β+1)X∗f_{X_*|\textbf{X}}(x_*) = \int_{\Theta} f(x_*|\theta)\pi(\theta|\textbf{X})d\theta \\ = \int_0^{\infty} \frac{\lambda^{X_*}}{X_*!}e^{-\lambda}\frac{\lambda^{\alpha+\sum_{i=1}^n X_i-1}(\beta+n)^{\alpha+\sum_{i=1}^nX_i}}{\Gamma(\alpha+\sum_{i=1}^nX_i)}e^{-(\alpha+\sum_{i=1}^nX_i)\lambda}d\lambda \\ = \frac{(\beta+n)^{\alpha+\sum_{i=1}^nX_i}}{\Gamma(\alpha+\sum_{i=1}^nX_i)X_{*}!}\int_0^{\infty} \lambda^{\sum_{i=1}^n X_i+\alpha+X_{*}-1}e^{-(n+\beta+1)\lambda}d\lambda \\ = \frac{(\beta+n)^{\alpha+\sum_{i=1}^nX_i}}{\Gamma(\alpha+\sum_{i=1}^nX_i)X_{*}!}\frac{\Gamma(\alpha+\sum_{i=1}^nX_i+X_{*})}{(n+\beta+1)^{\sum_{i=1}^n X_i + \alpha + X_{*}}} \\ = C_{\sum_{i=1}^n X_i + \alpha + X_{*}-1}^{\sum_{i=1}^n X_i + \alpha} \left( \frac{n+\beta}{n+\beta+1} \right)^{n+\sum_{i=1}^n X_i}\left( \frac{1}{n+\beta+1} \right)^{X_*}fX∗∣X(x∗)=∫Θf(x∗∣θ)π(θ∣X)dθ=∫0∞X∗!λX∗e−λΓ(α+∑i=1nXi)λα+∑i=1nXi−1(β+n)α+∑i=1nXie−(α+∑i=1nXi)λdλ=Γ(α+∑i=1nXi)X∗!(β+n)α+∑i=1nXi∫0∞λ∑i=1nXi+α+X∗−1e−(n+β+1)λdλ=Γ(α+∑i=1nXi)X∗!(β+n)α+∑i=1nXi(n+β+1)∑i=1nXi+α+X∗Γ(α+∑i=1nXi+X∗)=C∑i=1nXi+α+X∗−1∑i=1nXi+α(n+β+1n+β)n+∑i=1nXi(n+β+11)X∗

UA MATH566 统计理论 Bayes统计基础相关推荐

UA MATH566 统计理论 QE练习位置变换后的指数分布
UA MATH566 统计理论 QE练习位置变换后的指数分布 2016年1月第六题 2018年5月第六题 2016年1月第六题 Part a Joint likelihood is L(θ)=exp ...
UA MATH566 统计理论7 还有一个例子：推导卡方检验
UA MATH566 统计理论7 还有一个例子:推导卡方检验均值已知均值未知前面的文章中我们已经推导了Z检验和T检验,Z检验是方差已知时比较单个或两个正态总体均值的方法:T检验是方差未知时比较单 ...
UA MATH566 统计理论 QE练习题1
UA MATH566 统计理论 QE练习题1 第四题第五题第六题 2014年1月理论题目4-6. Ly9ibG9nLmNzZG4ubmV0L3dlaXhpbl80NDIwNzk3NA==,size ...
UA MATH566 统计理论1 充分统计量
UA MATH566 统计理论1 充分统计量指数族自然形式充分统计量 Neyman-Fisher因子分解定理 Bayes充分性最小充分统计量完备性分布族的完备性统计量的完备性辅助统计量 ...
UA MATH566 统计理论一个例题 Hierarchical Model的统计性质
UA MATH566 统计理论一个例题 Hierarchical Model的统计性质 Y∣X∼Pois(X)Y|X \sim Pois(X)Y∣X∼Pois(X) and X∼Γ(α,β)X \s ...
UA MATH566 统计理论推导卡方拟合优度检验
UA MATH566 统计理论推导卡方拟合优度检验卡方拟合优度检验主要是检验categorical data的,假设一共有ddd种category,每一种理论比例为pip_ipi,满足 ∑i=1 ...
UA MATH566 统计理论概念与定理总结
UA MATH566 统计理论概念与定理总结 Part 1 Exponential Family Tip 1: Form of Exponential Family f(x∣η)=h(x)exp⁡( ...
UA MATH566 统计理论 Fisher信息论的性质下
UA MATH566 统计理论 Fisher信息量的性质下辅助统计量的Fisher信息为0 分布族参数变换后的Fisher信息统计量的Fisher信息的有界性下面介绍一些Fisher信息量的常用 ...
UA MATH566 统计理论 Fisher信息量的性质上
UA MATH566 统计理论 Fisher信息量的性质上 Fisher信息量的定义 Fisher信息量的数学意义 C-R下界是由Fisher统计量定义的,在推导C-R下界的时候,我们只是把下界的逆定 ...

UA MATH566 统计理论 Bayes统计基础

UA MATH566 统计理论 Bayes统计基础

共轭分布

基于后验概率预测新的观测值

UA MATH566 统计理论 Bayes统计基础相关推荐

最新文章

热门文章