文章目录

第一章.绪论
- 一、常见随机变量分布
- - 1.二项分布：
  - 2.Poisson分布
  - 3.几何分布
  - 4.帕斯卡分布（负二项分布）
  - 5.多项分布（二项分布的推广）
  - 6.均匀分布
  - 7.指数分布
  - 8.正态分布
  - 9.柯西分布
  - 10.伽马分布
  - 11.逆伽马分布
  - 12.贝塔分布
  - 13.狄里克莱分布(贝塔分布的多维形式)
  - 14.帕累托分布
- 二. 联合分布,边缘分布,条件分布
- - 1.已知边缘分布和条件分布
  - 2.已知联合分布
- 三.基本概念
- - 1.指数族:
  - 2.充分统计量:
  - 3.因子分解定理:
  - 4.完备统计量:
  - 5.完全统计量判定:
  - 6.UMVUE:
  - 7.L-S定理:
  - 8.C-R不等式:
  - 9.N-P引理
  - 10.N-P引理推广
第二章.先验分布的选取
- 一.古典学派和贝叶斯学派
- 二.贝叶斯统计的基本概念
- - 1).参数的先验分布: $\pi (\theta)$
  - 2).参数的后验分布:$\pi(\theta|x_1,x_2,\cdots, x_n)$
- 三.后验分布的计算
- 四.先验分布函数形式的确定
- 五.超参数的确定
- - 1.先验分布具有明确的意义或信息
  - 2.利用边缘分布确定超参数(矩估计和MLE)
- 六.无信息先验分布
- - 1.贝叶斯假设
  - 2. 位置参数的无信息先验
  - 3.尺度参数的无信息先验
  - 4.一般情况:Jeffreys无信息先验
- 七.共轭先验分布
- - 1.共轭先验分布
  - 2.求共轭先验分布
- 八.多层先验分布
- 后验分布与充分性
- - 回顾充分统计量
  - 因子分解定理
  - 后验分布引理
- Reference先验
- - KL散度定义:
  - Reference先验
  - Reference先验计算
- 最大熵先验
- - 定理1(离散型):
  - 定理2(连续型):
第三章：贝叶斯统计推断
- 点估计
- - 1).最大后验估计:
  - 2).后验中位数估计:$\hat \theta_{ME}$
  - 3).后验期望估计:
  - 点估计的误差估计
- 区间估计
- 最大后验密度可信区间(HPD)
- - 1.定义(最大后验密度可信集):
  - 2.大样本方法
- 预测推断
- - 1.问题提出
  - 2.定义
- 假设检验:
- - 贝叶斯因子
  - 简单vs简单检验
  - 复杂-复杂检验
  - 简单-复杂检验
第四章：贝叶斯统计决策
- 一.概念
- - 1.样本空间和样本分布族
  - 2.决策空间: 统计决策问题可能采取的行动构成的非空集合.
  - 3.损失函数
  - 4.统计决策三要素
  - 5.风险函数
  - 6.贝叶斯风险
  - 7.后验风险
  - 8.贝叶斯先验风险
- 二.基本原理
- - 1.后验风险最小原则:
  - - 1).平方损失下的贝叶斯估计
    - 2).加权平方损失下的贝叶斯估计
    - 3.在绝对值损失下的贝叶斯估计
    - 4.在线性损失下的贝叶斯估计
- 三.最小最大准则
- - 定理一:
  - 定理二
- 四.区间估计的决策
- 五.假设检验的决策
第五章：贝叶斯计算方法
- 一.E-M算法
- 二.后验分布的相和性
- 后验分布的渐近正态性
第六章：贝叶斯大样本方法
第七章：贝叶斯模型选择
- 一正常先验下的贝叶斯因子
- 二非正常先验下的贝叶斯因子
- 三贝叶斯模型评价
第八章：经验贝叶斯

第一章.绪论

一、常见随机变量分布

1.二项分布：

如果随机变量的分布律为
p(X=k)=Cnkpk(1−p)n−k,(k=0,1,...,n)p(X=k)=C^k_np^k(1-p)^{n-k},(k=0,1,...,n)p(X=k)=Cnkpk(1−p)n−k,(k=0,1,...,n)

则称随机变量X服从参数为(n,p)(n,p)(n,p)的二项分布
记为X~B(n,p),(其中n为自然数，0<p<1为参数）

1). n重伯努利实验，关心事件发生次数的分布律
2）EX=np,DX=np(1−p)EX=np,DX = np(1-p)EX=np,DX=np(1−p)
当n=1时，为“0-1分布”，即B(1,p)B(1,p)B(1,p)

2.Poisson分布

如果随机变量X的分布律为
PX=k=λkk!e−λ,(k=0,1,… .whereconstantλ>0)P{X=k}=\frac{\lambda^k}{k!}e^{-\lambda},(k=0,1,\dots. where\ constant\ \lambda>0)PX=k=k!λke−λ,(k=0,1,….where constant λ>0)

记为:XXX~p(λ)p(\lambda)p(λ)

1).稀有事件，事件发生次数的分布律
2).EX=λ,DX=λEX=\lambda,DX =\lambdaEX=λ,DX=λ

3.几何分布

如果随机变量X的分布律为
P(X=k)=(1−p)k−1p,(k=1,2,… .whereconstrantp∈(0,1))P(X=k)=(1-p)^{k-1}p,(k=1,2,\dots.\ where\ constrant\ p\in (0,1))P(X=k)=(1−p)k−1p,(k=1,2,…. where constrant p∈(0,1))
则称随机变量X服从参数为p 的几何分布.
记为：XXX~G(p)G(p)G(p)

1).独立重复试验，首次成功次数的分布律。
2).EX=1p,DX=1−pp2EX=\frac{1}{p},DX=\frac{1-p}{p^2}EX=p1,DX=p21−p

4.帕斯卡分布（负二项分布）

如果随机变量X的分布律为
P(X=k)=Ck−1r−1(1−p)k−rpr),(k=r,r+1,r+2,…,whereconstantp∈(0,1))P(X=k)=C^{r-1}_{k-1}(1-p)^{k-r}p^r),(k=r,r+1,r+2,\dots,where\ constant\ p\in (0,1))P(X=k)=Ck−1r−1(1−p)k−rpr),(k=r,r+1,r+2,…,where constant p∈(0,1))
记为：XXX~NB(r,p)NB(r,p)NB(r,p)

1).独立重复试验，第r此成功时实验次数的分布律
2).EX=rp,DX=r(1−p)p2EX=\frac{r}{p},DX=\frac{r(1-p)}{p^2}EX=pr,DX=p2r(1−p)
*负二项分布可以看成是r个独立同分布的几何分布的YiY_iYi~G(p)G(p)G(p)叠加，则有

EX=E(Y1+Y2+⋯+Yr)=rE(Yi)=r⋅1pEX = E(Y_1+Y_2+\cdots+Y_r)=rE(Y_i)=r\cdot \frac{1}{p}EX=E(Y1+Y2+⋯+Yr)=rE(Yi)=r⋅p1

DX=D(Y1+Y2+⋯+Yr)=rD(Yi)=r⋅1−pp2DX = D(Y_1+Y_2+\cdots+Y_r)=rD(Y_i)=r\cdot \frac{1-p}{p^2}DX=D(Y1+Y2+⋯+Yr)=rD(Yi)=r⋅p21−p

5.多项分布（二项分布的推广）

如果随机向量N=(N1,N2,⋯ ,Nm)N=(N_1,N_2,\cdots,N_m)N=(N1,N2,⋯,Nm)的分布律为
P(N1=r1,N2=r2,⋯ ,Nm=rm)=n!r1!r2!⋯rm!p1r1p2r2⋯pmrmP(N_1=r_1,N_2=r_2,\cdots,N_m=r_m)=\frac{n!}{r_1!r_2!\cdots r_m!}p^{r_1}_1p^{r_2}_2\cdots p^{r_m}_mP(N1=r1,N2=r2,⋯,Nm=rm)=r1!r2!⋯rm!n!p1r1p2r2⋯pmrm
则称随机变量N服从参数为p=(p1,⋯ ,pm)的多项分布p=(p_1,\cdots,p_m)的多项分布p=(p1,⋯,pm)的多项分布.
Σi=1mpi=1,Σi=1mri=n\Sigma^m_{i=1}p_i=1,\Sigma^m_{i=1}r_i=nΣi=1mpi=1,Σi=1mri=n(其中n为自然数，0<pip_ipi<1为参数)
记作NNN~M(n,p)M(n,p)M(n,p)

-1).每次试验有m个可能结果：A1,A2,…,AmA_1,A_2,\dots,A_mA1,A2,…,Am

-2).P(Ak)=pkP(A_k)=p_kP(Ak)=pk,此实验独立重复进行n此，记AkA_kAk发生的次数为NkN_kNk.
NNN~M(n,p)M(n,p)M(n,p)可以分解成n个独立的M(1,p)M(1,p)M(1,p)之和。

6.均匀分布

若随机变量X 的密度函数为
f(x)={1b−a,if a≤x≤b0,othersf(x)=\begin{cases} \frac{1}{b-a}, & \text{if $a\le x\le b$} \\ 0, & others \end{cases} f(x)={b−a1,0,if a≤x≤bothers
则称随机变量XXX服从区间[a,b][a,b][a,b]上的均匀分布．
记作X~U[a,b]U[a,b]U[a,b]
F(x)={0,x<ax−ab−a,a≤x≤b1,b<xF(x)= \begin{cases} 0, & x<a \\ \frac{x-a}{b-a},&a\le x\le b \\ 1, & b<x \end{cases} F(x)=⎩⎪⎨⎪⎧0,b−ax−a,1,x<aa≤x≤bb<x
几何概型

1).Pc<X<c+l=lb−aP{c<X<c+l}=\frac{l}{b-a}Pc<X<c+l=b−al
2)l.EX=1b−a,DX=(b−a)212EX=\frac{1}{b-a},DX=\frac{(b-a)^2}{12}EX=b−a1,DX=12(b−a)2

7.指数分布

XXX~e(λ)e(\lambda)e(λ)
定义:如果随机变量X 的密度函数为
f(x)=λe−λxI{x>0}f(x)=\lambda e^{-\lambda x}I\{x>0\}f(x)=λe−λxI{x>0}
其中λ>0\lambda>0λ>0为常数，则称随机变量X服从参数为λ\lambdaλ的指数分布．

1).F(x)=1−e−λxI{x>0}F(x)=1-e^{-\lambda x}I\{x>0\}F(x)=1−e−λxI{x>0}
2).P(X>x)=1−F(x)=e−λxP(X>x)=1-F(x)=e^{-\lambda x}P(X>x)=1−F(x)=e−λx
3).EX=1λ,DX=1λ2EX=\frac{1}{\lambda},DX=\frac{1}{\lambda^2}EX=λ1,DX=λ21

8.正态分布

如果连续型随机变量的密度函数为
f(x)=12πσe−(x−μ)22σ2f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}}f(x)=2πσ1e−2σ2(x−μ)2
(where−∞<μ<+∞,constantσ>0(where\ -\infty \lt \mu\lt +\infty,constant\ \sigma >0(where −∞<μ<+∞,constant σ>0)

9.柯西分布

如果连续型随机变量的密度函数为
f(x)=1βπ11+(x−αβ)2,x∈Rf(x)=\frac{1}{\beta \pi}\frac{1}{1+(\frac{x-\alpha}{\beta})^2},x\in \mathbb Rf(x)=βπ11+(βx−α)21,x∈R
则称随机变量X服从参数为α,β\alpha,\betaα,β的柯西分布
记为：X~C(α,β)(\alpha,\beta)(α,β)

若α=0,β=1,我们称C(0,1)为标准柯西分布\alpha=0,\beta=1,我们称C(0,1)为标准柯西分布α=0,β=1,我们称C(0,1)为标准柯西分布.
f(x)=1π11+x2,x∈Rf(x)=\frac{1}{\pi}\frac{1}{1+x^2},x\in \mathbb Rf(x)=π11+x21,x∈R
EX不存在
物理学中受迫共振的微分方程的解。

10.伽马分布

如果随机变量 X 的密度函数为
f(x)=(βx)α−1Γ(α)βe−βxI{x>0},whereα>0,β>0f(x)=\frac{(\beta x)^{\alpha-1}}{\Gamma(\alpha)}\beta e^{-\beta x}I\{ x>0\},where\ \alpha >0,\beta >0f(x)=Γ(α)(βx)α−1βe−βxI{x>0},where α>0,β>0
则称随机变量XXX服从参数为(α,β)(\alpha,\beta)(α,β)的Γ\GammaΓ分布.
记为:XXX~Γ(α,β)\Gamma(\alpha,\beta)Γ(α,β)

当α=1\alpha = 1α=1时, XXX~e(β)e(\beta)e(β)
Γ(α)=∫0∞xα−1e−xdx=(α−1)Γ(α−1)\Gamma(\alpha)=\int^{\infty}_0x^{\alpha-1}e^{-x}dx=(\alpha-1)\Gamma(\alpha-1)Γ(α)=∫0∞xα−1e−xdx=(α−1)Γ(α−1)
EX=∫0∞(βx)αΓ(α)e−βxdx=Γ(α+1)βΓ(α)=αβEX=\int^{\infty}_0\frac{(\beta x)^{\alpha}}{\Gamma(\alpha)}e^{-\beta x}dx =\frac{\Gamma(\alpha+1)}{\beta\Gamma(\alpha)}=\frac{\alpha}{\beta}EX=∫0∞Γ(α)(βx)αe−βxdx=βΓ(α)Γ(α+1)=βα
DX=EX2−(EX)2=α2+αβ2−(αβ)2=αβ2DX=EX^2-(EX)^2=\frac{\alpha^2+\alpha}{\beta^2}-(\frac{\alpha}{\beta})^{2}=\frac{\alpha}{\beta^2}DX=EX2−(EX)2=β2α2+α−(βα)2=β2α
独立的指数分部之和服从伽马分布。

11.逆伽马分布

如果随机变量 X 的密度函数为
f(x)=βαΓ(α)x−(α+1)e−βxI{x>0},whereα>0,β>0f(x)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{-(\alpha+1)}e^{-\frac{\beta}{x}}I\{x>0\},where\ \alpha>0,\beta>0f(x)=Γ(α)βαx−(α+1)e−xβI{x>0},where α>0,β>0
则称随机变量XXX服从参数为(α,β)(\alpha,\beta)(α,β)的逆伽马分布.
记为:XXX~Γ−1(α,β)\Gamma^{-1}(\alpha,\beta)Γ−1(α,β)

当XXX~Γ(α,β)\Gamma(\alpha,\beta)Γ(α,β)时, Y=1XY=\frac{1}{X}Y=X1~Γ−1(α,β)\Gamma^{-1}(\alpha,\beta)Γ−1(α,β)
EX=∫0∞xβαΓ(α)x−(α+1)eβαdx=βα−1EX=\int^\infty_0x \frac{\beta\alpha}{\Gamma(\alpha)}x^{-(\alpha+1)}e^{\frac{\beta}{\alpha}}dx=\frac{\beta}{\alpha-1}EX=∫0∞xΓ(α)βαx−(α+1)eαβdx=α−1β
DX=β2(α−1)2(α−2)DX=\frac{\beta^2}{(\alpha-1)^2(\alpha-2)}DX=(α−1)2(α−2)β2

通常用来描述误差分布。

12.贝塔分布

如果随机变量 X 的密度函数为
f(x)=Γ(a+b)Γ(a)Γ(b)xa−1(1−x)b−1I{0<x<1},wherea>0,b>0f(x)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1}I\{0\lt x \lt1\},where\ a>0,b>0 f(x)=Γ(a)Γ(b)Γ(a+b)xa−1(1−x)b−1I{0<x<1},where a>0,b>0

则称随机变量 X 服从参数为 ( a , b ) 的β\betaβ分布.
记为XXX~Be(a,b)Be(a,b)Be(a,b)

当a=1,b=1时, XXX~U(0,1)U(0,1)U(0,1)
∫−∞∞f(x)dx=1\int^\infty_{-\infty}f(x)dx=1∫−∞∞f(x)dx=1, ∫01xa−1(1−x)b−1dx=Γ(a)Γ(b)Γ(a+b)=β(a,b)\int^1_0x^{a-1}(1-x)^{b-1}dx=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}=\beta(a,b)∫01xa−1(1−x)b−1dx=Γ(a+b)Γ(a)Γ(b)=β(a,b)
EX=∫0∞Γ(a+b)Γ(a)+Γ(b)xa(1−x)b−1dx=Γ(a+b)Γ(a)Γ(b)Γ(a+1)Γ(b)Γ(a+b+1)=aa+bEX=\int^\infty_0 \frac{\Gamma(a+b)}{\Gamma(a)+\Gamma(b)}x^a(1-x)^{b-1}dx=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\frac{\Gamma(a+1)\Gamma(b)}{\Gamma(a+b+1)}=\frac{a}{a+b}EX=∫0∞Γ(a)+Γ(b)Γ(a+b)xa(1−x)b−1dx=Γ(a)Γ(b)Γ(a+b)Γ(a+b+1)Γ(a+1)Γ(b)=a+ba
DX=ab(a+b)2(a+b+1)DX=\frac{ab}{(a+b)^2(a+b+1)}DX=(a+b)2(a+b+1)ab
beta分布可以看作一个概率的概率分布.
若XXX ~ Γ(α,θ)\Gamma(\alpha,\theta)Γ(α,θ),YYY ~ Γ(β,θ)\Gamma(\beta,\theta)Γ(β,θ)独立,则XX+Y\frac{X}{X+Y}X+YX ~ Be(α,β)Be(\alpha,\beta)Be(α,β)

13.狄里克莱分布(贝塔分布的多维形式)

P(x1,x2,…,xk)=Γ(α1+α2+⋯+αk)Γ(α1)Γ(α2)…Γ(αk)x1α1−1x2α2−1⋯xkαk−1,∑i=1kxi=1P(x_1,x_2,\dots,x_k)=\frac{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)}x^{\alpha_1-1}_1x^{\alpha_2-1}_2 \cdots x^{\alpha_k-1}_k,\sum^k_{i=1}x_i=1P(x1,x2,…,xk)=Γ(α1)Γ(α2)…Γ(αk)Γ(α1+α2+⋯+αk)x1α1−1x2α2−1⋯xkαk−1,i=1∑kxi=1
则称随机变量 XXX 服从参数为 α=(α1,⋯ ,αk)(αi>0)\alpha=(\alpha_1,\cdots,\alpha_k)(\alpha_i>0)α=(α1,⋯,αk)(αi>0) 的狄里克莱分布 .
记为XXX ~ D(k,α)D(k,\alpha)D(k,α)

当k=2时,狄里克莱分布为贝塔分布
可以描述一个多维概率的概率分布.
∫⋯∫x1α1−1x2α2−1⋯xkαk−1dx1⋯dxk=Γ(α1)Γ(α2)…Γ(αk)Γ(α1+α2+⋯+αk)\int \cdots\int x_1^{\alpha_1-1}x_2^{\alpha_2-1}\cdots x_k^{\alpha_k-1}dx_1 \cdots dx_k=\frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}∫⋯∫x1α1−1x2α2−1⋯xkαk−1dx1⋯dxk=Γ(α1+α2+⋯+αk)Γ(α1)Γ(α2)…Γ(αk)
EXi=Γ(α1+α2+⋯+αk)Γ(α1)Γ(α2)…Γ(αk)Γ(α1)Γ(α2)⋯Γ(αi+1)⋯Γ(αk)Γ(α1+α2+⋯+αk+1)=αiα1+α2+⋯+αkEX_i=\frac{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)} \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots \Gamma(\alpha_i +1) \cdots \Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k+1)} =\frac{\alpha_i}{\alpha_1+\alpha_2+\dots+\alpha_k}EXi=Γ(α1)Γ(α2)…Γ(αk)Γ(α1+α2+⋯+αk)Γ(α1+α2+⋯+αk+1)Γ(α1)Γ(α2)⋯Γ(αi+1)⋯Γ(αk)=α1+α2+⋯+αkαi
DXi=Γ(α1)Γ(α2)⋯Γ(αi+2)⋯Γ(αk)Γ(α1+α2+⋯+αk+2)−(αiα1+α2+⋯+αk)2=αi(αi+1)(α1+α2+⋯+αk+1)(α1+α2+⋯+αk)−(αiα1+α2+⋯+αk)2DX_i = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots \Gamma(\alpha_i +2) \cdots \Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k+2)}-(\frac{\alpha_i}{\alpha_1+\alpha_2+\dots+\alpha_k})^2 =\frac{\alpha_i(\alpha_i+1)}{(\alpha_1+\alpha_2+\dots+\alpha_k+1) (\alpha_1+\alpha_2+\dots+\alpha_k)}-(\frac{\alpha_i}{ \alpha_1+\alpha_2+\dots+\alpha_k })^2DXi=Γ(α1+α2+⋯+αk+2)Γ(α1)Γ(α2)⋯Γ(αi+2)⋯Γ(αk)−(α1+α2+⋯+αkαi)2=(α1+α2+⋯+αk+1)(α1+α2+⋯+αk)αi(αi+1)−(α1+α2+⋯+αkαi)2

14.帕累托分布

如果随机变量 X 的密度函数为
f(x)=αCαxα+1I{x>C},whereC>0,α>0f(x)=\frac{\alpha C^\alpha}{x^{\alpha+1}}I\{x>C\},where\ C>0,\alpha>0f(x)=xα+1αCαI{x>C},where C>0,α>0

则称随机变量 X 服从参数为 (C,α)( C , \alpha )(C,α) 的帕雷托分布.
记为XXX ~ Pa(C,α)Pa(C,\alpha)Pa(C,α)

经济问题 :贫与富的存在
通过市场交易,20%的人将占有80%的社会财富,如果交易可以不断进行下去,那么,在因和果、努力和收获之间,普遍存在着不平衡关系.

二. 联合分布,边缘分布,条件分布

1.已知边缘分布和条件分布

设随机向量 X 的概率分布为PX(x)P_X(x)PX(x),Y 在 X 下的条件分布
为PY∣X(y∣x)P_{Y|X}(y|x)PY∣X(y∣x),则
联合分布:
f(x,y)=fx(x)fY∣X(y∣X),(X连续型,Y连续型)f(x,y) = f_x(x)f_{Y|X}(y|X),( X 连续型 , Y 连续型 )f(x,y)=fx(x)fY∣X(y∣X),(X连续型,Y连续型)

P(xi,yi)=PX(xi)PY∣X(yi∣xi),(X离散型,Y离散型)P(x_i,y_i)=P_X(x_i)P_{Y|X}(y_i|x_i),( X 离散型 , Y 离散型 )P(xi,yi)=PX(xi)PY∣X(yi∣xi),(X离散型,Y离散型)

P(xi,yi)=PX(xi)fY∣X(y∣xi),(Y连续型,X离散型)P(x_i,y_i)=P_X(x_i)f_{Y|X}(y|x_i),(Y连续型,X离散型)P(xi,yi)=PX(xi)fY∣X(y∣xi),(Y连续型,X离散型)

P(xi,yi)=fX(x)PY∣X(yi∣x),(X连续型,Y离散型)P(x_i,y_i)=f_X(x)P_{Y|X}(y_i|x),(X连续型,Y离散型)P(xi,yi)=fX(x)PY∣X(yi∣x),(X连续型,Y离散型)

2.已知联合分布

设随机向量 ( X , Y ) 的联合分布为 P ( x , y ), 则

边缘分布:
PX(x)=∫−∞∞p(x,y)dy,(Y连续型)P_X(x)=\int^\infty_{-\infty}p(x,y)dy,(Y连续型)PX(x)=∫−∞∞p(x,y)dy,(Y连续型)

PX(x)=∑ip(x,yi),(Y离散型)P_X(x)=\sum_ip(x,y_i),(Y离散型)PX(x)=i∑p(x,yi),(Y离散型)

条件分布:
PY∣X(y∣x)=p(x,y)pX(x),(Y连续型)P_{Y|X}(y|x)=\frac{p(x,y)}{p_X(x)},(Y连续型)PY∣X(y∣x)=pX(x)p(x,y),(Y连续型)

PY∣X(yi∣x)=p(x,yi)pX(x),(Y离散型)P_{Y|X}(y_i|x) =\frac{p(x,y_i)}{p_X(x)},(Y离散型)PY∣X(yi∣x)=pX(x)p(x,yi),(Y离散型)

三.基本概念

1.指数族:

p(x,θ)=C(θ)exp{∑i=1kθiTi(x)}h(x)p(x,\theta)=C(\theta)exp\{\sum^k_{i=1}\theta_iT_i(x)\}h(x)p(x,θ)=C(θ)exp{i=1∑kθiTi(x)}h(x)
标准形式:
见<<高等数理统计shaojun>>

2.充分统计量:

有分布族{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ},
若在已知统计量 T 的条件下 , 样本 X 的条件分布与 θ\thetaθ 无关,则称 T 为参数 θ\thetaθ 的充分统计量.

3.因子分解定理:

有分布族{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ}, 以及统计量:T=T(x)
若 p(x,θ)p ( x , \theta )p(x,θ) 能够分解成
p(x,θ)=g(T(x),θ)h(x)p ( x , \theta ) = g ( T ( x ), \theta ) h ( x )p(x,θ)=g(T(x),θ)h(x)
则 T 为参数 θ\thetaθ 的充分统计量。

4.完备统计量:

有分布族{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ}, 以及统计量:T=T(x),
若对∀φ(T(x))\forall \varphi(\ T(x)\ )∀φ( T(x) )满足, Eθ(φ((T(x))=0E_\theta (\varphi(\ (T(x)\ )=0Eθ(φ( (T(x) )=0,都有
Pθ(φ(T(X))=0)=1P_\theta (\varphi (T(X))=0)=1Pθ(φ(T(X))=0)=1

5.完全统计量判定:

若样本 X=(X1,X2,⋯ ,Xn)X = ( X_1 , X_2 ,\cdots , X_n )X=(X1,X2,⋯,Xn) 的分布族:{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ},
P(x,θ)=C(θ)exp{∑i=1kθiTi(x)}h(x)P(x,\theta)=C(\theta)exp\{ \sum^k_{i=1}\theta_iT_i(x) \}h(x)P(x,θ)=C(θ)exp{i=1∑kθiTi(x)}h(x)
统计量: T=(T1(x),T2(x),⋯ ,Tk(x))T=(\ T_1(x),T_2(x),\cdots,T_k(x) \ )T=( T1(x),T2(x),⋯,Tk(x) ), 且参数空间 Θ\ThetaΘ有内点,则T为参数θ\thetaθ的完全统计量
看<<高等数理统计 shaojun>><<参数统计教程韦博成>>

6.UMVUE:

样本X=(X1,X2,⋯ ,Xn)X=(X_1,X_2,\cdots,X_n)X=(X1,X2,⋯,Xn),
分布族:{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ},
可估函数:g(θ)g(\theta)g(θ),
设g^∗(X)\hat g^*(X)g^∗(X)是g(θ)g(\theta)g(θ)的一个无偏估计量,若对g(θ)g(\theta)g(θ)的任意无偏估计g^(X)\hat g(X)g^(X)都有:
Dg^∗(X)≤Dg^(X)D \hat g^*(X) \le D \hat g(X)Dg^∗(X)≤Dg^(X)
则称g^∗(X)是g(θ)的UMVUE\hat g^*(X)是g(\theta)的UMVUEg^∗(X)是g(θ)的UMVUE

7.L-S定理:

样本X=(X1,X2,⋯ ,Xn)X=(X_1,X_2,\cdots,X_n)X=(X1,X2,⋯,Xn),
分布族:{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ},
可估函数:g(θ)g(\theta)g(θ),
统计量 T (X ) 是一个充分完备统计量.
g^(T(X))\hat g( T ( X ))g^(T(X))是 g ( \theta ) 的一个无偏估计量,
则 g^(T(X))\hat g(T(X))g^(T(X)) 是g(θ)g(\theta)g(θ)唯一的UMVUE

8.C-R不等式:

样本X=(X1,X2,⋯ ,Xn)X=(X_1,X_2,\cdots,X_n)X=(X1,X2,⋯,Xn),
分布族:{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ},
可估函数:g(θ)g(\theta)g(θ),
g^(T(X))\hat g( T ( X ))g^(T(X))是 g(θ)g ( \theta )g(θ) 的一个无偏估计量,
假设 p(x,θ\thetaθ)满足正则性条件:

1). {x∣p(x,θ)>0}与θ无关\{ x|p(x,\theta)>0 \}与\theta无关{x∣p(x,θ)>0}与θ无关
2). p(x,θ)关于θ可导p(x,\theta)关于\theta可导p(x,θ)关于θ可导
3). 有关p(x,θ)关于θ求导和积分可换序有关p(x,\theta)关于\theta求导和积分可换序有关p(x,θ)关于θ求导和积分可换序
则有Varθ(g^(X))≥(g‘(θ))2nI(θ)(=(g‘(θ)I−1(θ)(g‘(θ)Tn)Var_\theta (\hat g(X)) \ge \frac{(g`(\theta))^2}{nI(\theta)}\left( =\frac{(g`(\theta)I^{-1}(\theta)(g`(\theta)^T}{n} \right)Varθ(g^(X))≥nI(θ)(g‘(θ))2(=n(g‘(θ)I−1(θ)(g‘(θ)T)
称I(θ)=E(∂lnp(x,θ)∂θ)2I(\theta)=E(\frac{\partial lnp(x,\theta)}{\partial \theta})^2I(θ)=E(∂θ∂lnp(x,θ))2为参数θ\thetaθ的信息量
如果 DT=(g‘(θ))2nI(θ),(当q(θ)=θ时,DT=1nI(θ))则称T(X1,X2,⋯ ,Xn)为g(θ)的有效估计量DT=\frac{(g`(\theta))^2}{nI(\theta)},(当q(\theta)=\theta时,DT=\frac{1}{nI(\theta)})则称T(X_1,X_2,\cdots,X_n)为g(\theta)的有效估计量DT=nI(θ)(g‘(θ))2,(当q(θ)=θ时,DT=nI(θ)1)则称T(X1,X2,⋯,Xn)为g(θ)的有效估计量]

9.N-P引理

10.N-P引理推广

第二章.先验分布的选取

一.古典学派和贝叶斯学派

古典统计学派: 坚持概率的频率解释, 把未知参数看成一个固定的未知量!
统计推断的信息量: 总体信息和样本信息
缺点: 需要大量重复试验
贝叶斯学派: 坚持先给定先验概率, 把未知参数用一个概率分布描述!
统计推断的信息量: 总体信息,样本信息及先验信息
缺点: 先验信息主观性比较强

二.贝叶斯统计的基本概念

设总体 X 的概率函数为 p(x∣θ)p ( x | \theta )p(x∣θ)( 分布律或密度函数 ) ,
样本: X1,X2,...,Xn,θX_1 , X_2 ,..., X_n ,\ \thetaX1,X2,...,Xn, θ 是未知参数。

1).参数的先验分布: π(θ)\pi (\theta)π(θ)

θ\thetaθ 是离散型随机变量时:
π(θi)=P(θ=θi)\pi(\theta_i)=P(\theta=\theta_i)π(θi)=P(θ=θi)
θ\thetaθ 是连续型随机变量时:
π(θ)表示参数θ概率密度函数\pi(\theta)表示参数\theta 概率密度函数 π(θ)表示参数θ概率密度函数

2).参数的后验分布:π(θ∣x1,x2,⋯ ,xn)\pi(\theta|x_1,x_2,\cdots, x_n)π(θ∣x1,x2,⋯,xn)

在给定X1=x1,⋯ ,Xn=xnX_1=x_1,\cdots,X_n=x_nX1=x1,⋯,Xn=xn条件下,
θ的条件分布π(θ∣x1,x2,⋯ ,xn)\theta的条件分布\pi(\theta|x_1,x_2,\cdots, x_n)θ的条件分布π(θ∣x1,x2,⋯,xn)

三.后验分布的计算

样本的条件分布为:

p(x1,x2,⋯ ,xn∣θ)=∏i=1np(xi∣θ)p(x_1,x_2,\cdots,x_n|\theta)=\prod^n_{i=1}p(x_i|\theta)p(x1,x2,⋯,xn∣θ)=i=1∏np(xi∣θ)

样本与参数的联合分布为:

h(x1,x2,⋯ ,xn,θ)=π(θ)p(x1,x2,⋯ ,xn∣θ)h( x_1 , x_2 , \cdots, x_n , \theta ) =\pi ( \theta ) p ( x_1 , x_2 , \cdots, x_n | \theta )h(x1,x2,⋯,xn,θ)=π(θ)p(x1,x2,⋯,xn∣θ)

样本边缘分布为:

m(x1,x2,⋯ ,xn)=∫Θh(x1,x2,⋯ ,xn,θ)dθm(x_1,x_2,\cdots,x_n)=\int_\Theta h(x_1,x_2,\cdots,x_n,\theta)d\thetam(x1,x2,⋯,xn)=∫Θh(x1,x2,⋯,xn,θ)dθ
则有后验分布:
1).连续型
π(θ∣x1,x2,⋯ ,xn)=h(x1,x2,⋯ ,xn∣θ)m(x1,x2,⋯ ,xn)=π(θ)p(x1,x2,⋯ ,xn∣θ)∫Θπ(θ)p(x1,x2,⋯ ,xn∣θ)dθ\pi(\theta|x_1,x_2,\cdots,x_n)=\frac{h(x_1,x_2,\cdots,x_n|\theta)}{m(x_1,x_2,\cdots,x_n)} \\ =\frac{\pi(\theta)p(x_1,x_2,\cdots,x_n|\theta)}{\int_\Theta \pi(\theta)p(x_1,x_2,\cdots,x_n|\theta)d\theta}π(θ∣x1,x2,⋯,xn)=m(x1,x2,⋯,xn)h(x1,x2,⋯,xn∣θ)=∫Θπ(θ)p(x1,x2,⋯,xn∣θ)dθπ(θ)p(x1,x2,⋯,xn∣θ)

2).离散型
π(θ∣x1,x2,⋯ ,xn)=π(θk)p(x1,x2,⋯ ,xn∣θk)∑iπ(θi)p(x1,x2,⋯ ,xn∣θi)\pi(\theta|x_1,x_2,\cdots,x_n)=\frac{\pi(\theta_k)p(x_1,x_2,\cdots,x_n|\theta_k)}{\sum_i\pi(\theta_i)p(x_1,x_2,\cdots,x_n|\theta_i)}π(θ∣x1,x2,⋯,xn)=∑iπ(θi)p(x1,x2,⋯,xn∣θi)π(θk)p(x1,x2,⋯,xn∣θk)

四.先验分布函数形式的确定

1.专家意见
2.历史资料
3.相对似然法
4.直方图法
5.定分度法和变分度法
6.样本边缘分布最大似然先验

例题1
XXX~e(θ)e(\theta)e(θ) 样本X1,X2,⋯ ,Xn,θX_1,X_2,\cdots,X_n, \thetaX1,X2,⋯,Xn,θ~ e(λ)e(\lambda)e(λ)
解:
π(θ)=λe−λθ\pi (\theta)=\lambda e^{-\lambda \theta}π(θ)=λe−λθ

p(x1,⋯ ,xn∣θ)=θ−ne−θ∑i=1nxip(x_1,\cdots,x_n|\theta)=\theta^{-n}e^{-\theta \sum^n_{i=1}x_i}p(x1,⋯,xn∣θ)=θ−ne−θ∑i=1nxi

p(x1,⋯ ,xn,θ∣λ)=λθne−θ(λ+∑i=1nxi)p(x_1,\cdots,x_n,\theta|\lambda)=\lambda \theta^n e^{-\theta (\lambda+\sum^n_{i=1}x_i)}p(x1,⋯,xn,θ∣λ)=λθne−θ(λ+∑i=1nxi)

p(x1,⋯ ,xn∣λ)=∫p(x1,⋯ ,xn)p(θ)dθ=∫λθnexp(−θ(λ+∑i=1nxi))dθ=λn!(λ+∑i=1nxi)n+1p(x_1,\cdots,x_n|\lambda)=\int p(x_1,\cdots,x_n)p(\theta)d\theta=\int \lambda\theta^n exp(-\theta (\lambda + \sum^n_{i=1}x_i))d\theta \\ =\lambda \frac{n!}{(\lambda+\sum^n_{i=1}x_i)^{n+1}}p(x1,⋯,xn∣λ)=∫p(x1,⋯,xn)p(θ)dθ=∫λθnexp(−θ(λ+i=1∑nxi))dθ=λ(λ+∑i=1nxi)n+1n!

lnp(x1,⋯ ,xn∣λ)=lnλ+lnn!−(n+1)ln(λ+∑i=1nxi)lnp(x_1,\cdots,x_n|\lambda) = ln\lambda+lnn!-(n+1)ln(\lambda+\sum^n_{i=1}x_i)lnp(x1,⋯,xn∣λ)=lnλ+lnn!−(n+1)ln(λ+i=1∑nxi)

令dlnp(x1,⋯ ,xn∣λ)dλ=1λ−(n+11λ+∑i=1nxi)=0令\frac{dlnp(x_1,\cdots,x_n|\lambda)}{d\lambda}=\frac{1}{\lambda}-(n+1\frac{1}{\lambda+\sum^n_{i=1}x_i})=0令dλdlnp(x1,⋯,xn∣λ)=λ1−(n+1λ+∑i=1nxi1)=0
求出极大似然估计 λ^=Xˉ\hat \lambda=\bar Xλ^=Xˉ

五.超参数的确定

若先验分布的形式确定,但分布中含有未知参数(超参数)

1.先验分布具有明确的意义或信息

例子1 θ\thetaθ~N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)

2.利用边缘分布确定超参数(矩估计和MLE)

已知总体X~P(x|θ\thetaθ) , θ\thetaθ ~ π(θ∣λ)\pi(\theta|\lambda)π(θ∣λ) λ\lambdaλ是超参数

六.无信息先验分布

1.贝叶斯假设

离散均匀分布:θ可能取值有限,θ1,⋯ ,θn,P(θ=θi)=1n\theta可能取值有限, \theta_1,\cdots,\theta_n,P(\theta=\theta_i)=\frac{1}{n}θ可能取值有限,θ1,⋯,θn,P(θ=θi)=n1
有限区间上的均匀分布:θ\thetaθ~U[a,b]U[a,b]U[a,b]
广义先验分布:θ∈(−∞,∞),θ的先验分布满足:\theta \in (-\infty,\infty),\theta的先验分布满足:θ∈(−∞,∞),θ的先验分布满足:
1.π(θ)≥0,∫−∞∞π(θ)dθ=∞\pi(\theta)\ge0,\int^\infty_{-\infty}\pi(\theta)d\theta=\inftyπ(θ)≥0,∫−∞∞π(θ)dθ=∞
2.π(θ∣x)是正常的密度函数\pi(\theta|x)是正常的密度函数π(θ∣x)是正常的密度函数
. 若π(θ)是广义先验,则cπ(θ)也是广义先验\pi(\theta)是广义先验,则c\pi(\theta)也是广义先验π(θ)是广义先验,则cπ(θ)也是广义先验
π(θ∣x)=h(x,θ)m(x)=p(x∣θ)π(θ)∫p(x∣θ)π(θ)dθ\pi(\theta|x)=\frac{h(x,\theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int p(x|\theta)\pi(\theta)d\theta}π(θ∣x)=m(x)h(x,θ)=∫p(x∣θ)π(θ)dθp(x∣θ)π(θ)
∫π(θ∣x)dθ=1\int \pi(\theta|x)d\theta=1∫π(θ∣x)dθ=1

2. 位置参数的无信息先验

<<贝叶斯分析>>P49P_{49}P49
位置参数族：平移变换下的不变性
π(θ)=1\pi(\theta)=1π(θ)=1

例1
例2

3.尺度参数的无信息先验

尺度参数族举例:

p(x∣σ)=12πσ2e−x22σ2p(x|\sigma)=\frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{x^2}{2\sigma^2}}p(x∣σ)=2πσ21e−2σ2x2
p(x∣β)=1πβ11+(xβ)2p(x|\beta)=\frac{1}{\pi \beta}\frac{1}{1+(\frac{x}{\beta})^2}p(x∣β)=πβ11+(βx)21
p(x∣λ)=1λexλ,x>0p(x|\lambda)=\frac{1}{\lambda}e^{\frac{x}{\lambda}},x \gt 0p(x∣λ)=λ1eλx,x>0

尺度参数族:尺度变换下的不变性<<贝叶斯分析>>P51P_{51}P51

{f(x,θ)→1θf(xθ),θ∈R+}\{f(x,\theta) \to \frac{1}{\theta}f(\frac{x}{\theta}), \theta \in \Bbb R^+ \}{f(x,θ)→θ1f(θx),θ∈R+}

证 π(σ)=1σ\pi(\sigma)=\frac{1}{\sigma}π(σ)=σ1:

令 Y=cX,(c∈R+)Y=cX,(c \in \Bbb R^+)Y=cX,(c∈R+)
fY(y)=1cθf(ycθ)f_Y(y)=\frac{1}{c\theta}f(\frac{y}{c\theta})fY(y)=cθ1f(cθy)
令 η=cθ\eta = c\thetaη=cθ
fY(y)=1ηf(yη)f_Y(y)=\frac{1}{\eta}f(\frac{y}{\eta})fY(y)=η1f(ηy)

σ的无信息先验与η的无信息先验应当相同.有:\sigma的无信息先验与\eta的无信息先验应当相同.有:σ的无信息先验与η的无信息先验应当相同.有:
(3.1)π(τ)=π∗(τ)\pi(\tau) = \pi^*(\tau)\tag{3.1}π(τ)=π∗(τ)(3.1)
其中π∗(τ)为η\pi^*(\tau)为\etaπ∗(τ)为η的先验分布,另一方面,由变换η=cσ,可知η\eta=c\sigma,可知\etaη=cσ,可知η的无信息先验为:
(3.2)π∗(η)=π(σ)∣σ=ηc⋅∣dσdη∣=1cπ(ηc)\pi^*(\eta)=\pi(\sigma)|_{\sigma=\frac{\eta}{c}}\cdot|\frac{d\sigma}{d\eta}|=\frac{1}{c}\pi(\frac{\eta}{c})\tag{3.2}π∗(η)=π(σ)∣σ=cη⋅∣dηdσ∣=c1π(cη)(3.2)
比较(3.1)和(3.2)得:
π(η)=π∗(η)=1cπ(ηc)\pi(\eta)=\pi^*(\eta)=\frac{1}{c}\pi(\frac{\eta}{c})π(η)=π∗(η)=c1π(cη)
取η=c,有:\eta=c,有:η=c,有:
π(c)=1cπ(1)\pi(c)=\frac{1}{c}\pi(1)π(c)=c1π(1)
为方便计算, 令π(1)=1\pi(1)=1π(1)=1,由c的任意性,可得σ\sigmaσ的无信息先验为:
π(σ)=1σ,(σ>0)\pi(\sigma)=\frac{1}{\sigma},(\sigma \gt 0)π(σ)=σ1,(σ>0)

4.一般情况:Jeffreys无信息先验

π(θ)=∣I(θ)∣1/2\pi(\theta)=|I(\theta)|^{1/2}π(θ)=∣I(θ)∣1/2"| |"表示行列式

七.共轭先验分布

1.共轭先验分布

设F表示θ的先验分布π(θ)构成的分布族,如果取的π∈F,后验分布π(θ∣x)∈F,那么称F是一个共轭先验分布.设\mathscr F表示\theta的先验分布\pi(\theta)构成的分布族,如果取的\pi \in \mathscr F,后验分布\pi(\theta|x)\in \mathscr F,那么称\mathscr F是一个共轭先验分布.设F表示θ的先验分布π(θ)构成的分布族,如果取的π∈F,后验分布π(θ∣x)∈F,那么称F是一个共轭先验分布.(先验分布和后验分布同一个分布族)

二项分布,其参数的共轭分布族是贝塔分布.

方差已知的正态分布,均值的共轭分布族是正态分布族.
泊松分布, 参数的共轭分布族是伽马分布.

2.求共轭先验分布

指数分布,参数的共轭分布族是伽马分布.
-均值已知的正态分布, 方差的共轭分布族是逆伽马分布.

八.多层先验分布

当先验分布中的超参数无法确定时,可以对超参数再给出一个先验
分布,这个给出的第二个先验就是超先验。
设参数 θ\thetaθ 的先验分布是 π1(θ∣λ)\pi_1(\theta|\lambda)π1(θ∣λ) ,其中 λ\lambdaλ 是超参数给出超参数λ\lambdaλ的超先验分布π2(λ)\pi_2(\lambda)π2(λ)则有 θ\thetaθ 和 λ\lambdaλ 的联合分布式是:
π1(θ∣λ)π2(λ)\pi_1(\theta|\lambda)\pi_2(\lambda)π1(θ∣λ)π2(λ)
参数 θ\thetaθ 的先验分布是:
π(θ)=∫π1(θ∣λ)π2(λ)dλ\pi(\theta)=\int \pi_1(\theta| \lambda)\pi_2(\lambda)d\lambdaπ(θ)=∫π1(θ∣λ)π2(λ)dλ
以此类推,可以得到三层以致多层先验.

后验分布与充分性

定义:设总体 X 的分布函数为 F(x,θ)F ( x , \theta )F(x,θ) , 样本: X1,X2,...,XnX_1 , X_2 ,..., X_nX1,X2,...,Xn,统计量 T(X1,X2,...,Xn)T ( X_1 , X_2 ,..., X_n )T(X1,X2,...,Xn). 若给定 T 后,  X1,X2,...,XnX_1 , X_2 ,..., X_nX1,X2,...,Xn 的条件分布与参数 θ\thetaθ 无关, 则称统计量 T(X1,X2,...,Xn)T ( X_1 , X_2 ,..., X_n )T(X1,X2,...,Xn) 为 θ\thetaθ 的充分统计量.
因子分解定理:
T=T(x1,x2,⋯ ,xn)T=T(x_1,x_2,\cdots,x_n)T=T(x1,x2,⋯,xn)是一个充分统计量的充要条件是对任一的θ\thetaθ,存在两个函数g(t,θ)g(t,\theta)g(t,θ)和h(x1,x2,⋯ ,xn)h(x_1,x_2,\cdots,x_n)h(x1,x2,⋯,xn),有:
p(x1,x2,⋯ ,xn,θ)=g(T(x1,x2,⋯ ,xn),θ)h(x1,x2,⋯ ,xn)p(x_1,x_2,\cdots,x_n,\theta)=g\left( T(x_1,x_2,\cdots,x_n),\theta \right)h(x_1,x_2,\cdots,x_n)p(x1,x2,⋯,xn,θ)=g(T(x1,x2,⋯,xn),θ)h(x1,x2,⋯,xn)
后验分布引理
设 Γ\GammaΓ 是未知参数 θ\thetaθ 的先验分布类 π(θ)∈Γ\pi(\theta) \in \Gammaπ(θ)∈Γ , 若 Γ\GammaΓ 是 θ\thetaθ 的充分统计量,则对 ∀π∈Γ\forall \pi \in \Gamma∀π∈Γ ,有:
π(θ∣x)=π~(θ∣t)\pi(\theta|x)=\tilde \pi(\theta|t)π(θ∣x)=π~(θ∣t)
证明:
设 T 的概率函数为: q(t∣θ)q(t|\theta)q(t∣θ),
由充分统计量的定义: pX∣T(x∣t)=p(x∣θ)q(t∣θ)=C(x)p_{X|T}(x|t)=\frac{p(x|\theta)}{q(t|\theta)}=C(x)pX∣T(x∣t)=q(t∣θ)p(x∣θ)=C(x)
p(x∣θ)=q(t∣θ)C(x)p(x|\theta)=q(t|\theta)C(x)p(x∣θ)=q(t∣θ)C(x)
由因子分解定理有:p(x∣θ)=g(t,θ)h(x),q(t∣θ)∝g(t∣θ)p(x|\theta)=g(t,\theta)h(x), q(t|\theta) \propto g(t|\theta)p(x∣θ)=g(t,θ)h(x),q(t∣θ)∝g(t∣θ)
则

π(θ∣x)=h(x,θ)m(x)=π(θ)p(x∣θ)∫π(θ)p(x∣θ)dθ=π(θ)q(t∣θ)C(x)∫π(θ)q(t∣θ)C(x)dθ=π(θ)q(t∣θ)∫π(θ)q(t∣θ)dθ=π~(θ∣t)\begin{aligned} \pi(\theta|x) & =\frac{h(x,\theta)}{m(x)}\\ & =\frac{\pi(\theta)p(x|\theta)}{\int \pi(\theta)p(x|\theta)d\theta} \\ &=\frac{\pi(\theta)q(t|\theta)C(x)}{\int \pi(\theta)q(t|\theta)C(x)d\theta} \\ & =\frac{\pi(\theta)q(t|\theta)}{\int \pi(\theta)q(t|\theta)d\theta}\\ & =\tilde \pi(\theta|t) \end{aligned} π(θ∣x)=m(x)h(x,θ)=∫π(θ)p(x∣θ)dθπ(θ)p(x∣θ)=∫π(θ)q(t∣θ)C(x)dθπ(θ)q(t∣θ)C(x)=∫π(θ)q(t∣θ)dθπ(θ)q(t∣θ)=π~(θ∣t)

回顾充分统计量

因子分解定理

后验分布引理

设 Γ\GammaΓ 是未知参数 θ\thetaθ 的先验分布类 π(θ)∈Γ\pi(\theta)\in \Gammaπ(θ)∈Γ , 若 T 是 θ\thetaθ的充分统计量,则对 ∀π∈Γ\forall \pi \in \Gamma∀π∈Γ , 有:
π(θ∣x)=π~(θ∣t)\pi(\theta|x)=\tilde \pi(\theta|t)π(θ∣x)=π~(θ∣t)
证明:
设T的概率函数为q(t∣θ)q(t|\theta)q(t∣θ),
由充分统计量 pX∣T(x∣t)=p(x∣θ)q(t∣θ)=C(x)p_{X|T}(x|t)=\frac{p(x|\theta)}{q(t|\theta)}=C(x)pX∣T(x∣t)=q(t∣θ)p(x∣θ)=C(x)
由因子分解定理 p(x∣θ)=g(t∣θ)h(x),q(t∣θ)∝g(t∣θ)p(x|\theta)=g(t|\theta)h(x),q(t|\theta) \propto g(t|\theta)p(x∣θ)=g(t∣θ)h(x),q(t∣θ)∝g(t∣θ)
p(x∣θ)=q(t∣θ)C(x)p(x|\theta)=q(t|\theta)C(x)p(x∣θ)=q(t∣θ)C(x)
π(θ∣x)=h(x,θ)m(x)=π(θ)p(x∣θ)∫π(θ)p(x∣θ)dθ=π(θ)q(t∣θ)C(x)∫π(θ)q(t∣θ)C(x)dθ=π(θ)q(t∣θ)∫π(θ)q(t∣θ)dθ=π~(θ∣t)\begin{aligned} \pi(\theta|x)=\frac{h(x,\theta)}{m(x)} & =\frac{\pi(\theta)p(x|\theta)}{\int \pi(\theta)p(x|\theta)d\theta}\\ & = \frac{\pi(\theta)q(t|\theta)C(x)}{\int \pi(\theta)q(t|\theta)C(x)d\theta} \\ & = \frac{\pi(\theta)q(t|\theta)}{\int \pi (\theta) q(t|\theta )d\theta}\\ & = \tilde \pi(\theta|t) \end{aligned}π(θ∣x)=m(x)h(x,θ)=∫π(θ)p(x∣θ)dθπ(θ)p(x∣θ)=∫π(θ)q(t∣θ)C(x)dθπ(θ)q(t∣θ)C(x)=∫π(θ)q(t∣θ)dθπ(θ)q(t∣θ)=π~(θ∣t)

Reference先验

KL散度定义:

设两个概率分布P(x),q(x),KL距离(散度)为,
KL(p(x),q(x))=∫ln(p(x)q(x))p(x)dx=Ep(ln(p(x)q(x)))KL(p(x),q(x))=\int ln(\frac{p(x)}{q(x)})p(x)dx=E_p(ln(\frac{p(x)}{q(x)}))KL(p(x),q(x))=∫ln(q(x)p(x))p(x)dx=Ep(ln(q(x)p(x)))
即连续型随机变量相对熵.

显然:

1).KL(p(x),q(x))!=KL(q(x),p(x))KL(p(x),q(x)) \ != KL(q(x),p(x))KL(p(x),q(x)) !=KL(q(x),p(x))
2).KL(p(x),q(x))≥0KL(p(x),q(x))\ge 0KL(p(x),q(x))≥0

Ep(−lnp(x)q(x))=Ep(lnq(x)p(x))≤lnEp(q(x)p(x))E_p(-ln\frac{p(x)}{q(x)})=E_p(ln\frac{q(x)}{p(x)}) \le lnE_p(\frac{q(x)}{p(x)})Ep(−lnq(x)p(x))=Ep(lnp(x)q(x))≤lnEp(p(x)q(x))
lnEp(q(x)p(x))=ln∫(q(x)p(x))p(x)dx=0lnE_p(\frac{q(x)}{p(x)})=ln\int(\frac{q(x)}{p(x)})p(x)dx=0lnEp(p(x)q(x))=ln∫(p(x)q(x))p(x)dx=0

Reference先验

设Iπ(θ)(θ,x)=∫Xp(x)[∫Θπ(θ∣x)lnπ(θ∣x)π(θ)dθ]dx=EX(KL(π(θ,x),π(θ)))\begin{aligned} I_{\pi(\theta)}(\theta,x) & =\int_Xp(x)[\int_\Theta\pi(\theta|x)ln\frac{\pi(\theta|x)}{\pi(\theta)}d\theta]dx \\ & = E_X(KL(\pi(\theta,x),\pi(\theta))) \end{aligned}Iπ(θ)(θ,x)=∫Xp(x)[∫Θπ(θ∣x)lnπ(θ)π(θ∣x)dθ]dx=EX(KL(π(θ,x),π(θ)))
其中p(x)为样本X的边缘分布.若π∗(θ)\pi^*(\theta)π∗(θ)满足:
Iπ∗(θ)(θ,x)=max⁡π(θ){Iπ(θ)(θ,x)}I_{\pi^*(\theta)}(\theta,x)=\max_{\pi(\theta)} \{ I_{\pi(\theta)}(\theta,x) \}Iπ∗(θ)(θ,x)=π(θ)max{Iπ(θ)(θ,x)}
则称π∗(θ)=argmax⁡π(θ){Iπ(θ)(θ,x)}为参数θ的Reference先验\pi^*(\theta)=arg\max_{\pi(\theta)}\{ I_{\pi(\theta)}(\theta,x) \}为参数\theta的Reference先验π∗(θ)=argmaxπ(θ){Iπ(θ)(θ,x)}为参数θ的Reference先验

积分换序:
Iπ(θ)(θ,x)=∫Θ[∫Xp(x)π(θ∣x)lnπ(θ∣x)π(θ)dx]dθ=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)−ln(π(θ)))dx]dθ=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)dx−∫Xp(x∣θ)ln(π(θ))dx]dθ\begin{aligned} I_{\pi(\theta)}(\theta,x) &=\int_\Theta[\int_Xp(x)\pi(\theta|x)ln\frac{\pi(\theta|x)}{\pi(\theta)}dx]d\theta \\ &=\int_\Theta \pi(\theta)[\int_X p(x|\theta)(ln\pi(\theta|x)-ln(\pi(\theta)))dx]d\theta \\ & = \int_\Theta \pi(\theta)[\int_X p(x|\theta)(ln\pi(\theta|x)dx-\int _X p(x|\theta)ln(\pi(\theta))dx]d\theta \end{aligned} Iπ(θ)(θ,x)=∫Θ[∫Xp(x)π(θ∣x)lnπ(θ)π(θ∣x)dx]dθ=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)−ln(π(θ)))dx]dθ=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)dx−∫Xp(x∣θ)ln(π(θ))dx]dθ
Iπ(θ)(θ,x)=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)dx⎵−∫Xp(x∣θ)ln(π(θ))dx]dθI_{\pi(\theta)}(\theta,x) = \int_\Theta \pi(\theta)[\underbrace{\int_X p(x|\theta)(ln\pi(\theta|x)dx}-\int _X p(x|\theta)ln(\pi(\theta))dx]d\thetaIπ(θ)(θ,x)=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)dx−∫Xp(x∣θ)ln(π(θ))dx]dθ
令lnfn(θ)=∫Xp(x∣θ)lnπ(θ∣x)dxlnf_n(\theta)=\int_X p(x|\theta)ln\pi(\theta|x)dxlnfn(θ)=∫Xp(x∣θ)lnπ(θ∣x)dx
则Iπ(θ)(θ,x)=∫Θπ(θ)lnfn(θ)π(θ)dθI_{\pi(\theta)}(\theta,x)=\int_\Theta \pi(\theta)ln\frac{f_n(\theta)}{\pi(\theta)}d\thetaIπ(θ)(θ,x)=∫Θπ(θ)lnπ(θ)fn(θ)dθ
π∗(θ)=lim⁡n→∞fn(θ)fn(θ0)\pi^*(\theta)=\lim_{n\to \infty}\frac{f_n(\theta)}{f_n(\theta_0)}π∗(θ)=n→∞limfn(θ0)fn(θ)
其中θ0\theta_0θ0是参数空间Θ\ThetaΘ的一个内点.
参考<<贝叶斯分析P65>>

Reference先验计算

二维参数为例子:分布族 p(x∣θ,λ)p(x|\theta,\lambda)p(x∣θ,λ) ,样本为X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn
参数信息阵:
I(θ,λ)=[I11(θ,λ)I12(θ,λ)I21(θ,λ)I22(θ,λ)]I(\theta,\lambda)=\begin{bmatrix} I_{11}(\theta,\lambda) \ \ I_{12}(\theta,\lambda) \\ I_{21}(\theta, \lambda) \ \ I_{22}(\theta, \lambda) \end{bmatrix} I(θ,λ)=[I11(θ,λ) I12(θ,λ)I21(θ,λ) I22(θ,λ)]

1).固定θ\thetaθ,获得先验分布:π(λ∣θ)=I221/2(θ,λ)\pi(\lambda|\theta) = I^{1/2}_{22}(\theta,\lambda)π(λ∣θ)=I221/2(θ,λ)
2).如果π(λ∣θ)是正常先验分布,直接消参数\pi(\lambda|\theta)是正常先验分布,直接消参数π(λ∣θ)是正常先验分布,直接消参数:
p(x∣θ)∫Xp(x∣θ,λ)π(λ∣θ)dλp(x|\theta)\int_X p(x|\theta,\lambda)\pi(\lambda|\theta)d\lambdap(x∣θ)∫Xp(x∣θ,λ)π(λ∣θ)dλ
3).根据p(x∣θ),确定θ的先验分布π(θ)p(x|\theta),确定\theta的先验分布\pi(\theta)p(x∣θ),确定θ的先验分布π(θ)
4).获得联合先验分布:
π(θ,λ)=π(θ)π(λ∣θ)\pi(\theta,\lambda)=\pi(\theta)\pi(\lambda|\theta)π(θ,λ)=π(θ)π(λ∣θ)
如果π(λ∣θ)是非正常先验分布集\pi(\lambda|\theta)是非正常先验分布集π(λ∣θ)是非正常先验分布集:
(1.划分出λ的逼近闭参数空间\lambda的逼近闭参数空间λ的逼近闭参数空间
Θ1⊂Θ2⊂⋯⊂Θk⋯ ,∪kΘk=Θ\Theta_1 \subset \Theta_2 \subset \cdots \subset \Theta_k \cdots, \cup_k \Theta_k = \ThetaΘ1⊂Θ2⊂⋯⊂Θk⋯,∪kΘk=Θ
(2.在Θ上,确定πk(λ∣θ)是正常先验分布,πk(λ∣θ)=Ak(θ)π(λ∣θ),Ak(θ)=1∫Θkπ(λ∣θ)dλ\Theta上,确定\pi_k(\lambda|\theta)是正常先验分布,\pi_k(\lambda|\theta)=A_k(\theta)\pi(\lambda|\theta),A_k(\theta)=\frac{1}{\int_{\Theta_k}\pi(\lambda|\theta)d\lambda}Θ上,确定πk(λ∣θ)是正常先验分布,πk(λ∣θ)=Ak(θ)π(λ∣θ),Ak(θ)=∫Θkπ(λ∣θ)dλ1按照前面步骤二,确定πk(θ)\pi_k(\theta)πk(θ)
πk(θ)=exp{12∫Θkπk(λ∣θ)ln∣I(λ,θ)∣∣I22(λ,θ)∣dλ}\pi_k(\theta)=exp\{ \frac{1}{2} \int_{\Theta_k} \pi_k(\lambda|\theta) ln\frac{|I(\lambda,\theta)|}{|I_{22}(\lambda,\theta)|} d\lambda\}πk(θ)=exp{21∫Θkπk(λ∣θ)ln∣I22(λ,θ)∣∣I(λ,θ)∣dλ}
(3. π(θ,λ)=limk→∞Ak(θ)πk(θ)Ak(θ0)πk(θ0)π(θ∣λ)\pi(\theta,\lambda)=lim_{k \to \infty}\frac{A_k(\theta)\pi_k(\theta)}{A_k(\theta_0)\pi_k(\theta_0)}\pi(\theta|\lambda)π(θ,λ)=limk→∞Ak(θ0)πk(θ0)Ak(θ)πk(θ)π(θ∣λ)
如果参数维数多于二维 ,类似二维多次循环进行
π(θ1,θ2,⋯ ,θk)=π(θ1)π(θ2∣θ1)π(θk∣θ1,θ2,⋯ ,θk−1)\pi(\theta_1,\theta_2,\cdots,\theta_k)=\pi(\theta_1)\pi(\theta_2|\theta_1)\pi(\theta_k|\theta_1,\theta_2,\cdots,\theta_{k-1})π(θ1,θ2,⋯,θk)=π(θ1)π(θ2∣θ1)π(θk∣θ1,θ2,⋯,θk−1)

最大熵先验

定义1: 设θ\thetaθ为离散型随机变量 , 分布律为:p(θ=θi)=pi,i=1,2,⋯p(\theta=\theta_i)=p_i,i=1,2,\cdotsp(θ=θi)=pi,i=1,2,⋯
则称 E(p)=−∑ipilnpiE(p)=-\sum_ip_ilnp_iE(p)=−∑ipilnpi
为随机变量的熵函数.
H(x,y)=H(x)+H(y)H(x,y)=H(x)+H(y)H(x,y)=H(x)+H(y)
P(x,y)=P(x)P(y)P(x,y) = P(x)P(y)P(x,y)=P(x)P(y)
H(x)=−lnp(x)H(x)=-lnp(x)H(x)=−lnp(x)

1).p→0或p→1是,有−plnp→0p\to 0或p\to1是,有-plnp \to 0p→0或p→1是,有−plnp→0
2).∑i=1npi=1时,当p1=p2=⋯=pn有−∑i=1npilnpi最大.\sum^n_{i=1}p_i=1时,当p_1=p_2=\cdots=p_n有-\sum^n_{i=1}p_ilnp_i最大.∑i=1npi=1时,当p1=p2=⋯=pn有−∑i=1npilnpi最大.

连续性:
E(π)=−∫π(θ)lnπ(θ)π0(θ)dθE(\pi)=-\int \pi(\theta)ln\frac{\pi(\theta)}{\pi_0(\theta)}d\thetaE(π)=−∫π(θ)lnπ0(θ)π(θ)dθ
π0(θ)是不变的无信息先验\pi_0(\theta)是不变的无信息先验π0(θ)是不变的无信息先验

定理1(离散型):

设θ为离散型随机变量,θi,i=1,2,⋯ ,满足条件:设\theta为离散型随机变量, \theta_i,i=1,2,\cdots,满足条件:设θ为离散型随机变量,θi,i=1,2,⋯,满足条件:
Eπ(gk(θ))=∑igk(θi)π(θi)=μk,k=1,2,⋯ ,mE^\pi(g_k(\theta))=\sum_ig_k(\theta_i)\pi(\theta_i)=\mu_k,k=1,2,\cdots,mEπ(gk(θ))=i∑gk(θi)π(θi)=μk,k=1,2,⋯,m
其中gk(⋅),μk(k=1,⋯ ,m)分别表示已知的函数和已知的常数.同时还有隐藏条件∑iπ(θi)=1.其中g_k(\cdot),\mu_k(k=1,\cdots,m)分别表示已知的函数和已知的常数.同时还有隐藏条件\sum_i \pi(\theta_i)=1.其中gk(⋅),μk(k=1,⋯,m)分别表示已知的函数和已知的常数.同时还有隐藏条件∑iπ(θi)=1.
则满足条件的最大熵先验为:
πˉ(θi)=exp{∑k=1mλkgk(θi)}∑iexp{∑k=1mλkgk(θi)}\bar \pi(\theta_i)=\frac{exp\{ \sum^m_{k=1} \lambda_kg_k(\theta_i) \}}{\sum_iexp\{ \sum^m_{k=1} \lambda_k g_k(\theta_i) \}}πˉ(θi)=∑iexp{∑k=1mλkgk(θi)}exp{∑k=1mλkgk(θi)}
其中λk是保证πˉ(θ)满足约束条件的常数.其中\lambda_k是保证\bar \pi(\theta)满足约束条件的常数.其中λk是保证πˉ(θ)满足约束条件的常数.

定理2(连续型):

设θ为连续型随机变量,θi,i=1,2,⋯ ,满足条件:设\theta为连续型随机变量, \theta_i,i=1,2,\cdots,满足条件:设θ为连续型随机变量,θi,i=1,2,⋯,满足条件:
Eπ(gk(θ))=∫igk(θ)π(θ)dθ=μk,k=1,2,⋯ ,mE^\pi(g_k(\theta))=\int_i g_k(\theta)\pi(\theta)d\theta=\mu_k,k=1,2,\cdots,mEπ(gk(θ))=∫igk(θ)π(θ)dθ=μk,k=1,2,⋯,m
其中gk(⋅),μk(k=1,⋯ ,m)分别表示已知的函数和已知的常数.同时还有隐藏条件∑iπ(θi)=1.其中g_k(\cdot),\mu_k(k=1,\cdots,m)分别表示已知的函数和已知的常数.同时还有隐藏条件\sum_i \pi(\theta_i)=1.其中gk(⋅),μk(k=1,⋯,m)分别表示已知的函数和已知的常数.同时还有隐藏条件∑iπ(θi)=1.
则满足条件的最大熵先验为:
πˉ(θi)=π0(θ)exp{∑k=1mλkgk(θ)}∫Θπ0(θ)exp{∑k=1mλkgk(θ)}dθ\bar \pi(\theta_i)=\frac{\pi_0(\theta) exp\{ \sum^m_{k=1} \lambda_kg_k(\theta) \}}{\int_{\Theta} \pi_0(\theta)exp\{ \sum^m_{k=1} \lambda_k g_k(\theta) \}d\theta}πˉ(θi)=∫Θπ0(θ)exp{∑k=1mλkgk(θ)}dθπ0(θ)exp{∑k=1mλkgk(θ)}
其中λk是保证πˉ(θ)满足约束条件的常数.其中\lambda_k是保证\bar \pi(\theta)满足约束条件的常数.其中λk是保证πˉ(θ)满足约束条件的常数.

第三章：贝叶斯统计推断

点估计

已知总体X参数的后验分布:π(θ∣x1,⋯ ,xn)\pi(\theta|x_1,\cdots,x_n)π(θ∣x1,⋯,xn)

1).最大后验估计:

也称后验众数估计,后验极大似然估计:
π(θ∣x1,x2,⋯ ,xn)\pi(\theta|x_1,x_2,\cdots,x_n)π(θ∣x1,x2,⋯,xn)

最大值点θ^MD\hat \theta_{MD}θ^MD.

即,将后验分布求其似然函数的最大值(MLE).

2).后验中位数估计:θ^ME\hat \theta_{ME}θ^ME

P(θ>θ^∣x1,x2,⋯ ,xn)=P(θ<θ^∣x1,x2,⋯ ,xn)P(\theta > \hat \theta|x_1,x_2,\cdots,x_n)=P(\theta<\hat \theta|x_1,x_2,\cdots,x_n)P(θ>θ^∣x1,x2,⋯,xn)=P(θ<θ^∣x1,x2,⋯,xn)

3).后验期望估计:

θ^=E(θ∣x1,x2,⋯ ,xn)=θ^E\hat \theta=E(\theta|x_1,x_2,\cdots,x_n)=\hat \theta_Eθ^=E(θ∣x1,x2,⋯,xn)=θ^E

点估计的误差估计

后验分布:π(θ∣x1,⋯ ,xn).贝叶斯估计:θ^=δ(x1,⋯ ,xn)\pi(\theta|x_1,\cdots,x_n).贝叶斯估计:\hat \theta =\delta(x_1,\cdots,x_n)π(θ∣x1,⋯,xn).贝叶斯估计:θ^=δ(x1,⋯,xn)
后验均方误差:
PMSE(δ(x))=Eθ∣x(θ−δ(x1,x2,⋯ ,xn))2PMSE(\delta(x))=E_{\theta|x}(\theta-\delta(x_1,x_2,\cdots,x_n))^2PMSE(δ(x))=Eθ∣x(θ−δ(x1,x2,⋯,xn))2
该值越小越好
当θ^=θ^E,即θ^=Eθ∣x(θ)当\hat \theta=\hat \theta_E,即\hat \theta=E_{\theta|x}(\theta)当θ^=θ^E,即θ^=Eθ∣x(θ)
PMSE(θ^E)=Eθ∣x(θ−θ^E)2=Dθ∣x(θ)=V(x)PMSE(\hat \theta_E)=E_{\theta|x}{(\theta-\hat \theta_E)}^2=D_{\theta|x}(\theta)=V(x)PMSE(θ^E)=Eθ∣x(θ−θ^E)2=Dθ∣x(θ)=V(x)
后验均值估计使得后验均方误差达到最小.

区间估计

已知θ的后验分布π(θ∣x),对于给定的样本x和x和概率1−α,若存在两个统计量θ^1(x),θ^2(x),有已知 \theta 的后验分布 \pi ( \theta | x ), 对于给定的样本x和x 和概率 1-\alpha,若存在两个统计量\hat \theta_1( x ), \hat \theta_2 ( x ) ,有已知θ的后验分布π(θ∣x),对于给定的样本x和x和概率1−α,若存在两个统计量θ^1(x),θ^2(x),有
P(θ^1(x))≤θ≤θ^2(x)∣x)≥1−αP(\hat \theta_1(x)) \le \theta \le \hat \theta_2(x)|x) \ge 1-\alphaP(θ^1(x))≤θ≤θ^2(x)∣x)≥1−α

则称置信水平为1-\alpah的可信区间: [θ^1(x),θ^2(x)],[\hat \theta_1(x), \hat \theta_2(x)],[θ^1(x),θ^2(x)],
若P(θ^L(x)≤θ∣x)≥1−αP(\hat\theta_L(x)\le\theta|x)\ge1-\alphaP(θ^L(x)≤θ∣x)≥1−α:
则称置信下限为:θ^L(x)\hat\theta_L(x)θ^L(x)
若P(θ≤θ^U(x)∣x)≥1−αP(\theta\le\hat\theta_U(x)|x)\ge 1-\alphaP(θ≤θ^U(x)∣x)≥1−α
则称可信上仙为:θ^U(x)\hat\theta_U(x)θ^U(x)

最大后验密度可信区间(HPD)

1.定义(最大后验密度可信集):

X~f(x∣θ)f(x|\theta)f(x∣θ),样本:X1,X2,⋯ ,Xn,θ的后验分布π(θ∣x),给定概率1−α,(0<α<1),集合C满足如下条件:X_1,X_2,\cdots,X_n,\theta的后验分布\pi(\theta|x),给定概率1-\alpha,(0<\alpha<1),集合C满足如下条件:X1,X2,⋯,Xn,θ的后验分布π(θ∣x),给定概率1−α,(0<α<1),集合C满足如下条件:

P(θ∈C)=1−αP(\theta\in C)=1-\alphaP(θ∈C)=1−α
对任意的θ1∈C,θ2∉C,总有π(θ1∣x)>π(θ2∣x)则称C为θ的置信水平为1−α最大后验密度可信集.对任意的\theta_1\in C,\theta_2 \notin C,总有\pi(\theta_1|x)>\pi(\theta_2|x)则称C为\theta的置信水平为1-\alpha最大后验密度可信集.对任意的θ1∈C,θ2∈/C,总有π(θ1∣x)>π(θ2∣x)则称C为θ的置信水平为1−α最大后验密度可信集.

2.大样本方法

X~f(x∣θ),样本:X1,X2,⋯ ,Xn,θ的后验分布πn(θ∣x),μπ(x)=E(θ∣x),Vπ(x),当n比较大时,近似的有:f(x|\theta),样本:X_1,X_2,\cdots,X_n,\theta的后验分布\pi_n(\theta|x),\mu^\pi(x)=E(\theta|x),V^\pi(x),当n比较大时,近似的有:f(x∣θ),样本:X1,X2,⋯,Xn,θ的后验分布πn(θ∣x),μπ(x)=E(θ∣x),Vπ(x),当n比较大时,近似的有:

1).θ−μπ(x)\theta-\mu^\pi(x)θ−μπ(x)~N(0,Vπ(x))N(0,V^\pi(x))N(0,Vπ(x))
→(θ−μπ(x))T(Vπ(x))−1(θ−μπ(x))\to (\theta-\mu^\pi(x))^T(V^\pi(x))^{-1}(\theta-\mu^\pi(x))→(θ−μπ(x))T(Vπ(x))−1(θ−μπ(x))~χ2(p)\chi^2(p)χ2(p)
2).θ→{θ∣(θ−μπ(x))T(Vπ(x))−1(θ−μπ(x))≤χα2(p)}\theta \to \{ \theta|(\theta-\mu^\pi(x))^T(V^\pi(x))^{-1}(\theta-\mu^\pi(x)) \le \chi^2_\alpha(p) \}θ→{θ∣(θ−μπ(x))T(Vπ(x))−1(θ−μπ(x))≤χα2(p)}

预测推断

1.问题提出

1).X~ f(x∣θ),样本:X1,X2,⋯ ,Xn,f(x|\theta),样本:X_1,X_2,\cdots,X_n,f(x∣θ),样本:X1,X2,⋯,Xn,Z~g(z∣θ),g(z|\theta),g(z∣θ),推断未观察值Z0Z_0Z0
Z ~ g(z∣θ)g(z|\theta)g(z∣θ)~g(z∣θ,x)g(z|\theta,x)g(z∣θ,x)
2).XXX~f(x∣θ),样本:X1,X2,⋯ ,Xn,推断未观测值X0f(x|\theta), 样本:X_1,X_2,\cdots,X_n,推断未观测值X_0f(x∣θ),样本:X1,X2,⋯,Xn,推断未观测值X0

2.定义

设X~f(x∣θ),样本:X1,X2,⋯ ,Xn,θ的先验分布π(θ),θ的后验分布π(θ∣x),Zf(x|\theta), 样本:X_1,X_2,\cdots,X_n, \theta的先验分布\pi(\theta),\theta的后验分布\pi(\theta|x),Zf(x∣θ),样本:X1,X2,⋯,Xn,θ的先验分布π(θ),θ的后验分布π(θ∣x),Z ~ g(z∣θ),定义Z0的后验预测密度为g(z|\theta),定义Z_0的后验预测密度为g(z∣θ),定义Z0的后验预测密度为:
P(z0∣x1,⋯ ,xn)=∫g(z0∣θ)π(θ∣x1,⋯ ,xn)dθP(z_0|x_1,\cdots,x_n)=\int g(z_0|\theta)\pi(\theta|x_1,\cdots,x_n)d\thetaP(z0∣x1,⋯,xn)=∫g(z0∣θ)π(θ∣x1,⋯,xn)dθ

特例情况
P(x0∣x1,⋯ ,xn)=∫f(x0∣θ)π(θ∣x1,⋯ ,xn)dθP(x_0|x_1,\cdots,x_n)=\int f(x_0|\theta)\pi(\theta|x_1,\cdots,x_n)d\thetaP(x0∣x1,⋯,xn)=∫f(x0∣θ)π(θ∣x1,⋯,xn)dθ

Z0的预报区间[a,b]满足:Z_0的预报区间[a,b]满足:Z0的预报区间[a,b]满足:
P(a≤z0≤b∣x1,⋯ ,xn)=∫abp(z0∣x1,⋯ ,xn)dz0=1−αP(a\le z_0\le b|x_1,\cdots,x_n)=\int^b_a p(z_0|x_1,\cdots,x_n)dz_0=1-\alphaP(a≤z0≤b∣x1,⋯,xn)=∫abp(z0∣x1,⋯,xn)dz0=1−α

x0的预测区间[a,b]满足:x_0的预测区间[a,b]满足:x0的预测区间[a,b]满足:
P(a≤x0≤b∣x1,⋯ ,xn)=∫abp(x0∣x1,⋯ ,xn)dz0=1−αP(a\le x_0\le b|x_1,\cdots,x_n)=\int^b_a p(x_0|x_1,\cdots,x_n)dz_0=1-\alphaP(a≤x0≤b∣x1,⋯,xn)=∫abp(x0∣x1,⋯,xn)dz0=1−α

假设检验:

H0:θ∈Θ0vsH1:θ∈Θ1H_0:\theta \in \Theta_0\ \ vs\ \ H_1:\theta\in \Theta_1H0:θ∈Θ0 vs H1:θ∈Θ1
计算后验概率:P(θ∈Θ0∣x1,⋯ ,xn),P(θ∈Θ1∣x1,⋯ ,xn)P(\theta \in \Theta_0|x_1,\cdots,x_n),\ P(\theta\in \Theta_1|x_1,\cdots,x_n)P(θ∈Θ0∣x1,⋯,xn), P(θ∈Θ1∣x1,⋯,xn)
若P(θ∈Θ0∣x1,⋯ ,xn)>P(θ∈Θ1∣x1,⋯ ,xn),接受H0P(\theta \in \Theta_0|x_1,\cdots,x_n) \gt P(\theta \in \Theta_1| x_1,\cdots,x_n),接受H_0P(θ∈Θ0∣x1,⋯,xn)>P(θ∈Θ1∣x1,⋯,xn),接受H0
Hi:θ∈Θi(i=1,2,⋯ ,k)H_i:\theta \in \Theta_i(i=1,2,\cdots,k)Hi:θ∈Θi(i=1,2,⋯,k)

αi=P(θ∈Θi∣x),若αl最大,则接受Hl\alpha_i=P(\theta \in \Theta_i|x),若\alpha_l最大,则接受H_lαi=P(θ∈Θi∣x),若αl最大,则接受Hl

贝叶斯因子

设两个假设Θ0和Θ1的先验概率分别为π0和π1,后验概率分别为α0和α1,比率π0π1称为H0对H1先验机会比,α0α1称为H0对H1后验机会比,且称设两个假设\Theta_0和\Theta_1的先验概率分别为\pi_0和\pi_1,后验概率分别为\alpha_0和\alpha_1,比率\frac{\pi_0}{\pi_1}称为H_0对H_1先验机会比,\frac{\alpha_0}{\alpha_1}称为H_0对H_1后验机会比,且称设两个假设Θ0和Θ1的先验概率分别为π0和π1,后验概率分别为α0和α1,比率π1π0称为H0对H1先验机会比,α1α0称为H0对H1后验机会比,且称
Bπ(x)=α0α1π0π1=α0π1α1π0=α0/π0α1/π1B^\pi(x)=\frac{\frac{\alpha_0}{\alpha_1}}{\frac{\pi_0}{\pi_1}}=\frac{\alpha_0\pi_1}{\alpha_1\pi_0}=\frac{\alpha_0/\pi_0}{\alpha_1/\pi_1}Bπ(x)=π1π0α1α0=α1π0α0π1=α1/π1α0/π0

为支持H0H_0H0的贝叶斯因子.
贝叶斯因子Bπ(x)反应数据x支持H0的程度.Bπ(x)取值越大,对H0的支持程度越高.贝叶斯因子B^\pi(x)反应数据x支持H_0的程度.B^\pi(x)取值越大,对H_0的支持程度越高.贝叶斯因子Bπ(x)反应数据x支持H0的程度.Bπ(x)取值越大,对H0的支持程度越高.
拒绝域:α0α1<1\frac{\alpha_0}{\alpha_1}<1α1α0<1等价于:
Bπ(x)<π1π0 ⟺ 1Bπ(x)>π0π1B^\pi(x)<\frac{\pi_1}{\pi_0} \iff \frac{1}{B^\pi(x)}>\frac{\pi_0}{\pi_1}Bπ(x)<π0π1⟺Bπ(x)1>π1π0

简单vs简单检验

H0:Θ0=θ0vsH1:Θ1=θ1H_0:\Theta_0={\theta_0}\ \ vs \ \ H_1:\Theta_1=\theta_1H0:Θ0=θ0 vs H1:Θ1=θ1

α0=P(θ∈Θ0∣x)=P(θ0,x)m(x)=π0P(x∣θ0)π0P(x∣θ0)+π1P(x∣θ1)\alpha_0=P(\theta \in \Theta_0|x)=\frac{P(\theta_0,x)}{m(x)}=\frac{\pi_0P(x|\theta_0)}{\pi_0P(x|\theta_0)+\pi_1P(x|\theta_1)}α0=P(θ∈Θ0∣x)=m(x)P(θ0,x)=π0P(x∣θ0)+π1P(x∣θ1)π0P(x∣θ0)

α1=P(θ∈Θ1∣x)=π1P(x∣θ1)π0P(x∣θ0)+π1P(x∣θ1)\alpha_1=P(\theta \in \Theta_1| x)=\frac{\pi_1P(x|\theta_1)}{\pi_0P(x|\theta_0)+\pi_1P(x|\theta_1)}α1=P(θ∈Θ1∣x)=π0P(x∣θ0)+π1P(x∣θ1)π1P(x∣θ1)

α0α1=π0P(x∣θ0)π1P(x∣θ1)\frac{\alpha_0}{\alpha_1}=\frac{\pi_0P(x|\theta_0)}{\pi_1P(x|\theta_1)}α1α0=π1P(x∣θ1)π0P(x∣θ0)

 ⟹ Bπ(x)=α0/α1π0/π1=P(x∣θ0)P(x∣θ1)\implies B^\pi(x)=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}=\frac{P(x|\theta_0)}{P(x|\theta_1)}⟹Bπ(x)=π0/π1α0/α1=P(x∣θ1)P(x∣θ0)

拒绝域:α0α1<1\frac{\alpha_0}{\alpha_1}<1α1α0<1等价于:
P(x∣θ0)P(x∣θ1)>π1π0\frac{P(x|\theta_0)}{P(x|\theta_1)}>\frac{\pi_1}{\pi_0}P(x∣θ1)P(x∣θ0)>π0π1
例题:

复杂-复杂检验

H0:Θ0(非空复合集)vsH1:Θ1=Θ0−Θ1(非空复合集)H_0:\Theta_0(非空复合集) \ \ vs \ \ H_1:\Theta_1=\Theta_0-\Theta_1(非空复合集) H0:Θ0(非空复合集) vs H1:Θ1=Θ0−Θ1(非空复合集)

α0=P(θ∈Θ0∣x)=P(Θ0,x)m(x)=∫Θ0π(θ)P(x∣θ)dθ∫Θ0π(θ)P(x∣θ)dθ+∫Θ1π(θ)P(x∣θ)dθ\alpha_0=P(\theta \in \Theta_0|x)=\frac{P(\Theta_0,x)}{m(x)}=\frac{\int_{\Theta_0} \pi(\theta)P(x|\theta)d\theta}{\int_{\Theta_0} \pi(\theta) P(x|\theta)d\theta+\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta}α0=P(θ∈Θ0∣x)=m(x)P(Θ0,x)=∫Θ0π(θ)P(x∣θ)dθ+∫Θ1π(θ)P(x∣θ)dθ∫Θ0π(θ)P(x∣θ)dθ

α1=P(θ∈Θ0∣x)=P(Θ1,x)m(x)=∫Θ1π(θ)P(x∣θ)dθ∫Θ0π(θ)P(x∣θ)dθ+∫Θ1π(θ)P(x∣θ)dθ\alpha_1=P(\theta \in \Theta_0|x)=\frac{P(\Theta_1,x)}{m(x)}=\frac{\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta}{\int_{\Theta_0} \pi(\theta) P(x|\theta)d\theta+\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta}α1=P(θ∈Θ0∣x)=m(x)P(Θ1,x)=∫Θ0π(θ)P(x∣θ)dθ+∫Θ1π(θ)P(x∣θ)dθ∫Θ1π(θ)P(x∣θ)dθ

则α0α1=∫Θ0π(θ)P(x∣θ)dθ∫Θ1π(θ)P(x∣θ)dθ则\frac{\alpha_0}{\alpha_1}=\frac{ \int_{\Theta_0} \pi(\theta)P(x|\theta)d\theta }{ \int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta }则α1α0=∫Θ1π(θ)P(x∣θ)dθ∫Θ0π(θ)P(x∣θ)dθ
令π0=∫Θ0π(θ)dθ,π1=∫Θ1π(θ)dθ令\pi_0 = \int_{\Theta_0} \pi(\theta)d\theta,\ \pi_1=\int_{\Theta_1}\pi(\theta)d\theta令π0=∫Θ0π(θ)dθ, π1=∫Θ1π(θ)dθ
Bπ(x)=α0/α1π0/π1=∫Θ0π(θ)π0P(x∣θ)dθ∫Θ1π(θ)π1P(x∣θ)dθ=m0(x)m1(x)B^\pi(x)=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}=\frac{ \int_{\Theta_0} \frac{\pi(\theta)}{\pi_0}P(x|\theta)d\theta }{ \int_{\Theta_1} \frac{\pi(\theta)}{\pi_1}P(x|\theta)d\theta }=\frac{m_0(x)}{m_1(x)}Bπ(x)=π0/π1α0/α1=∫Θ1π1π(θ)P(x∣θ)dθ∫Θ0π0π(θ)P(x∣θ)dθ=m1(x)m0(x)

拒绝域:α0α1<1\frac{\alpha_0}{\alpha_1}<1α1α0<1等价于:
m0(x)m1(x)>π1π0\frac{m_0(x)}{m_1(x)}>\frac{\pi_1}{\pi_0}m1(x)m0(x)>π0π1

例题:

简单-复杂检验

第四章：贝叶斯统计决策

一.概念

1.样本空间和样本分布族

随机变量X取值于样本空间R,分布族为p(x∣θ),θ∈Θ随机变量 X 取值于样本空间 \Bbb R ,分布族为 { p( x | \theta ), \theta \in \Theta }随机变量X取值于样本空间R,分布族为p(x∣θ),θ∈Θ

2.决策空间: 统计决策问题可能采取的行动构成的非空集合.

定义在样本空间,取值于决策空间中函数δ(x)称为决策函数定义在样本空间,取值于决策空间中函数 \delta (x ) 称为决策函数定义在样本空间,取值于决策空间中函数δ(x)称为决策函数

3.损失函数

定义在Θ×R的非负可测函数,记L(θ,δ(x))定义在 \Theta \times \Bbb R 的非负可测函数,记L( \theta , \delta ( x ))定义在Θ×R的非负可测函数,记L(θ,δ(x))

4.统计决策三要素

随机变量X的分布族为p(x∣θ),决策空间Θ和损失函数L(θ,δ(x)).随机变量 X 的分布族为 p ( x | \theta ) , 决策空间 \Theta 和损失函数L(\theta,\delta(x)).随机变量X的分布族为p(x∣θ),决策空间Θ和损失函数L(θ,δ(x)).

5.风险函数

设 δ(x)\delta (x )δ(x) 是一个决策函数,平均
损失:
R(θ,δ)=EX∣θ[L(θ,δ(x))]=∫L(θ,δ(x))p(x∣θ)dxR(\theta,\delta)=E_{X|\theta}[L(\theta,\delta(x))]=\int L(\theta,\delta(x))p(x|\theta)dxR(θ,δ)=EX∣θ[L(θ,δ(x))]=∫L(θ,δ(x))p(x∣θ)dx
为δ(x)\delta(x)δ(x)的风险函数.
对每一个θ的平均损失,θ的函数对每一个 \theta 的平均损失, \theta 的函数对每一个θ的平均损失,θ的函数
风险函数就是损失函数关于p(x∣θ)p(x|\theta)p(x∣θ)的期望
.
.
决策函数就类似于机器学习中的y^\hat yy^
设δ(x)是任意一个决策函数,如果存在一个决策函数δ∗(x),满足:设\delta(x)是任意一个决策函数,如果存在一个决策函数\delta^*(x),满足:设δ(x)是任意一个决策函数,如果存在一个决策函数δ∗(x),满足:
R(θ,δ∗)≤R(θ,δ)R(\theta,\delta^*) \le R(\theta,\delta)R(θ,δ∗)≤R(θ,δ)
则称δ∗(x)\delta^*(x)δ∗(x)为一致最优决策函数

6.贝叶斯风险

设R(θ,δ)为风险函数,π(θ)为θ的先验分布,则称:设R(\theta,\delta)为风险函数,\pi(\theta)为\theta的先验分布,则称:设R(θ,δ)为风险函数,π(θ)为θ的先验分布,则称:
Rπ(δ)=Eθ[R(θ,δ)]=∫R(θ,δ)π(θ)dδR_\pi( \delta )=E_\theta[R(\theta,\delta)]=\int R(\theta,\delta) \pi(\theta)d\deltaRπ(δ)=Eθ[R(θ,δ)]=∫R(θ,δ)π(θ)dδ
为σ(x)\sigma(x)σ(x)的贝叶斯风险.
如果δ(x)是任意一个决策函数,如果存在一个决策函数δ∗(x),满足:如果 \delta( x ) 是任意一个决策函数,如果存在一个决策函数\delta^* ( x ), 满足:如果δ(x)是任意一个决策函数,如果存在一个决策函数δ∗(x),满足:
Rπ(δ∗)≤Rπ(δ)R_\pi(\delta^*) \le R_\pi(\delta)Rπ(δ∗)≤Rπ(δ)
则称δ∗(x)为统计决策的贝叶斯解.则称\delta^*(x)为统计决策的贝叶斯解.则称δ∗(x)为统计决策的贝叶斯解.
统计决策的贝叶斯解就是贝叶斯风险的一致最有决策函数

7.后验风险

设L(θ,δ(x))为损失函数,π(θ∣x)为θ的后验分布,则称:设L(\theta,\delta(x))为损失函数,\pi(\theta|x)为\theta的后验分布,则称:设L(θ,δ(x))为损失函数,π(θ∣x)为θ的后验分布,则称:
R(δ(x)∣x)=Eθ∣x[L(θ,δ(x))]=∫L(θ,δ(x))π(θ∣x)dθR(\delta(x)|x)=E_{\theta|x}[L(\theta,\delta(x))]=\int L(\theta,\delta(x))\pi(\theta|x)d\thetaR(δ(x)∣x)=Eθ∣x[L(θ,δ(x))]=∫L(θ,δ(x))π(θ∣x)dθ
为决策函数δ(x)\delta(x)δ(x)的贝叶斯后验风险.
在某个样本下,损失函数LLL关于后验分布π(θ∣x)\pi(\theta|x)π(θ∣x)的期望(对θ\thetaθ求积分)
如果存在一个决策函数δ∗(x),对任意的决策函数δ(x),满足:如果存在一个决策函数\delta^* ( x ), 对任意的决策函数 \delta ( x ) ,满足:如果存在一个决策函数δ∗(x),对任意的决策函数δ(x),满足:
R(δ∗(x)∣x)=minR(δ(x)∣x)R(\delta^*(x)|x)=minR(\delta(x)|x)R(δ∗(x)∣x)=minR(δ(x)∣x)
则称δ∗(x)\delta^*(x)δ∗(x)为后验风险最小原则下最优贝叶斯决策函数.

8.贝叶斯先验风险

设π(θ)为先验分布,称:\pi(\theta)为先验分布,称:π(θ)为先验分布,称:
R(π,δ(x))=Eθ[L(θ,δ(x))]=∫L(θ,δ(x))π(θ)dθR(\pi,\delta(x))=E_\theta[L(\theta,\delta(x))]=\int L(\theta,\delta(x))\pi(\theta)d\thetaR(π,δ(x))=Eθ[L(θ,δ(x))]=∫L(θ,δ(x))π(θ)dθ
为δ(x)对θ的贝叶斯期望风险为\delta(x)对\theta的贝叶斯期望风险为δ(x)对θ的贝叶斯期望风险

EX(R(δ(x)∣x))=∫R(δ(x)∣x)m(x)dx=∫m(x)dx∫L(θ,δ(x))π(θ∣x)dθ=∫dx∫L(θ,δ(x))p(x,θ)dθ=∫dx∫L(θ,δ(x))π(θ)p(x∣θ)dθ=∫π(θ)dθ∫L(θ,δ(x))p(x∣θ)dx=∫R(θ,δ)π(θ)dθ=Eθ[R(θ,δ)]=Rπ(δ)=∫∫L(θ,δ(x))p(x,θ)dxdθ‾\begin{aligned} E_X(R(\delta(x)|x)) &=\int R(\delta(x)|x)m(x)dx\\ &=\int m(x)dx\int L(\theta,\delta(x))\pi(\theta|x)d\theta\\ &=\int dx \int L(\theta,\delta(x))p(x,\theta)d\theta\\ &=\int dx \int L(\theta,\delta(x))\pi(\theta)p(x|\theta)d\theta\\ &=\int \pi(\theta)d\theta \int L(\theta,\delta(x))p(x|\theta)dx\\ &=\int R(\theta,\delta)\pi(\theta)d\theta\\ &=E_\theta[R(\theta,\delta)]\\ &=R_\pi(\delta)\\ &=\underline{\int \int L(\theta,\delta(x))p(x,\theta)dxd\theta} \end{aligned} EX(R(δ(x)∣x))=∫R(δ(x)∣x)m(x)dx=∫m(x)dx∫L(θ,δ(x))π(θ∣x)dθ=∫dx∫L(θ,δ(x))p(x,θ)dθ=∫dx∫L(θ,δ(x))π(θ)p(x∣θ)dθ=∫π(θ)dθ∫L(θ,δ(x))p(x∣θ)dx=∫R(θ,δ)π(θ)dθ=Eθ[R(θ,δ)]=Rπ(δ)=∫∫L(θ,δ(x))p(x,θ)dxdθ

二.基本原理

1.后验风险最小原则:

1).平方损失下的贝叶斯估计

2).加权平方损失下的贝叶斯估计

3.在绝对值损失下的贝叶斯估计

4.在线性损失下的贝叶斯估计

三.最小最大准则

定理一:

定理二

四.区间估计的决策

五.假设检验的决策

第五章：贝叶斯计算方法

一.E-M算法

例1

例2.

二.后验分布的相和性

后验分布的渐近正态性

第六章：贝叶斯大样本方法

第七章：贝叶斯模型选择

一正常先验下的贝叶斯因子

二非正常先验下的贝叶斯因子

三贝叶斯模型评价

第八章：经验贝叶斯

贝叶斯分析-学习笔记(超干的干货)相关推荐

STM32学习笔记(超详细)
查看全文 http://www.taodudu.cc/news/show-6770803.html 相关文章: STM32单片机学习笔记(超详细整理143个问题,学习必看) vsb asc_vsb电力 ...
吴恩达推荐深度学习笔记+超详细思维导图！不做学术打工人！
关于人工智能的分支-深度学习版块的资源有很多,但是都会较为分散.小编今天对这些资源进行了整理归纳,汇编了一套学习资源(包含书籍+电子书+百篇论文+思维导图+吴恩达深度学习笔记大全+计算机视觉学术汇总) ...
吴恩达深度学习笔记-超参数调试、Batch正则化(第6课)
超参数调试一.调试处理二.为超参数选择合适的范围三.超参数训练的实践:Pandas VS Caviar 四.正则化网络的激活函数五.将Batch Norm拟合进神经网络六.Batch Nor ...
【数据可视化】Matplotlib 入门到精通学习笔记(超详细)
数据可视化是什么如果将文本数据与图表数据相比较,人类的思维模式更适合于理解后者,原因在于图表数据更加直观且形象化,它对于人类视觉的冲击更强,这种使用图表来表示数据的方法被叫做数据可视化. 当使用图表 ...
JavaScript 学习笔记超详细（b站pink老师）
权威网站: MDN JavaScript权威网站: https://developer.mozilla.org/zh-CN/docs/Web/JavaScript 目录一.JavaScript基础 ...
JSF学习笔记超详细，从入门到精通，持续更新中~
JSF笔记 1.JSF概述 JavaServer Faces (JSF) 是一种用于构建Java Web 应用程序的标准框架(是Java Community Process 规定的JSR-127标准) ...
mysql 8.0.26学习笔记超详细入门到精通
目录 1.基本的SELECT语句 1.1 查询表中特定字段 1.2 字段取别名 1.3 数据去重 1.4 数据空值替换 1.5 显示表的结构 1.6 条件查询where 2.算术运算符 3.比较运算符 ...
Unity学习笔记--超简单：两个游戏对象直接用线连接（UI和世界坐标下均可）
目录 UI用效果图 UI代码示例挂载示例世界坐标用挂载示例效果图世界坐标代码示例我们分两种情况,一种是UI上连线,一种是世界坐标下连线. UI用效果图 UI代码示例 public cl ...
STM32学习笔记---超详细整理144个问题
1.AHB系统总线分为APB1(36MHz)和APB2(72MHz),其中2>1,意思是APB2接高速设备: 2.Stm32f10x.h相当于reg52.h(里面有基本的位操作定义),另一个为s ...

贝叶斯分析-学习笔记(超干的干货)

文章目录

第一章.绪论

一、常见随机变量分布

1.二项分布：

2.Poisson分布

3.几何分布

4.帕斯卡分布（负二项分布）

5.多项分布（二项分布的推广）

6.均匀分布

7.指数分布

8.正态分布

9.柯西分布

10.伽马分布

11.逆伽马分布

12.贝塔分布

13.狄里克莱分布(贝塔分布的多维形式)

14.帕累托分布

二. 联合分布,边缘分布,条件分布

1.已知边缘分布和条件分布

2.已知联合分布

三.基本概念

1.指数族:

2.充分统计量:

3.因子分解定理:

4.完备统计量:

5.完全统计量判定:

6.UMVUE:

7.L-S定理:

8.C-R不等式:

9.N-P引理

10.N-P引理推广

第二章.先验分布的选取

一.古典学派和贝叶斯学派

二.贝叶斯统计的基本概念

1).参数的先验分布: π(θ)\pi (\theta)π(θ)

2).参数的后验分布:π(θ∣x1,x2,⋯&ThinSpace;,xn)\pi(\theta|x_1,x_2,\cdots, x_n)π(θ∣x1​,x2​,⋯,xn​)

三.后验分布的计算

四.先验分布函数形式的确定

五.超参数的确定

1.先验分布具有明确的意义或信息

2.利用边缘分布确定超参数(矩估计和MLE)

六.无信息先验分布

1.贝叶斯假设

2. 位置参数的无信息先验

3.尺度参数的无信息先验

4.一般情况:Jeffreys无信息先验

七.共轭先验分布

1.共轭先验分布

2.求共轭先验分布

八.多层先验分布

后验分布与充分性

回顾充分统计量

因子分解定理

后验分布引理

Reference先验

KL散度定义:

Reference先验

Reference先验计算

最大熵先验

定理1(离散型):

定理2(连续型):

第三章：贝叶斯统计推断

点估计

1).最大后验估计:

2).后验中位数估计:θ^ME\hat \theta_{ME}θ^ME​

3).后验期望估计:

点估计的误差估计

区间估计

最大后验密度可信区间(HPD)

1.定义(最大后验密度可信集):

2.大样本方法

预测推断

1.问题提出

2.定义

假设检验:

贝叶斯因子

简单vs简单检验

复杂-复杂检验

简单-复杂检验

2).参数的后验分布:π(θ∣x1,x2,⋯ ,xn)\pi(\theta|x_1,x_2,\cdots, x_n)π(θ∣x1,x2,⋯,xn)

2).后验中位数估计:θ^ME\hat \theta_{ME}θ^ME

一正常先验下的贝叶斯因子

二非正常先验下的贝叶斯因子

三贝叶斯模型评价