文章目录

  • 第一章.绪论
    • 一、常见随机变量分布
      • 1.二项分布:
      • 2.Poisson分布
      • 3.几何分布
      • 4.帕斯卡分布(负二项分布)
      • 5.多项分布(二项分布的推广)
      • 6.均匀分布
      • 7.指数分布
      • 8.正态分布
      • 9.柯西分布
      • 10.伽马分布
      • 11.逆伽马分布
      • 12.贝塔分布
      • 13.狄里克莱分布(贝塔分布的多维形式)
      • 14.帕累托分布
    • 二. 联合分布,边缘分布,条件分布
      • 1.已知边缘分布和条件分布
      • 2.已知联合分布
    • 三.基本概念
      • 1.指数族:
      • 2.充分统计量:
      • 3.因子分解定理:
      • 4.完备统计量:
      • 5.完全统计量判定:
      • 6.UMVUE:
      • 7.L-S定理:
      • 8.C-R不等式:
      • 9.N-P引理
      • 10.N-P引理推广
  • 第二章.先验分布的选取
    • 一.古典学派和贝叶斯学派
    • 二.贝叶斯统计的基本概念
      • 1).参数的先验分布: $\pi (\theta)$
      • 2).参数的后验分布:$\pi(\theta|x_1,x_2,\cdots, x_n)$
    • 三.后验分布的计算
    • 四.先验分布函数形式的确定
    • 五.超参数的确定
      • 1.先验分布具有明确的意义或信息
      • 2.利用边缘分布确定超参数(矩估计和MLE)
    • 六.无信息先验分布
      • 1.贝叶斯假设
      • 2. 位置参数的无信息先验
      • 3.尺度参数的无信息先验
      • 4.一般情况:Jeffreys无信息先验
    • 七.共轭先验分布
      • 1.共轭先验分布
      • 2.求共轭先验分布
    • 八.多层先验分布
    • 后验分布与充分性
      • 回顾充分统计量
      • 因子分解定理
      • 后验分布引理
    • Reference先验
      • KL散度定义:
      • Reference先验
      • Reference先验计算
    • 最大熵先验
      • 定理1(离散型):
      • 定理2(连续型):
  • 第三章:贝叶斯统计推断
    • 点估计
      • 1).最大后验估计:
      • 2).后验中位数估计:$\hat \theta_{ME}$
      • 3).后验期望估计:
      • 点估计的误差估计
    • 区间估计
    • 最大后验密度可信区间(HPD)
      • 1.定义(最大后验密度可信集):
      • 2.大样本方法
    • 预测推断
      • 1.问题提出
      • 2.定义
    • 假设检验:
      • 贝叶斯因子
      • 简单vs简单检验
      • 复杂-复杂检验
      • 简单-复杂检验
  • 第四章:贝叶斯统计决策
    • 一.概念
      • 1.样本空间和样本分布族
      • 2.决策空间: 统计决策问题可能采取的行动构成的非空集合.
      • 3.损失函数
      • 4.统计决策三要素
      • 5.风险函数
      • 6.贝叶斯风险
      • 7.后验风险
      • 8.贝叶斯先验风险
    • 二.基本原理
      • 1.后验风险最小原则:
        • 1).平方损失下的贝叶斯估计
        • 2).加权平方损失下的贝叶斯估计
        • 3.在绝对值损失下的贝叶斯估计
        • 4.在线性损失下的贝叶斯估计
    • 三.最小最大准则
      • 定理一:
      • 定理二
    • 四.区间估计的决策
    • 五.假设检验的决策
  • 第五章:贝叶斯计算方法
    • 一.E-M算法
    • 二.后验分布的相和性
    • 后验分布的渐近正态性
  • 第六章:贝叶斯大样本方法
  • 第七章:贝叶斯模型选择
    • 一 正常先验下的贝叶斯因子
    • 二 非正常先验下的贝叶斯因子
    • 三 贝叶斯模型评价
  • 第八章:经验贝叶斯

第一章.绪论

一、常见随机变量分布

1.二项分布:

如果随机变量的分布律为
p(X=k)=Cnkpk(1−p)n−k,(k=0,1,...,n)p(X=k)=C^k_np^k(1-p)^{n-k},(k=0,1,...,n)p(X=k)=Cnk​pk(1−p)n−k,(k=0,1,...,n)

则称随机变量X服从参数为(n,p)(n,p)(n,p)的二项分布
记为X~B(n,p),(其中n为自然数,0<p<1为参数)

  • 1). n重伯努利实验,关心事件发生次数的分布律
  • 2)EX=np,DX=np(1−p)EX=np,DX = np(1-p)EX=np,DX=np(1−p)
    当n=1时,为“0-1分布”,即B(1,p)B(1,p)B(1,p)

2.Poisson分布

如果随机变量X的分布律为
PX=k=λkk!e−λ,(k=0,1,…&ThinSpace;.whereconstantλ&gt;0)P{X=k}=\frac{\lambda^k}{k!}e^{-\lambda},(k=0,1,\dots. where\ constant\ \lambda&gt;0)PX=k=k!λk​e−λ,(k=0,1,….where constant λ>0)

记为:XXX~p(λ)p(\lambda)p(λ)

  • 1).稀有事件,事件发生次数的分布律
  • 2).EX=λ,DX=λEX=\lambda,DX =\lambdaEX=λ,DX=λ

3.几何分布

如果随机变量X的分布律为
P(X=k)=(1−p)k−1p,(k=1,2,…&ThinSpace;.whereconstrantp∈(0,1))P(X=k)=(1-p)^{k-1}p,(k=1,2,\dots.\ where\ constrant\ p\in (0,1))P(X=k)=(1−p)k−1p,(k=1,2,…. where constrant p∈(0,1))
则称随机变量X服从参数为p 的几何分布.
记为:XXX~G(p)G(p)G(p)

  • 1).独立重复试验,首次成功次数的分布律。
  • 2).EX=1p,DX=1−pp2EX=\frac{1}{p},DX=\frac{1-p}{p^2}EX=p1​,DX=p21−p​

4.帕斯卡分布(负二项分布)

如果随机变量X的分布律为
P(X=k)=Ck−1r−1(1−p)k−rpr),(k=r,r+1,r+2,…,whereconstantp∈(0,1))P(X=k)=C^{r-1}_{k-1}(1-p)^{k-r}p^r),(k=r,r+1,r+2,\dots,where\ constant\ p\in (0,1))P(X=k)=Ck−1r−1​(1−p)k−rpr),(k=r,r+1,r+2,…,where constant p∈(0,1))
记为:XXX~NB(r,p)NB(r,p)NB(r,p)

  • 1).独立重复试验,第r此成功时实验次数的分布律
  • 2).EX=rp,DX=r(1−p)p2EX=\frac{r}{p},DX=\frac{r(1-p)}{p^2}EX=pr​,DX=p2r(1−p)​
    *负二项分布可以看成是r个独立同分布的几何分布的YiY_iYi​~G(p)G(p)G(p)叠加,则有

EX=E(Y1+Y2+⋯+Yr)=rE(Yi)=r⋅1pEX = E(Y_1+Y_2+\cdots+Y_r)=rE(Y_i)=r\cdot \frac{1}{p}EX=E(Y1​+Y2​+⋯+Yr​)=rE(Yi​)=r⋅p1​

DX=D(Y1+Y2+⋯+Yr)=rD(Yi)=r⋅1−pp2DX = D(Y_1+Y_2+\cdots+Y_r)=rD(Y_i)=r\cdot \frac{1-p}{p^2}DX=D(Y1​+Y2​+⋯+Yr​)=rD(Yi​)=r⋅p21−p​

5.多项分布(二项分布的推广)

如果随机向量N=(N1,N2,⋯&ThinSpace;,Nm)N=(N_1,N_2,\cdots,N_m)N=(N1​,N2​,⋯,Nm​)的分布律为
P(N1=r1,N2=r2,⋯&ThinSpace;,Nm=rm)=n!r1!r2!⋯rm!p1r1p2r2⋯pmrmP(N_1=r_1,N_2=r_2,\cdots,N_m=r_m)=\frac{n!}{r_1!r_2!\cdots r_m!}p^{r_1}_1p^{r_2}_2\cdots p^{r_m}_mP(N1​=r1​,N2​=r2​,⋯,Nm​=rm​)=r1​!r2​!⋯rm​!n!​p1r1​​p2r2​​⋯pmrm​​
则称随机变量N服从参数为p=(p1,⋯&ThinSpace;,pm)的多项分布p=(p_1,\cdots,p_m)的多项分布p=(p1​,⋯,pm​)的多项分布.
Σi=1mpi=1,Σi=1mri=n\Sigma^m_{i=1}p_i=1,\Sigma^m_{i=1}r_i=nΣi=1m​pi​=1,Σi=1m​ri​=n(其中n为自然数,0<pip_ipi​<1为参数)
记作NNN~M(n,p)M(n,p)M(n,p)

-1).每次试验有m个可能结果:A1,A2,…,AmA_1,A_2,\dots,A_mA1​,A2​,…,Am​

-2).P(Ak)=pkP(A_k)=p_kP(Ak​)=pk​,此实验独立重复进行n此,记AkA_kAk​发生的次数为NkN_kNk​.
NNN~M(n,p)M(n,p)M(n,p)可以分解成n个独立的M(1,p)M(1,p)M(1,p)之和。

6.均匀分布

若随机变量X 的密度函数为
f(x)={1b−a,if a≤x≤b0,othersf(x)=\begin{cases} \frac{1}{b-a}, &amp; \text{if $a\le x\le b$} \\ 0, &amp; others \end{cases} f(x)={b−a1​,0,​if a≤x≤bothers​
则称随机变量XXX服从区间[a,b][a,b][a,b]上的均匀分布.
记作X~U[a,b]U[a,b]U[a,b]
F(x)={0,x&lt;ax−ab−a,a≤x≤b1,b&lt;xF(x)= \begin{cases} 0, &amp; x&lt;a \\ \frac{x-a}{b-a},&amp;a\le x\le b \\ 1, &amp; b&lt;x \end{cases} F(x)=⎩⎪⎨⎪⎧​0,b−ax−a​,1,​x<aa≤x≤bb<x​
几何概型

  • 1).Pc&lt;X&lt;c+l=lb−aP{c&lt;X&lt;c+l}=\frac{l}{b-a}Pc<X<c+l=b−al​
  • 2)l.EX=1b−a,DX=(b−a)212EX=\frac{1}{b-a},DX=\frac{(b-a)^2}{12}EX=b−a1​,DX=12(b−a)2​

7.指数分布

XXX~e(λ)e(\lambda)e(λ)
定义:如果随机变量X 的密度函数为
f(x)=λe−λxI{x&gt;0}f(x)=\lambda e^{-\lambda x}I\{x&gt;0\}f(x)=λe−λxI{x>0}
其中λ&gt;0\lambda&gt;0λ>0为常数,则称随机变量X服从参数为λ\lambdaλ的指数分布.

  • 1).F(x)=1−e−λxI{x&gt;0}F(x)=1-e^{-\lambda x}I\{x&gt;0\}F(x)=1−e−λxI{x>0}
  • 2).P(X&gt;x)=1−F(x)=e−λxP(X&gt;x)=1-F(x)=e^{-\lambda x}P(X>x)=1−F(x)=e−λx
  • 3).EX=1λ,DX=1λ2EX=\frac{1}{\lambda},DX=\frac{1}{\lambda^2}EX=λ1​,DX=λ21​

8.正态分布

如果连续型随机变量的密度函数为
f(x)=12πσe−(x−μ)22σ2f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}}f(x)=2π​σ1​e−2σ2(x−μ)2​
(where−∞&lt;μ&lt;+∞,constantσ&gt;0(where\ -\infty \lt \mu\lt +\infty,constant\ \sigma &gt;0(where −∞<μ<+∞,constant σ>0)

9.柯西分布

如果连续型随机变量的密度函数为
f(x)=1βπ11+(x−αβ)2,x∈Rf(x)=\frac{1}{\beta \pi}\frac{1}{1+(\frac{x-\alpha}{\beta})^2},x\in \mathbb Rf(x)=βπ1​1+(βx−α​)21​,x∈R
则称随机变量X服从参数为α,β\alpha,\betaα,β的柯西分布
记为:X~C(α,β)(\alpha,\beta)(α,β)

  • 若α=0,β=1,我们称C(0,1)为标准柯西分布\alpha=0,\beta=1,我们称C(0,1)为标准柯西分布α=0,β=1,我们称C(0,1)为标准柯西分布.
  • f(x)=1π11+x2,x∈Rf(x)=\frac{1}{\pi}\frac{1}{1+x^2},x\in \mathbb Rf(x)=π1​1+x21​,x∈R
  • EX不存在
    物理学中受迫共振的微分方程的解。

10.伽马分布

如果随机变量 X 的密度函数为
f(x)=(βx)α−1Γ(α)βe−βxI{x&gt;0},whereα&gt;0,β&gt;0f(x)=\frac{(\beta x)^{\alpha-1}}{\Gamma(\alpha)}\beta e^{-\beta x}I\{ x&gt;0\},where\ \alpha &gt;0,\beta &gt;0f(x)=Γ(α)(βx)α−1​βe−βxI{x>0},where α>0,β>0
则称随机变量XXX服从参数为(α,β)(\alpha,\beta)(α,β)的Γ\GammaΓ分布.
记为:XXX~Γ(α,β)\Gamma(\alpha,\beta)Γ(α,β)

  • 当α=1\alpha = 1α=1时, XXX~e(β)e(\beta)e(β)
  • Γ(α)=∫0∞xα−1e−xdx=(α−1)Γ(α−1)\Gamma(\alpha)=\int^{\infty}_0x^{\alpha-1}e^{-x}dx=(\alpha-1)\Gamma(\alpha-1)Γ(α)=∫0∞​xα−1e−xdx=(α−1)Γ(α−1)
  • EX=∫0∞(βx)αΓ(α)e−βxdx=Γ(α+1)βΓ(α)=αβEX=\int^{\infty}_0\frac{(\beta x)^{\alpha}}{\Gamma(\alpha)}e^{-\beta x}dx =\frac{\Gamma(\alpha+1)}{\beta\Gamma(\alpha)}=\frac{\alpha}{\beta}EX=∫0∞​Γ(α)(βx)α​e−βxdx=βΓ(α)Γ(α+1)​=βα​
  • DX=EX2−(EX)2=α2+αβ2−(αβ)2=αβ2DX=EX^2-(EX)^2=\frac{\alpha^2+\alpha}{\beta^2}-(\frac{\alpha}{\beta})^{2}=\frac{\alpha}{\beta^2}DX=EX2−(EX)2=β2α2+α​−(βα​)2=β2α​
  • 独立的指数分部之和服从伽马分布。

11.逆伽马分布

如果随机变量 X 的密度函数为
f(x)=βαΓ(α)x−(α+1)e−βxI{x&gt;0},whereα&gt;0,β&gt;0f(x)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{-(\alpha+1)}e^{-\frac{\beta}{x}}I\{x&gt;0\},where\ \alpha&gt;0,\beta&gt;0f(x)=Γ(α)βα​x−(α+1)e−xβ​I{x>0},where α>0,β>0
则称随机变量XXX服从参数为(α,β)(\alpha,\beta)(α,β)的逆伽马分布.
记为:XXX~Γ−1(α,β)\Gamma^{-1}(\alpha,\beta)Γ−1(α,β)

  • 当XXX~Γ(α,β)\Gamma(\alpha,\beta)Γ(α,β)时, Y=1XY=\frac{1}{X}Y=X1​~Γ−1(α,β)\Gamma^{-1}(\alpha,\beta)Γ−1(α,β)
  • EX=∫0∞xβαΓ(α)x−(α+1)eβαdx=βα−1EX=\int^\infty_0x \frac{\beta\alpha}{\Gamma(\alpha)}x^{-(\alpha+1)}e^{\frac{\beta}{\alpha}}dx=\frac{\beta}{\alpha-1}EX=∫0∞​xΓ(α)βα​x−(α+1)eαβ​dx=α−1β​
  • DX=β2(α−1)2(α−2)DX=\frac{\beta^2}{(\alpha-1)^2(\alpha-2)}DX=(α−1)2(α−2)β2​

通常用来描述误差分布。

12.贝塔分布

如果随机变量 X 的密度函数为
f(x)=Γ(a+b)Γ(a)Γ(b)xa−1(1−x)b−1I{0&lt;x&lt;1},wherea&gt;0,b&gt;0f(x)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1}I\{0\lt x \lt1\},where\ a&gt;0,b&gt;0 f(x)=Γ(a)Γ(b)Γ(a+b)​xa−1(1−x)b−1I{0<x<1},where a>0,b>0

则称随机变量 X 服从参数为 ( a , b ) 的β\betaβ分布.
记为XXX~Be(a,b)Be(a,b)Be(a,b)

  • 当a=1,b=1时, XXX~U(0,1)U(0,1)U(0,1)
  • ∫−∞∞f(x)dx=1\int^\infty_{-\infty}f(x)dx=1∫−∞∞​f(x)dx=1, ∫01xa−1(1−x)b−1dx=Γ(a)Γ(b)Γ(a+b)=β(a,b)\int^1_0x^{a-1}(1-x)^{b-1}dx=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}=\beta(a,b)∫01​xa−1(1−x)b−1dx=Γ(a+b)Γ(a)Γ(b)​=β(a,b)
  • EX=∫0∞Γ(a+b)Γ(a)+Γ(b)xa(1−x)b−1dx=Γ(a+b)Γ(a)Γ(b)Γ(a+1)Γ(b)Γ(a+b+1)=aa+bEX=\int^\infty_0 \frac{\Gamma(a+b)}{\Gamma(a)+\Gamma(b)}x^a(1-x)^{b-1}dx=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\frac{\Gamma(a+1)\Gamma(b)}{\Gamma(a+b+1)}=\frac{a}{a+b}EX=∫0∞​Γ(a)+Γ(b)Γ(a+b)​xa(1−x)b−1dx=Γ(a)Γ(b)Γ(a+b)​Γ(a+b+1)Γ(a+1)Γ(b)​=a+ba​
  • DX=ab(a+b)2(a+b+1)DX=\frac{ab}{(a+b)^2(a+b+1)}DX=(a+b)2(a+b+1)ab​
  • beta分布可以看作一个概率的概率分布.
  • 若XXX ~ Γ(α,θ)\Gamma(\alpha,\theta)Γ(α,θ),YYY ~ Γ(β,θ)\Gamma(\beta,\theta)Γ(β,θ)独立,则XX+Y\frac{X}{X+Y}X+YX​ ~ Be(α,β)Be(\alpha,\beta)Be(α,β)

13.狄里克莱分布(贝塔分布的多维形式)

P(x1,x2,…,xk)=Γ(α1+α2+⋯+αk)Γ(α1)Γ(α2)…Γ(αk)x1α1−1x2α2−1⋯xkαk−1,∑i=1kxi=1P(x_1,x_2,\dots,x_k)=\frac{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)}x^{\alpha_1-1}_1x^{\alpha_2-1}_2 \cdots x^{\alpha_k-1}_k,\sum^k_{i=1}x_i=1P(x1​,x2​,…,xk​)=Γ(α1​)Γ(α2​)…Γ(αk​)Γ(α1​+α2​+⋯+αk​)​x1α1​−1​x2α2​−1​⋯xkαk​−1​,i=1∑k​xi​=1
则称随机变量 XXX 服从参数为 α=(α1,⋯&ThinSpace;,αk)(αi&gt;0)\alpha=(\alpha_1,\cdots,\alpha_k)(\alpha_i&gt;0)α=(α1​,⋯,αk​)(αi​>0) 的狄里克莱分布 .
记为XXX ~ D(k,α)D(k,\alpha)D(k,α)

  • 当k=2时,狄里克莱分布为贝塔分布
  • 可以描述一个多维概率的概率分布.
  • ∫⋯∫x1α1−1x2α2−1⋯xkαk−1dx1⋯dxk=Γ(α1)Γ(α2)…Γ(αk)Γ(α1+α2+⋯+αk)\int \cdots\int x_1^{\alpha_1-1}x_2^{\alpha_2-1}\cdots x_k^{\alpha_k-1}dx_1 \cdots dx_k=\frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}∫⋯∫x1α1​−1​x2α2​−1​⋯xkαk​−1​dx1​⋯dxk​=Γ(α1​+α2​+⋯+αk​)Γ(α1​)Γ(α2​)…Γ(αk​)​
  • EXi=Γ(α1+α2+⋯+αk)Γ(α1)Γ(α2)…Γ(αk)Γ(α1)Γ(α2)⋯Γ(αi+1)⋯Γ(αk)Γ(α1+α2+⋯+αk+1)=αiα1+α2+⋯+αkEX_i=\frac{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)} \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots \Gamma(\alpha_i +1) \cdots \Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k+1)} =\frac{\alpha_i}{\alpha_1+\alpha_2+\dots+\alpha_k}EXi​=Γ(α1​)Γ(α2​)…Γ(αk​)Γ(α1​+α2​+⋯+αk​)​Γ(α1​+α2​+⋯+αk​+1)Γ(α1​)Γ(α2​)⋯Γ(αi​+1)⋯Γ(αk​)​=α1​+α2​+⋯+αk​αi​​
  • DXi=Γ(α1)Γ(α2)⋯Γ(αi+2)⋯Γ(αk)Γ(α1+α2+⋯+αk+2)−(αiα1+α2+⋯+αk)2=αi(αi+1)(α1+α2+⋯+αk+1)(α1+α2+⋯+αk)−(αiα1+α2+⋯+αk)2DX_i = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots \Gamma(\alpha_i +2) \cdots \Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k+2)}-(\frac{\alpha_i}{\alpha_1+\alpha_2+\dots+\alpha_k})^2 =\frac{\alpha_i(\alpha_i+1)}{(\alpha_1+\alpha_2+\dots+\alpha_k+1) (\alpha_1+\alpha_2+\dots+\alpha_k)}-(\frac{\alpha_i}{ \alpha_1+\alpha_2+\dots+\alpha_k })^2DXi​=Γ(α1​+α2​+⋯+αk​+2)Γ(α1​)Γ(α2​)⋯Γ(αi​+2)⋯Γ(αk​)​−(α1​+α2​+⋯+αk​αi​​)2=(α1​+α2​+⋯+αk​+1)(α1​+α2​+⋯+αk​)αi​(αi​+1)​−(α1​+α2​+⋯+αk​αi​​)2

14.帕累托分布

如果随机变量 X 的密度函数为
f(x)=αCαxα+1I{x&gt;C},whereC&gt;0,α&gt;0f(x)=\frac{\alpha C^\alpha}{x^{\alpha+1}}I\{x&gt;C\},where\ C&gt;0,\alpha&gt;0f(x)=xα+1αCα​I{x>C},where C>0,α>0

则称随机变量 X 服从参数为 (C,α)( C , \alpha )(C,α) 的 帕雷托 分布.
记为XXX ~ Pa(C,α)Pa(C,\alpha)Pa(C,α)

  • 经济问题 :贫与富的存在
  • 通过市场交易,20%的人将占有80%的社会财富,如果交易可以不断进行下去,那么,在因和果、努力和收获之间,普遍存在着不平衡关系.

二. 联合分布,边缘分布,条件分布

1.已知边缘分布和条件分布

设随机向量 X 的概率分布为PX(x)P_X(x)PX​(x),Y 在 X 下的条件分布
为PY∣X(y∣x)P_{Y|X}(y|x)PY∣X​(y∣x),则
联合分布:
f(x,y)=fx(x)fY∣X(y∣X),(X连续型,Y连续型)f(x,y) = f_x(x)f_{Y|X}(y|X),( X 连续型 , Y 连续型 )f(x,y)=fx​(x)fY∣X​(y∣X),(X连续型,Y连续型)

P(xi,yi)=PX(xi)PY∣X(yi∣xi),(X离散型,Y离散型)P(x_i,y_i)=P_X(x_i)P_{Y|X}(y_i|x_i),( X 离散型 , Y 离散型 )P(xi​,yi​)=PX​(xi​)PY∣X​(yi​∣xi​),(X离散型,Y离散型)

P(xi,yi)=PX(xi)fY∣X(y∣xi),(Y连续型,X离散型)P(x_i,y_i)=P_X(x_i)f_{Y|X}(y|x_i),(Y连续型,X离散型)P(xi​,yi​)=PX​(xi​)fY∣X​(y∣xi​),(Y连续型,X离散型)

P(xi,yi)=fX(x)PY∣X(yi∣x),(X连续型,Y离散型)P(x_i,y_i)=f_X(x)P_{Y|X}(y_i|x),(X连续型,Y离散型)P(xi​,yi​)=fX​(x)PY∣X​(yi​∣x),(X连续型,Y离散型)

2.已知联合分布

设随机向量 ( X , Y ) 的联合分布为 P ( x , y ), 则

  • 边缘分布:
    PX(x)=∫−∞∞p(x,y)dy,(Y连续型)P_X(x)=\int^\infty_{-\infty}p(x,y)dy,(Y连续型)PX​(x)=∫−∞∞​p(x,y)dy,(Y连续型)

PX(x)=∑ip(x,yi),(Y离散型)P_X(x)=\sum_ip(x,y_i),(Y离散型)PX​(x)=i∑​p(x,yi​),(Y离散型)

  • 条件分布:
    PY∣X(y∣x)=p(x,y)pX(x),(Y连续型)P_{Y|X}(y|x)=\frac{p(x,y)}{p_X(x)},(Y连续型)PY∣X​(y∣x)=pX​(x)p(x,y)​,(Y连续型)

PY∣X(yi∣x)=p(x,yi)pX(x),(Y离散型)P_{Y|X}(y_i|x) =\frac{p(x,y_i)}{p_X(x)},(Y离散型)PY∣X​(yi​∣x)=pX​(x)p(x,yi​)​,(Y离散型)

三.基本概念

1.指数族:

p(x,θ)=C(θ)exp{∑i=1kθiTi(x)}h(x)p(x,\theta)=C(\theta)exp\{\sum^k_{i=1}\theta_iT_i(x)\}h(x)p(x,θ)=C(θ)exp{i=1∑k​θi​Ti​(x)}h(x)
标准形式:
见<<高等数理统计shaojun>>

2.充分统计量:

有分布族{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ},
若在已知统计量 T 的条件下 , 样本 X 的条件分布与 θ\thetaθ 无关,则称 T 为参数 θ\thetaθ 的充分统计量.

3.因子分解定理:

有分布族{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ}, 以及统计量:T=T(x)
若 p(x,θ)p ( x , \theta )p(x,θ) 能够分解成
p(x,θ)=g(T(x),θ)h(x)p ( x , \theta ) = g ( T ( x ), \theta ) h ( x )p(x,θ)=g(T(x),θ)h(x)
则 T 为参数 θ\thetaθ 的充分统计量。

4.完备统计量:

有分布族{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ}, 以及统计量:T=T(x),
若对∀φ(T(x))\forall \varphi(\ T(x)\ )∀φ( T(x) )满足, Eθ(φ((T(x))=0E_\theta (\varphi(\ (T(x)\ )=0Eθ​(φ( (T(x) )=0,都有
Pθ(φ(T(X))=0)=1P_\theta (\varphi (T(X))=0)=1Pθ​(φ(T(X))=0)=1

5.完全统计量判定:

若样本 X=(X1,X2,⋯&ThinSpace;,Xn)X = ( X_1 , X_2 ,\cdots , X_n )X=(X1​,X2​,⋯,Xn​) 的分布族:{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ},
P(x,θ)=C(θ)exp{∑i=1kθiTi(x)}h(x)P(x,\theta)=C(\theta)exp\{ \sum^k_{i=1}\theta_iT_i(x) \}h(x)P(x,θ)=C(θ)exp{i=1∑k​θi​Ti​(x)}h(x)
统计量: T=(T1(x),T2(x),⋯&ThinSpace;,Tk(x))T=(\ T_1(x),T_2(x),\cdots,T_k(x) \ )T=( T1​(x),T2​(x),⋯,Tk​(x) ), 且参数空间 Θ\ThetaΘ有内点,则T为参数θ\thetaθ的完全统计量
看<<高等数理统计 shaojun>><<参数统计教程韦博成>>

6.UMVUE:

样本X=(X1,X2,⋯&ThinSpace;,Xn)X=(X_1,X_2,\cdots,X_n)X=(X1​,X2​,⋯,Xn​),
分布族:{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ},
可估函数:g(θ)g(\theta)g(θ),
设g^∗(X)\hat g^*(X)g^​∗(X)是g(θ)g(\theta)g(θ)的一个无偏估计量,若对g(θ)g(\theta)g(θ)的任意无偏估计g^(X)\hat g(X)g^​(X)都有:
Dg^∗(X)≤Dg^(X)D \hat g^*(X) \le D \hat g(X)Dg^​∗(X)≤Dg^​(X)
则称g^∗(X)是g(θ)的UMVUE\hat g^*(X)是g(\theta)的UMVUEg^​∗(X)是g(θ)的UMVUE

7.L-S定理:

样本X=(X1,X2,⋯&ThinSpace;,Xn)X=(X_1,X_2,\cdots,X_n)X=(X1​,X2​,⋯,Xn​),
分布族:{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ},
可估函数:g(θ)g(\theta)g(θ),
统计量 T (X ) 是一个充分完备统计量.
g^(T(X))\hat g( T ( X ))g^​(T(X))是 g ( \theta ) 的 一个无偏估计量,
则 g^(T(X))\hat g(T(X))g^​(T(X)) 是g(θ)g(\theta)g(θ)唯一的UMVUE

8.C-R不等式:

样本X=(X1,X2,⋯&ThinSpace;,Xn)X=(X_1,X_2,\cdots,X_n)X=(X1​,X2​,⋯,Xn​),
分布族:{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ},
可估函数:g(θ)g(\theta)g(θ),
g^(T(X))\hat g( T ( X ))g^​(T(X))是 g(θ)g ( \theta )g(θ) 的 一个无偏估计量,
假设 p(x,θ\thetaθ)满足正则性条件:

  • 1). {x∣p(x,θ)&gt;0}与θ无关\{ x|p(x,\theta)&gt;0 \}与\theta无关{x∣p(x,θ)>0}与θ无关
  • 2). p(x,θ)关于θ可导p(x,\theta)关于\theta可导p(x,θ)关于θ可导
  • 3). 有关p(x,θ)关于θ求导和积分可换序有关p(x,\theta)关于\theta求导和积分可换序有关p(x,θ)关于θ求导和积分可换序
    则有Varθ(g^(X))≥(g‘(θ))2nI(θ)(=(g‘(θ)I−1(θ)(g‘(θ)Tn)Var_\theta (\hat g(X)) \ge \frac{(g`(\theta))^2}{nI(\theta)}\left( =\frac{(g`(\theta)I^{-1}(\theta)(g`(\theta)^T}{n} \right)Varθ​(g^​(X))≥nI(θ)(g‘(θ))2​(=n(g‘(θ)I−1(θ)(g‘(θ)T​)
    称I(θ)=E(∂lnp(x,θ)∂θ)2I(\theta)=E(\frac{\partial lnp(x,\theta)}{\partial \theta})^2I(θ)=E(∂θ∂lnp(x,θ)​)2为参数θ\thetaθ的信息量
    如果 DT=(g‘(θ))2nI(θ),(当q(θ)=θ时,DT=1nI(θ))则称T(X1,X2,⋯&ThinSpace;,Xn)为g(θ)的有效估计量DT=\frac{(g`(\theta))^2}{nI(\theta)},(当q(\theta)=\theta时,DT=\frac{1}{nI(\theta)})则称T(X_1,X_2,\cdots,X_n)为g(\theta)的有效估计量DT=nI(θ)(g‘(θ))2​,(当q(θ)=θ时,DT=nI(θ)1​)则称T(X1​,X2​,⋯,Xn​)为g(θ)的有效估计量]

9.N-P引理

10.N-P引理推广

第二章.先验分布的选取

一.古典学派和贝叶斯学派

  • 古典统计学派: 坚持概率的频率解释, 把未知参数看成一个固定的未知量!
    统计推断的信息量: 总体信息和样本信息
    缺点: 需要大量重复试验

  • 贝叶斯学派: 坚持先给定先验概率, 把未知参数用一个概率分布描述!
    统计推断的信息量: 总体信息,样本信息及先验信息
    缺点: 先验信息主观性比较强

二.贝叶斯统计的基本概念

设总体 X 的概率函数为 p(x∣θ)p ( x | \theta )p(x∣θ)( 分布律或密度函数 ) ,
样本: X1,X2,...,Xn,θX_1 , X_2 ,..., X_n ,\ \thetaX1​,X2​,...,Xn​, θ 是未知参数。

1).参数的先验分布: π(θ)\pi (\theta)π(θ)

  • θ\thetaθ 是离散型随机变量时:
    π(θi)=P(θ=θi)\pi(\theta_i)=P(\theta=\theta_i)π(θi​)=P(θ=θi​)
  • θ\thetaθ 是连续型随机变量时:
    π(θ)表示参数θ概率密度函数\pi(\theta)表示参数\theta 概率密度函数 π(θ)表示参数θ概率密度函数

2).参数的后验分布:π(θ∣x1,x2,⋯&ThinSpace;,xn)\pi(\theta|x_1,x_2,\cdots, x_n)π(θ∣x1​,x2​,⋯,xn​)

在给定X1=x1,⋯&ThinSpace;,Xn=xnX_1=x_1,\cdots,X_n=x_nX1​=x1​,⋯,Xn​=xn​条件下,
θ的条件分布π(θ∣x1,x2,⋯&ThinSpace;,xn)\theta的条件分布\pi(\theta|x_1,x_2,\cdots, x_n)θ的条件分布π(θ∣x1​,x2​,⋯,xn​)

三.后验分布的计算

  • 样本的条件分布为:

p(x1,x2,⋯&ThinSpace;,xn∣θ)=∏i=1np(xi∣θ)p(x_1,x_2,\cdots,x_n|\theta)=\prod^n_{i=1}p(x_i|\theta)p(x1​,x2​,⋯,xn​∣θ)=i=1∏n​p(xi​∣θ)

  • 样本与参数的联合分布为:

h(x1,x2,⋯&ThinSpace;,xn,θ)=π(θ)p(x1,x2,⋯&ThinSpace;,xn∣θ)h( x_1 , x_2 , \cdots, x_n , \theta ) =\pi ( \theta ) p ( x_1 , x_2 , \cdots, x_n | \theta )h(x1​,x2​,⋯,xn​,θ)=π(θ)p(x1​,x2​,⋯,xn​∣θ)

  • 样本边缘分布为:

m(x1,x2,⋯&ThinSpace;,xn)=∫Θh(x1,x2,⋯&ThinSpace;,xn,θ)dθm(x_1,x_2,\cdots,x_n)=\int_\Theta h(x_1,x_2,\cdots,x_n,\theta)d\thetam(x1​,x2​,⋯,xn​)=∫Θ​h(x1​,x2​,⋯,xn​,θ)dθ
则有后验分布:
1).连续型
π(θ∣x1,x2,⋯&ThinSpace;,xn)=h(x1,x2,⋯&ThinSpace;,xn∣θ)m(x1,x2,⋯&ThinSpace;,xn)=π(θ)p(x1,x2,⋯&ThinSpace;,xn∣θ)∫Θπ(θ)p(x1,x2,⋯&ThinSpace;,xn∣θ)dθ\pi(\theta|x_1,x_2,\cdots,x_n)=\frac{h(x_1,x_2,\cdots,x_n|\theta)}{m(x_1,x_2,\cdots,x_n)} \\ =\frac{\pi(\theta)p(x_1,x_2,\cdots,x_n|\theta)}{\int_\Theta \pi(\theta)p(x_1,x_2,\cdots,x_n|\theta)d\theta}π(θ∣x1​,x2​,⋯,xn​)=m(x1​,x2​,⋯,xn​)h(x1​,x2​,⋯,xn​∣θ)​=∫Θ​π(θ)p(x1​,x2​,⋯,xn​∣θ)dθπ(θ)p(x1​,x2​,⋯,xn​∣θ)​

2).离散型
π(θ∣x1,x2,⋯&ThinSpace;,xn)=π(θk)p(x1,x2,⋯&ThinSpace;,xn∣θk)∑iπ(θi)p(x1,x2,⋯&ThinSpace;,xn∣θi)\pi(\theta|x_1,x_2,\cdots,x_n)=\frac{\pi(\theta_k)p(x_1,x_2,\cdots,x_n|\theta_k)}{\sum_i\pi(\theta_i)p(x_1,x_2,\cdots,x_n|\theta_i)}π(θ∣x1​,x2​,⋯,xn​)=∑i​π(θi​)p(x1​,x2​,⋯,xn​∣θi​)π(θk​)p(x1​,x2​,⋯,xn​∣θk​)​

四.先验分布函数形式的确定

1.专家意见
2.历史资料
3.相对似然法
4.直方图法
5.定分度法和变分度法
6.样本边缘分布最大似然先验

  • 例题1
    XXX~e(θ)e(\theta)e(θ) 样本X1,X2,⋯&ThinSpace;,Xn,θX_1,X_2,\cdots,X_n, \thetaX1​,X2​,⋯,Xn​,θ~ e(λ)e(\lambda)e(λ)
    解:
    π(θ)=λe−λθ\pi (\theta)=\lambda e^{-\lambda \theta}π(θ)=λe−λθ

p(x1,⋯&ThinSpace;,xn∣θ)=θ−ne−θ∑i=1nxip(x_1,\cdots,x_n|\theta)=\theta^{-n}e^{-\theta \sum^n_{i=1}x_i}p(x1​,⋯,xn​∣θ)=θ−ne−θ∑i=1n​xi​

p(x1,⋯&ThinSpace;,xn,θ∣λ)=λθne−θ(λ+∑i=1nxi)p(x_1,\cdots,x_n,\theta|\lambda)=\lambda \theta^n e^{-\theta (\lambda+\sum^n_{i=1}x_i)}p(x1​,⋯,xn​,θ∣λ)=λθne−θ(λ+∑i=1n​xi​)

p(x1,⋯&ThinSpace;,xn∣λ)=∫p(x1,⋯&ThinSpace;,xn)p(θ)dθ=∫λθnexp(−θ(λ+∑i=1nxi))dθ=λn!(λ+∑i=1nxi)n+1p(x_1,\cdots,x_n|\lambda)=\int p(x_1,\cdots,x_n)p(\theta)d\theta=\int \lambda\theta^n exp(-\theta (\lambda + \sum^n_{i=1}x_i))d\theta \\ =\lambda \frac{n!}{(\lambda+\sum^n_{i=1}x_i)^{n+1}}p(x1​,⋯,xn​∣λ)=∫p(x1​,⋯,xn​)p(θ)dθ=∫λθnexp(−θ(λ+i=1∑n​xi​))dθ=λ(λ+∑i=1n​xi​)n+1n!​

lnp(x1,⋯&ThinSpace;,xn∣λ)=lnλ+lnn!−(n+1)ln(λ+∑i=1nxi)lnp(x_1,\cdots,x_n|\lambda) = ln\lambda+lnn!-(n+1)ln(\lambda+\sum^n_{i=1}x_i)lnp(x1​,⋯,xn​∣λ)=lnλ+lnn!−(n+1)ln(λ+i=1∑n​xi​)

令dlnp(x1,⋯&ThinSpace;,xn∣λ)dλ=1λ−(n+11λ+∑i=1nxi)=0令\frac{dlnp(x_1,\cdots,x_n|\lambda)}{d\lambda}=\frac{1}{\lambda}-(n+1\frac{1}{\lambda+\sum^n_{i=1}x_i})=0令dλdlnp(x1​,⋯,xn​∣λ)​=λ1​−(n+1λ+∑i=1n​xi​1​)=0
求出极大似然估计 λ^=Xˉ\hat \lambda=\bar Xλ^=Xˉ

五.超参数的确定

若先验分布的形式确定,但分布中含有未知参数(超参数)

1.先验分布具有明确的意义或信息

例子1 θ\thetaθ~N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)

2.利用边缘分布确定超参数(矩估计和MLE)

已知总体X~P(x|θ\thetaθ) , θ\thetaθ ~ π(θ∣λ)\pi(\theta|\lambda)π(θ∣λ) λ\lambdaλ是超参数

六.无信息先验分布

1.贝叶斯假设

  • 离散均匀分布:θ可能取值有限,θ1,⋯&ThinSpace;,θn,P(θ=θi)=1n\theta可能取值有限, \theta_1,\cdots,\theta_n,P(\theta=\theta_i)=\frac{1}{n}θ可能取值有限,θ1​,⋯,θn​,P(θ=θi​)=n1​
  • 有限区间上的均匀分布:θ\thetaθ~U[a,b]U[a,b]U[a,b]
  • 广义先验分布:θ∈(−∞,∞),θ的先验分布满足:\theta \in (-\infty,\infty),\theta的先验分布满足:θ∈(−∞,∞),θ的先验分布满足:
  • 1.π(θ)≥0,∫−∞∞π(θ)dθ=∞\pi(\theta)\ge0,\int^\infty_{-\infty}\pi(\theta)d\theta=\inftyπ(θ)≥0,∫−∞∞​π(θ)dθ=∞
  • 2.π(θ∣x)是正常的密度函数\pi(\theta|x)是正常的密度函数π(θ∣x)是正常的密度函数
    . 若π(θ)是广义先验,则cπ(θ)也是广义先验\pi(\theta)是广义先验,则c\pi(\theta)也是广义先验π(θ)是广义先验,则cπ(θ)也是广义先验
    π(θ∣x)=h(x,θ)m(x)=p(x∣θ)π(θ)∫p(x∣θ)π(θ)dθ\pi(\theta|x)=\frac{h(x,\theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int p(x|\theta)\pi(\theta)d\theta}π(θ∣x)=m(x)h(x,θ)​=∫p(x∣θ)π(θ)dθp(x∣θ)π(θ)​
    ∫π(θ∣x)dθ=1\int \pi(\theta|x)d\theta=1∫π(θ∣x)dθ=1

2. 位置参数的无信息先验

<<贝叶斯分析>>P49P_{49}P49​
位置参数族:平移变换下的不变性
π(θ)=1\pi(\theta)=1π(θ)=1

例1
例2

3.尺度参数的无信息先验

尺度参数族举例:

  • p(x∣σ)=12πσ2e−x22σ2p(x|\sigma)=\frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{x^2}{2\sigma^2}}p(x∣σ)=2πσ2​1​e−2σ2x2​
  • p(x∣β)=1πβ11+(xβ)2p(x|\beta)=\frac{1}{\pi \beta}\frac{1}{1+(\frac{x}{\beta})^2}p(x∣β)=πβ1​1+(βx​)21​
  • p(x∣λ)=1λexλ,x&gt;0p(x|\lambda)=\frac{1}{\lambda}e^{\frac{x}{\lambda}},x \gt 0p(x∣λ)=λ1​eλx​,x>0

尺度参数族:尺度变换下的不变性<<贝叶斯分析>>P51P_{51}P51​

{f(x,θ)→1θf(xθ),θ∈R+}\{f(x,\theta) \to \frac{1}{\theta}f(\frac{x}{\theta}), \theta \in \Bbb R^+ \}{f(x,θ)→θ1​f(θx​),θ∈R+}

证 π(σ)=1σ\pi(\sigma)=\frac{1}{\sigma}π(σ)=σ1​:

令 Y=cX,(c∈R+)Y=cX,(c \in \Bbb R^+)Y=cX,(c∈R+)
fY(y)=1cθf(ycθ)f_Y(y)=\frac{1}{c\theta}f(\frac{y}{c\theta})fY​(y)=cθ1​f(cθy​)
令 η=cθ\eta = c\thetaη=cθ
fY(y)=1ηf(yη)f_Y(y)=\frac{1}{\eta}f(\frac{y}{\eta})fY​(y)=η1​f(ηy​)

σ的无信息先验与η的无信息先验应当相同.有:\sigma的无信息先验与\eta的无信息先验应当相同.有:σ的无信息先验与η的无信息先验应当相同.有:
(3.1)π(τ)=π∗(τ)\pi(\tau) = \pi^*(\tau)\tag{3.1}π(τ)=π∗(τ)(3.1)
其中π∗(τ)为η\pi^*(\tau)为\etaπ∗(τ)为η的先验分布,另一方面,由变换η=cσ,可知η\eta=c\sigma,可知\etaη=cσ,可知η的无信息先验为:
(3.2)π∗(η)=π(σ)∣σ=ηc⋅∣dσdη∣=1cπ(ηc)\pi^*(\eta)=\pi(\sigma)|_{\sigma=\frac{\eta}{c}}\cdot|\frac{d\sigma}{d\eta}|=\frac{1}{c}\pi(\frac{\eta}{c})\tag{3.2}π∗(η)=π(σ)∣σ=cη​​⋅∣dηdσ​∣=c1​π(cη​)(3.2)
比较(3.1)和(3.2)得:
π(η)=π∗(η)=1cπ(ηc)\pi(\eta)=\pi^*(\eta)=\frac{1}{c}\pi(\frac{\eta}{c})π(η)=π∗(η)=c1​π(cη​)
取η=c,有:\eta=c,有:η=c,有:
π(c)=1cπ(1)\pi(c)=\frac{1}{c}\pi(1)π(c)=c1​π(1)
为方便计算, 令π(1)=1\pi(1)=1π(1)=1,由c的任意性,可得σ\sigmaσ的无信息先验为:
π(σ)=1σ,(σ&gt;0)\pi(\sigma)=\frac{1}{\sigma},(\sigma \gt 0)π(σ)=σ1​,(σ>0)

4.一般情况:Jeffreys无信息先验

π(θ)=∣I(θ)∣1/2\pi(\theta)=|I(\theta)|^{1/2}π(θ)=∣I(θ)∣1/2"| |"表示行列式

七.共轭先验分布

1.共轭先验分布

设F表示θ的先验分布π(θ)构成的分布族,如果取的π∈F,后验分布π(θ∣x)∈F,那么称F是一个共轭先验分布.设\mathscr F表示\theta的先验分布\pi(\theta)构成的分布族,如果取的\pi \in \mathscr F,后验分布\pi(\theta|x)\in \mathscr F,那么称\mathscr F是一个共轭先验分布.设F表示θ的先验分布π(θ)构成的分布族,如果取的π∈F,后验分布π(θ∣x)∈F,那么称F是一个共轭先验分布.(先验分布和后验分布同一个分布族)

  • 二项分布,其参数的共轭分布族是贝塔分布.

  • 方差已知的正态分布,均值的共轭分布族是正态分布族.
  • 泊松分布, 参数的共轭分布族是伽马分布.

2.求共轭先验分布

  • 指数分布,参数的共轭分布族是伽马分布.

  • -均值已知的正态分布, 方差的共轭分布族是逆伽马分布.

八.多层先验分布

当先验分布中的超参数无法确定时,可以对超参数再给出一个先验
分布,这个给出的第二个先验就是超先验。
设参数 θ\thetaθ 的先验分布是 π1(θ∣λ)\pi_1(\theta|\lambda)π1​(θ∣λ) ,其中 λ\lambdaλ 是超参数给出超参数λ\lambdaλ的超先验分布π2(λ)\pi_2(\lambda)π2​(λ)则有 θ\thetaθ 和 λ\lambdaλ 的联合分布式是:
π1(θ∣λ)π2(λ)\pi_1(\theta|\lambda)\pi_2(\lambda)π1​(θ∣λ)π2​(λ)
参数 θ\thetaθ 的先验分布是:
π(θ)=∫π1(θ∣λ)π2(λ)dλ\pi(\theta)=\int \pi_1(\theta| \lambda)\pi_2(\lambda)d\lambdaπ(θ)=∫π1​(θ∣λ)π2​(λ)dλ
以此类推,可以得到三层以致多层先验.

后验分布与充分性

  • 定义:设总体 X 的分布函数为 F(x,θ)F ( x , \theta )F(x,θ) , 样本: X1,X2,...,XnX_1 , X_2 ,..., X_nX1​,X2​,...,Xn​,统计量 T(X1,X2,...,Xn)T ( X_1 , X_2 ,..., X_n )T(X1​,X2​,...,Xn​). 若给定 T 后,  X1,X2,...,XnX_1 , X_2 ,..., X_nX1​,X2​,...,Xn​ 的条件分布与参数 θ\thetaθ 无关, 则称统计量 T(X1,X2,...,Xn)T ( X_1 , X_2 ,..., X_n )T(X1​,X2​,...,Xn​) 为 θ\thetaθ 的充分统计量.

  • 因子分解定理:
    T=T(x1,x2,⋯&ThinSpace;,xn)T=T(x_1,x_2,\cdots,x_n)T=T(x1​,x2​,⋯,xn​)是一个充分统计量的充要条件是对任一的θ\thetaθ,存在两个函数g(t,θ)g(t,\theta)g(t,θ)和h(x1,x2,⋯&ThinSpace;,xn)h(x_1,x_2,\cdots,x_n)h(x1​,x2​,⋯,xn​),有:
    p(x1,x2,⋯&ThinSpace;,xn,θ)=g(T(x1,x2,⋯&ThinSpace;,xn),θ)h(x1,x2,⋯&ThinSpace;,xn)p(x_1,x_2,\cdots,x_n,\theta)=g\left( T(x_1,x_2,\cdots,x_n),\theta \right)h(x_1,x_2,\cdots,x_n)p(x1​,x2​,⋯,xn​,θ)=g(T(x1​,x2​,⋯,xn​),θ)h(x1​,x2​,⋯,xn​)

  • 后验分布引理
    设 Γ\GammaΓ 是未知参数 θ\thetaθ 的先验分布类 π(θ)∈Γ\pi(\theta) \in \Gammaπ(θ)∈Γ , 若 Γ\GammaΓ 是 θ\thetaθ 的充分统计量,则对 ∀π∈Γ\forall \pi \in \Gamma∀π∈Γ ,有:
    π(θ∣x)=π~(θ∣t)\pi(\theta|x)=\tilde \pi(\theta|t)π(θ∣x)=π~(θ∣t)
    证明:
    设 T 的概率函数为: q(t∣θ)q(t|\theta)q(t∣θ),
    由充分统计量的定义: pX∣T(x∣t)=p(x∣θ)q(t∣θ)=C(x)p_{X|T}(x|t)=\frac{p(x|\theta)}{q(t|\theta)}=C(x)pX∣T​(x∣t)=q(t∣θ)p(x∣θ)​=C(x)
    p(x∣θ)=q(t∣θ)C(x)p(x|\theta)=q(t|\theta)C(x)p(x∣θ)=q(t∣θ)C(x)
    由因子分解定理有:p(x∣θ)=g(t,θ)h(x),q(t∣θ)∝g(t∣θ)p(x|\theta)=g(t,\theta)h(x), q(t|\theta) \propto g(t|\theta)p(x∣θ)=g(t,θ)h(x),q(t∣θ)∝g(t∣θ)

π(θ∣x)=h(x,θ)m(x)=π(θ)p(x∣θ)∫π(θ)p(x∣θ)dθ=π(θ)q(t∣θ)C(x)∫π(θ)q(t∣θ)C(x)dθ=π(θ)q(t∣θ)∫π(θ)q(t∣θ)dθ=π~(θ∣t)\begin{aligned} \pi(\theta|x) &amp; =\frac{h(x,\theta)}{m(x)}\\ &amp; =\frac{\pi(\theta)p(x|\theta)}{\int \pi(\theta)p(x|\theta)d\theta} \\ &amp;=\frac{\pi(\theta)q(t|\theta)C(x)}{\int \pi(\theta)q(t|\theta)C(x)d\theta} \\ &amp; =\frac{\pi(\theta)q(t|\theta)}{\int \pi(\theta)q(t|\theta)d\theta}\\ &amp; =\tilde \pi(\theta|t) \end{aligned} π(θ∣x)​=m(x)h(x,θ)​=∫π(θ)p(x∣θ)dθπ(θ)p(x∣θ)​=∫π(θ)q(t∣θ)C(x)dθπ(θ)q(t∣θ)C(x)​=∫π(θ)q(t∣θ)dθπ(θ)q(t∣θ)​=π~(θ∣t)​

回顾充分统计量

因子分解定理

后验分布引理

设 Γ\GammaΓ 是未知参数 θ\thetaθ 的先验分布类 π(θ)∈Γ\pi(\theta)\in \Gammaπ(θ)∈Γ , 若 T 是 θ\thetaθ的充分统计量,则对 ∀π∈Γ\forall \pi \in \Gamma∀π∈Γ , 有:
π(θ∣x)=π~(θ∣t)\pi(\theta|x)=\tilde \pi(\theta|t)π(θ∣x)=π~(θ∣t)
证明:
设T的概率函数为q(t∣θ)q(t|\theta)q(t∣θ),
由充分统计量 pX∣T(x∣t)=p(x∣θ)q(t∣θ)=C(x)p_{X|T}(x|t)=\frac{p(x|\theta)}{q(t|\theta)}=C(x)pX∣T​(x∣t)=q(t∣θ)p(x∣θ)​=C(x)
由因子分解定理 p(x∣θ)=g(t∣θ)h(x),q(t∣θ)∝g(t∣θ)p(x|\theta)=g(t|\theta)h(x),q(t|\theta) \propto g(t|\theta)p(x∣θ)=g(t∣θ)h(x),q(t∣θ)∝g(t∣θ)
p(x∣θ)=q(t∣θ)C(x)p(x|\theta)=q(t|\theta)C(x)p(x∣θ)=q(t∣θ)C(x)
π(θ∣x)=h(x,θ)m(x)=π(θ)p(x∣θ)∫π(θ)p(x∣θ)dθ=π(θ)q(t∣θ)C(x)∫π(θ)q(t∣θ)C(x)dθ=π(θ)q(t∣θ)∫π(θ)q(t∣θ)dθ=π~(θ∣t)\begin{aligned} \pi(\theta|x)=\frac{h(x,\theta)}{m(x)} &amp; =\frac{\pi(\theta)p(x|\theta)}{\int \pi(\theta)p(x|\theta)d\theta}\\ &amp; = \frac{\pi(\theta)q(t|\theta)C(x)}{\int \pi(\theta)q(t|\theta)C(x)d\theta} \\ &amp; = \frac{\pi(\theta)q(t|\theta)}{\int \pi (\theta) q(t|\theta )d\theta}\\ &amp; = \tilde \pi(\theta|t) \end{aligned}π(θ∣x)=m(x)h(x,θ)​​=∫π(θ)p(x∣θ)dθπ(θ)p(x∣θ)​=∫π(θ)q(t∣θ)C(x)dθπ(θ)q(t∣θ)C(x)​=∫π(θ)q(t∣θ)dθπ(θ)q(t∣θ)​=π~(θ∣t)​

Reference先验

KL散度定义:

设两个概率分布P(x),q(x),KL距离(散度)为,
KL(p(x),q(x))=∫ln(p(x)q(x))p(x)dx=Ep(ln(p(x)q(x)))KL(p(x),q(x))=\int ln(\frac{p(x)}{q(x)})p(x)dx=E_p(ln(\frac{p(x)}{q(x)}))KL(p(x),q(x))=∫ln(q(x)p(x)​)p(x)dx=Ep​(ln(q(x)p(x)​))
即连续型随机变量相对熵.

显然:

  • 1).KL(p(x),q(x))!=KL(q(x),p(x))KL(p(x),q(x)) \ != KL(q(x),p(x))KL(p(x),q(x)) !=KL(q(x),p(x))
  • 2).KL(p(x),q(x))≥0KL(p(x),q(x))\ge 0KL(p(x),q(x))≥0

Ep(−lnp(x)q(x))=Ep(lnq(x)p(x))≤lnEp(q(x)p(x))E_p(-ln\frac{p(x)}{q(x)})=E_p(ln\frac{q(x)}{p(x)}) \le lnE_p(\frac{q(x)}{p(x)})Ep​(−lnq(x)p(x)​)=Ep​(lnp(x)q(x)​)≤lnEp​(p(x)q(x)​)
lnEp(q(x)p(x))=ln∫(q(x)p(x))p(x)dx=0lnE_p(\frac{q(x)}{p(x)})=ln\int(\frac{q(x)}{p(x)})p(x)dx=0lnEp​(p(x)q(x)​)=ln∫(p(x)q(x)​)p(x)dx=0

Reference先验

设Iπ(θ)(θ,x)=∫Xp(x)[∫Θπ(θ∣x)lnπ(θ∣x)π(θ)dθ]dx=EX(KL(π(θ,x),π(θ)))\begin{aligned} I_{\pi(\theta)}(\theta,x) &amp; =\int_Xp(x)[\int_\Theta\pi(\theta|x)ln\frac{\pi(\theta|x)}{\pi(\theta)}d\theta]dx \\ &amp; = E_X(KL(\pi(\theta,x),\pi(\theta))) \end{aligned}Iπ(θ)​(θ,x)​=∫X​p(x)[∫Θ​π(θ∣x)lnπ(θ)π(θ∣x)​dθ]dx=EX​(KL(π(θ,x),π(θ)))​
其中p(x)为样本X的边缘分布.若π∗(θ)\pi^*(\theta)π∗(θ)满足:
Iπ∗(θ)(θ,x)=max⁡π(θ){Iπ(θ)(θ,x)}I_{\pi^*(\theta)}(\theta,x)=\max_{\pi(\theta)} \{ I_{\pi(\theta)}(\theta,x) \}Iπ∗(θ)​(θ,x)=π(θ)max​{Iπ(θ)​(θ,x)}
则称π∗(θ)=argmax⁡π(θ){Iπ(θ)(θ,x)}为参数θ的Reference先验\pi^*(\theta)=arg\max_{\pi(\theta)}\{ I_{\pi(\theta)}(\theta,x) \}为参数\theta的Reference先验π∗(θ)=argmaxπ(θ)​{Iπ(θ)​(θ,x)}为参数θ的Reference先验

积分换序:
Iπ(θ)(θ,x)=∫Θ[∫Xp(x)π(θ∣x)lnπ(θ∣x)π(θ)dx]dθ=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)−ln(π(θ)))dx]dθ=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)dx−∫Xp(x∣θ)ln(π(θ))dx]dθ\begin{aligned} I_{\pi(\theta)}(\theta,x) &amp;=\int_\Theta[\int_Xp(x)\pi(\theta|x)ln\frac{\pi(\theta|x)}{\pi(\theta)}dx]d\theta \\ &amp;=\int_\Theta \pi(\theta)[\int_X p(x|\theta)(ln\pi(\theta|x)-ln(\pi(\theta)))dx]d\theta \\ &amp; = \int_\Theta \pi(\theta)[\int_X p(x|\theta)(ln\pi(\theta|x)dx-\int _X p(x|\theta)ln(\pi(\theta))dx]d\theta \end{aligned} Iπ(θ)​(θ,x)​=∫Θ​[∫X​p(x)π(θ∣x)lnπ(θ)π(θ∣x)​dx]dθ=∫Θ​π(θ)[∫X​p(x∣θ)(lnπ(θ∣x)−ln(π(θ)))dx]dθ=∫Θ​π(θ)[∫X​p(x∣θ)(lnπ(θ∣x)dx−∫X​p(x∣θ)ln(π(θ))dx]dθ​
Iπ(θ)(θ,x)=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)dx⎵−∫Xp(x∣θ)ln(π(θ))dx]dθI_{\pi(\theta)}(\theta,x) = \int_\Theta \pi(\theta)[\underbrace{\int_X p(x|\theta)(ln\pi(\theta|x)dx}-\int _X p(x|\theta)ln(\pi(\theta))dx]d\thetaIπ(θ)​(θ,x)=∫Θ​π(θ)[∫X​p(x∣θ)(lnπ(θ∣x)dx​−∫X​p(x∣θ)ln(π(θ))dx]dθ
令lnfn(θ)=∫Xp(x∣θ)lnπ(θ∣x)dxlnf_n(\theta)=\int_X p(x|\theta)ln\pi(\theta|x)dxlnfn​(θ)=∫X​p(x∣θ)lnπ(θ∣x)dx
则Iπ(θ)(θ,x)=∫Θπ(θ)lnfn(θ)π(θ)dθI_{\pi(\theta)}(\theta,x)=\int_\Theta \pi(\theta)ln\frac{f_n(\theta)}{\pi(\theta)}d\thetaIπ(θ)​(θ,x)=∫Θ​π(θ)lnπ(θ)fn​(θ)​dθ
π∗(θ)=lim⁡n→∞fn(θ)fn(θ0)\pi^*(\theta)=\lim_{n\to \infty}\frac{f_n(\theta)}{f_n(\theta_0)}π∗(θ)=n→∞lim​fn​(θ0​)fn​(θ)​
其中θ0\theta_0θ0​是参数空间Θ\ThetaΘ的一个内点.
参考<<贝叶斯分析P65>>

Reference先验计算

二维参数为例子:分布族 p(x∣θ,λ)p(x|\theta,\lambda)p(x∣θ,λ) ,样本为X1,X2,⋯&ThinSpace;,XnX_1,X_2,\cdots,X_nX1​,X2​,⋯,Xn​
参数信息阵:
I(θ,λ)=[I11(θ,λ)I12(θ,λ)I21(θ,λ)I22(θ,λ)]I(\theta,\lambda)=\begin{bmatrix} I_{11}(\theta,\lambda) \ \ I_{12}(\theta,\lambda) \\ I_{21}(\theta, \lambda) \ \ I_{22}(\theta, \lambda) \end{bmatrix} I(θ,λ)=[I11​(θ,λ)  I12​(θ,λ)I21​(θ,λ)  I22​(θ,λ)​]

  • 1).固定θ\thetaθ,获得先验分布:π(λ∣θ)=I221/2(θ,λ)\pi(\lambda|\theta) = I^{1/2}_{22}(\theta,\lambda)π(λ∣θ)=I221/2​(θ,λ)
  • 2).如果π(λ∣θ)是正常先验分布,直接消参数\pi(\lambda|\theta)是正常先验分布,直接消参数π(λ∣θ)是正常先验分布,直接消参数:
    p(x∣θ)∫Xp(x∣θ,λ)π(λ∣θ)dλp(x|\theta)\int_X p(x|\theta,\lambda)\pi(\lambda|\theta)d\lambdap(x∣θ)∫X​p(x∣θ,λ)π(λ∣θ)dλ
  • 3).根据p(x∣θ),确定θ的先验分布π(θ)p(x|\theta),确定\theta的先验分布\pi(\theta)p(x∣θ),确定θ的先验分布π(θ)
  • 4).获得联合先验分布:
    π(θ,λ)=π(θ)π(λ∣θ)\pi(\theta,\lambda)=\pi(\theta)\pi(\lambda|\theta)π(θ,λ)=π(θ)π(λ∣θ)
    如果π(λ∣θ)是非正常先验分布集\pi(\lambda|\theta)是非正常先验分布集π(λ∣θ)是非正常先验分布集:
  • (1.划分出λ的逼近闭参数空间\lambda的逼近闭参数空间λ的逼近闭参数空间
    Θ1⊂Θ2⊂⋯⊂Θk⋯&ThinSpace;,∪kΘk=Θ\Theta_1 \subset \Theta_2 \subset \cdots \subset \Theta_k \cdots, \cup_k \Theta_k = \ThetaΘ1​⊂Θ2​⊂⋯⊂Θk​⋯,∪k​Θk​=Θ
  • (2.在Θ上,确定πk(λ∣θ)是正常先验分布,πk(λ∣θ)=Ak(θ)π(λ∣θ),Ak(θ)=1∫Θkπ(λ∣θ)dλ\Theta上,确定\pi_k(\lambda|\theta)是正常先验分布,\pi_k(\lambda|\theta)=A_k(\theta)\pi(\lambda|\theta),A_k(\theta)=\frac{1}{\int_{\Theta_k}\pi(\lambda|\theta)d\lambda}Θ上,确定πk​(λ∣θ)是正常先验分布,πk​(λ∣θ)=Ak​(θ)π(λ∣θ),Ak​(θ)=∫Θk​​π(λ∣θ)dλ1​按照前面步骤二,确定πk(θ)\pi_k(\theta)πk​(θ)
    πk(θ)=exp{12∫Θkπk(λ∣θ)ln∣I(λ,θ)∣∣I22(λ,θ)∣dλ}\pi_k(\theta)=exp\{ \frac{1}{2} \int_{\Theta_k} \pi_k(\lambda|\theta) ln\frac{|I(\lambda,\theta)|}{|I_{22}(\lambda,\theta)|} d\lambda\}πk​(θ)=exp{21​∫Θk​​πk​(λ∣θ)ln∣I22​(λ,θ)∣∣I(λ,θ)∣​dλ}
  • (3. π(θ,λ)=limk→∞Ak(θ)πk(θ)Ak(θ0)πk(θ0)π(θ∣λ)\pi(\theta,\lambda)=lim_{k \to \infty}\frac{A_k(\theta)\pi_k(\theta)}{A_k(\theta_0)\pi_k(\theta_0)}\pi(\theta|\lambda)π(θ,λ)=limk→∞​Ak​(θ0​)πk​(θ0​)Ak​(θ)πk​(θ)​π(θ∣λ)
    如果参数维数多于二维 ,类似二维多次循环进行
    π(θ1,θ2,⋯&ThinSpace;,θk)=π(θ1)π(θ2∣θ1)π(θk∣θ1,θ2,⋯&ThinSpace;,θk−1)\pi(\theta_1,\theta_2,\cdots,\theta_k)=\pi(\theta_1)\pi(\theta_2|\theta_1)\pi(\theta_k|\theta_1,\theta_2,\cdots,\theta_{k-1})π(θ1​,θ2​,⋯,θk​)=π(θ1​)π(θ2​∣θ1​)π(θk​∣θ1​,θ2​,⋯,θk−1​)

最大熵先验

定义1: 设θ\thetaθ为离散型随机变量 , 分布律为:p(θ=θi)=pi,i=1,2,⋯p(\theta=\theta_i)=p_i,i=1,2,\cdotsp(θ=θi​)=pi​,i=1,2,⋯
则称 E(p)=−∑ipilnpiE(p)=-\sum_ip_ilnp_iE(p)=−∑i​pi​lnpi​
为随机变量的熵函数.
H(x,y)=H(x)+H(y)H(x,y)=H(x)+H(y)H(x,y)=H(x)+H(y)
P(x,y)=P(x)P(y)P(x,y) = P(x)P(y)P(x,y)=P(x)P(y)
H(x)=−lnp(x)H(x)=-lnp(x)H(x)=−lnp(x)

  • 1).p→0或p→1是,有−plnp→0p\to 0或p\to1是,有-plnp \to 0p→0或p→1是,有−plnp→0
  • 2).∑i=1npi=1时,当p1=p2=⋯=pn有−∑i=1npilnpi最大.\sum^n_{i=1}p_i=1时,当p_1=p_2=\cdots=p_n有-\sum^n_{i=1}p_ilnp_i最大.∑i=1n​pi​=1时,当p1​=p2​=⋯=pn​有−∑i=1n​pi​lnpi​最大.

连续性:
E(π)=−∫π(θ)lnπ(θ)π0(θ)dθE(\pi)=-\int \pi(\theta)ln\frac{\pi(\theta)}{\pi_0(\theta)}d\thetaE(π)=−∫π(θ)lnπ0​(θ)π(θ)​dθ
π0(θ)是不变的无信息先验\pi_0(\theta)是不变的无信息先验π0​(θ)是不变的无信息先验

定理1(离散型):

设θ为离散型随机变量,θi,i=1,2,⋯&ThinSpace;,满足条件:设\theta为离散型随机变量, \theta_i,i=1,2,\cdots,满足条件:设θ为离散型随机变量,θi​,i=1,2,⋯,满足条件:
Eπ(gk(θ))=∑igk(θi)π(θi)=μk,k=1,2,⋯&ThinSpace;,mE^\pi(g_k(\theta))=\sum_ig_k(\theta_i)\pi(\theta_i)=\mu_k,k=1,2,\cdots,mEπ(gk​(θ))=i∑​gk​(θi​)π(θi​)=μk​,k=1,2,⋯,m
其中gk(⋅),μk(k=1,⋯&ThinSpace;,m)分别表示已知的函数和已知的常数.同时还有隐藏条件∑iπ(θi)=1.其中g_k(\cdot),\mu_k(k=1,\cdots,m)分别表示已知的函数和已知的常数.同时还有隐藏条件\sum_i \pi(\theta_i)=1.其中gk​(⋅),μk​(k=1,⋯,m)分别表示已知的函数和已知的常数.同时还有隐藏条件∑i​π(θi​)=1.
则满足条件的最大熵先验为:
πˉ(θi)=exp{∑k=1mλkgk(θi)}∑iexp{∑k=1mλkgk(θi)}\bar \pi(\theta_i)=\frac{exp\{ \sum^m_{k=1} \lambda_kg_k(\theta_i) \}}{\sum_iexp\{ \sum^m_{k=1} \lambda_k g_k(\theta_i) \}}πˉ(θi​)=∑i​exp{∑k=1m​λk​gk​(θi​)}exp{∑k=1m​λk​gk​(θi​)}​
其中λk是保证πˉ(θ)满足约束条件的常数.其中\lambda_k是保证\bar \pi(\theta)满足约束条件的常数.其中λk​是保证πˉ(θ)满足约束条件的常数.

定理2(连续型):

设θ为连续型随机变量,θi,i=1,2,⋯&ThinSpace;,满足条件:设\theta为连续型随机变量, \theta_i,i=1,2,\cdots,满足条件:设θ为连续型随机变量,θi​,i=1,2,⋯,满足条件:
Eπ(gk(θ))=∫igk(θ)π(θ)dθ=μk,k=1,2,⋯&ThinSpace;,mE^\pi(g_k(\theta))=\int_i g_k(\theta)\pi(\theta)d\theta=\mu_k,k=1,2,\cdots,mEπ(gk​(θ))=∫i​gk​(θ)π(θ)dθ=μk​,k=1,2,⋯,m
其中gk(⋅),μk(k=1,⋯&ThinSpace;,m)分别表示已知的函数和已知的常数.同时还有隐藏条件∑iπ(θi)=1.其中g_k(\cdot),\mu_k(k=1,\cdots,m)分别表示已知的函数和已知的常数.同时还有隐藏条件\sum_i \pi(\theta_i)=1.其中gk​(⋅),μk​(k=1,⋯,m)分别表示已知的函数和已知的常数.同时还有隐藏条件∑i​π(θi​)=1.
则满足条件的最大熵先验为:
πˉ(θi)=π0(θ)exp{∑k=1mλkgk(θ)}∫Θπ0(θ)exp{∑k=1mλkgk(θ)}dθ\bar \pi(\theta_i)=\frac{\pi_0(\theta) exp\{ \sum^m_{k=1} \lambda_kg_k(\theta) \}}{\int_{\Theta} \pi_0(\theta)exp\{ \sum^m_{k=1} \lambda_k g_k(\theta) \}d\theta}πˉ(θi​)=∫Θ​π0​(θ)exp{∑k=1m​λk​gk​(θ)}dθπ0​(θ)exp{∑k=1m​λk​gk​(θ)}​
其中λk是保证πˉ(θ)满足约束条件的常数.其中\lambda_k是保证\bar \pi(\theta)满足约束条件的常数.其中λk​是保证πˉ(θ)满足约束条件的常数.

第三章:贝叶斯统计推断

点估计

已知总体X参数的后验分布:π(θ∣x1,⋯&ThinSpace;,xn)\pi(\theta|x_1,\cdots,x_n)π(θ∣x1​,⋯,xn​)

1).最大后验估计:

也称后验众数估计,后验极大似然估计:
π(θ∣x1,x2,⋯&ThinSpace;,xn)\pi(\theta|x_1,x_2,\cdots,x_n)π(θ∣x1​,x2​,⋯,xn​)

最大值点θ^MD\hat \theta_{MD}θ^MD​.

即,将后验分布求其似然函数的最大值(MLE).

2).后验中位数估计:θ^ME\hat \theta_{ME}θ^ME​

P(θ&gt;θ^∣x1,x2,⋯&ThinSpace;,xn)=P(θ&lt;θ^∣x1,x2,⋯&ThinSpace;,xn)P(\theta &gt; \hat \theta|x_1,x_2,\cdots,x_n)=P(\theta&lt;\hat \theta|x_1,x_2,\cdots,x_n)P(θ>θ^∣x1​,x2​,⋯,xn​)=P(θ<θ^∣x1​,x2​,⋯,xn​)

3).后验期望估计:

θ^=E(θ∣x1,x2,⋯&ThinSpace;,xn)=θ^E\hat \theta=E(\theta|x_1,x_2,\cdots,x_n)=\hat \theta_Eθ^=E(θ∣x1​,x2​,⋯,xn​)=θ^E​

点估计的误差估计

  • 后验分布:π(θ∣x1,⋯&ThinSpace;,xn).贝叶斯估计:θ^=δ(x1,⋯&ThinSpace;,xn)\pi(\theta|x_1,\cdots,x_n).贝叶斯估计:\hat \theta =\delta(x_1,\cdots,x_n)π(θ∣x1​,⋯,xn​).贝叶斯估计:θ^=δ(x1​,⋯,xn​)
  • 后验均方误差:
    PMSE(δ(x))=Eθ∣x(θ−δ(x1,x2,⋯&ThinSpace;,xn))2PMSE(\delta(x))=E_{\theta|x}(\theta-\delta(x_1,x_2,\cdots,x_n))^2PMSE(δ(x))=Eθ∣x​(θ−δ(x1​,x2​,⋯,xn​))2
    该值越小越好
    当θ^=θ^E,即θ^=Eθ∣x(θ)当\hat \theta=\hat \theta_E,即\hat \theta=E_{\theta|x}(\theta)当θ^=θ^E​,即θ^=Eθ∣x​(θ)
    PMSE(θ^E)=Eθ∣x(θ−θ^E)2=Dθ∣x(θ)=V(x)PMSE(\hat \theta_E)=E_{\theta|x}{(\theta-\hat \theta_E)}^2=D_{\theta|x}(\theta)=V(x)PMSE(θ^E​)=Eθ∣x​(θ−θ^E​)2=Dθ∣x​(θ)=V(x)
    后验均值估计使得后验均方误差达到最小.

区间估计

已知θ的后验分布π(θ∣x),对于给定的样本x和x和概率1−α,若存在两个统计量θ^1(x),θ^2(x),有已知 \theta 的后验分布 \pi ( \theta | x ), 对于给定的样本x和x 和概率 1-\alpha,若存在两个统计量\hat \theta_1( x ), \hat \theta_2 ( x ) ,有已知θ的后验分布π(θ∣x),对于给定的样本x和x和概率1−α,若存在两个统计量θ^1​(x),θ^2​(x),有
P(θ^1(x))≤θ≤θ^2(x)∣x)≥1−αP(\hat \theta_1(x)) \le \theta \le \hat \theta_2(x)|x) \ge 1-\alphaP(θ^1​(x))≤θ≤θ^2​(x)∣x)≥1−α

则称置信水平为1-\alpah的可信区间: [θ^1(x),θ^2(x)],[\hat \theta_1(x), \hat \theta_2(x)],[θ^1​(x),θ^2​(x)],
若P(θ^L(x)≤θ∣x)≥1−αP(\hat\theta_L(x)\le\theta|x)\ge1-\alphaP(θ^L​(x)≤θ∣x)≥1−α:
则称置信下限为:θ^L(x)\hat\theta_L(x)θ^L​(x)
若P(θ≤θ^U(x)∣x)≥1−αP(\theta\le\hat\theta_U(x)|x)\ge 1-\alphaP(θ≤θ^U​(x)∣x)≥1−α
则称可信上仙为:θ^U(x)\hat\theta_U(x)θ^U​(x)

最大后验密度可信区间(HPD)

1.定义(最大后验密度可信集):

X~f(x∣θ)f(x|\theta)f(x∣θ),样本:X1,X2,⋯&ThinSpace;,Xn,θ的后验分布π(θ∣x),给定概率1−α,(0&lt;α&lt;1),集合C满足如下条件:X_1,X_2,\cdots,X_n,\theta的后验分布\pi(\theta|x),给定概率1-\alpha,(0&lt;\alpha&lt;1),集合C满足如下条件:X1​,X2​,⋯,Xn​,θ的后验分布π(θ∣x),给定概率1−α,(0<α<1),集合C满足如下条件:

  • P(θ∈C)=1−αP(\theta\in C)=1-\alphaP(θ∈C)=1−α
  • 对任意的θ1∈C,θ2∉C,总有π(θ1∣x)&gt;π(θ2∣x)则称C为θ的置信水平为1−α最大后验密度可信集.对任意的\theta_1\in C,\theta_2 \notin C,总有\pi(\theta_1|x)&gt;\pi(\theta_2|x)则称C为\theta的置信水平为1-\alpha最大后验密度可信集.对任意的θ1​∈C,θ2​∈/​C,总有π(θ1​∣x)>π(θ2​∣x)则称C为θ的置信水平为1−α最大后验密度可信集.

2.大样本方法

X~f(x∣θ),样本:X1,X2,⋯&ThinSpace;,Xn,θ的后验分布πn(θ∣x),μπ(x)=E(θ∣x),Vπ(x),当n比较大时,近似的有:f(x|\theta),样本:X_1,X_2,\cdots,X_n,\theta的后验分布\pi_n(\theta|x),\mu^\pi(x)=E(\theta|x),V^\pi(x),当n比较大时,近似的有:f(x∣θ),样本:X1​,X2​,⋯,Xn​,θ的后验分布πn​(θ∣x),μπ(x)=E(θ∣x),Vπ(x),当n比较大时,近似的有:

  • 1).θ−μπ(x)\theta-\mu^\pi(x)θ−μπ(x)~N(0,Vπ(x))N(0,V^\pi(x))N(0,Vπ(x))
    →(θ−μπ(x))T(Vπ(x))−1(θ−μπ(x))\to (\theta-\mu^\pi(x))^T(V^\pi(x))^{-1}(\theta-\mu^\pi(x))→(θ−μπ(x))T(Vπ(x))−1(θ−μπ(x))~χ2(p)\chi^2(p)χ2(p)
  • 2).θ→{θ∣(θ−μπ(x))T(Vπ(x))−1(θ−μπ(x))≤χα2(p)}\theta \to \{ \theta|(\theta-\mu^\pi(x))^T(V^\pi(x))^{-1}(\theta-\mu^\pi(x)) \le \chi^2_\alpha(p) \}θ→{θ∣(θ−μπ(x))T(Vπ(x))−1(θ−μπ(x))≤χα2​(p)}

预测推断

1.问题提出

  • 1).X~ f(x∣θ),样本:X1,X2,⋯&ThinSpace;,Xn,f(x|\theta),样本:X_1,X_2,\cdots,X_n,f(x∣θ),样本:X1​,X2​,⋯,Xn​,Z~g(z∣θ),g(z|\theta),g(z∣θ),推断未观察值Z0Z_0Z0​
    Z ~ g(z∣θ)g(z|\theta)g(z∣θ)~g(z∣θ,x)g(z|\theta,x)g(z∣θ,x)

  • 2).XXX~f(x∣θ),样本:X1,X2,⋯&ThinSpace;,Xn,推断未观测值X0f(x|\theta), 样本:X_1,X_2,\cdots,X_n,推断未观测值X_0f(x∣θ),样本:X1​,X2​,⋯,Xn​,推断未观测值X0​

2.定义

设X~f(x∣θ),样本:X1,X2,⋯&ThinSpace;,Xn,θ的先验分布π(θ),θ的后验分布π(θ∣x),Zf(x|\theta), 样本:X_1,X_2,\cdots,X_n, \theta的先验分布\pi(\theta),\theta的后验分布\pi(\theta|x),Zf(x∣θ),样本:X1​,X2​,⋯,Xn​,θ的先验分布π(θ),θ的后验分布π(θ∣x),Z ~ g(z∣θ),定义Z0的后验预测密度为g(z|\theta),定义Z_0的后验预测密度为g(z∣θ),定义Z0​的后验预测密度为:
P(z0∣x1,⋯&ThinSpace;,xn)=∫g(z0∣θ)π(θ∣x1,⋯&ThinSpace;,xn)dθP(z_0|x_1,\cdots,x_n)=\int g(z_0|\theta)\pi(\theta|x_1,\cdots,x_n)d\thetaP(z0​∣x1​,⋯,xn​)=∫g(z0​∣θ)π(θ∣x1​,⋯,xn​)dθ

特例情况
P(x0∣x1,⋯&ThinSpace;,xn)=∫f(x0∣θ)π(θ∣x1,⋯&ThinSpace;,xn)dθP(x_0|x_1,\cdots,x_n)=\int f(x_0|\theta)\pi(\theta|x_1,\cdots,x_n)d\thetaP(x0​∣x1​,⋯,xn​)=∫f(x0​∣θ)π(θ∣x1​,⋯,xn​)dθ

Z0的预报区间[a,b]满足:Z_0的预报区间[a,b]满足:Z0​的预报区间[a,b]满足:
P(a≤z0≤b∣x1,⋯&ThinSpace;,xn)=∫abp(z0∣x1,⋯&ThinSpace;,xn)dz0=1−αP(a\le z_0\le b|x_1,\cdots,x_n)=\int^b_a p(z_0|x_1,\cdots,x_n)dz_0=1-\alphaP(a≤z0​≤b∣x1​,⋯,xn​)=∫ab​p(z0​∣x1​,⋯,xn​)dz0​=1−α

x0的预测区间[a,b]满足:x_0的预测区间[a,b]满足:x0​的预测区间[a,b]满足:
P(a≤x0≤b∣x1,⋯&ThinSpace;,xn)=∫abp(x0∣x1,⋯&ThinSpace;,xn)dz0=1−αP(a\le x_0\le b|x_1,\cdots,x_n)=\int^b_a p(x_0|x_1,\cdots,x_n)dz_0=1-\alphaP(a≤x0​≤b∣x1​,⋯,xn​)=∫ab​p(x0​∣x1​,⋯,xn​)dz0​=1−α

假设检验:

H0:θ∈Θ0vsH1:θ∈Θ1H_0:\theta \in \Theta_0\ \ vs\ \ H_1:\theta\in \Theta_1H0​:θ∈Θ0​  vs  H1​:θ∈Θ1​
计算后验概率:P(θ∈Θ0∣x1,⋯&ThinSpace;,xn),P(θ∈Θ1∣x1,⋯&ThinSpace;,xn)P(\theta \in \Theta_0|x_1,\cdots,x_n),\ P(\theta\in \Theta_1|x_1,\cdots,x_n)P(θ∈Θ0​∣x1​,⋯,xn​), P(θ∈Θ1​∣x1​,⋯,xn​)
若P(θ∈Θ0∣x1,⋯&ThinSpace;,xn)&gt;P(θ∈Θ1∣x1,⋯&ThinSpace;,xn),接受H0P(\theta \in \Theta_0|x_1,\cdots,x_n) \gt P(\theta \in \Theta_1| x_1,\cdots,x_n),接受H_0P(θ∈Θ0​∣x1​,⋯,xn​)>P(θ∈Θ1​∣x1​,⋯,xn​),接受H0​
Hi:θ∈Θi(i=1,2,⋯&ThinSpace;,k)H_i:\theta \in \Theta_i(i=1,2,\cdots,k)Hi​:θ∈Θi​(i=1,2,⋯,k)

αi=P(θ∈Θi∣x),若αl最大,则接受Hl\alpha_i=P(\theta \in \Theta_i|x),若\alpha_l最大,则接受H_lαi​=P(θ∈Θi​∣x),若αl​最大,则接受Hl​

贝叶斯因子

设两个假设Θ0和Θ1的先验概率分别为π0和π1,后验概率分别为α0和α1,比率π0π1称为H0对H1先验机会比,α0α1称为H0对H1后验机会比,且称设两个假设\Theta_0和\Theta_1的先验概率分别为\pi_0和\pi_1,后验概率分别为\alpha_0和\alpha_1,比率\frac{\pi_0}{\pi_1}称为H_0对H_1先验机会比,\frac{\alpha_0}{\alpha_1}称为H_0对H_1后验机会比,且称设两个假设Θ0​和Θ1​的先验概率分别为π0​和π1​,后验概率分别为α0​和α1​,比率π1​π0​​称为H0​对H1​先验机会比,α1​α0​​称为H0​对H1​后验机会比,且称
Bπ(x)=α0α1π0π1=α0π1α1π0=α0/π0α1/π1B^\pi(x)=\frac{\frac{\alpha_0}{\alpha_1}}{\frac{\pi_0}{\pi_1}}=\frac{\alpha_0\pi_1}{\alpha_1\pi_0}=\frac{\alpha_0/\pi_0}{\alpha_1/\pi_1}Bπ(x)=π1​π0​​α1​α0​​​=α1​π0​α0​π1​​=α1​/π1​α0​/π0​​

为支持H0H_0H0​的贝叶斯因子.
贝叶斯因子Bπ(x)反应数据x支持H0的程度.Bπ(x)取值越大,对H0的支持程度越高.贝叶斯因子B^\pi(x)反应数据x支持H_0的程度.B^\pi(x)取值越大,对H_0的支持程度越高.贝叶斯因子Bπ(x)反应数据x支持H0​的程度.Bπ(x)取值越大,对H0​的支持程度越高.
拒绝域:α0α1&lt;1\frac{\alpha_0}{\alpha_1}&lt;1α1​α0​​<1等价于:
Bπ(x)&lt;π1π0&ThickSpace;⟺&ThickSpace;1Bπ(x)&gt;π0π1B^\pi(x)&lt;\frac{\pi_1}{\pi_0} \iff \frac{1}{B^\pi(x)}&gt;\frac{\pi_0}{\pi_1}Bπ(x)<π0​π1​​⟺Bπ(x)1​>π1​π0​​

简单vs简单检验

H0:Θ0=θ0vsH1:Θ1=θ1H_0:\Theta_0={\theta_0}\ \ vs \ \ H_1:\Theta_1=\theta_1H0​:Θ0​=θ0​  vs  H1​:Θ1​=θ1​

α0=P(θ∈Θ0∣x)=P(θ0,x)m(x)=π0P(x∣θ0)π0P(x∣θ0)+π1P(x∣θ1)\alpha_0=P(\theta \in \Theta_0|x)=\frac{P(\theta_0,x)}{m(x)}=\frac{\pi_0P(x|\theta_0)}{\pi_0P(x|\theta_0)+\pi_1P(x|\theta_1)}α0​=P(θ∈Θ0​∣x)=m(x)P(θ0​,x)​=π0​P(x∣θ0​)+π1​P(x∣θ1​)π0​P(x∣θ0​)​

α1=P(θ∈Θ1∣x)=π1P(x∣θ1)π0P(x∣θ0)+π1P(x∣θ1)\alpha_1=P(\theta \in \Theta_1| x)=\frac{\pi_1P(x|\theta_1)}{\pi_0P(x|\theta_0)+\pi_1P(x|\theta_1)}α1​=P(θ∈Θ1​∣x)=π0​P(x∣θ0​)+π1​P(x∣θ1​)π1​P(x∣θ1​)​

α0α1=π0P(x∣θ0)π1P(x∣θ1)\frac{\alpha_0}{\alpha_1}=\frac{\pi_0P(x|\theta_0)}{\pi_1P(x|\theta_1)}α1​α0​​=π1​P(x∣θ1​)π0​P(x∣θ0​)​

&ThickSpace;⟹&ThickSpace;Bπ(x)=α0/α1π0/π1=P(x∣θ0)P(x∣θ1)\implies B^\pi(x)=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}=\frac{P(x|\theta_0)}{P(x|\theta_1)}⟹Bπ(x)=π0​/π1​α0​/α1​​=P(x∣θ1​)P(x∣θ0​)​

拒绝域:α0α1&lt;1\frac{\alpha_0}{\alpha_1}&lt;1α1​α0​​<1等价于:
P(x∣θ0)P(x∣θ1)&gt;π1π0\frac{P(x|\theta_0)}{P(x|\theta_1)}&gt;\frac{\pi_1}{\pi_0}P(x∣θ1​)P(x∣θ0​)​>π0​π1​​
例题:

复杂-复杂检验

H0:Θ0(非空复合集)vsH1:Θ1=Θ0−Θ1(非空复合集)H_0:\Theta_0(非空复合集) \ \ vs \ \ H_1:\Theta_1=\Theta_0-\Theta_1(非空复合集) H0​:Θ0​(非空复合集)  vs  H1​:Θ1​=Θ0​−Θ1​(非空复合集)

α0=P(θ∈Θ0∣x)=P(Θ0,x)m(x)=∫Θ0π(θ)P(x∣θ)dθ∫Θ0π(θ)P(x∣θ)dθ+∫Θ1π(θ)P(x∣θ)dθ\alpha_0=P(\theta \in \Theta_0|x)=\frac{P(\Theta_0,x)}{m(x)}=\frac{\int_{\Theta_0} \pi(\theta)P(x|\theta)d\theta}{\int_{\Theta_0} \pi(\theta) P(x|\theta)d\theta+\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta}α0​=P(θ∈Θ0​∣x)=m(x)P(Θ0​,x)​=∫Θ0​​π(θ)P(x∣θ)dθ+∫Θ1​​π(θ)P(x∣θ)dθ∫Θ0​​π(θ)P(x∣θ)dθ​

α1=P(θ∈Θ0∣x)=P(Θ1,x)m(x)=∫Θ1π(θ)P(x∣θ)dθ∫Θ0π(θ)P(x∣θ)dθ+∫Θ1π(θ)P(x∣θ)dθ\alpha_1=P(\theta \in \Theta_0|x)=\frac{P(\Theta_1,x)}{m(x)}=\frac{\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta}{\int_{\Theta_0} \pi(\theta) P(x|\theta)d\theta+\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta}α1​=P(θ∈Θ0​∣x)=m(x)P(Θ1​,x)​=∫Θ0​​π(θ)P(x∣θ)dθ+∫Θ1​​π(θ)P(x∣θ)dθ∫Θ1​​π(θ)P(x∣θ)dθ​

则α0α1=∫Θ0π(θ)P(x∣θ)dθ∫Θ1π(θ)P(x∣θ)dθ则\frac{\alpha_0}{\alpha_1}=\frac{ \int_{\Theta_0} \pi(\theta)P(x|\theta)d\theta }{ \int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta }则α1​α0​​=∫Θ1​​π(θ)P(x∣θ)dθ∫Θ0​​π(θ)P(x∣θ)dθ​
令π0=∫Θ0π(θ)dθ,π1=∫Θ1π(θ)dθ令\pi_0 = \int_{\Theta_0} \pi(\theta)d\theta,\ \pi_1=\int_{\Theta_1}\pi(\theta)d\theta令π0​=∫Θ0​​π(θ)dθ, π1​=∫Θ1​​π(θ)dθ
Bπ(x)=α0/α1π0/π1=∫Θ0π(θ)π0P(x∣θ)dθ∫Θ1π(θ)π1P(x∣θ)dθ=m0(x)m1(x)B^\pi(x)=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}=\frac{ \int_{\Theta_0} \frac{\pi(\theta)}{\pi_0}P(x|\theta)d\theta }{ \int_{\Theta_1} \frac{\pi(\theta)}{\pi_1}P(x|\theta)d\theta }=\frac{m_0(x)}{m_1(x)}Bπ(x)=π0​/π1​α0​/α1​​=∫Θ1​​π1​π(θ)​P(x∣θ)dθ∫Θ0​​π0​π(θ)​P(x∣θ)dθ​=m1​(x)m0​(x)​

拒绝域:α0α1&lt;1\frac{\alpha_0}{\alpha_1}&lt;1α1​α0​​<1等价于:
m0(x)m1(x)&gt;π1π0\frac{m_0(x)}{m_1(x)}&gt;\frac{\pi_1}{\pi_0}m1​(x)m0​(x)​>π0​π1​​

例题:

简单-复杂检验

第四章:贝叶斯统计决策

一.概念

1.样本空间和样本分布族

随机变量X取值于样本空间R,分布族为p(x∣θ),θ∈Θ随机变量 X 取值于样本空间 \Bbb R ,分布族为 { p( x | \theta ), \theta \in \Theta }随机变量X取值于样本空间R,分布族为p(x∣θ),θ∈Θ

2.决策空间: 统计决策问题可能采取的行动构成的非空集合.

定义在样本空间,取值于决策空间中函数δ(x)称为决策函数定义在样本空间,取值 于决策空间中函数 \delta (x ) 称为决策函数定义在样本空间,取值于决策空间中函数δ(x)称为决策函数

3.损失函数

定义在Θ×R的非负可测函数,记L(θ,δ(x))定义在 \Theta \times \Bbb R 的非负可测函数,记L( \theta , \delta ( x ))定义在Θ×R的非负可测函数,记L(θ,δ(x))

4.统计决策三要素

随机变量X的分布族为p(x∣θ),决策空间Θ和损失函数L(θ,δ(x)).随机变量 X 的分布族为 p ( x | \theta ) , 决策空间 \Theta 和损失函数L(\theta,\delta(x)).随机变量X的分布族为p(x∣θ),决策空间Θ和损失函数L(θ,δ(x)).

5.风险函数

设 δ(x)\delta (x )δ(x) 是一个决策函数,平均
损失:
R(θ,δ)=EX∣θ[L(θ,δ(x))]=∫L(θ,δ(x))p(x∣θ)dxR(\theta,\delta)=E_{X|\theta}[L(\theta,\delta(x))]=\int L(\theta,\delta(x))p(x|\theta)dxR(θ,δ)=EX∣θ​[L(θ,δ(x))]=∫L(θ,δ(x))p(x∣θ)dx
为δ(x)\delta(x)δ(x)的风险函数.
对每一个θ的平均损失,θ的函数对每一个 \theta 的平均损失, \theta 的函数对每一个θ的平均损失,θ的函数
风险函数就是损失函数关于p(x∣θ)p(x|\theta)p(x∣θ)的期望
.
.
决策函数就类似于机器学习中的y^\hat yy^​
设δ(x)是任意一个决策函数,如果存在一个决策函数δ∗(x),满足:设\delta(x)是任意一个决策函数,如果存在一个决策函数\delta^*(x),满足:设δ(x)是任意一个决策函数,如果存在一个决策函数δ∗(x),满足:
R(θ,δ∗)≤R(θ,δ)R(\theta,\delta^*) \le R(\theta,\delta)R(θ,δ∗)≤R(θ,δ)
则称δ∗(x)\delta^*(x)δ∗(x)为一致最优决策函数

6.贝叶斯风险

设R(θ,δ)为风险函数,π(θ)为θ的先验分布,则称:设R(\theta,\delta)为风险函数,\pi(\theta)为\theta的先验分布,则称:设R(θ,δ)为风险函数,π(θ)为θ的先验分布,则称:
Rπ(δ)=Eθ[R(θ,δ)]=∫R(θ,δ)π(θ)dδR_\pi( \delta )=E_\theta[R(\theta,\delta)]=\int R(\theta,\delta) \pi(\theta)d\deltaRπ​(δ)=Eθ​[R(θ,δ)]=∫R(θ,δ)π(θ)dδ
为σ(x)\sigma(x)σ(x)的贝叶斯风险.
如果δ(x)是任意一个决策函数,如果存在一个决策函数δ∗(x),满足:如果 \delta( x ) 是任意一个决策函数,如果存在一个决策函数\delta^* ( x ), 满足:如果δ(x)是任意一个决策函数,如果存在一个决策函数δ∗(x),满足:
Rπ(δ∗)≤Rπ(δ)R_\pi(\delta^*) \le R_\pi(\delta)Rπ​(δ∗)≤Rπ​(δ)
则称δ∗(x)为统计决策的贝叶斯解.则称\delta^*(x)为统计决策的贝叶斯解.则称δ∗(x)为统计决策的贝叶斯解.
统计决策的贝叶斯解就是贝叶斯风险的一致最有决策函数

7.后验风险

设L(θ,δ(x))为损失函数,π(θ∣x)为θ的后验分布,则称:设L(\theta,\delta(x))为损失函数,\pi(\theta|x)为\theta的后验分布,则称:设L(θ,δ(x))为损失函数,π(θ∣x)为θ的后验分布,则称:
R(δ(x)∣x)=Eθ∣x[L(θ,δ(x))]=∫L(θ,δ(x))π(θ∣x)dθR(\delta(x)|x)=E_{\theta|x}[L(\theta,\delta(x))]=\int L(\theta,\delta(x))\pi(\theta|x)d\thetaR(δ(x)∣x)=Eθ∣x​[L(θ,δ(x))]=∫L(θ,δ(x))π(θ∣x)dθ
为决策函数δ(x)\delta(x)δ(x)的贝叶斯后验风险.
在某个样本下,损失函数LLL关于后验分布π(θ∣x)\pi(\theta|x)π(θ∣x)的期望(对θ\thetaθ求积分)
如果存在一个决策函数δ∗(x),对任意的决策函数δ(x),满足:如果存在一个决策函数\delta^* ( x ), 对任意的决策函数 \delta ( x ) ,满足:如果存在一个决策函数δ∗(x),对任意的决策函数δ(x),满足:
R(δ∗(x)∣x)=minR(δ(x)∣x)R(\delta^*(x)|x)=minR(\delta(x)|x)R(δ∗(x)∣x)=minR(δ(x)∣x)
则称δ∗(x)\delta^*(x)δ∗(x)为后验风险最小原则下最优贝叶斯决策函数.

8.贝叶斯先验风险

设π(θ)为先验分布,称:\pi(\theta)为先验分布,称:π(θ)为先验分布,称:
R(π,δ(x))=Eθ[L(θ,δ(x))]=∫L(θ,δ(x))π(θ)dθR(\pi,\delta(x))=E_\theta[L(\theta,\delta(x))]=\int L(\theta,\delta(x))\pi(\theta)d\thetaR(π,δ(x))=Eθ​[L(θ,δ(x))]=∫L(θ,δ(x))π(θ)dθ
为δ(x)对θ的贝叶斯期望风险为\delta(x)对\theta的贝叶斯期望风险为δ(x)对θ的贝叶斯期望风险

EX(R(δ(x)∣x))=∫R(δ(x)∣x)m(x)dx=∫m(x)dx∫L(θ,δ(x))π(θ∣x)dθ=∫dx∫L(θ,δ(x))p(x,θ)dθ=∫dx∫L(θ,δ(x))π(θ)p(x∣θ)dθ=∫π(θ)dθ∫L(θ,δ(x))p(x∣θ)dx=∫R(θ,δ)π(θ)dθ=Eθ[R(θ,δ)]=Rπ(δ)=∫∫L(θ,δ(x))p(x,θ)dxdθ‾\begin{aligned} E_X(R(\delta(x)|x)) &amp;=\int R(\delta(x)|x)m(x)dx\\ &amp;=\int m(x)dx\int L(\theta,\delta(x))\pi(\theta|x)d\theta\\ &amp;=\int dx \int L(\theta,\delta(x))p(x,\theta)d\theta\\ &amp;=\int dx \int L(\theta,\delta(x))\pi(\theta)p(x|\theta)d\theta\\ &amp;=\int \pi(\theta)d\theta \int L(\theta,\delta(x))p(x|\theta)dx\\ &amp;=\int R(\theta,\delta)\pi(\theta)d\theta\\ &amp;=E_\theta[R(\theta,\delta)]\\ &amp;=R_\pi(\delta)\\ &amp;=\underline{\int \int L(\theta,\delta(x))p(x,\theta)dxd\theta} \end{aligned} EX​(R(δ(x)∣x))​=∫R(δ(x)∣x)m(x)dx=∫m(x)dx∫L(θ,δ(x))π(θ∣x)dθ=∫dx∫L(θ,δ(x))p(x,θ)dθ=∫dx∫L(θ,δ(x))π(θ)p(x∣θ)dθ=∫π(θ)dθ∫L(θ,δ(x))p(x∣θ)dx=∫R(θ,δ)π(θ)dθ=Eθ​[R(θ,δ)]=Rπ​(δ)=∫∫L(θ,δ(x))p(x,θ)dxdθ​​

二.基本原理

1.后验风险最小原则:

1).平方损失下的贝叶斯估计


2).加权平方损失下的贝叶斯估计



3.在绝对值损失下的贝叶斯估计



4.在线性损失下的贝叶斯估计


三.最小最大准则

定理一:


定理二


四.区间估计的决策


五.假设检验的决策

第五章:贝叶斯计算方法

一.E-M算法


例1

例2.

二.后验分布的相和性

后验分布的渐近正态性

第六章:贝叶斯大样本方法

第七章:贝叶斯模型选择

一 正常先验下的贝叶斯因子

二 非正常先验下的贝叶斯因子

三 贝叶斯模型评价

第八章:经验贝叶斯

贝叶斯分析-学习笔记(超干的干货)相关推荐

  1. STM32学习笔记(超详细)

    查看全文 http://www.taodudu.cc/news/show-6770803.html 相关文章: STM32单片机学习笔记(超详细整理143个问题,学习必看) vsb asc_vsb电力 ...

  2. 吴恩达推荐深度学习笔记+超详细思维导图!不做学术打工人!

    关于人工智能的分支-深度学习版块的资源有很多,但是都会较为分散.小编今天对这些资源进行了整理归纳,汇编了一套学习资源(包含书籍+电子书+百篇论文+思维导图+吴恩达深度学习笔记大全+计算机视觉学术汇总) ...

  3. 吴恩达深度学习笔记-超参数调试、Batch正则化(第6课)

    超参数调试 一.调试处理 二.为超参数选择合适的范围 三.超参数训练的实践:Pandas VS Caviar 四.正则化网络的激活函数 五.将Batch Norm拟合进神经网络 六.Batch Nor ...

  4. 【数据可视化】Matplotlib 入门到精通学习笔记(超详细)

    数据可视化是什么 如果将文本数据与图表数据相比较,人类的思维模式更适合于理解后者,原因在于图表数据更加直观且形象化,它对于人类视觉的冲击更强,这种使用图表来表示数据的方法被叫做数据可视化. 当使用图表 ...

  5. JavaScript 学习笔记 超详细(b站pink老师)

    权威网站: MDN JavaScript权威网站: https://developer.mozilla.org/zh-CN/docs/Web/JavaScript 目录 一.JavaScript基础 ...

  6. JSF学习笔记超详细,从入门到精通,持续更新中~

    JSF笔记 1.JSF概述 JavaServer Faces (JSF) 是一种用于构建Java Web 应用程序的标准框架(是Java Community Process 规定的JSR-127标准) ...

  7. mysql 8.0.26学习笔记超详细入门到精通

    目录 1.基本的SELECT语句 1.1 查询表中特定字段 1.2 字段取别名 1.3 数据去重 1.4 数据空值替换 1.5 显示表的结构 1.6 条件查询where 2.算术运算符 3.比较运算符 ...

  8. Unity学习笔记--超简单:两个游戏对象直接用线连接(UI和世界坐标下均可)

    目录 UI用 效果图 UI代码示例 挂载示例 世界坐标用 挂载示例 效果图 世界坐标代码示例 我们分两种情况,一种是UI上连线,一种是世界坐标下连线. UI用 效果图 UI代码示例 public cl ...

  9. STM32学习笔记---超详细整理144个问题

    1.AHB系统总线分为APB1(36MHz)和APB2(72MHz),其中2>1,意思是APB2接高速设备: 2.Stm32f10x.h相当于reg52.h(里面有基本的位操作定义),另一个为s ...

最新文章

  1. QT5.3 + vs2012 + box2d环境配置
  2. php 中continue break exit return 的区别
  3. lvs增加并发连接,解决因为哈希表过小导致软中断过高问题
  4. 前端跨域通信的几种方式
  5. SNI: 实现多域名虚拟主机的SSL/TLS认证
  6. 前端学习(1928)vue之电商管理系统电商系统之美化一层循环的UI结构for循环ui美化
  7. s5pv210——按键
  8. m1 MBA配置python及Numpy科学计算环境
  9. 机器学习 Machine Learning中正则化的学习笔记~
  10. java编译程序文件为_编译Java源程序文件后将产生相应的可执行字节码文件,这些文件的扩展名为( )。...
  11. Mac壁纸软件 - 动态 高清 炫酷 4K 精美壁纸下载
  12. 为什么要制定项目计划?
  13. 新概念二册 Lesson 13 The Greenwood Boys绿林少年 (将来进行时)
  14. 链塔短评合集| XAS、ARDR为BB级,LSK为B级
  15. 从底特律的覆灭,反思“珠三角”未来
  16. 质量与效能 | 11月29日TF84
  17. 解析xml的几种方法,他们的原理,比较 以及JAVA源码
  18. kafka启动报错:kafka.common.InconsistentClusterIdException: The Cluster ID KtS-r0FATSudTYqgf-7Ifw doesn‘t
  19. GEE 提取长系列NDVI像元值
  20. ubtuntu安装java

热门文章

  1. Windows: Ctrl,Alt, Shift等快捷键的含义
  2. Chat-REC、InstructRec(LLM大模型用于推荐系统)
  3. Juniper Junos设置3层接口
  4. 獨立屋裝修/村屋裝修
  5. 如何做好工程项目进度管控
  6. java 使用Apache PDFBox 对 PDF 文件进行剪裁
  7. 如何给Mac挑选外接显示器?苹果外接显示器选购指南
  8. 在国内如何使用gmail_如何在Gmail中召回电子邮件
  9. Linux 开机提示kernel panic...解决方法
  10. 索尼开发新传感器为激光雷达提供助力,用于自动驾驶和其他应用