贝叶斯分析-学习笔记(超干的干货)
文章目录
- 第一章.绪论
- 一、常见随机变量分布
- 1.二项分布:
- 2.Poisson分布
- 3.几何分布
- 4.帕斯卡分布(负二项分布)
- 5.多项分布(二项分布的推广)
- 6.均匀分布
- 7.指数分布
- 8.正态分布
- 9.柯西分布
- 10.伽马分布
- 11.逆伽马分布
- 12.贝塔分布
- 13.狄里克莱分布(贝塔分布的多维形式)
- 14.帕累托分布
- 二. 联合分布,边缘分布,条件分布
- 1.已知边缘分布和条件分布
- 2.已知联合分布
- 三.基本概念
- 1.指数族:
- 2.充分统计量:
- 3.因子分解定理:
- 4.完备统计量:
- 5.完全统计量判定:
- 6.UMVUE:
- 7.L-S定理:
- 8.C-R不等式:
- 9.N-P引理
- 10.N-P引理推广
- 第二章.先验分布的选取
- 一.古典学派和贝叶斯学派
- 二.贝叶斯统计的基本概念
- 1).参数的先验分布: $\pi (\theta)$
- 2).参数的后验分布:$\pi(\theta|x_1,x_2,\cdots, x_n)$
- 三.后验分布的计算
- 四.先验分布函数形式的确定
- 五.超参数的确定
- 1.先验分布具有明确的意义或信息
- 2.利用边缘分布确定超参数(矩估计和MLE)
- 六.无信息先验分布
- 1.贝叶斯假设
- 2. 位置参数的无信息先验
- 3.尺度参数的无信息先验
- 4.一般情况:Jeffreys无信息先验
- 七.共轭先验分布
- 1.共轭先验分布
- 2.求共轭先验分布
- 八.多层先验分布
- 后验分布与充分性
- 回顾充分统计量
- 因子分解定理
- 后验分布引理
- Reference先验
- KL散度定义:
- Reference先验
- Reference先验计算
- 最大熵先验
- 定理1(离散型):
- 定理2(连续型):
- 第三章:贝叶斯统计推断
- 点估计
- 1).最大后验估计:
- 2).后验中位数估计:$\hat \theta_{ME}$
- 3).后验期望估计:
- 点估计的误差估计
- 区间估计
- 最大后验密度可信区间(HPD)
- 1.定义(最大后验密度可信集):
- 2.大样本方法
- 预测推断
- 1.问题提出
- 2.定义
- 假设检验:
- 贝叶斯因子
- 简单vs简单检验
- 复杂-复杂检验
- 简单-复杂检验
- 第四章:贝叶斯统计决策
- 一.概念
- 1.样本空间和样本分布族
- 2.决策空间: 统计决策问题可能采取的行动构成的非空集合.
- 3.损失函数
- 4.统计决策三要素
- 5.风险函数
- 6.贝叶斯风险
- 7.后验风险
- 8.贝叶斯先验风险
- 二.基本原理
- 1.后验风险最小原则:
- 1).平方损失下的贝叶斯估计
- 2).加权平方损失下的贝叶斯估计
- 3.在绝对值损失下的贝叶斯估计
- 4.在线性损失下的贝叶斯估计
- 三.最小最大准则
- 定理一:
- 定理二
- 四.区间估计的决策
- 五.假设检验的决策
- 第五章:贝叶斯计算方法
- 一.E-M算法
- 二.后验分布的相和性
- 后验分布的渐近正态性
- 第六章:贝叶斯大样本方法
- 第七章:贝叶斯模型选择
- 一 正常先验下的贝叶斯因子
- 二 非正常先验下的贝叶斯因子
- 三 贝叶斯模型评价
- 第八章:经验贝叶斯
第一章.绪论
一、常见随机变量分布
1.二项分布:
如果随机变量的分布律为
p(X=k)=Cnkpk(1−p)n−k,(k=0,1,...,n)p(X=k)=C^k_np^k(1-p)^{n-k},(k=0,1,...,n)p(X=k)=Cnkpk(1−p)n−k,(k=0,1,...,n)
则称随机变量X服从参数为(n,p)(n,p)(n,p)的二项分布
记为X~B(n,p),(其中n为自然数,0<p<1为参数)
- 1). n重伯努利实验,关心事件发生次数的分布律
- 2)EX=np,DX=np(1−p)EX=np,DX = np(1-p)EX=np,DX=np(1−p)
当n=1时,为“0-1分布”,即B(1,p)B(1,p)B(1,p)
2.Poisson分布
如果随机变量X的分布律为
PX=k=λkk!e−λ,(k=0,1,… .whereconstantλ>0)P{X=k}=\frac{\lambda^k}{k!}e^{-\lambda},(k=0,1,\dots. where\ constant\ \lambda>0)PX=k=k!λke−λ,(k=0,1,….where constant λ>0)
记为:XXX~p(λ)p(\lambda)p(λ)
- 1).稀有事件,事件发生次数的分布律
- 2).EX=λ,DX=λEX=\lambda,DX =\lambdaEX=λ,DX=λ
3.几何分布
如果随机变量X的分布律为
P(X=k)=(1−p)k−1p,(k=1,2,… .whereconstrantp∈(0,1))P(X=k)=(1-p)^{k-1}p,(k=1,2,\dots.\ where\ constrant\ p\in (0,1))P(X=k)=(1−p)k−1p,(k=1,2,…. where constrant p∈(0,1))
则称随机变量X服从参数为p 的几何分布.
记为:XXX~G(p)G(p)G(p)
- 1).独立重复试验,首次成功次数的分布律。
- 2).EX=1p,DX=1−pp2EX=\frac{1}{p},DX=\frac{1-p}{p^2}EX=p1,DX=p21−p
4.帕斯卡分布(负二项分布)
如果随机变量X的分布律为
P(X=k)=Ck−1r−1(1−p)k−rpr),(k=r,r+1,r+2,…,whereconstantp∈(0,1))P(X=k)=C^{r-1}_{k-1}(1-p)^{k-r}p^r),(k=r,r+1,r+2,\dots,where\ constant\ p\in (0,1))P(X=k)=Ck−1r−1(1−p)k−rpr),(k=r,r+1,r+2,…,where constant p∈(0,1))
记为:XXX~NB(r,p)NB(r,p)NB(r,p)
- 1).独立重复试验,第r此成功时实验次数的分布律
- 2).EX=rp,DX=r(1−p)p2EX=\frac{r}{p},DX=\frac{r(1-p)}{p^2}EX=pr,DX=p2r(1−p)
*负二项分布可以看成是r个独立同分布的几何分布的YiY_iYi~G(p)G(p)G(p)叠加,则有
EX=E(Y1+Y2+⋯+Yr)=rE(Yi)=r⋅1pEX = E(Y_1+Y_2+\cdots+Y_r)=rE(Y_i)=r\cdot \frac{1}{p}EX=E(Y1+Y2+⋯+Yr)=rE(Yi)=r⋅p1
DX=D(Y1+Y2+⋯+Yr)=rD(Yi)=r⋅1−pp2DX = D(Y_1+Y_2+\cdots+Y_r)=rD(Y_i)=r\cdot \frac{1-p}{p^2}DX=D(Y1+Y2+⋯+Yr)=rD(Yi)=r⋅p21−p
5.多项分布(二项分布的推广)
如果随机向量N=(N1,N2,⋯ ,Nm)N=(N_1,N_2,\cdots,N_m)N=(N1,N2,⋯,Nm)的分布律为
P(N1=r1,N2=r2,⋯ ,Nm=rm)=n!r1!r2!⋯rm!p1r1p2r2⋯pmrmP(N_1=r_1,N_2=r_2,\cdots,N_m=r_m)=\frac{n!}{r_1!r_2!\cdots r_m!}p^{r_1}_1p^{r_2}_2\cdots p^{r_m}_mP(N1=r1,N2=r2,⋯,Nm=rm)=r1!r2!⋯rm!n!p1r1p2r2⋯pmrm
则称随机变量N服从参数为p=(p1,⋯ ,pm)的多项分布p=(p_1,\cdots,p_m)的多项分布p=(p1,⋯,pm)的多项分布.
Σi=1mpi=1,Σi=1mri=n\Sigma^m_{i=1}p_i=1,\Sigma^m_{i=1}r_i=nΣi=1mpi=1,Σi=1mri=n(其中n为自然数,0<pip_ipi<1为参数)
记作NNN~M(n,p)M(n,p)M(n,p)
-1).每次试验有m个可能结果:A1,A2,…,AmA_1,A_2,\dots,A_mA1,A2,…,Am
-2).P(Ak)=pkP(A_k)=p_kP(Ak)=pk,此实验独立重复进行n此,记AkA_kAk发生的次数为NkN_kNk.
NNN~M(n,p)M(n,p)M(n,p)可以分解成n个独立的M(1,p)M(1,p)M(1,p)之和。
6.均匀分布
若随机变量X 的密度函数为
f(x)={1b−a,if a≤x≤b0,othersf(x)=\begin{cases} \frac{1}{b-a}, & \text{if $a\le x\le b$} \\ 0, & others \end{cases} f(x)={b−a1,0,if a≤x≤bothers
则称随机变量XXX服从区间[a,b][a,b][a,b]上的均匀分布.
记作X~U[a,b]U[a,b]U[a,b]
F(x)={0,x<ax−ab−a,a≤x≤b1,b<xF(x)= \begin{cases} 0, & x<a \\ \frac{x-a}{b-a},&a\le x\le b \\ 1, & b<x \end{cases} F(x)=⎩⎪⎨⎪⎧0,b−ax−a,1,x<aa≤x≤bb<x
几何概型
- 1).Pc<X<c+l=lb−aP{c<X<c+l}=\frac{l}{b-a}Pc<X<c+l=b−al
- 2)l.EX=1b−a,DX=(b−a)212EX=\frac{1}{b-a},DX=\frac{(b-a)^2}{12}EX=b−a1,DX=12(b−a)2
7.指数分布
XXX~e(λ)e(\lambda)e(λ)
定义:如果随机变量X 的密度函数为
f(x)=λe−λxI{x>0}f(x)=\lambda e^{-\lambda x}I\{x>0\}f(x)=λe−λxI{x>0}
其中λ>0\lambda>0λ>0为常数,则称随机变量X服从参数为λ\lambdaλ的指数分布.
- 1).F(x)=1−e−λxI{x>0}F(x)=1-e^{-\lambda x}I\{x>0\}F(x)=1−e−λxI{x>0}
- 2).P(X>x)=1−F(x)=e−λxP(X>x)=1-F(x)=e^{-\lambda x}P(X>x)=1−F(x)=e−λx
- 3).EX=1λ,DX=1λ2EX=\frac{1}{\lambda},DX=\frac{1}{\lambda^2}EX=λ1,DX=λ21
8.正态分布
如果连续型随机变量的密度函数为
f(x)=12πσe−(x−μ)22σ2f(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}}f(x)=2πσ1e−2σ2(x−μ)2
(where−∞<μ<+∞,constantσ>0(where\ -\infty \lt \mu\lt +\infty,constant\ \sigma >0(where −∞<μ<+∞,constant σ>0)
9.柯西分布
如果连续型随机变量的密度函数为
f(x)=1βπ11+(x−αβ)2,x∈Rf(x)=\frac{1}{\beta \pi}\frac{1}{1+(\frac{x-\alpha}{\beta})^2},x\in \mathbb Rf(x)=βπ11+(βx−α)21,x∈R
则称随机变量X服从参数为α,β\alpha,\betaα,β的柯西分布
记为:X~C(α,β)(\alpha,\beta)(α,β)
- 若α=0,β=1,我们称C(0,1)为标准柯西分布\alpha=0,\beta=1,我们称C(0,1)为标准柯西分布α=0,β=1,我们称C(0,1)为标准柯西分布.
- f(x)=1π11+x2,x∈Rf(x)=\frac{1}{\pi}\frac{1}{1+x^2},x\in \mathbb Rf(x)=π11+x21,x∈R
- EX不存在
物理学中受迫共振的微分方程的解。
10.伽马分布
如果随机变量 X 的密度函数为
f(x)=(βx)α−1Γ(α)βe−βxI{x>0},whereα>0,β>0f(x)=\frac{(\beta x)^{\alpha-1}}{\Gamma(\alpha)}\beta e^{-\beta x}I\{ x>0\},where\ \alpha >0,\beta >0f(x)=Γ(α)(βx)α−1βe−βxI{x>0},where α>0,β>0
则称随机变量XXX服从参数为(α,β)(\alpha,\beta)(α,β)的Γ\GammaΓ分布.
记为:XXX~Γ(α,β)\Gamma(\alpha,\beta)Γ(α,β)
- 当α=1\alpha = 1α=1时, XXX~e(β)e(\beta)e(β)
- Γ(α)=∫0∞xα−1e−xdx=(α−1)Γ(α−1)\Gamma(\alpha)=\int^{\infty}_0x^{\alpha-1}e^{-x}dx=(\alpha-1)\Gamma(\alpha-1)Γ(α)=∫0∞xα−1e−xdx=(α−1)Γ(α−1)
- EX=∫0∞(βx)αΓ(α)e−βxdx=Γ(α+1)βΓ(α)=αβEX=\int^{\infty}_0\frac{(\beta x)^{\alpha}}{\Gamma(\alpha)}e^{-\beta x}dx =\frac{\Gamma(\alpha+1)}{\beta\Gamma(\alpha)}=\frac{\alpha}{\beta}EX=∫0∞Γ(α)(βx)αe−βxdx=βΓ(α)Γ(α+1)=βα
- DX=EX2−(EX)2=α2+αβ2−(αβ)2=αβ2DX=EX^2-(EX)^2=\frac{\alpha^2+\alpha}{\beta^2}-(\frac{\alpha}{\beta})^{2}=\frac{\alpha}{\beta^2}DX=EX2−(EX)2=β2α2+α−(βα)2=β2α
- 独立的指数分部之和服从伽马分布。
11.逆伽马分布
如果随机变量 X 的密度函数为
f(x)=βαΓ(α)x−(α+1)e−βxI{x>0},whereα>0,β>0f(x)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{-(\alpha+1)}e^{-\frac{\beta}{x}}I\{x>0\},where\ \alpha>0,\beta>0f(x)=Γ(α)βαx−(α+1)e−xβI{x>0},where α>0,β>0
则称随机变量XXX服从参数为(α,β)(\alpha,\beta)(α,β)的逆伽马分布.
记为:XXX~Γ−1(α,β)\Gamma^{-1}(\alpha,\beta)Γ−1(α,β)
- 当XXX~Γ(α,β)\Gamma(\alpha,\beta)Γ(α,β)时, Y=1XY=\frac{1}{X}Y=X1~Γ−1(α,β)\Gamma^{-1}(\alpha,\beta)Γ−1(α,β)
- EX=∫0∞xβαΓ(α)x−(α+1)eβαdx=βα−1EX=\int^\infty_0x \frac{\beta\alpha}{\Gamma(\alpha)}x^{-(\alpha+1)}e^{\frac{\beta}{\alpha}}dx=\frac{\beta}{\alpha-1}EX=∫0∞xΓ(α)βαx−(α+1)eαβdx=α−1β
- DX=β2(α−1)2(α−2)DX=\frac{\beta^2}{(\alpha-1)^2(\alpha-2)}DX=(α−1)2(α−2)β2
通常用来描述误差分布。
12.贝塔分布
如果随机变量 X 的密度函数为
f(x)=Γ(a+b)Γ(a)Γ(b)xa−1(1−x)b−1I{0<x<1},wherea>0,b>0f(x)=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}x^{a-1}(1-x)^{b-1}I\{0\lt x \lt1\},where\ a>0,b>0 f(x)=Γ(a)Γ(b)Γ(a+b)xa−1(1−x)b−1I{0<x<1},where a>0,b>0
则称随机变量 X 服从参数为 ( a , b ) 的β\betaβ分布.
记为XXX~Be(a,b)Be(a,b)Be(a,b)
- 当a=1,b=1时, XXX~U(0,1)U(0,1)U(0,1)
- ∫−∞∞f(x)dx=1\int^\infty_{-\infty}f(x)dx=1∫−∞∞f(x)dx=1, ∫01xa−1(1−x)b−1dx=Γ(a)Γ(b)Γ(a+b)=β(a,b)\int^1_0x^{a-1}(1-x)^{b-1}dx=\frac{\Gamma(a)\Gamma(b)}{\Gamma(a+b)}=\beta(a,b)∫01xa−1(1−x)b−1dx=Γ(a+b)Γ(a)Γ(b)=β(a,b)
- EX=∫0∞Γ(a+b)Γ(a)+Γ(b)xa(1−x)b−1dx=Γ(a+b)Γ(a)Γ(b)Γ(a+1)Γ(b)Γ(a+b+1)=aa+bEX=\int^\infty_0 \frac{\Gamma(a+b)}{\Gamma(a)+\Gamma(b)}x^a(1-x)^{b-1}dx=\frac{\Gamma(a+b)}{\Gamma(a)\Gamma(b)}\frac{\Gamma(a+1)\Gamma(b)}{\Gamma(a+b+1)}=\frac{a}{a+b}EX=∫0∞Γ(a)+Γ(b)Γ(a+b)xa(1−x)b−1dx=Γ(a)Γ(b)Γ(a+b)Γ(a+b+1)Γ(a+1)Γ(b)=a+ba
- DX=ab(a+b)2(a+b+1)DX=\frac{ab}{(a+b)^2(a+b+1)}DX=(a+b)2(a+b+1)ab
- beta分布可以看作一个概率的概率分布.
- 若XXX ~ Γ(α,θ)\Gamma(\alpha,\theta)Γ(α,θ),YYY ~ Γ(β,θ)\Gamma(\beta,\theta)Γ(β,θ)独立,则XX+Y\frac{X}{X+Y}X+YX ~ Be(α,β)Be(\alpha,\beta)Be(α,β)
13.狄里克莱分布(贝塔分布的多维形式)
P(x1,x2,…,xk)=Γ(α1+α2+⋯+αk)Γ(α1)Γ(α2)…Γ(αk)x1α1−1x2α2−1⋯xkαk−1,∑i=1kxi=1P(x_1,x_2,\dots,x_k)=\frac{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)}x^{\alpha_1-1}_1x^{\alpha_2-1}_2 \cdots x^{\alpha_k-1}_k,\sum^k_{i=1}x_i=1P(x1,x2,…,xk)=Γ(α1)Γ(α2)…Γ(αk)Γ(α1+α2+⋯+αk)x1α1−1x2α2−1⋯xkαk−1,i=1∑kxi=1
则称随机变量 XXX 服从参数为 α=(α1,⋯ ,αk)(αi>0)\alpha=(\alpha_1,\cdots,\alpha_k)(\alpha_i>0)α=(α1,⋯,αk)(αi>0) 的狄里克莱分布 .
记为XXX ~ D(k,α)D(k,\alpha)D(k,α)
- 当k=2时,狄里克莱分布为贝塔分布
- 可以描述一个多维概率的概率分布.
- ∫⋯∫x1α1−1x2α2−1⋯xkαk−1dx1⋯dxk=Γ(α1)Γ(α2)…Γ(αk)Γ(α1+α2+⋯+αk)\int \cdots\int x_1^{\alpha_1-1}x_2^{\alpha_2-1}\cdots x_k^{\alpha_k-1}dx_1 \cdots dx_k=\frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}∫⋯∫x1α1−1x2α2−1⋯xkαk−1dx1⋯dxk=Γ(α1+α2+⋯+αk)Γ(α1)Γ(α2)…Γ(αk)
- EXi=Γ(α1+α2+⋯+αk)Γ(α1)Γ(α2)…Γ(αk)Γ(α1)Γ(α2)⋯Γ(αi+1)⋯Γ(αk)Γ(α1+α2+⋯+αk+1)=αiα1+α2+⋯+αkEX_i=\frac{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k)}{\Gamma(\alpha_1)\Gamma(\alpha_2)\dots\Gamma(\alpha_k)} \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots \Gamma(\alpha_i +1) \cdots \Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k+1)} =\frac{\alpha_i}{\alpha_1+\alpha_2+\dots+\alpha_k}EXi=Γ(α1)Γ(α2)…Γ(αk)Γ(α1+α2+⋯+αk)Γ(α1+α2+⋯+αk+1)Γ(α1)Γ(α2)⋯Γ(αi+1)⋯Γ(αk)=α1+α2+⋯+αkαi
- DXi=Γ(α1)Γ(α2)⋯Γ(αi+2)⋯Γ(αk)Γ(α1+α2+⋯+αk+2)−(αiα1+α2+⋯+αk)2=αi(αi+1)(α1+α2+⋯+αk+1)(α1+α2+⋯+αk)−(αiα1+α2+⋯+αk)2DX_i = \frac{\Gamma(\alpha_1)\Gamma(\alpha_2)\cdots \Gamma(\alpha_i +2) \cdots \Gamma(\alpha_k)}{\Gamma(\alpha_1+\alpha_2+\dots+\alpha_k+2)}-(\frac{\alpha_i}{\alpha_1+\alpha_2+\dots+\alpha_k})^2 =\frac{\alpha_i(\alpha_i+1)}{(\alpha_1+\alpha_2+\dots+\alpha_k+1) (\alpha_1+\alpha_2+\dots+\alpha_k)}-(\frac{\alpha_i}{ \alpha_1+\alpha_2+\dots+\alpha_k })^2DXi=Γ(α1+α2+⋯+αk+2)Γ(α1)Γ(α2)⋯Γ(αi+2)⋯Γ(αk)−(α1+α2+⋯+αkαi)2=(α1+α2+⋯+αk+1)(α1+α2+⋯+αk)αi(αi+1)−(α1+α2+⋯+αkαi)2
14.帕累托分布
如果随机变量 X 的密度函数为
f(x)=αCαxα+1I{x>C},whereC>0,α>0f(x)=\frac{\alpha C^\alpha}{x^{\alpha+1}}I\{x>C\},where\ C>0,\alpha>0f(x)=xα+1αCαI{x>C},where C>0,α>0
则称随机变量 X 服从参数为 (C,α)( C , \alpha )(C,α) 的 帕雷托 分布.
记为XXX ~ Pa(C,α)Pa(C,\alpha)Pa(C,α)
- 经济问题 :贫与富的存在
- 通过市场交易,20%的人将占有80%的社会财富,如果交易可以不断进行下去,那么,在因和果、努力和收获之间,普遍存在着不平衡关系.
二. 联合分布,边缘分布,条件分布
1.已知边缘分布和条件分布
设随机向量 X 的概率分布为PX(x)P_X(x)PX(x),Y 在 X 下的条件分布
为PY∣X(y∣x)P_{Y|X}(y|x)PY∣X(y∣x),则
联合分布:
f(x,y)=fx(x)fY∣X(y∣X),(X连续型,Y连续型)f(x,y) = f_x(x)f_{Y|X}(y|X),( X 连续型 , Y 连续型 )f(x,y)=fx(x)fY∣X(y∣X),(X连续型,Y连续型)
P(xi,yi)=PX(xi)PY∣X(yi∣xi),(X离散型,Y离散型)P(x_i,y_i)=P_X(x_i)P_{Y|X}(y_i|x_i),( X 离散型 , Y 离散型 )P(xi,yi)=PX(xi)PY∣X(yi∣xi),(X离散型,Y离散型)
P(xi,yi)=PX(xi)fY∣X(y∣xi),(Y连续型,X离散型)P(x_i,y_i)=P_X(x_i)f_{Y|X}(y|x_i),(Y连续型,X离散型)P(xi,yi)=PX(xi)fY∣X(y∣xi),(Y连续型,X离散型)
P(xi,yi)=fX(x)PY∣X(yi∣x),(X连续型,Y离散型)P(x_i,y_i)=f_X(x)P_{Y|X}(y_i|x),(X连续型,Y离散型)P(xi,yi)=fX(x)PY∣X(yi∣x),(X连续型,Y离散型)
2.已知联合分布
设随机向量 ( X , Y ) 的联合分布为 P ( x , y ), 则
- 边缘分布:
PX(x)=∫−∞∞p(x,y)dy,(Y连续型)P_X(x)=\int^\infty_{-\infty}p(x,y)dy,(Y连续型)PX(x)=∫−∞∞p(x,y)dy,(Y连续型)
PX(x)=∑ip(x,yi),(Y离散型)P_X(x)=\sum_ip(x,y_i),(Y离散型)PX(x)=i∑p(x,yi),(Y离散型)
- 条件分布:
PY∣X(y∣x)=p(x,y)pX(x),(Y连续型)P_{Y|X}(y|x)=\frac{p(x,y)}{p_X(x)},(Y连续型)PY∣X(y∣x)=pX(x)p(x,y),(Y连续型)
PY∣X(yi∣x)=p(x,yi)pX(x),(Y离散型)P_{Y|X}(y_i|x) =\frac{p(x,y_i)}{p_X(x)},(Y离散型)PY∣X(yi∣x)=pX(x)p(x,yi),(Y离散型)
三.基本概念
1.指数族:
p(x,θ)=C(θ)exp{∑i=1kθiTi(x)}h(x)p(x,\theta)=C(\theta)exp\{\sum^k_{i=1}\theta_iT_i(x)\}h(x)p(x,θ)=C(θ)exp{i=1∑kθiTi(x)}h(x)
标准形式:
见<<高等数理统计shaojun>>
2.充分统计量:
有分布族{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ},
若在已知统计量 T 的条件下 , 样本 X 的条件分布与 θ\thetaθ 无关,则称 T 为参数 θ\thetaθ 的充分统计量.
3.因子分解定理:
有分布族{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ}, 以及统计量:T=T(x)
若 p(x,θ)p ( x , \theta )p(x,θ) 能够分解成
p(x,θ)=g(T(x),θ)h(x)p ( x , \theta ) = g ( T ( x ), \theta ) h ( x )p(x,θ)=g(T(x),θ)h(x)
则 T 为参数 θ\thetaθ 的充分统计量。
4.完备统计量:
有分布族{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ}, 以及统计量:T=T(x),
若对∀φ(T(x))\forall \varphi(\ T(x)\ )∀φ( T(x) )满足, Eθ(φ((T(x))=0E_\theta (\varphi(\ (T(x)\ )=0Eθ(φ( (T(x) )=0,都有
Pθ(φ(T(X))=0)=1P_\theta (\varphi (T(X))=0)=1Pθ(φ(T(X))=0)=1
5.完全统计量判定:
若样本 X=(X1,X2,⋯ ,Xn)X = ( X_1 , X_2 ,\cdots , X_n )X=(X1,X2,⋯,Xn) 的分布族:{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ},
P(x,θ)=C(θ)exp{∑i=1kθiTi(x)}h(x)P(x,\theta)=C(\theta)exp\{ \sum^k_{i=1}\theta_iT_i(x) \}h(x)P(x,θ)=C(θ)exp{i=1∑kθiTi(x)}h(x)
统计量: T=(T1(x),T2(x),⋯ ,Tk(x))T=(\ T_1(x),T_2(x),\cdots,T_k(x) \ )T=( T1(x),T2(x),⋯,Tk(x) ), 且参数空间 Θ\ThetaΘ有内点,则T为参数θ\thetaθ的完全统计量
看<<高等数理统计 shaojun>><<参数统计教程韦博成>>
6.UMVUE:
样本X=(X1,X2,⋯ ,Xn)X=(X_1,X_2,\cdots,X_n)X=(X1,X2,⋯,Xn),
分布族:{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ},
可估函数:g(θ)g(\theta)g(θ),
设g^∗(X)\hat g^*(X)g^∗(X)是g(θ)g(\theta)g(θ)的一个无偏估计量,若对g(θ)g(\theta)g(θ)的任意无偏估计g^(X)\hat g(X)g^(X)都有:
Dg^∗(X)≤Dg^(X)D \hat g^*(X) \le D \hat g(X)Dg^∗(X)≤Dg^(X)
则称g^∗(X)是g(θ)的UMVUE\hat g^*(X)是g(\theta)的UMVUEg^∗(X)是g(θ)的UMVUE
7.L-S定理:
样本X=(X1,X2,⋯ ,Xn)X=(X_1,X_2,\cdots,X_n)X=(X1,X2,⋯,Xn),
分布族:{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ},
可估函数:g(θ)g(\theta)g(θ),
统计量 T (X ) 是一个充分完备统计量.
g^(T(X))\hat g( T ( X ))g^(T(X))是 g ( \theta ) 的 一个无偏估计量,
则 g^(T(X))\hat g(T(X))g^(T(X)) 是g(θ)g(\theta)g(θ)唯一的UMVUE
8.C-R不等式:
样本X=(X1,X2,⋯ ,Xn)X=(X_1,X_2,\cdots,X_n)X=(X1,X2,⋯,Xn),
分布族:{p(x,θ),θ∈Θ}\{p(x,\theta),\theta\in \Theta \}{p(x,θ),θ∈Θ},
可估函数:g(θ)g(\theta)g(θ),
g^(T(X))\hat g( T ( X ))g^(T(X))是 g(θ)g ( \theta )g(θ) 的 一个无偏估计量,
假设 p(x,θ\thetaθ)满足正则性条件:
- 1). {x∣p(x,θ)>0}与θ无关\{ x|p(x,\theta)>0 \}与\theta无关{x∣p(x,θ)>0}与θ无关
- 2). p(x,θ)关于θ可导p(x,\theta)关于\theta可导p(x,θ)关于θ可导
- 3). 有关p(x,θ)关于θ求导和积分可换序有关p(x,\theta)关于\theta求导和积分可换序有关p(x,θ)关于θ求导和积分可换序
则有Varθ(g^(X))≥(g‘(θ))2nI(θ)(=(g‘(θ)I−1(θ)(g‘(θ)Tn)Var_\theta (\hat g(X)) \ge \frac{(g`(\theta))^2}{nI(\theta)}\left( =\frac{(g`(\theta)I^{-1}(\theta)(g`(\theta)^T}{n} \right)Varθ(g^(X))≥nI(θ)(g‘(θ))2(=n(g‘(θ)I−1(θ)(g‘(θ)T)
称I(θ)=E(∂lnp(x,θ)∂θ)2I(\theta)=E(\frac{\partial lnp(x,\theta)}{\partial \theta})^2I(θ)=E(∂θ∂lnp(x,θ))2为参数θ\thetaθ的信息量
如果 DT=(g‘(θ))2nI(θ),(当q(θ)=θ时,DT=1nI(θ))则称T(X1,X2,⋯ ,Xn)为g(θ)的有效估计量DT=\frac{(g`(\theta))^2}{nI(\theta)},(当q(\theta)=\theta时,DT=\frac{1}{nI(\theta)})则称T(X_1,X_2,\cdots,X_n)为g(\theta)的有效估计量DT=nI(θ)(g‘(θ))2,(当q(θ)=θ时,DT=nI(θ)1)则称T(X1,X2,⋯,Xn)为g(θ)的有效估计量]
9.N-P引理
10.N-P引理推广
第二章.先验分布的选取
一.古典学派和贝叶斯学派
古典统计学派: 坚持概率的频率解释, 把未知参数看成一个固定的未知量!
统计推断的信息量: 总体信息和样本信息
缺点: 需要大量重复试验贝叶斯学派: 坚持先给定先验概率, 把未知参数用一个概率分布描述!
统计推断的信息量: 总体信息,样本信息及先验信息
缺点: 先验信息主观性比较强
二.贝叶斯统计的基本概念
设总体 X 的概率函数为 p(x∣θ)p ( x | \theta )p(x∣θ)( 分布律或密度函数 ) ,
样本: X1,X2,...,Xn,θX_1 , X_2 ,..., X_n ,\ \thetaX1,X2,...,Xn, θ 是未知参数。
1).参数的先验分布: π(θ)\pi (\theta)π(θ)
- θ\thetaθ 是离散型随机变量时:
π(θi)=P(θ=θi)\pi(\theta_i)=P(\theta=\theta_i)π(θi)=P(θ=θi) - θ\thetaθ 是连续型随机变量时:
π(θ)表示参数θ概率密度函数\pi(\theta)表示参数\theta 概率密度函数 π(θ)表示参数θ概率密度函数
2).参数的后验分布:π(θ∣x1,x2,⋯ ,xn)\pi(\theta|x_1,x_2,\cdots, x_n)π(θ∣x1,x2,⋯,xn)
在给定X1=x1,⋯ ,Xn=xnX_1=x_1,\cdots,X_n=x_nX1=x1,⋯,Xn=xn条件下,
θ的条件分布π(θ∣x1,x2,⋯ ,xn)\theta的条件分布\pi(\theta|x_1,x_2,\cdots, x_n)θ的条件分布π(θ∣x1,x2,⋯,xn)
三.后验分布的计算
- 样本的条件分布为:
p(x1,x2,⋯ ,xn∣θ)=∏i=1np(xi∣θ)p(x_1,x_2,\cdots,x_n|\theta)=\prod^n_{i=1}p(x_i|\theta)p(x1,x2,⋯,xn∣θ)=i=1∏np(xi∣θ)
- 样本与参数的联合分布为:
h(x1,x2,⋯ ,xn,θ)=π(θ)p(x1,x2,⋯ ,xn∣θ)h( x_1 , x_2 , \cdots, x_n , \theta ) =\pi ( \theta ) p ( x_1 , x_2 , \cdots, x_n | \theta )h(x1,x2,⋯,xn,θ)=π(θ)p(x1,x2,⋯,xn∣θ)
- 样本边缘分布为:
m(x1,x2,⋯ ,xn)=∫Θh(x1,x2,⋯ ,xn,θ)dθm(x_1,x_2,\cdots,x_n)=\int_\Theta h(x_1,x_2,\cdots,x_n,\theta)d\thetam(x1,x2,⋯,xn)=∫Θh(x1,x2,⋯,xn,θ)dθ
则有后验分布:
1).连续型
π(θ∣x1,x2,⋯ ,xn)=h(x1,x2,⋯ ,xn∣θ)m(x1,x2,⋯ ,xn)=π(θ)p(x1,x2,⋯ ,xn∣θ)∫Θπ(θ)p(x1,x2,⋯ ,xn∣θ)dθ\pi(\theta|x_1,x_2,\cdots,x_n)=\frac{h(x_1,x_2,\cdots,x_n|\theta)}{m(x_1,x_2,\cdots,x_n)} \\ =\frac{\pi(\theta)p(x_1,x_2,\cdots,x_n|\theta)}{\int_\Theta \pi(\theta)p(x_1,x_2,\cdots,x_n|\theta)d\theta}π(θ∣x1,x2,⋯,xn)=m(x1,x2,⋯,xn)h(x1,x2,⋯,xn∣θ)=∫Θπ(θ)p(x1,x2,⋯,xn∣θ)dθπ(θ)p(x1,x2,⋯,xn∣θ)
2).离散型
π(θ∣x1,x2,⋯ ,xn)=π(θk)p(x1,x2,⋯ ,xn∣θk)∑iπ(θi)p(x1,x2,⋯ ,xn∣θi)\pi(\theta|x_1,x_2,\cdots,x_n)=\frac{\pi(\theta_k)p(x_1,x_2,\cdots,x_n|\theta_k)}{\sum_i\pi(\theta_i)p(x_1,x_2,\cdots,x_n|\theta_i)}π(θ∣x1,x2,⋯,xn)=∑iπ(θi)p(x1,x2,⋯,xn∣θi)π(θk)p(x1,x2,⋯,xn∣θk)
四.先验分布函数形式的确定
1.专家意见
2.历史资料
3.相对似然法
4.直方图法
5.定分度法和变分度法
6.样本边缘分布最大似然先验
- 例题1
XXX~e(θ)e(\theta)e(θ) 样本X1,X2,⋯ ,Xn,θX_1,X_2,\cdots,X_n, \thetaX1,X2,⋯,Xn,θ~ e(λ)e(\lambda)e(λ)
解:
π(θ)=λe−λθ\pi (\theta)=\lambda e^{-\lambda \theta}π(θ)=λe−λθ
p(x1,⋯ ,xn∣θ)=θ−ne−θ∑i=1nxip(x_1,\cdots,x_n|\theta)=\theta^{-n}e^{-\theta \sum^n_{i=1}x_i}p(x1,⋯,xn∣θ)=θ−ne−θ∑i=1nxi
p(x1,⋯ ,xn,θ∣λ)=λθne−θ(λ+∑i=1nxi)p(x_1,\cdots,x_n,\theta|\lambda)=\lambda \theta^n e^{-\theta (\lambda+\sum^n_{i=1}x_i)}p(x1,⋯,xn,θ∣λ)=λθne−θ(λ+∑i=1nxi)
p(x1,⋯ ,xn∣λ)=∫p(x1,⋯ ,xn)p(θ)dθ=∫λθnexp(−θ(λ+∑i=1nxi))dθ=λn!(λ+∑i=1nxi)n+1p(x_1,\cdots,x_n|\lambda)=\int p(x_1,\cdots,x_n)p(\theta)d\theta=\int \lambda\theta^n exp(-\theta (\lambda + \sum^n_{i=1}x_i))d\theta \\ =\lambda \frac{n!}{(\lambda+\sum^n_{i=1}x_i)^{n+1}}p(x1,⋯,xn∣λ)=∫p(x1,⋯,xn)p(θ)dθ=∫λθnexp(−θ(λ+i=1∑nxi))dθ=λ(λ+∑i=1nxi)n+1n!
lnp(x1,⋯ ,xn∣λ)=lnλ+lnn!−(n+1)ln(λ+∑i=1nxi)lnp(x_1,\cdots,x_n|\lambda) = ln\lambda+lnn!-(n+1)ln(\lambda+\sum^n_{i=1}x_i)lnp(x1,⋯,xn∣λ)=lnλ+lnn!−(n+1)ln(λ+i=1∑nxi)
令dlnp(x1,⋯ ,xn∣λ)dλ=1λ−(n+11λ+∑i=1nxi)=0令\frac{dlnp(x_1,\cdots,x_n|\lambda)}{d\lambda}=\frac{1}{\lambda}-(n+1\frac{1}{\lambda+\sum^n_{i=1}x_i})=0令dλdlnp(x1,⋯,xn∣λ)=λ1−(n+1λ+∑i=1nxi1)=0
求出极大似然估计 λ^=Xˉ\hat \lambda=\bar Xλ^=Xˉ
五.超参数的确定
若先验分布的形式确定,但分布中含有未知参数(超参数)
1.先验分布具有明确的意义或信息
例子1 θ\thetaθ~N(μ,σ2)N(\mu,\sigma^2)N(μ,σ2)
2.利用边缘分布确定超参数(矩估计和MLE)
已知总体X~P(x|θ\thetaθ) , θ\thetaθ ~ π(θ∣λ)\pi(\theta|\lambda)π(θ∣λ) λ\lambdaλ是超参数
六.无信息先验分布
1.贝叶斯假设
- 离散均匀分布:θ可能取值有限,θ1,⋯ ,θn,P(θ=θi)=1n\theta可能取值有限, \theta_1,\cdots,\theta_n,P(\theta=\theta_i)=\frac{1}{n}θ可能取值有限,θ1,⋯,θn,P(θ=θi)=n1
- 有限区间上的均匀分布:θ\thetaθ~U[a,b]U[a,b]U[a,b]
- 广义先验分布:θ∈(−∞,∞),θ的先验分布满足:\theta \in (-\infty,\infty),\theta的先验分布满足:θ∈(−∞,∞),θ的先验分布满足:
- 1.π(θ)≥0,∫−∞∞π(θ)dθ=∞\pi(\theta)\ge0,\int^\infty_{-\infty}\pi(\theta)d\theta=\inftyπ(θ)≥0,∫−∞∞π(θ)dθ=∞
- 2.π(θ∣x)是正常的密度函数\pi(\theta|x)是正常的密度函数π(θ∣x)是正常的密度函数
. 若π(θ)是广义先验,则cπ(θ)也是广义先验\pi(\theta)是广义先验,则c\pi(\theta)也是广义先验π(θ)是广义先验,则cπ(θ)也是广义先验
π(θ∣x)=h(x,θ)m(x)=p(x∣θ)π(θ)∫p(x∣θ)π(θ)dθ\pi(\theta|x)=\frac{h(x,\theta)}{m(x)}=\frac{p(x|\theta)\pi(\theta)}{\int p(x|\theta)\pi(\theta)d\theta}π(θ∣x)=m(x)h(x,θ)=∫p(x∣θ)π(θ)dθp(x∣θ)π(θ)
∫π(θ∣x)dθ=1\int \pi(\theta|x)d\theta=1∫π(θ∣x)dθ=1
2. 位置参数的无信息先验
<<贝叶斯分析>>P49P_{49}P49
位置参数族:平移变换下的不变性
π(θ)=1\pi(\theta)=1π(θ)=1
例1
例2
3.尺度参数的无信息先验
尺度参数族举例:
- p(x∣σ)=12πσ2e−x22σ2p(x|\sigma)=\frac{1}{\sqrt{2\pi \sigma^2}}e^{-\frac{x^2}{2\sigma^2}}p(x∣σ)=2πσ21e−2σ2x2
- p(x∣β)=1πβ11+(xβ)2p(x|\beta)=\frac{1}{\pi \beta}\frac{1}{1+(\frac{x}{\beta})^2}p(x∣β)=πβ11+(βx)21
- p(x∣λ)=1λexλ,x>0p(x|\lambda)=\frac{1}{\lambda}e^{\frac{x}{\lambda}},x \gt 0p(x∣λ)=λ1eλx,x>0
尺度参数族:尺度变换下的不变性<<贝叶斯分析>>P51P_{51}P51
{f(x,θ)→1θf(xθ),θ∈R+}\{f(x,\theta) \to \frac{1}{\theta}f(\frac{x}{\theta}), \theta \in \Bbb R^+ \}{f(x,θ)→θ1f(θx),θ∈R+}
证 π(σ)=1σ\pi(\sigma)=\frac{1}{\sigma}π(σ)=σ1:
令 Y=cX,(c∈R+)Y=cX,(c \in \Bbb R^+)Y=cX,(c∈R+)
fY(y)=1cθf(ycθ)f_Y(y)=\frac{1}{c\theta}f(\frac{y}{c\theta})fY(y)=cθ1f(cθy)
令 η=cθ\eta = c\thetaη=cθ
fY(y)=1ηf(yη)f_Y(y)=\frac{1}{\eta}f(\frac{y}{\eta})fY(y)=η1f(ηy)
σ的无信息先验与η的无信息先验应当相同.有:\sigma的无信息先验与\eta的无信息先验应当相同.有:σ的无信息先验与η的无信息先验应当相同.有:
(3.1)π(τ)=π∗(τ)\pi(\tau) = \pi^*(\tau)\tag{3.1}π(τ)=π∗(τ)(3.1)
其中π∗(τ)为η\pi^*(\tau)为\etaπ∗(τ)为η的先验分布,另一方面,由变换η=cσ,可知η\eta=c\sigma,可知\etaη=cσ,可知η的无信息先验为:
(3.2)π∗(η)=π(σ)∣σ=ηc⋅∣dσdη∣=1cπ(ηc)\pi^*(\eta)=\pi(\sigma)|_{\sigma=\frac{\eta}{c}}\cdot|\frac{d\sigma}{d\eta}|=\frac{1}{c}\pi(\frac{\eta}{c})\tag{3.2}π∗(η)=π(σ)∣σ=cη⋅∣dηdσ∣=c1π(cη)(3.2)
比较(3.1)和(3.2)得:
π(η)=π∗(η)=1cπ(ηc)\pi(\eta)=\pi^*(\eta)=\frac{1}{c}\pi(\frac{\eta}{c})π(η)=π∗(η)=c1π(cη)
取η=c,有:\eta=c,有:η=c,有:
π(c)=1cπ(1)\pi(c)=\frac{1}{c}\pi(1)π(c)=c1π(1)
为方便计算, 令π(1)=1\pi(1)=1π(1)=1,由c的任意性,可得σ\sigmaσ的无信息先验为:
π(σ)=1σ,(σ>0)\pi(\sigma)=\frac{1}{\sigma},(\sigma \gt 0)π(σ)=σ1,(σ>0)
4.一般情况:Jeffreys无信息先验
π(θ)=∣I(θ)∣1/2\pi(\theta)=|I(\theta)|^{1/2}π(θ)=∣I(θ)∣1/2"| |"表示行列式
七.共轭先验分布
1.共轭先验分布
设F表示θ的先验分布π(θ)构成的分布族,如果取的π∈F,后验分布π(θ∣x)∈F,那么称F是一个共轭先验分布.设\mathscr F表示\theta的先验分布\pi(\theta)构成的分布族,如果取的\pi \in \mathscr F,后验分布\pi(\theta|x)\in \mathscr F,那么称\mathscr F是一个共轭先验分布.设F表示θ的先验分布π(θ)构成的分布族,如果取的π∈F,后验分布π(θ∣x)∈F,那么称F是一个共轭先验分布.(先验分布和后验分布同一个分布族)
- 二项分布,其参数的共轭分布族是贝塔分布.
- 方差已知的正态分布,均值的共轭分布族是正态分布族.
- 泊松分布, 参数的共轭分布族是伽马分布.
2.求共轭先验分布
指数分布,参数的共轭分布族是伽马分布.
-均值已知的正态分布, 方差的共轭分布族是逆伽马分布.
八.多层先验分布
当先验分布中的超参数无法确定时,可以对超参数再给出一个先验
分布,这个给出的第二个先验就是超先验。
设参数 θ\thetaθ 的先验分布是 π1(θ∣λ)\pi_1(\theta|\lambda)π1(θ∣λ) ,其中 λ\lambdaλ 是超参数给出超参数λ\lambdaλ的超先验分布π2(λ)\pi_2(\lambda)π2(λ)则有 θ\thetaθ 和 λ\lambdaλ 的联合分布式是:
π1(θ∣λ)π2(λ)\pi_1(\theta|\lambda)\pi_2(\lambda)π1(θ∣λ)π2(λ)
参数 θ\thetaθ 的先验分布是:
π(θ)=∫π1(θ∣λ)π2(λ)dλ\pi(\theta)=\int \pi_1(\theta| \lambda)\pi_2(\lambda)d\lambdaπ(θ)=∫π1(θ∣λ)π2(λ)dλ
以此类推,可以得到三层以致多层先验.
后验分布与充分性
定义:设总体 X 的分布函数为 F(x,θ)F ( x , \theta )F(x,θ) , 样本: X1,X2,...,XnX_1 , X_2 ,..., X_nX1,X2,...,Xn,统计量 T(X1,X2,...,Xn)T ( X_1 , X_2 ,..., X_n )T(X1,X2,...,Xn). 若给定 T 后, X1,X2,...,XnX_1 , X_2 ,..., X_nX1,X2,...,Xn 的条件分布与参数 θ\thetaθ 无关, 则称统计量 T(X1,X2,...,Xn)T ( X_1 , X_2 ,..., X_n )T(X1,X2,...,Xn) 为 θ\thetaθ 的充分统计量.
因子分解定理:
T=T(x1,x2,⋯ ,xn)T=T(x_1,x_2,\cdots,x_n)T=T(x1,x2,⋯,xn)是一个充分统计量的充要条件是对任一的θ\thetaθ,存在两个函数g(t,θ)g(t,\theta)g(t,θ)和h(x1,x2,⋯ ,xn)h(x_1,x_2,\cdots,x_n)h(x1,x2,⋯,xn),有:
p(x1,x2,⋯ ,xn,θ)=g(T(x1,x2,⋯ ,xn),θ)h(x1,x2,⋯ ,xn)p(x_1,x_2,\cdots,x_n,\theta)=g\left( T(x_1,x_2,\cdots,x_n),\theta \right)h(x_1,x_2,\cdots,x_n)p(x1,x2,⋯,xn,θ)=g(T(x1,x2,⋯,xn),θ)h(x1,x2,⋯,xn)后验分布引理
设 Γ\GammaΓ 是未知参数 θ\thetaθ 的先验分布类 π(θ)∈Γ\pi(\theta) \in \Gammaπ(θ)∈Γ , 若 Γ\GammaΓ 是 θ\thetaθ 的充分统计量,则对 ∀π∈Γ\forall \pi \in \Gamma∀π∈Γ ,有:
π(θ∣x)=π~(θ∣t)\pi(\theta|x)=\tilde \pi(\theta|t)π(θ∣x)=π~(θ∣t)
证明:
设 T 的概率函数为: q(t∣θ)q(t|\theta)q(t∣θ),
由充分统计量的定义: pX∣T(x∣t)=p(x∣θ)q(t∣θ)=C(x)p_{X|T}(x|t)=\frac{p(x|\theta)}{q(t|\theta)}=C(x)pX∣T(x∣t)=q(t∣θ)p(x∣θ)=C(x)
p(x∣θ)=q(t∣θ)C(x)p(x|\theta)=q(t|\theta)C(x)p(x∣θ)=q(t∣θ)C(x)
由因子分解定理有:p(x∣θ)=g(t,θ)h(x),q(t∣θ)∝g(t∣θ)p(x|\theta)=g(t,\theta)h(x), q(t|\theta) \propto g(t|\theta)p(x∣θ)=g(t,θ)h(x),q(t∣θ)∝g(t∣θ)
则
π(θ∣x)=h(x,θ)m(x)=π(θ)p(x∣θ)∫π(θ)p(x∣θ)dθ=π(θ)q(t∣θ)C(x)∫π(θ)q(t∣θ)C(x)dθ=π(θ)q(t∣θ)∫π(θ)q(t∣θ)dθ=π~(θ∣t)\begin{aligned} \pi(\theta|x) & =\frac{h(x,\theta)}{m(x)}\\ & =\frac{\pi(\theta)p(x|\theta)}{\int \pi(\theta)p(x|\theta)d\theta} \\ &=\frac{\pi(\theta)q(t|\theta)C(x)}{\int \pi(\theta)q(t|\theta)C(x)d\theta} \\ & =\frac{\pi(\theta)q(t|\theta)}{\int \pi(\theta)q(t|\theta)d\theta}\\ & =\tilde \pi(\theta|t) \end{aligned} π(θ∣x)=m(x)h(x,θ)=∫π(θ)p(x∣θ)dθπ(θ)p(x∣θ)=∫π(θ)q(t∣θ)C(x)dθπ(θ)q(t∣θ)C(x)=∫π(θ)q(t∣θ)dθπ(θ)q(t∣θ)=π~(θ∣t)
回顾充分统计量
因子分解定理
后验分布引理
设 Γ\GammaΓ 是未知参数 θ\thetaθ 的先验分布类 π(θ)∈Γ\pi(\theta)\in \Gammaπ(θ)∈Γ , 若 T 是 θ\thetaθ的充分统计量,则对 ∀π∈Γ\forall \pi \in \Gamma∀π∈Γ , 有:
π(θ∣x)=π~(θ∣t)\pi(\theta|x)=\tilde \pi(\theta|t)π(θ∣x)=π~(θ∣t)
证明:
设T的概率函数为q(t∣θ)q(t|\theta)q(t∣θ),
由充分统计量 pX∣T(x∣t)=p(x∣θ)q(t∣θ)=C(x)p_{X|T}(x|t)=\frac{p(x|\theta)}{q(t|\theta)}=C(x)pX∣T(x∣t)=q(t∣θ)p(x∣θ)=C(x)
由因子分解定理 p(x∣θ)=g(t∣θ)h(x),q(t∣θ)∝g(t∣θ)p(x|\theta)=g(t|\theta)h(x),q(t|\theta) \propto g(t|\theta)p(x∣θ)=g(t∣θ)h(x),q(t∣θ)∝g(t∣θ)
p(x∣θ)=q(t∣θ)C(x)p(x|\theta)=q(t|\theta)C(x)p(x∣θ)=q(t∣θ)C(x)
π(θ∣x)=h(x,θ)m(x)=π(θ)p(x∣θ)∫π(θ)p(x∣θ)dθ=π(θ)q(t∣θ)C(x)∫π(θ)q(t∣θ)C(x)dθ=π(θ)q(t∣θ)∫π(θ)q(t∣θ)dθ=π~(θ∣t)\begin{aligned} \pi(\theta|x)=\frac{h(x,\theta)}{m(x)} & =\frac{\pi(\theta)p(x|\theta)}{\int \pi(\theta)p(x|\theta)d\theta}\\ & = \frac{\pi(\theta)q(t|\theta)C(x)}{\int \pi(\theta)q(t|\theta)C(x)d\theta} \\ & = \frac{\pi(\theta)q(t|\theta)}{\int \pi (\theta) q(t|\theta )d\theta}\\ & = \tilde \pi(\theta|t) \end{aligned}π(θ∣x)=m(x)h(x,θ)=∫π(θ)p(x∣θ)dθπ(θ)p(x∣θ)=∫π(θ)q(t∣θ)C(x)dθπ(θ)q(t∣θ)C(x)=∫π(θ)q(t∣θ)dθπ(θ)q(t∣θ)=π~(θ∣t)
Reference先验
KL散度定义:
设两个概率分布P(x),q(x),KL距离(散度)为,
KL(p(x),q(x))=∫ln(p(x)q(x))p(x)dx=Ep(ln(p(x)q(x)))KL(p(x),q(x))=\int ln(\frac{p(x)}{q(x)})p(x)dx=E_p(ln(\frac{p(x)}{q(x)}))KL(p(x),q(x))=∫ln(q(x)p(x))p(x)dx=Ep(ln(q(x)p(x)))
即连续型随机变量相对熵.
显然:
- 1).KL(p(x),q(x))!=KL(q(x),p(x))KL(p(x),q(x)) \ != KL(q(x),p(x))KL(p(x),q(x)) !=KL(q(x),p(x))
- 2).KL(p(x),q(x))≥0KL(p(x),q(x))\ge 0KL(p(x),q(x))≥0
Ep(−lnp(x)q(x))=Ep(lnq(x)p(x))≤lnEp(q(x)p(x))E_p(-ln\frac{p(x)}{q(x)})=E_p(ln\frac{q(x)}{p(x)}) \le lnE_p(\frac{q(x)}{p(x)})Ep(−lnq(x)p(x))=Ep(lnp(x)q(x))≤lnEp(p(x)q(x))
lnEp(q(x)p(x))=ln∫(q(x)p(x))p(x)dx=0lnE_p(\frac{q(x)}{p(x)})=ln\int(\frac{q(x)}{p(x)})p(x)dx=0lnEp(p(x)q(x))=ln∫(p(x)q(x))p(x)dx=0
Reference先验
设Iπ(θ)(θ,x)=∫Xp(x)[∫Θπ(θ∣x)lnπ(θ∣x)π(θ)dθ]dx=EX(KL(π(θ,x),π(θ)))\begin{aligned} I_{\pi(\theta)}(\theta,x) & =\int_Xp(x)[\int_\Theta\pi(\theta|x)ln\frac{\pi(\theta|x)}{\pi(\theta)}d\theta]dx \\ & = E_X(KL(\pi(\theta,x),\pi(\theta))) \end{aligned}Iπ(θ)(θ,x)=∫Xp(x)[∫Θπ(θ∣x)lnπ(θ)π(θ∣x)dθ]dx=EX(KL(π(θ,x),π(θ)))
其中p(x)为样本X的边缘分布.若π∗(θ)\pi^*(\theta)π∗(θ)满足:
Iπ∗(θ)(θ,x)=maxπ(θ){Iπ(θ)(θ,x)}I_{\pi^*(\theta)}(\theta,x)=\max_{\pi(\theta)} \{ I_{\pi(\theta)}(\theta,x) \}Iπ∗(θ)(θ,x)=π(θ)max{Iπ(θ)(θ,x)}
则称π∗(θ)=argmaxπ(θ){Iπ(θ)(θ,x)}为参数θ的Reference先验\pi^*(\theta)=arg\max_{\pi(\theta)}\{ I_{\pi(\theta)}(\theta,x) \}为参数\theta的Reference先验π∗(θ)=argmaxπ(θ){Iπ(θ)(θ,x)}为参数θ的Reference先验
积分换序:
Iπ(θ)(θ,x)=∫Θ[∫Xp(x)π(θ∣x)lnπ(θ∣x)π(θ)dx]dθ=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)−ln(π(θ)))dx]dθ=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)dx−∫Xp(x∣θ)ln(π(θ))dx]dθ\begin{aligned} I_{\pi(\theta)}(\theta,x) &=\int_\Theta[\int_Xp(x)\pi(\theta|x)ln\frac{\pi(\theta|x)}{\pi(\theta)}dx]d\theta \\ &=\int_\Theta \pi(\theta)[\int_X p(x|\theta)(ln\pi(\theta|x)-ln(\pi(\theta)))dx]d\theta \\ & = \int_\Theta \pi(\theta)[\int_X p(x|\theta)(ln\pi(\theta|x)dx-\int _X p(x|\theta)ln(\pi(\theta))dx]d\theta \end{aligned} Iπ(θ)(θ,x)=∫Θ[∫Xp(x)π(θ∣x)lnπ(θ)π(θ∣x)dx]dθ=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)−ln(π(θ)))dx]dθ=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)dx−∫Xp(x∣θ)ln(π(θ))dx]dθ
Iπ(θ)(θ,x)=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)dx⎵−∫Xp(x∣θ)ln(π(θ))dx]dθI_{\pi(\theta)}(\theta,x) = \int_\Theta \pi(\theta)[\underbrace{\int_X p(x|\theta)(ln\pi(\theta|x)dx}-\int _X p(x|\theta)ln(\pi(\theta))dx]d\thetaIπ(θ)(θ,x)=∫Θπ(θ)[∫Xp(x∣θ)(lnπ(θ∣x)dx−∫Xp(x∣θ)ln(π(θ))dx]dθ
令lnfn(θ)=∫Xp(x∣θ)lnπ(θ∣x)dxlnf_n(\theta)=\int_X p(x|\theta)ln\pi(\theta|x)dxlnfn(θ)=∫Xp(x∣θ)lnπ(θ∣x)dx
则Iπ(θ)(θ,x)=∫Θπ(θ)lnfn(θ)π(θ)dθI_{\pi(\theta)}(\theta,x)=\int_\Theta \pi(\theta)ln\frac{f_n(\theta)}{\pi(\theta)}d\thetaIπ(θ)(θ,x)=∫Θπ(θ)lnπ(θ)fn(θ)dθ
π∗(θ)=limn→∞fn(θ)fn(θ0)\pi^*(\theta)=\lim_{n\to \infty}\frac{f_n(\theta)}{f_n(\theta_0)}π∗(θ)=n→∞limfn(θ0)fn(θ)
其中θ0\theta_0θ0是参数空间Θ\ThetaΘ的一个内点.
参考<<贝叶斯分析P65>>
Reference先验计算
二维参数为例子:分布族 p(x∣θ,λ)p(x|\theta,\lambda)p(x∣θ,λ) ,样本为X1,X2,⋯ ,XnX_1,X_2,\cdots,X_nX1,X2,⋯,Xn
参数信息阵:
I(θ,λ)=[I11(θ,λ)I12(θ,λ)I21(θ,λ)I22(θ,λ)]I(\theta,\lambda)=\begin{bmatrix} I_{11}(\theta,\lambda) \ \ I_{12}(\theta,\lambda) \\ I_{21}(\theta, \lambda) \ \ I_{22}(\theta, \lambda) \end{bmatrix} I(θ,λ)=[I11(θ,λ) I12(θ,λ)I21(θ,λ) I22(θ,λ)]
- 1).固定θ\thetaθ,获得先验分布:π(λ∣θ)=I221/2(θ,λ)\pi(\lambda|\theta) = I^{1/2}_{22}(\theta,\lambda)π(λ∣θ)=I221/2(θ,λ)
- 2).如果π(λ∣θ)是正常先验分布,直接消参数\pi(\lambda|\theta)是正常先验分布,直接消参数π(λ∣θ)是正常先验分布,直接消参数:
p(x∣θ)∫Xp(x∣θ,λ)π(λ∣θ)dλp(x|\theta)\int_X p(x|\theta,\lambda)\pi(\lambda|\theta)d\lambdap(x∣θ)∫Xp(x∣θ,λ)π(λ∣θ)dλ - 3).根据p(x∣θ),确定θ的先验分布π(θ)p(x|\theta),确定\theta的先验分布\pi(\theta)p(x∣θ),确定θ的先验分布π(θ)
- 4).获得联合先验分布:
π(θ,λ)=π(θ)π(λ∣θ)\pi(\theta,\lambda)=\pi(\theta)\pi(\lambda|\theta)π(θ,λ)=π(θ)π(λ∣θ)
如果π(λ∣θ)是非正常先验分布集\pi(\lambda|\theta)是非正常先验分布集π(λ∣θ)是非正常先验分布集: - (1.划分出λ的逼近闭参数空间\lambda的逼近闭参数空间λ的逼近闭参数空间
Θ1⊂Θ2⊂⋯⊂Θk⋯ ,∪kΘk=Θ\Theta_1 \subset \Theta_2 \subset \cdots \subset \Theta_k \cdots, \cup_k \Theta_k = \ThetaΘ1⊂Θ2⊂⋯⊂Θk⋯,∪kΘk=Θ - (2.在Θ上,确定πk(λ∣θ)是正常先验分布,πk(λ∣θ)=Ak(θ)π(λ∣θ),Ak(θ)=1∫Θkπ(λ∣θ)dλ\Theta上,确定\pi_k(\lambda|\theta)是正常先验分布,\pi_k(\lambda|\theta)=A_k(\theta)\pi(\lambda|\theta),A_k(\theta)=\frac{1}{\int_{\Theta_k}\pi(\lambda|\theta)d\lambda}Θ上,确定πk(λ∣θ)是正常先验分布,πk(λ∣θ)=Ak(θ)π(λ∣θ),Ak(θ)=∫Θkπ(λ∣θ)dλ1按照前面步骤二,确定πk(θ)\pi_k(\theta)πk(θ)
πk(θ)=exp{12∫Θkπk(λ∣θ)ln∣I(λ,θ)∣∣I22(λ,θ)∣dλ}\pi_k(\theta)=exp\{ \frac{1}{2} \int_{\Theta_k} \pi_k(\lambda|\theta) ln\frac{|I(\lambda,\theta)|}{|I_{22}(\lambda,\theta)|} d\lambda\}πk(θ)=exp{21∫Θkπk(λ∣θ)ln∣I22(λ,θ)∣∣I(λ,θ)∣dλ} - (3. π(θ,λ)=limk→∞Ak(θ)πk(θ)Ak(θ0)πk(θ0)π(θ∣λ)\pi(\theta,\lambda)=lim_{k \to \infty}\frac{A_k(\theta)\pi_k(\theta)}{A_k(\theta_0)\pi_k(\theta_0)}\pi(\theta|\lambda)π(θ,λ)=limk→∞Ak(θ0)πk(θ0)Ak(θ)πk(θ)π(θ∣λ)
如果参数维数多于二维 ,类似二维多次循环进行
π(θ1,θ2,⋯ ,θk)=π(θ1)π(θ2∣θ1)π(θk∣θ1,θ2,⋯ ,θk−1)\pi(\theta_1,\theta_2,\cdots,\theta_k)=\pi(\theta_1)\pi(\theta_2|\theta_1)\pi(\theta_k|\theta_1,\theta_2,\cdots,\theta_{k-1})π(θ1,θ2,⋯,θk)=π(θ1)π(θ2∣θ1)π(θk∣θ1,θ2,⋯,θk−1)
最大熵先验
定义1: 设θ\thetaθ为离散型随机变量 , 分布律为:p(θ=θi)=pi,i=1,2,⋯p(\theta=\theta_i)=p_i,i=1,2,\cdotsp(θ=θi)=pi,i=1,2,⋯
则称 E(p)=−∑ipilnpiE(p)=-\sum_ip_ilnp_iE(p)=−∑ipilnpi
为随机变量的熵函数.
H(x,y)=H(x)+H(y)H(x,y)=H(x)+H(y)H(x,y)=H(x)+H(y)
P(x,y)=P(x)P(y)P(x,y) = P(x)P(y)P(x,y)=P(x)P(y)
H(x)=−lnp(x)H(x)=-lnp(x)H(x)=−lnp(x)
- 1).p→0或p→1是,有−plnp→0p\to 0或p\to1是,有-plnp \to 0p→0或p→1是,有−plnp→0
- 2).∑i=1npi=1时,当p1=p2=⋯=pn有−∑i=1npilnpi最大.\sum^n_{i=1}p_i=1时,当p_1=p_2=\cdots=p_n有-\sum^n_{i=1}p_ilnp_i最大.∑i=1npi=1时,当p1=p2=⋯=pn有−∑i=1npilnpi最大.
连续性:
E(π)=−∫π(θ)lnπ(θ)π0(θ)dθE(\pi)=-\int \pi(\theta)ln\frac{\pi(\theta)}{\pi_0(\theta)}d\thetaE(π)=−∫π(θ)lnπ0(θ)π(θ)dθ
π0(θ)是不变的无信息先验\pi_0(\theta)是不变的无信息先验π0(θ)是不变的无信息先验
定理1(离散型):
设θ为离散型随机变量,θi,i=1,2,⋯ ,满足条件:设\theta为离散型随机变量, \theta_i,i=1,2,\cdots,满足条件:设θ为离散型随机变量,θi,i=1,2,⋯,满足条件:
Eπ(gk(θ))=∑igk(θi)π(θi)=μk,k=1,2,⋯ ,mE^\pi(g_k(\theta))=\sum_ig_k(\theta_i)\pi(\theta_i)=\mu_k,k=1,2,\cdots,mEπ(gk(θ))=i∑gk(θi)π(θi)=μk,k=1,2,⋯,m
其中gk(⋅),μk(k=1,⋯ ,m)分别表示已知的函数和已知的常数.同时还有隐藏条件∑iπ(θi)=1.其中g_k(\cdot),\mu_k(k=1,\cdots,m)分别表示已知的函数和已知的常数.同时还有隐藏条件\sum_i \pi(\theta_i)=1.其中gk(⋅),μk(k=1,⋯,m)分别表示已知的函数和已知的常数.同时还有隐藏条件∑iπ(θi)=1.
则满足条件的最大熵先验为:
πˉ(θi)=exp{∑k=1mλkgk(θi)}∑iexp{∑k=1mλkgk(θi)}\bar \pi(\theta_i)=\frac{exp\{ \sum^m_{k=1} \lambda_kg_k(\theta_i) \}}{\sum_iexp\{ \sum^m_{k=1} \lambda_k g_k(\theta_i) \}}πˉ(θi)=∑iexp{∑k=1mλkgk(θi)}exp{∑k=1mλkgk(θi)}
其中λk是保证πˉ(θ)满足约束条件的常数.其中\lambda_k是保证\bar \pi(\theta)满足约束条件的常数.其中λk是保证πˉ(θ)满足约束条件的常数.
定理2(连续型):
设θ为连续型随机变量,θi,i=1,2,⋯ ,满足条件:设\theta为连续型随机变量, \theta_i,i=1,2,\cdots,满足条件:设θ为连续型随机变量,θi,i=1,2,⋯,满足条件:
Eπ(gk(θ))=∫igk(θ)π(θ)dθ=μk,k=1,2,⋯ ,mE^\pi(g_k(\theta))=\int_i g_k(\theta)\pi(\theta)d\theta=\mu_k,k=1,2,\cdots,mEπ(gk(θ))=∫igk(θ)π(θ)dθ=μk,k=1,2,⋯,m
其中gk(⋅),μk(k=1,⋯ ,m)分别表示已知的函数和已知的常数.同时还有隐藏条件∑iπ(θi)=1.其中g_k(\cdot),\mu_k(k=1,\cdots,m)分别表示已知的函数和已知的常数.同时还有隐藏条件\sum_i \pi(\theta_i)=1.其中gk(⋅),μk(k=1,⋯,m)分别表示已知的函数和已知的常数.同时还有隐藏条件∑iπ(θi)=1.
则满足条件的最大熵先验为:
πˉ(θi)=π0(θ)exp{∑k=1mλkgk(θ)}∫Θπ0(θ)exp{∑k=1mλkgk(θ)}dθ\bar \pi(\theta_i)=\frac{\pi_0(\theta) exp\{ \sum^m_{k=1} \lambda_kg_k(\theta) \}}{\int_{\Theta} \pi_0(\theta)exp\{ \sum^m_{k=1} \lambda_k g_k(\theta) \}d\theta}πˉ(θi)=∫Θπ0(θ)exp{∑k=1mλkgk(θ)}dθπ0(θ)exp{∑k=1mλkgk(θ)}
其中λk是保证πˉ(θ)满足约束条件的常数.其中\lambda_k是保证\bar \pi(\theta)满足约束条件的常数.其中λk是保证πˉ(θ)满足约束条件的常数.
第三章:贝叶斯统计推断
点估计
已知总体X参数的后验分布:π(θ∣x1,⋯ ,xn)\pi(\theta|x_1,\cdots,x_n)π(θ∣x1,⋯,xn)
1).最大后验估计:
也称后验众数估计,后验极大似然估计:
π(θ∣x1,x2,⋯ ,xn)\pi(\theta|x_1,x_2,\cdots,x_n)π(θ∣x1,x2,⋯,xn)
最大值点θ^MD\hat \theta_{MD}θ^MD.
即,将后验分布求其似然函数的最大值(MLE).
2).后验中位数估计:θ^ME\hat \theta_{ME}θ^ME
P(θ>θ^∣x1,x2,⋯ ,xn)=P(θ<θ^∣x1,x2,⋯ ,xn)P(\theta > \hat \theta|x_1,x_2,\cdots,x_n)=P(\theta<\hat \theta|x_1,x_2,\cdots,x_n)P(θ>θ^∣x1,x2,⋯,xn)=P(θ<θ^∣x1,x2,⋯,xn)
3).后验期望估计:
θ^=E(θ∣x1,x2,⋯ ,xn)=θ^E\hat \theta=E(\theta|x_1,x_2,\cdots,x_n)=\hat \theta_Eθ^=E(θ∣x1,x2,⋯,xn)=θ^E
点估计的误差估计
- 后验分布:π(θ∣x1,⋯ ,xn).贝叶斯估计:θ^=δ(x1,⋯ ,xn)\pi(\theta|x_1,\cdots,x_n).贝叶斯估计:\hat \theta =\delta(x_1,\cdots,x_n)π(θ∣x1,⋯,xn).贝叶斯估计:θ^=δ(x1,⋯,xn)
- 后验均方误差:
PMSE(δ(x))=Eθ∣x(θ−δ(x1,x2,⋯ ,xn))2PMSE(\delta(x))=E_{\theta|x}(\theta-\delta(x_1,x_2,\cdots,x_n))^2PMSE(δ(x))=Eθ∣x(θ−δ(x1,x2,⋯,xn))2
该值越小越好
当θ^=θ^E,即θ^=Eθ∣x(θ)当\hat \theta=\hat \theta_E,即\hat \theta=E_{\theta|x}(\theta)当θ^=θ^E,即θ^=Eθ∣x(θ)
PMSE(θ^E)=Eθ∣x(θ−θ^E)2=Dθ∣x(θ)=V(x)PMSE(\hat \theta_E)=E_{\theta|x}{(\theta-\hat \theta_E)}^2=D_{\theta|x}(\theta)=V(x)PMSE(θ^E)=Eθ∣x(θ−θ^E)2=Dθ∣x(θ)=V(x)
后验均值估计使得后验均方误差达到最小.
区间估计
已知θ的后验分布π(θ∣x),对于给定的样本x和x和概率1−α,若存在两个统计量θ^1(x),θ^2(x),有已知 \theta 的后验分布 \pi ( \theta | x ), 对于给定的样本x和x 和概率 1-\alpha,若存在两个统计量\hat \theta_1( x ), \hat \theta_2 ( x ) ,有已知θ的后验分布π(θ∣x),对于给定的样本x和x和概率1−α,若存在两个统计量θ^1(x),θ^2(x),有
P(θ^1(x))≤θ≤θ^2(x)∣x)≥1−αP(\hat \theta_1(x)) \le \theta \le \hat \theta_2(x)|x) \ge 1-\alphaP(θ^1(x))≤θ≤θ^2(x)∣x)≥1−α
则称置信水平为1-\alpah的可信区间: [θ^1(x),θ^2(x)],[\hat \theta_1(x), \hat \theta_2(x)],[θ^1(x),θ^2(x)],
若P(θ^L(x)≤θ∣x)≥1−αP(\hat\theta_L(x)\le\theta|x)\ge1-\alphaP(θ^L(x)≤θ∣x)≥1−α:
则称置信下限为:θ^L(x)\hat\theta_L(x)θ^L(x)
若P(θ≤θ^U(x)∣x)≥1−αP(\theta\le\hat\theta_U(x)|x)\ge 1-\alphaP(θ≤θ^U(x)∣x)≥1−α
则称可信上仙为:θ^U(x)\hat\theta_U(x)θ^U(x)
最大后验密度可信区间(HPD)
1.定义(最大后验密度可信集):
X~f(x∣θ)f(x|\theta)f(x∣θ),样本:X1,X2,⋯ ,Xn,θ的后验分布π(θ∣x),给定概率1−α,(0<α<1),集合C满足如下条件:X_1,X_2,\cdots,X_n,\theta的后验分布\pi(\theta|x),给定概率1-\alpha,(0<\alpha<1),集合C满足如下条件:X1,X2,⋯,Xn,θ的后验分布π(θ∣x),给定概率1−α,(0<α<1),集合C满足如下条件:
- P(θ∈C)=1−αP(\theta\in C)=1-\alphaP(θ∈C)=1−α
- 对任意的θ1∈C,θ2∉C,总有π(θ1∣x)>π(θ2∣x)则称C为θ的置信水平为1−α最大后验密度可信集.对任意的\theta_1\in C,\theta_2 \notin C,总有\pi(\theta_1|x)>\pi(\theta_2|x)则称C为\theta的置信水平为1-\alpha最大后验密度可信集.对任意的θ1∈C,θ2∈/C,总有π(θ1∣x)>π(θ2∣x)则称C为θ的置信水平为1−α最大后验密度可信集.
2.大样本方法
X~f(x∣θ),样本:X1,X2,⋯ ,Xn,θ的后验分布πn(θ∣x),μπ(x)=E(θ∣x),Vπ(x),当n比较大时,近似的有:f(x|\theta),样本:X_1,X_2,\cdots,X_n,\theta的后验分布\pi_n(\theta|x),\mu^\pi(x)=E(\theta|x),V^\pi(x),当n比较大时,近似的有:f(x∣θ),样本:X1,X2,⋯,Xn,θ的后验分布πn(θ∣x),μπ(x)=E(θ∣x),Vπ(x),当n比较大时,近似的有:
- 1).θ−μπ(x)\theta-\mu^\pi(x)θ−μπ(x)~N(0,Vπ(x))N(0,V^\pi(x))N(0,Vπ(x))
→(θ−μπ(x))T(Vπ(x))−1(θ−μπ(x))\to (\theta-\mu^\pi(x))^T(V^\pi(x))^{-1}(\theta-\mu^\pi(x))→(θ−μπ(x))T(Vπ(x))−1(θ−μπ(x))~χ2(p)\chi^2(p)χ2(p) - 2).θ→{θ∣(θ−μπ(x))T(Vπ(x))−1(θ−μπ(x))≤χα2(p)}\theta \to \{ \theta|(\theta-\mu^\pi(x))^T(V^\pi(x))^{-1}(\theta-\mu^\pi(x)) \le \chi^2_\alpha(p) \}θ→{θ∣(θ−μπ(x))T(Vπ(x))−1(θ−μπ(x))≤χα2(p)}
预测推断
1.问题提出
1).X~ f(x∣θ),样本:X1,X2,⋯ ,Xn,f(x|\theta),样本:X_1,X_2,\cdots,X_n,f(x∣θ),样本:X1,X2,⋯,Xn,Z~g(z∣θ),g(z|\theta),g(z∣θ),推断未观察值Z0Z_0Z0
Z ~ g(z∣θ)g(z|\theta)g(z∣θ)~g(z∣θ,x)g(z|\theta,x)g(z∣θ,x)2).XXX~f(x∣θ),样本:X1,X2,⋯ ,Xn,推断未观测值X0f(x|\theta), 样本:X_1,X_2,\cdots,X_n,推断未观测值X_0f(x∣θ),样本:X1,X2,⋯,Xn,推断未观测值X0
2.定义
设X~f(x∣θ),样本:X1,X2,⋯ ,Xn,θ的先验分布π(θ),θ的后验分布π(θ∣x),Zf(x|\theta), 样本:X_1,X_2,\cdots,X_n, \theta的先验分布\pi(\theta),\theta的后验分布\pi(\theta|x),Zf(x∣θ),样本:X1,X2,⋯,Xn,θ的先验分布π(θ),θ的后验分布π(θ∣x),Z ~ g(z∣θ),定义Z0的后验预测密度为g(z|\theta),定义Z_0的后验预测密度为g(z∣θ),定义Z0的后验预测密度为:
P(z0∣x1,⋯ ,xn)=∫g(z0∣θ)π(θ∣x1,⋯ ,xn)dθP(z_0|x_1,\cdots,x_n)=\int g(z_0|\theta)\pi(\theta|x_1,\cdots,x_n)d\thetaP(z0∣x1,⋯,xn)=∫g(z0∣θ)π(θ∣x1,⋯,xn)dθ
特例情况
P(x0∣x1,⋯ ,xn)=∫f(x0∣θ)π(θ∣x1,⋯ ,xn)dθP(x_0|x_1,\cdots,x_n)=\int f(x_0|\theta)\pi(\theta|x_1,\cdots,x_n)d\thetaP(x0∣x1,⋯,xn)=∫f(x0∣θ)π(θ∣x1,⋯,xn)dθ
Z0的预报区间[a,b]满足:Z_0的预报区间[a,b]满足:Z0的预报区间[a,b]满足:
P(a≤z0≤b∣x1,⋯ ,xn)=∫abp(z0∣x1,⋯ ,xn)dz0=1−αP(a\le z_0\le b|x_1,\cdots,x_n)=\int^b_a p(z_0|x_1,\cdots,x_n)dz_0=1-\alphaP(a≤z0≤b∣x1,⋯,xn)=∫abp(z0∣x1,⋯,xn)dz0=1−α
x0的预测区间[a,b]满足:x_0的预测区间[a,b]满足:x0的预测区间[a,b]满足:
P(a≤x0≤b∣x1,⋯ ,xn)=∫abp(x0∣x1,⋯ ,xn)dz0=1−αP(a\le x_0\le b|x_1,\cdots,x_n)=\int^b_a p(x_0|x_1,\cdots,x_n)dz_0=1-\alphaP(a≤x0≤b∣x1,⋯,xn)=∫abp(x0∣x1,⋯,xn)dz0=1−α
假设检验:
H0:θ∈Θ0vsH1:θ∈Θ1H_0:\theta \in \Theta_0\ \ vs\ \ H_1:\theta\in \Theta_1H0:θ∈Θ0 vs H1:θ∈Θ1
计算后验概率:P(θ∈Θ0∣x1,⋯ ,xn),P(θ∈Θ1∣x1,⋯ ,xn)P(\theta \in \Theta_0|x_1,\cdots,x_n),\ P(\theta\in \Theta_1|x_1,\cdots,x_n)P(θ∈Θ0∣x1,⋯,xn), P(θ∈Θ1∣x1,⋯,xn)
若P(θ∈Θ0∣x1,⋯ ,xn)>P(θ∈Θ1∣x1,⋯ ,xn),接受H0P(\theta \in \Theta_0|x_1,\cdots,x_n) \gt P(\theta \in \Theta_1| x_1,\cdots,x_n),接受H_0P(θ∈Θ0∣x1,⋯,xn)>P(θ∈Θ1∣x1,⋯,xn),接受H0
Hi:θ∈Θi(i=1,2,⋯ ,k)H_i:\theta \in \Theta_i(i=1,2,\cdots,k)Hi:θ∈Θi(i=1,2,⋯,k)
αi=P(θ∈Θi∣x),若αl最大,则接受Hl\alpha_i=P(\theta \in \Theta_i|x),若\alpha_l最大,则接受H_lαi=P(θ∈Θi∣x),若αl最大,则接受Hl
贝叶斯因子
设两个假设Θ0和Θ1的先验概率分别为π0和π1,后验概率分别为α0和α1,比率π0π1称为H0对H1先验机会比,α0α1称为H0对H1后验机会比,且称设两个假设\Theta_0和\Theta_1的先验概率分别为\pi_0和\pi_1,后验概率分别为\alpha_0和\alpha_1,比率\frac{\pi_0}{\pi_1}称为H_0对H_1先验机会比,\frac{\alpha_0}{\alpha_1}称为H_0对H_1后验机会比,且称设两个假设Θ0和Θ1的先验概率分别为π0和π1,后验概率分别为α0和α1,比率π1π0称为H0对H1先验机会比,α1α0称为H0对H1后验机会比,且称
Bπ(x)=α0α1π0π1=α0π1α1π0=α0/π0α1/π1B^\pi(x)=\frac{\frac{\alpha_0}{\alpha_1}}{\frac{\pi_0}{\pi_1}}=\frac{\alpha_0\pi_1}{\alpha_1\pi_0}=\frac{\alpha_0/\pi_0}{\alpha_1/\pi_1}Bπ(x)=π1π0α1α0=α1π0α0π1=α1/π1α0/π0
为支持H0H_0H0的贝叶斯因子.
贝叶斯因子Bπ(x)反应数据x支持H0的程度.Bπ(x)取值越大,对H0的支持程度越高.贝叶斯因子B^\pi(x)反应数据x支持H_0的程度.B^\pi(x)取值越大,对H_0的支持程度越高.贝叶斯因子Bπ(x)反应数据x支持H0的程度.Bπ(x)取值越大,对H0的支持程度越高.
拒绝域:α0α1<1\frac{\alpha_0}{\alpha_1}<1α1α0<1等价于:
Bπ(x)<π1π0  ⟺  1Bπ(x)>π0π1B^\pi(x)<\frac{\pi_1}{\pi_0} \iff \frac{1}{B^\pi(x)}>\frac{\pi_0}{\pi_1}Bπ(x)<π0π1⟺Bπ(x)1>π1π0
简单vs简单检验
H0:Θ0=θ0vsH1:Θ1=θ1H_0:\Theta_0={\theta_0}\ \ vs \ \ H_1:\Theta_1=\theta_1H0:Θ0=θ0 vs H1:Θ1=θ1
α0=P(θ∈Θ0∣x)=P(θ0,x)m(x)=π0P(x∣θ0)π0P(x∣θ0)+π1P(x∣θ1)\alpha_0=P(\theta \in \Theta_0|x)=\frac{P(\theta_0,x)}{m(x)}=\frac{\pi_0P(x|\theta_0)}{\pi_0P(x|\theta_0)+\pi_1P(x|\theta_1)}α0=P(θ∈Θ0∣x)=m(x)P(θ0,x)=π0P(x∣θ0)+π1P(x∣θ1)π0P(x∣θ0)
α1=P(θ∈Θ1∣x)=π1P(x∣θ1)π0P(x∣θ0)+π1P(x∣θ1)\alpha_1=P(\theta \in \Theta_1| x)=\frac{\pi_1P(x|\theta_1)}{\pi_0P(x|\theta_0)+\pi_1P(x|\theta_1)}α1=P(θ∈Θ1∣x)=π0P(x∣θ0)+π1P(x∣θ1)π1P(x∣θ1)
α0α1=π0P(x∣θ0)π1P(x∣θ1)\frac{\alpha_0}{\alpha_1}=\frac{\pi_0P(x|\theta_0)}{\pi_1P(x|\theta_1)}α1α0=π1P(x∣θ1)π0P(x∣θ0)
  ⟹  Bπ(x)=α0/α1π0/π1=P(x∣θ0)P(x∣θ1)\implies B^\pi(x)=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}=\frac{P(x|\theta_0)}{P(x|\theta_1)}⟹Bπ(x)=π0/π1α0/α1=P(x∣θ1)P(x∣θ0)
拒绝域:α0α1<1\frac{\alpha_0}{\alpha_1}<1α1α0<1等价于:
P(x∣θ0)P(x∣θ1)>π1π0\frac{P(x|\theta_0)}{P(x|\theta_1)}>\frac{\pi_1}{\pi_0}P(x∣θ1)P(x∣θ0)>π0π1
例题:
复杂-复杂检验
H0:Θ0(非空复合集)vsH1:Θ1=Θ0−Θ1(非空复合集)H_0:\Theta_0(非空复合集) \ \ vs \ \ H_1:\Theta_1=\Theta_0-\Theta_1(非空复合集) H0:Θ0(非空复合集) vs H1:Θ1=Θ0−Θ1(非空复合集)
α0=P(θ∈Θ0∣x)=P(Θ0,x)m(x)=∫Θ0π(θ)P(x∣θ)dθ∫Θ0π(θ)P(x∣θ)dθ+∫Θ1π(θ)P(x∣θ)dθ\alpha_0=P(\theta \in \Theta_0|x)=\frac{P(\Theta_0,x)}{m(x)}=\frac{\int_{\Theta_0} \pi(\theta)P(x|\theta)d\theta}{\int_{\Theta_0} \pi(\theta) P(x|\theta)d\theta+\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta}α0=P(θ∈Θ0∣x)=m(x)P(Θ0,x)=∫Θ0π(θ)P(x∣θ)dθ+∫Θ1π(θ)P(x∣θ)dθ∫Θ0π(θ)P(x∣θ)dθ
α1=P(θ∈Θ0∣x)=P(Θ1,x)m(x)=∫Θ1π(θ)P(x∣θ)dθ∫Θ0π(θ)P(x∣θ)dθ+∫Θ1π(θ)P(x∣θ)dθ\alpha_1=P(\theta \in \Theta_0|x)=\frac{P(\Theta_1,x)}{m(x)}=\frac{\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta}{\int_{\Theta_0} \pi(\theta) P(x|\theta)d\theta+\int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta}α1=P(θ∈Θ0∣x)=m(x)P(Θ1,x)=∫Θ0π(θ)P(x∣θ)dθ+∫Θ1π(θ)P(x∣θ)dθ∫Θ1π(θ)P(x∣θ)dθ
则α0α1=∫Θ0π(θ)P(x∣θ)dθ∫Θ1π(θ)P(x∣θ)dθ则\frac{\alpha_0}{\alpha_1}=\frac{ \int_{\Theta_0} \pi(\theta)P(x|\theta)d\theta }{ \int_{\Theta_1} \pi(\theta)P(x|\theta)d\theta }则α1α0=∫Θ1π(θ)P(x∣θ)dθ∫Θ0π(θ)P(x∣θ)dθ
令π0=∫Θ0π(θ)dθ,π1=∫Θ1π(θ)dθ令\pi_0 = \int_{\Theta_0} \pi(\theta)d\theta,\ \pi_1=\int_{\Theta_1}\pi(\theta)d\theta令π0=∫Θ0π(θ)dθ, π1=∫Θ1π(θ)dθ
Bπ(x)=α0/α1π0/π1=∫Θ0π(θ)π0P(x∣θ)dθ∫Θ1π(θ)π1P(x∣θ)dθ=m0(x)m1(x)B^\pi(x)=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}=\frac{ \int_{\Theta_0} \frac{\pi(\theta)}{\pi_0}P(x|\theta)d\theta }{ \int_{\Theta_1} \frac{\pi(\theta)}{\pi_1}P(x|\theta)d\theta }=\frac{m_0(x)}{m_1(x)}Bπ(x)=π0/π1α0/α1=∫Θ1π1π(θ)P(x∣θ)dθ∫Θ0π0π(θ)P(x∣θ)dθ=m1(x)m0(x)
拒绝域:α0α1<1\frac{\alpha_0}{\alpha_1}<1α1α0<1等价于:
m0(x)m1(x)>π1π0\frac{m_0(x)}{m_1(x)}>\frac{\pi_1}{\pi_0}m1(x)m0(x)>π0π1
例题:
简单-复杂检验
第四章:贝叶斯统计决策
一.概念
1.样本空间和样本分布族
随机变量X取值于样本空间R,分布族为p(x∣θ),θ∈Θ随机变量 X 取值于样本空间 \Bbb R ,分布族为 { p( x | \theta ), \theta \in \Theta }随机变量X取值于样本空间R,分布族为p(x∣θ),θ∈Θ
2.决策空间: 统计决策问题可能采取的行动构成的非空集合.
定义在样本空间,取值于决策空间中函数δ(x)称为决策函数定义在样本空间,取值 于决策空间中函数 \delta (x ) 称为决策函数定义在样本空间,取值于决策空间中函数δ(x)称为决策函数
3.损失函数
定义在Θ×R的非负可测函数,记L(θ,δ(x))定义在 \Theta \times \Bbb R 的非负可测函数,记L( \theta , \delta ( x ))定义在Θ×R的非负可测函数,记L(θ,δ(x))
4.统计决策三要素
随机变量X的分布族为p(x∣θ),决策空间Θ和损失函数L(θ,δ(x)).随机变量 X 的分布族为 p ( x | \theta ) , 决策空间 \Theta 和损失函数L(\theta,\delta(x)).随机变量X的分布族为p(x∣θ),决策空间Θ和损失函数L(θ,δ(x)).
5.风险函数
设 δ(x)\delta (x )δ(x) 是一个决策函数,平均
损失:
R(θ,δ)=EX∣θ[L(θ,δ(x))]=∫L(θ,δ(x))p(x∣θ)dxR(\theta,\delta)=E_{X|\theta}[L(\theta,\delta(x))]=\int L(\theta,\delta(x))p(x|\theta)dxR(θ,δ)=EX∣θ[L(θ,δ(x))]=∫L(θ,δ(x))p(x∣θ)dx
为δ(x)\delta(x)δ(x)的风险函数.
对每一个θ的平均损失,θ的函数对每一个 \theta 的平均损失, \theta 的函数对每一个θ的平均损失,θ的函数
风险函数就是损失函数关于p(x∣θ)p(x|\theta)p(x∣θ)的期望
.
.
决策函数就类似于机器学习中的y^\hat yy^
设δ(x)是任意一个决策函数,如果存在一个决策函数δ∗(x),满足:设\delta(x)是任意一个决策函数,如果存在一个决策函数\delta^*(x),满足:设δ(x)是任意一个决策函数,如果存在一个决策函数δ∗(x),满足:
R(θ,δ∗)≤R(θ,δ)R(\theta,\delta^*) \le R(\theta,\delta)R(θ,δ∗)≤R(θ,δ)
则称δ∗(x)\delta^*(x)δ∗(x)为一致最优决策函数
6.贝叶斯风险
设R(θ,δ)为风险函数,π(θ)为θ的先验分布,则称:设R(\theta,\delta)为风险函数,\pi(\theta)为\theta的先验分布,则称:设R(θ,δ)为风险函数,π(θ)为θ的先验分布,则称:
Rπ(δ)=Eθ[R(θ,δ)]=∫R(θ,δ)π(θ)dδR_\pi( \delta )=E_\theta[R(\theta,\delta)]=\int R(\theta,\delta) \pi(\theta)d\deltaRπ(δ)=Eθ[R(θ,δ)]=∫R(θ,δ)π(θ)dδ
为σ(x)\sigma(x)σ(x)的贝叶斯风险.
如果δ(x)是任意一个决策函数,如果存在一个决策函数δ∗(x),满足:如果 \delta( x ) 是任意一个决策函数,如果存在一个决策函数\delta^* ( x ), 满足:如果δ(x)是任意一个决策函数,如果存在一个决策函数δ∗(x),满足:
Rπ(δ∗)≤Rπ(δ)R_\pi(\delta^*) \le R_\pi(\delta)Rπ(δ∗)≤Rπ(δ)
则称δ∗(x)为统计决策的贝叶斯解.则称\delta^*(x)为统计决策的贝叶斯解.则称δ∗(x)为统计决策的贝叶斯解.
统计决策的贝叶斯解就是贝叶斯风险的一致最有决策函数
7.后验风险
设L(θ,δ(x))为损失函数,π(θ∣x)为θ的后验分布,则称:设L(\theta,\delta(x))为损失函数,\pi(\theta|x)为\theta的后验分布,则称:设L(θ,δ(x))为损失函数,π(θ∣x)为θ的后验分布,则称:
R(δ(x)∣x)=Eθ∣x[L(θ,δ(x))]=∫L(θ,δ(x))π(θ∣x)dθR(\delta(x)|x)=E_{\theta|x}[L(\theta,\delta(x))]=\int L(\theta,\delta(x))\pi(\theta|x)d\thetaR(δ(x)∣x)=Eθ∣x[L(θ,δ(x))]=∫L(θ,δ(x))π(θ∣x)dθ
为决策函数δ(x)\delta(x)δ(x)的贝叶斯后验风险.
在某个样本下,损失函数LLL关于后验分布π(θ∣x)\pi(\theta|x)π(θ∣x)的期望(对θ\thetaθ求积分)
如果存在一个决策函数δ∗(x),对任意的决策函数δ(x),满足:如果存在一个决策函数\delta^* ( x ), 对任意的决策函数 \delta ( x ) ,满足:如果存在一个决策函数δ∗(x),对任意的决策函数δ(x),满足:
R(δ∗(x)∣x)=minR(δ(x)∣x)R(\delta^*(x)|x)=minR(\delta(x)|x)R(δ∗(x)∣x)=minR(δ(x)∣x)
则称δ∗(x)\delta^*(x)δ∗(x)为后验风险最小原则下最优贝叶斯决策函数.
8.贝叶斯先验风险
设π(θ)为先验分布,称:\pi(\theta)为先验分布,称:π(θ)为先验分布,称:
R(π,δ(x))=Eθ[L(θ,δ(x))]=∫L(θ,δ(x))π(θ)dθR(\pi,\delta(x))=E_\theta[L(\theta,\delta(x))]=\int L(\theta,\delta(x))\pi(\theta)d\thetaR(π,δ(x))=Eθ[L(θ,δ(x))]=∫L(θ,δ(x))π(θ)dθ
为δ(x)对θ的贝叶斯期望风险为\delta(x)对\theta的贝叶斯期望风险为δ(x)对θ的贝叶斯期望风险
EX(R(δ(x)∣x))=∫R(δ(x)∣x)m(x)dx=∫m(x)dx∫L(θ,δ(x))π(θ∣x)dθ=∫dx∫L(θ,δ(x))p(x,θ)dθ=∫dx∫L(θ,δ(x))π(θ)p(x∣θ)dθ=∫π(θ)dθ∫L(θ,δ(x))p(x∣θ)dx=∫R(θ,δ)π(θ)dθ=Eθ[R(θ,δ)]=Rπ(δ)=∫∫L(θ,δ(x))p(x,θ)dxdθ‾\begin{aligned} E_X(R(\delta(x)|x)) &=\int R(\delta(x)|x)m(x)dx\\ &=\int m(x)dx\int L(\theta,\delta(x))\pi(\theta|x)d\theta\\ &=\int dx \int L(\theta,\delta(x))p(x,\theta)d\theta\\ &=\int dx \int L(\theta,\delta(x))\pi(\theta)p(x|\theta)d\theta\\ &=\int \pi(\theta)d\theta \int L(\theta,\delta(x))p(x|\theta)dx\\ &=\int R(\theta,\delta)\pi(\theta)d\theta\\ &=E_\theta[R(\theta,\delta)]\\ &=R_\pi(\delta)\\ &=\underline{\int \int L(\theta,\delta(x))p(x,\theta)dxd\theta} \end{aligned} EX(R(δ(x)∣x))=∫R(δ(x)∣x)m(x)dx=∫m(x)dx∫L(θ,δ(x))π(θ∣x)dθ=∫dx∫L(θ,δ(x))p(x,θ)dθ=∫dx∫L(θ,δ(x))π(θ)p(x∣θ)dθ=∫π(θ)dθ∫L(θ,δ(x))p(x∣θ)dx=∫R(θ,δ)π(θ)dθ=Eθ[R(θ,δ)]=Rπ(δ)=∫∫L(θ,δ(x))p(x,θ)dxdθ
二.基本原理
1.后验风险最小原则:
1).平方损失下的贝叶斯估计
2).加权平方损失下的贝叶斯估计
3.在绝对值损失下的贝叶斯估计
4.在线性损失下的贝叶斯估计
三.最小最大准则
定理一:
定理二
四.区间估计的决策
五.假设检验的决策
第五章:贝叶斯计算方法
一.E-M算法
例1
例2.
二.后验分布的相和性
后验分布的渐近正态性
第六章:贝叶斯大样本方法
第七章:贝叶斯模型选择
一 正常先验下的贝叶斯因子
二 非正常先验下的贝叶斯因子
三 贝叶斯模型评价
第八章:经验贝叶斯
贝叶斯分析-学习笔记(超干的干货)相关推荐
- STM32学习笔记(超详细)
查看全文 http://www.taodudu.cc/news/show-6770803.html 相关文章: STM32单片机学习笔记(超详细整理143个问题,学习必看) vsb asc_vsb电力 ...
- 吴恩达推荐深度学习笔记+超详细思维导图!不做学术打工人!
关于人工智能的分支-深度学习版块的资源有很多,但是都会较为分散.小编今天对这些资源进行了整理归纳,汇编了一套学习资源(包含书籍+电子书+百篇论文+思维导图+吴恩达深度学习笔记大全+计算机视觉学术汇总) ...
- 吴恩达深度学习笔记-超参数调试、Batch正则化(第6课)
超参数调试 一.调试处理 二.为超参数选择合适的范围 三.超参数训练的实践:Pandas VS Caviar 四.正则化网络的激活函数 五.将Batch Norm拟合进神经网络 六.Batch Nor ...
- 【数据可视化】Matplotlib 入门到精通学习笔记(超详细)
数据可视化是什么 如果将文本数据与图表数据相比较,人类的思维模式更适合于理解后者,原因在于图表数据更加直观且形象化,它对于人类视觉的冲击更强,这种使用图表来表示数据的方法被叫做数据可视化. 当使用图表 ...
- JavaScript 学习笔记 超详细(b站pink老师)
权威网站: MDN JavaScript权威网站: https://developer.mozilla.org/zh-CN/docs/Web/JavaScript 目录 一.JavaScript基础 ...
- JSF学习笔记超详细,从入门到精通,持续更新中~
JSF笔记 1.JSF概述 JavaServer Faces (JSF) 是一种用于构建Java Web 应用程序的标准框架(是Java Community Process 规定的JSR-127标准) ...
- mysql 8.0.26学习笔记超详细入门到精通
目录 1.基本的SELECT语句 1.1 查询表中特定字段 1.2 字段取别名 1.3 数据去重 1.4 数据空值替换 1.5 显示表的结构 1.6 条件查询where 2.算术运算符 3.比较运算符 ...
- Unity学习笔记--超简单:两个游戏对象直接用线连接(UI和世界坐标下均可)
目录 UI用 效果图 UI代码示例 挂载示例 世界坐标用 挂载示例 效果图 世界坐标代码示例 我们分两种情况,一种是UI上连线,一种是世界坐标下连线. UI用 效果图 UI代码示例 public cl ...
- STM32学习笔记---超详细整理144个问题
1.AHB系统总线分为APB1(36MHz)和APB2(72MHz),其中2>1,意思是APB2接高速设备: 2.Stm32f10x.h相当于reg52.h(里面有基本的位操作定义),另一个为s ...
最新文章
- QT5.3 + vs2012 + box2d环境配置
- php 中continue break exit return 的区别
- lvs增加并发连接,解决因为哈希表过小导致软中断过高问题
- 前端跨域通信的几种方式
- SNI: 实现多域名虚拟主机的SSL/TLS认证
- 前端学习(1928)vue之电商管理系统电商系统之美化一层循环的UI结构for循环ui美化
- s5pv210——按键
- m1 MBA配置python及Numpy科学计算环境
- 机器学习 Machine Learning中正则化的学习笔记~
- java编译程序文件为_编译Java源程序文件后将产生相应的可执行字节码文件,这些文件的扩展名为( )。...
- Mac壁纸软件 - 动态 高清 炫酷 4K 精美壁纸下载
- 为什么要制定项目计划?
- 新概念二册 Lesson 13 The Greenwood Boys绿林少年 (将来进行时)
- 链塔短评合集| XAS、ARDR为BB级,LSK为B级
- 从底特律的覆灭,反思“珠三角”未来
- 质量与效能 | 11月29日TF84
- 解析xml的几种方法,他们的原理,比较 以及JAVA源码
- kafka启动报错:kafka.common.InconsistentClusterIdException: The Cluster ID KtS-r0FATSudTYqgf-7Ifw doesn‘t
- GEE 提取长系列NDVI像元值
- ubtuntu安装java
热门文章
- Windows: Ctrl,Alt, Shift等快捷键的含义
- Chat-REC、InstructRec(LLM大模型用于推荐系统)
- Juniper Junos设置3层接口
- 獨立屋裝修/村屋裝修
- 如何做好工程项目进度管控
- java 使用Apache PDFBox 对 PDF 文件进行剪裁
- 如何给Mac挑选外接显示器?苹果外接显示器选购指南
- 在国内如何使用gmail_如何在Gmail中召回电子邮件
- Linux 开机提示kernel panic...解决方法
- 索尼开发新传感器为激光雷达提供助力,用于自动驾驶和其他应用