PRML Chapter 02 Probability Distributions


本章的内容,主要是对概率论中概率分布的概念进行的扩展,介绍了常见的概率分布。概率分布的一个重要作用是通过仅有的几个参数对模型进行控制,进而完成对数据的描述。本章主要介绍的内容有,二项分布、多项分布、高斯分布、指数族、非参数方法的概念和定义,而如高斯分布的推导、Robbins-Monro算法的原理将另起新篇进行讲述。

  • PRML Chapter 02 Probability Distributions

    • A. Binary Varibles

      • a. Bernoulli Distribution
      • b. Binary Distribution
      • c. Beta Distribution
    • B. Multinomial Varibles
      • a. Generalization of the Bernoulli Distribution
      • b. Multinomial Distribution
      • c. Dirichlet Distribution
    • C. The Gaussian Distribution
      • a. Gaussian Distribution
      • b. Conditional Gaussian distributions
      • c. Marginal Gaussian distributions
      • d. Maximum likelihood for the Gaussian
      • e. Sequential estimation
      • f. Bayesian Inference for the Gaussian
      • g. Student’s t-distribution
      • h. Periodic variables
      • i. Mixtures of Gaussians
    • D. The Exponential Family
      • a. Maximum likehood and sufficient statistics
      • b. Conjugate priors
      • c. Noninformation priors
    • E. Nonparametric Methods
      • a. Histogram density models
      • b. Kernel density estimation
      • c. Nearest-neighbor methods
    • Code

A. Binary Varibles


a. Bernoulli Distribution

形如x∈{0,1}x∈{0,1}x \in \{0, 1\}的二元单变量是很常见的,伯努利分布(Bernoulli Distribution)的主要功能便是描述二元随机变量的分布情况,其具体形式如下,

Bern(x|μ)=μx(1−μ)1−x(2.1)(2.1)Bern(x|μ)=μx(1−μ)1−x

Bern(x| \mu) = \mu^x(1-\mu)^{1-x}\tag{2.1}

该分布的均值和方差分别为,

E[x]=μvar[x]=μ(1−μ)(2.2)(2.3)(2.2)E[x]=μ(2.3)var[x]=μ(1−μ)

\begin{gather} E[x] = \mu \tag{2.2}\\ var[x] = \mu(1-\mu) \tag{2.3} \end{gather}

仍然以掷硬币为例,随机变量x∈{0,1}x∈{0,1}x \in \{0, 1\}表示掷硬币的结果,1表示正面,0表示反面,其中μμ\mu表示正面的概率,1−μ1−μ1-\mu表示方面的概率,则伯努利分布对掷硬币结果的描述为,

p(x=1|μ)=u1(1−μ)0=μp(x=0|μ)=u0(1−μ)1=1−μ(2.4)(2.5)(2.4)p(x=1|μ)=u1(1−μ)0=μ(2.5)p(x=0|μ)=u0(1−μ)1=1−μ

\begin{gather} p(x = 1 | \mu) = u^1(1-\mu)^0 = \mu \tag{2.4} \\ p(x = 0 | \mu) = u^0(1-\mu)^1 = 1- \mu \tag{2.5} \end{gather}

从式(2.4)和式(2.5)可以看出,伯努利分布完美的描述了二元随机变量在一次随机试验中的分布情况。

b. Binary Distribution

伯努利分布描述的是二元随机变量在一次随机试验中的分布情况,二项分布(Binary Distribution)则对其进行了相应的扩展,即能够描述二元随机变量在多次随机试验中的分布情况,其具体形式如下,

Bin(m|N,μ)=CmNμm(1−μ)N−m(2.6)(2.6)Bin(m|N,μ)=CNmμm(1−μ)N−m

Bin(m | N, \mu) = C_N^m \mu^m(1-\mu)^{N-m} \tag{2.6}

其中,排列CmNCNmC_N^m 表示排列数,

CmN≡N!(N−m)!m!(2.7)(2.7)CNm≡N!(N−m)!m!

C_N^m \equiv \frac{N!}{(N-m)!m!} \tag{2.7}

二项分布的均值和方差为,

E[m]≡∑m=0NmBin(m|N,μ)=Nμvar[m]≡∑m=0N(m−E[m])2Bin(m|N,μ)=Nμ(1−μ)(2.8)(2.9)(2.8)E[m]≡∑m=0NmBin(m|N,μ)=Nμ(2.9)var[m]≡∑m=0N(m−E[m])2Bin(m|N,μ)=Nμ(1−μ)

\begin{gather} E[m] \equiv \sum_{m=0}^N mBin(m|N,\mu) = N\mu \tag{2.8} \\ var[m] \equiv \sum_{m=0}^N (m-E[m])^2Bin(m|N,\mu) = N\mu(1-\mu) \tag{2.9} \end{gather}

c. Beta Distribution

在介绍Beta分布(Beta Distribution)前,我们首先要了解共轭分布(Conjugate Distribution)的概念,考虑贝叶斯公式有如下形式,

posterior=likelihood∗priorevidence(2.10)(2.10)posterior=likelihood∗priorevidence

posterior = \frac{likelihood*prior}{evidence} \tag{2.10}

  • 共轭分布(Conjugate Distribution):如果先验分布和似然函数确定的后验分布与该先验分布属于同一类型的分布,则称先验分布为似然函数的共轭分布,也称为共轭先验。

了解了共轭分布的定义,显然可以知道,其主要目的是为了方便计算,即对于某一似然函数,通过其共轭先验得到的后验分布仍然可以作为新的先验分布,以这样的方式,可以简化运算过程。

这里介绍的Beta分布,即是二项分布的共轭分布,其具体形式如下,

Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1(2.11)(2.11)Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1

Beta(\mu | a,b) = \frac{\Gamma (a+b)}{\Gamma(a) \Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}\tag{2.11}

其中Γ(x)Γ(x)\Gamma(x)为Gamma函数,定义为,

Γ(x)≡∫∞0μx−1e−μdμ(2.12)(2.12)Γ(x)≡∫0∞μx−1e−μdμ

\Gamma(x) \equiv \int_0^{\infty} \mu^{x-1}e^{-\mu} d\mu \tag{2.12}

Gamma函数常用的性质有,

Γ(x+1)=xΓ(x)Γ(x+1)=x!Γ(1)=1(2.13)(2.14)(2.15)(2.13)Γ(x+1)=xΓ(x)(2.14)Γ(x+1)=x!(2.15)Γ(1)=1

\begin{gather} \Gamma(x + 1) = x\Gamma(x) \tag{2.13} \\ \Gamma(x + 1) = x! \tag{2.14} \\ \Gamma(1) = 1 \tag{2.15} \end{gather}

其均值和方差分别为,

E[μ]=aa+bvar[μ]=ab(a+b)2(a+b+1)(2.16)(2.17)(2.16)E[μ]=aa+b(2.17)var[μ]=ab(a+b)2(a+b+1)

\begin{gather} E[\mu] = \frac{a}{a+b} \tag{2.16} \\ var[\mu] = \frac{ab}{(a+b)^2(a+b+1)} \tag{2.17} \end{gather}

考虑Beta分布作为似然分布,二项分布作为先验分布利用贝叶斯公式推导后验分布,

posterior∝likelihood∗prior=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1∗CmNμm(1−μ)l∝μm+a−1(1−μ)l+b−1(2.18)(2.18)posterior∝likelihood∗prior=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1∗CNmμm(1−μ)l∝μm+a−1(1−μ)l+b−1

\begin{aligned} posterior &\propto likelihood * prior\\ & = \frac{\Gamma (a+b)}{\Gamma(a) \Gamma(b)}\mu^{a-1}(1-\mu)^{b-1} * C_N^m\mu^m(1-\mu)^l\\ & \propto \mu^{m+a-1}(1-\mu)^{l+b-1} \end{aligned}\tag{2.18}

由推导(2.18)可以看到,后验分布仍然正比于μm+a−1(1−μ)l+b−1μm+a−1(1−μ)l+b−1\mu^{m+a-1}(1-\mu)^{l+b-1},与先验的二项分布具有相同的形式,因此二项分布是Beta分布的共轭先验。

B. Multinomial Varibles


a. Generalization of the Bernoulli Distribution

伯努利分布由于仅能描述二元随机变量的分布情况,因此在实际应用中具有较大的局限性。因此,引入伯努利分布的多元随机变量扩展。首先通过一个例子来直观的感受这种扩展,假设KKK元随机变量中K=6" role="presentation" style="position: relative;">K=6K=6K=6,我们可以采取类似于二进制的方式表示每一个事件,例如当表示x3x3x_3时,有如下形式,

x=(0,0,1,0,0,0)T(2.19)(2.19)x=(0,0,1,0,0,0)T

\textbf{x} = (0, 0, 1, 0, 0, 0)^T \tag{2.19}

类似地,表示第kkk个事件发生时,向量 x" role="presentation" style="position: relative;">xx\textbf{x}的第kkk个元素为1,其他元素为0。通过采用以上的例子,进行相应的扩展,可以得到多元随机变量的伯努利分布分布形式如下,

(2.20)p(x|μ)=∏k=1Kμkxk" role="presentation" style="position: relative;">p(x|μ)=∏k=1Kμxkk(2.20)(2.20)p(x|μ)=∏k=1Kμkxk

p(\textbf{x}| \mathbf{ \mu }) = \prod_{k=1}^K \mu_k^{x_k} \tag{2.20}

其中,对于KKK元随机变量,μk" role="presentation" style="position: relative;">μkμk\mu_k表示该随机变量取第kkk个值时的概率,xk" role="presentation" style="position: relative;">xkxkx^k表示向量xx\textbf{x}中的第kkk个元素。由式(2.20)可以推导出多元随机变量x" role="presentation" style="position: relative;">xx\textbf{x}的均值为,

E[x|μ]=∑xp(x|μ)=(μ1,...,μM)T=μ(2.21)(2.21)E[x|μ]=∑xp(x|μ)=(μ1,...,μM)T=μ

E[\textbf{x}| \mathbf{ \mu }] = \sum_{\textbf{x}}p(\textbf{x}| \mathbf{ \mu })=(\mu_1, ..., \mu_M)^T=\mathbf{\mu} \tag{2.21}

b. Multinomial Distribution

与二项分布类似,多项式分布亦是对多元变量单次试验扩展到多次试验的描述,对于N次多元随机变量的随机试验,其形式如下,

Mult(m1,m2,...,mK|μ,N)=Cm1m2..mKN∏k=1Kμmkk(2.22)(2.22)Mult(m1,m2,...,mK|μ,N)=CNm1m2..mK∏k=1Kμkmk

Mult(m_1,m_2,...,m_K|\mu, N) = C_N^{m_1m_2..m_K}\prod_{k=1}^K \mu_k^{m_k}\tag{2.22}

其中mimim_i表示第iii个事件发生的次数,满足∑k=1Kmk=1" role="presentation" style="position: relative;">∑Kk=1mk=1∑k=1Kmk=1\sum_{k=1}^K m_k = 1,Cm1m2..mKNCNm1m2..mKC_N^{m_1m_2..m_K}定义为,

Cm1m2..mKN≡N!m1!m2!...mK!(2.23)(2.23)CNm1m2..mK≡N!m1!m2!...mK!

C_N^{m_1m_2..m_K} \equiv \frac{N!}{m_1!m_2!...m_K!} \tag{2.23}

c. Dirichlet Distribution

狄利克雷分布(Dirichlet Distribution)常常以多项式分布的共轭先验分布的形式出现,其定义为

Dir(μ|α)=Γ(α0)Γ(α1)...Γ(αK)∏k=1Kμαk−1k(2.24)(2.24)Dir(μ|α)=Γ(α0)Γ(α1)...Γ(αK)∏k=1Kμkαk−1

Dir(\mathbf{\mu}|\mathbf{\alpha}) = \frac{\Gamma{(\alpha_0)}}{\Gamma{(\alpha_1)...\Gamma(\alpha_K)}}\prod_{k=1}^K \mu_k^{\alpha_k - 1} \tag{2.24}

其中,α0α0\alpha_0被定义为,

α0=∑k=1Kαk(2.25)(2.25)α0=∑k=1Kαk

\alpha_0 = \sum_{k=1}^K \alpha_k \tag{2.25}

考虑贝叶斯公式(2.10),将狄利克雷分布作为先验分布,而将多项式分布作为似然函数,可以得到如下推导,

p(μ|,α)∝p(|μ)p(μ|α)∝∏k=1Kμαk+nk−1k(2.26)(2.26)p(μ|D,α)∝p(D|μ)p(μ|α)∝∏k=1Kμkαk+nk−1

\begin{aligned} p(\mathbf{\mu}|\mathbf{\mathcal{D}},\mathbf{\alpha}) &\propto p(\mathbf{\mathcal{D}}|\mathbf{\mu})p(\mathbf{\mu}|\mathbf{\alpha}) \\ & \propto \prod_{k=1}^K \mu_k^{\alpha_k + n_k -1} \end{aligned}\tag{2.26}

显然有狄利克雷分布是多项式分布的共轭先验。

C. The Gaussian Distribution


高斯分布(Gaussian Distribution)又称作正态分布(Normal Distribution),是一种生活中常见的分布,例如,国人的身高、体重,学生的成绩等等都大致服从高斯分布两头少中间多的概念,高斯分布在机器学习领域的一个重要作用便是其普适的数据描述能力,因此,对高斯分布的研究是很有必要的。

a. Gaussian Distribution

对于单变量xxx,高斯分布定义如式(2.27)所示,其中μ" role="presentation" style="position: relative;">μμ\mu表示分布的平均值,σ2σ2\sigma^2表示分布方差,

(x|μ,σ2)=1(2πσ2)12exp{−12σ2(x−μ)2}(2.27)(2.27)N(x|μ,σ2)=1(2πσ2)12exp{−12σ2(x−μ)2}

\mathcal{N}(x|\mu, \sigma^2)=\frac{1}{(2\pi \sigma^2)^{\frac{1}{2}}}exp\big{\{} -\frac{1}{2\sigma^2(x-\mu)^2} \big{\}} \tag{2.27}

对于D维向量xx\textbf{x},高斯分布定义如式(2.28)所示,其中μμ\mathbf{\mu}是D维均值向量,ΣΣ\Sigma是一个D * D维的方差矩阵,

(x|μ,Σ)=1(2π)D21|Σ|12exp{−12(x−μ)TΣ−1(x−μ)}(2.28)(2.28)N(x|μ,Σ)=1(2π)D21|Σ|12exp{−12(x−μ)TΣ−1(x−μ)}

\mathcal{N}(\mathbf{x}|\mathbf{\mu},\Sigma)=\frac{1}{(2\pi)^{\frac{D}{2}}}\frac{1}{|\Sigma|^{\frac{1}{2}}}exp\big{\{} -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^T\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}){\}} \tag{2.28}

  • 性质:对于一个一元实值变量,使熵取得最大值的是高斯分布,这个性质对于多元高斯分布也成立。
  • 局限一:考虑到多元高斯分布的参数,发现对于一个通常的对称协方差矩阵ΣΣ\Sigma有D(D+1)2D(D+1)2\frac{D(D+1)}{2}个独立参数,μμ\mathbf{\mu}中有DDD个参数,因此使用高斯分布描述模型时,需要训练D(D+3)2" role="presentation" style="position: relative;">D(D+3)2D(D+3)2\frac{D(D+3)}{2}个参数,并且随着维度的增大平方倍增加,因此在计算和应用中有着较大的局限性。一种解决办法是通过限制协方差矩阵ΣΣ\Sigma的的形式,但这也极大的限制了高斯分布描述数据相关性的能力;
  • 局限二:可以很显然的发现高斯分布本质上只拥有一个最大值,因此其不能够很好的拟合多峰分布、多概率分布。一种常用且有效的方法是采用混合高斯分布。

b. Conditional Gaussian distributions

假设xx\textbf{x}是一个服从高斯分布的DDD维向量,为了讨论条件高斯分布(Conditional Gaussian distributions),将x" role="presentation" style="position: relative;">xx\textbf{x}分成两个独立的子集,

x=(xaxb)(2.29)(2.29)x=(xaxb)

\textbf{x} = \dbinom{\textbf{x}_a}{\textbf{x}_b} \tag{2.29}

这两个子集对应的期望为,

μ=(μaμb)(2.30)(2.30)μ=(μaμb)

\mathbf{\mu} = \dbinom{\mathbf{\mu}_a}{\mathbf{\mu}_b} \tag{2.30}

相应的方差可以表示为,

Σ=(ΣaaΣbaΣabΣbb)(2.31)(2.31)Σ=(ΣaaΣabΣbaΣbb)

\Sigma = \begin{pmatrix}\Sigma_{aa} & \Sigma_{ab} \\\Sigma_{ba} & \Sigma_{bb} \end{pmatrix}\tag{2.31}

经推导,条件高斯分布p(xa|xb)p(xa|xb)p(\textbf{x}_a|\textbf{x}_b)的期望和方差分别为,

μa|b=μa+ΣabΣ−1bb(xb−μb)Σa|b=Σaa−ΣabΣ−1bbΣba(2.32)(2.33)(2.32)μa|b=μa+ΣabΣbb−1(xb−μb)(2.33)Σa|b=Σaa−ΣabΣbb−1Σba

\begin{gather} \mathbf{\mu}_{a|b} = \mathbf{\mu}_a + \Sigma_{ab}\Sigma_{bb}^{-1}(\textbf{x}_b-\mathbf{\mu}_b) \tag{2.32}\\ \Sigma_{a|b} = \Sigma_{aa} - \Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba} \tag{2.33} \end{gather}

c. Marginal Gaussian distributions

边缘高斯分布(Marginal Gaussian distributions)与边缘分布的基础定义类似,都是通过条件分布进行推导,在这里使用式(2.32)、(2.33)得到的条件高斯分布进行推导,以p(xa)p(xa)p(\textbf{x}_a)为例,边缘高斯分布的期望和方差为,

E[xa]=μacov[xa]=Σaa(2.34)(2.35)(2.34)E[xa]=μa(2.35)cov[xa]=Σaa

\begin{gather} E[\textbf{x}_a] = \mathbf{\mu}_a \tag{2.34} \\ cov[\textbf{x}_a] = \Sigma_{aa} \tag{2.35} \end{gather}

d. Maximum likelihood for the Gaussian

给定数据集X=(x1,...,xN)TX=(x1,...,xN)T\textbf{X}=(\textbf{x}_1,...,\textbf{x}_N)^T,假设观测值都是独立地从高斯分布中产生,为了估计高斯分布函数中的参数,可以采用最大似然估计,其对数似然函数的定义如下所示,

lnp(X|μ,Σ)=−ND2ln(2π)−N2ln|Σ|−12∑n=1N(xn−μ)TΣ−1(xn−μ)(2.36)(2.36)lnp(X|μ,Σ)=−ND2ln(2π)−N2ln|Σ|−12∑n=1N(xn−μ)TΣ−1(xn−μ)

lnp(\textbf{X}|\mathbf{\mu},\Sigma) = -\frac{ND}{2}ln(2\pi)-\frac{N}{2}ln|\Sigma|-\frac{1}{2}\sum_{n=1}^N(\textbf{x}_n-\mathbf{\mu})^T\Sigma^{-1}(\textbf{x}_n-\mathbf{\mu}) \tag{2.36}
通过式(2.36)分别对 μμ\mathbf{\mu}、 ΣΣ\Sigma求偏导可得期望和方差的估计值为,

μML=1N∑n=1NxnΣML=1N∑n=1N(xn−μML)(xn−μML)T(2.37)(2.38)(2.37)μML=1N∑n=1Nxn(2.38)ΣML=1N∑n=1N(xn−μML)(xn−μML)T

\begin{gather} \mathbf{\mu}_{ML} = \frac{1}{N}\sum_{n=1}^N \textbf{x}_n \tag{2.37} \\ \Sigma_{ML} = \frac{1}{N}\sum_{n=1}^N(\textbf{x}_n-\mathbf{\mu}_{ML})(\textbf{x}_n-\mathbf{\mu}_{ML})^T \tag{2.38} \end{gather}

因为最大似然估计对于概率分布的方差存在低估的现象,因此方差的无偏估计经推导得,

Σ̃=1N−1∑n=1N(xn−μML)(xn−μML)T(2.39)(2.39)Σ~=1N−1∑n=1N(xn−μML)(xn−μML)T

\tilde{\Sigma} = \frac{1}{N-1}\sum_{n=1}^N(\textbf{x}_n-\mathbf{\mu}_{ML})(\textbf{x}_n-\mathbf{\mu}_{ML})^T \tag{2.39}

e. Sequential estimation

顺序估计要解决的主要是在线应用的及时性问题,即可以每次只处理一个数据,根据当前的数据更新参数的估计值。对于高斯分布的最大似然均值,可以有如下递推式,

μML=1N∑n=1Nxn=1NxN+1N∑n=1N−1xn=1NxN+N−1Nμ(N−1)ML=μ(N−1)ML+1N(xN−μ(N−1)ML)(2.40)(2.40)μML=1N∑n=1Nxn=1NxN+1N∑n=1N−1xn=1NxN+N−1NμML(N−1)=μML(N−1)+1N(xN−μML(N−1))

\begin{aligned} \mathbf{\mu}_{ML} &= \frac{1}{N}\sum_{n=1}^N \textbf{x}_n \\ &= \frac{1}{N}\textbf{x}_N + \frac{1}{N}\sum_{n=1}^{N-1}\textbf{x}_n \\ &= \frac{1}{N}\textbf{x}_N + \frac{N-1}{N}\mathbf{\mu}_{ML}^{(N-1)} \\ &= \mathbf{\mu}_{ML}^{(N-1)}+\frac{1}{N}(\textbf{x}_N-\mathbf{\mu}_{ML}^{(N-1)}) \end{aligned}\tag{2.40}
通过式(2.40)的递推式,可以在只给一个数据的情况下更新均值的任务,但显而易见的,随着 NNN的增加,后续数据点的贡献会逐渐变小,为了避免这一问题,一般采取更加普适的Robbins-Monro算法。

Robbins-Monro算法:对于随机变量θ" role="presentation" style="position: relative;">θθ\theta、 zzz,其由联合概率分布p(z,θ)" role="presentation" style="position: relative;">p(z,θ)p(z,θ)p(z,\theta)控制,定义在已知 θθ\theta、 zzz的情况下,条件期望定义为f(θ)" role="presentation" style="position: relative;">f(θ)f(θ)f(\theta),

f(θ)≡E[z|θ]=∫zp(z|θ)dz(2.41)(2.41)f(θ)≡E[z|θ]=∫zp(z|θ)dz

f(\theta) \equiv E[z|\theta] = \int zp(z|\theta)dz \tag{2.41}

我们的目标是要找到θ∗θ∗\theta^*使得f(θ∗)=0f(θ∗)=0f(\theta^*)=0,着就可以引出Robbins-Monro算法的顺序估计式,

θ(N)=θ(N−1)−αN−1z(θ(N−1))(2.42)(2.42)θ(N)=θ(N−1)−αN−1z(θ(N−1))

\theta^{(N)}=\theta^{(N-1)}-\alpha_{N-1}z(\theta^{(N-1)}) \tag{2.42}

其中,z(θ(N−1))z(θ(N−1))z(\theta^{(N-1)})是当θθ\theta的取值为θ(N)θ(N)\theta^{(N)}时zzz的观测值,系数αN" role="presentation" style="position: relative;">αNαN\alpha_N满足,

⎧⎩⎨⎪⎪limN→∞αN=0∑∞N=1αN=∞∑∞N=1α2N<∞(2.43)(2.43){limN→∞αN=0∑N=1∞αN=∞∑N=1∞αN2<∞

\begin{cases} \lim_{N \to \infty} \alpha_N = 0 \\ \sum_{N=1}^{\infty} \alpha_N = \infty \\ \sum_{N=1}^{\infty} \alpha_N^2

f. Bayesian Inference for the Gaussian

本节主要介绍如何通过贝叶斯定理,对高斯分布的均值和方差进行有效的估计。

  • 单随机变量高斯分布

    • 已知方差,未知均值:
      似然函数是:

      p(X|μ)=∏n=1Np(xn|μ)=1(2πσ2)N2exp({−12σ2∑n=1N(xn−μ)2})(2.44)(2.44)p(X|μ)=∏n=1Np(xn|μ)=1(2πσ2)N2exp({−12σ2∑n=1N(xn−μ)2})

      p(\textbf{X}|\mu) = \prod_{n=1}^Np(x_n|\mu)=\frac{1}{(2\pi\sigma^2)^{\frac{N}{2}}}exp(\bigg{\{} -\frac{1}{2\sigma^2}\sum_{n=1}^N(x_n-\mu)^2 \bigg{\}}) \tag{2.44}

      共轭先验为,

      p(μ)=(μ|μ0,σ20)(2.45)(2.45)p(μ)=N(μ|μ0,σ02)

      p(\mu)=\mathcal{N}(\mu|\mu_0,\sigma_0^2) \tag{2.45}

      后验分布则为,

      p(μ|X)∝p(X|μ)p(μ)=(μ|μN,σ2N)(2.46)(2.46)p(μ|X)∝p(X|μ)p(μ)=N(μ|μN,σN2)

      p(\mu|\textbf{X}) \propto p(\textbf{X}|\mu)p(\mu) = \mathcal{N}(\mu|\mu_N, \sigma_N^2) \tag{2.46}

      其中,

      μN=σ2Nσ20+σ2μ0+Nσ20Nσ20+σ2μML1σ2N=1σ20+Nσ2(2.47)(2.48)(2.47)μN=σ2Nσ02+σ2μ0+Nσ02Nσ02+σ2μML(2.48)1σN2=1σ02+Nσ2

      \begin{gather}\mu_N = \frac{\sigma^2}{N\sigma^2_0 + \sigma^2}\mu_0 + \frac{N\sigma_0^2}{N\sigma_0^2+\sigma^2}\mu_{ML} \tag{2.47} \\\frac{1}{\sigma^2_N}=\frac{1}{\sigma_0^2}+\frac{N}{\sigma^2} \tag{2.48}\end{gather}

    • 已知均值,未知方差:
      似然函数是:

      p(X|λ)=∏n=1N(xn|μ,λ−1)∝λN2exp{−λ2∑n=1N(xn−μ)2}(2.49)(2.49)p(X|λ)=∏n=1NN(xn|μ,λ−1)∝λN2exp{−λ2∑n=1N(xn−μ)2}

      \begin{aligned}p(\textbf{X}|\lambda) &=\prod_{n=1}^N \mathcal{N}(x_n|\mu, \lambda^{-1}) \\&\propto \lambda^{\frac{N}{2}}exp\bigg{\{} -\frac{\lambda}{2}\sum_{n=1}^N(x_n-\mu)^2 \bigg{\}}\end{aligned} \tag{2.49}

      共轭先验为Gamma分布:

      Gam(λ|a,b)=1Γ(a)baλa−1exp(−bλ)(2.50)(2.50)Gam(λ|a,b)=1Γ(a)baλa−1exp(−bλ)

      Gam(\lambda|a,b)=\frac{1}{\Gamma (a) }b^a\lambda^{a-1}exp(-b\lambda) \tag{2.50}

      后验分布为:

      p(λ|X)∝λa0−1λN/2exp{−b0λ−λ2∑n=1N(xn−μ)2}(2.51)(2.51)p(λ|X)∝λa0−1λN/2exp{−b0λ−λ2∑n=1N(xn−μ)2}

      p(\lambda|\textbf{X}) \propto \lambda^{a_0 - 1}\lambda^{N/2}exp \bigg{\{} -b_0\lambda-\frac{\lambda}{2}\sum_{n=1}^N(x_n-\mu)^2 \bigg{\}} \tag{2.51}

    • 未知均值,未知方差:共轭分布为高斯伽马分布(Guassian-gamma distribution),

      p(μ,λ)=(μ|μ0,(βλ)−1)Gam(λ|a,b)(2.52)(2.52)p(μ,λ)=N(μ|μ0,(βλ)−1)Gam(λ|a,b)

      p(\mu,\lambda)=\mathcal{N}(\mu|\mu_0,(\beta\lambda)^{-1})Gam(\lambda|a,b) \tag{2.52}

  • 多元随机变量高斯分布

    • 已知方差,未知均值:采用的共轭先验仍然是高斯分布;
    • 已知均值,未知方差:采用的共轭先验为Wishart分布,

      (Λ|W,v)=B|Λ|(v−D−1)/2exp(−12Tr(W−1Λ))(2.53)(2.53)W(Λ|W,v)=B|Λ|(v−D−1)/2exp(−12Tr(W−1Λ))

      \mathcal{W}(\mathbf{\Lambda}|\textbf{W},v)=B|\mathbf{\Lambda}|^{(v-D-1)/2}exp \bigg{(} -\frac{1}{2}Tr(\textbf{W}^{-1}\mathbf{\Lambda}) \bigg{)} \tag{2.53}

    • 未知均值,未知方差:采用Guassian-Wishart分布,

      p(μ,Λ|μ0,β,W,v)=(μ|μ0,(βΛ)−1)(Λ|W,v)(2.54)(2.54)p(μ,Λ|μ0,β,W,v)=N(μ|μ0,(βΛ)−1)W(Λ|W,v)

      p(\mathbf{\mu},\mathbf{\Lambda}|\mathbf{\mu}_0,\beta,\textbf{W},v)=\mathcal{N}(\mathbf{\mu}|\mathbf{\mu}_0,(\beta\mathbf{\Lambda})^{-1})\mathcal{W}(\mathbf{\Lambda}|\textbf{W},v) \tag{2.54}

g. Student’s t-distribution

学生t分布(Student’s t-distribution)也称t分布(t-distribution),其定义形式如下,

St(x|μ,λ,v)=Γ(v+12)Γ(v2)(λπv)12[1+λ(x−μ)2v]−v+12(2.55)(2.55)St(x|μ,λ,v)=Γ(v+12)Γ(v2)(λπv)12[1+λ(x−μ)2v]−v+12

St(x|\mu,\lambda,v)=\frac{\Gamma(\frac{v+1}{2})}{\Gamma(\frac{v}{2})}(\frac{\lambda}{\pi v})^{\frac{1}{2}}[1+\frac{\lambda(x-\mu)^2}{v}]^{-\frac{v+1}{2}} \tag{2.55}

学生t分布的主要作用是能够根据小样本估计呈正态分布且方差未知的总体的均值,与高斯分布相对应(高斯分布用于大量样本的正态分布估计)。另一方面,学生t分布也可以看作是是通过无线多个均值相同,精度不同的高斯分布相加而得。

h. Periodic variables

高斯分布不适合作为一些连续变量(例如,周期变量)的密度分布函数,对于周期变量(),可以采用高斯分布的周期泛化形式von-Mises分布,

p(θ|θ0,m)=12πIn(m)exp{mcos(θ−θ0)}(2.56)(2.56)p(θ|θ0,m)=12πIn(m)exp{mcos(θ−θ0)}

p(\theta|\theta_0,m)=\frac{1}{2\pi I_n(m)}exp\{ mcos(\theta-\theta_0) \} \tag{2.56}

von-Mises 分布的局限性在于,该分布是单峰的,不能表示多峰分布。

i. Mixtures of Gaussians

高斯混合解决了高斯分布的单峰局限性,其通过混合多个高斯分布的形式,实现对多峰分布的拟合,

p(x)=∑k=1Kπk(x|μk,Σk)(2.57)(2.57)p(x)=∑k=1KπkN(x|μk,Σk)

p(x) = \sum_{k=1}^K \pi_k \mathcal{N}(\textbf{x}|\mathbf{\mu}_k,\Sigma_k) \tag{2.57}

式(2.57)中πkπk\pi_k可以看作是混合系数,其满足式(2.58),

∑k=1Kπk=1(2.58)(2.58)∑k=1Kπk=1

\sum_{k=1}^K \pi_k = 1 \tag{2.58}

D. The Exponential Family


在之前提到的很多概率分布,包括伯努利分布、高斯分布、多项式分布等都可以归类为同一类分布——指数族分布(The Exponential Family),其分布函数形式如下,

p(x|η)=h(x)g(η)exp(ηTu(x))(2.59)(2.59)p(x|η)=h(x)g(η)exp(ηTu(x))

p(\textbf{x}|\mathbf{\eta})=h(\textbf{x})g(\mathbf{\eta})exp(\mathbf{\eta}^T\textbf{u}(\textbf{x})) \tag{2.59}

a. Maximum likehood and sufficient statistics

对式(2.59)定义的指数族分布参数ηη\mathbf{\eta}求解最大似然估计,可得

−∇lng(ηML)=1N∑n=1Nu(xn)(2.60)(2.60)−∇lng(ηML)=1N∑n=1Nu(xn)

- \nabla lng(\mathbf{\eta}_{ML})=\frac{1}{N}\sum_{n=1}^N \textbf{u}(\textbf{x}_n) \tag{2.60}

从上市可以看到∑Nn=1u(xn)∑n=1Nu(xn)\sum_{n=1}^N \textbf{u}(\textbf{x}_n)包含了最大似然估计中需要从数据获取的全部信息,因此一般称该式为充分统计凉(Sufficient statistics)。

b. Conjugate priors

指数族分布选择的共轭分布满足式(2.61),

p(η|χ,v)=f(χ,v)g(η)vexp(vηTχ)(2.61)(2.61)p(η|χ,v)=f(χ,v)g(η)vexp(vηTχ)

p(\mathbf{\eta}|\mathbf{\chi}, v) = f(\mathbf{\chi},v)g(\mathbf{\eta})^vexp(v\mathbf{\eta}^T\mathbf{\chi}) \tag{2.61}

相对应的后验分布为,

p(η|X,χ,v)∝g(η)vexp{ηT(∑n=1Nu(xn)+vχ)}(2.62)(2.62)p(η|X,χ,v)∝g(η)vexp{ηT(∑n=1Nu(xn)+vχ)}

p(\mathbf{\eta}|\textbf{X},\mathbf{\chi},v) \propto g(\mathbf{\eta})^vexp\bigg{\{} \mathbf{\eta}^T\bigg{(} \sum_{n=1}^N \textbf{u}(\textbf{x}_n)+v\mathbf{\chi}\bigg{)} \bigg{\}} \tag{2.62}

c. Noninformation priors

当我们对未知的分布形式寻找先验时,往往会为了计算方便,而导致后验收到先验较大的影响,因此为了减少甚至消灭这种影响,一种方法是使用不影响后验分布的先验分布,这被称为无信息先验(Noninformation priors)。目的是为了让后验分布只取决于数据集本身,一般情况下,满足平移不变性(translation invariance)和缩放不变性(scale invariance)的分布可以被认为是无信息先验分布。

  • 平移不变性(translation invariance):p(μ−c)=p(μ)p(μ−c)=p(μ)p(\mu -c)=p(\mu)。
  • 缩放不变性(scale invariance):p(σ)=p(1cσ)1cp(σ)=p(1cσ)1cp(\sigma)=p(\frac{1}{c}\sigma)\frac{1}{c}。

E. Nonparametric Methods


在以上提到的所有概率分布都是参数方法,即我们需要选择一个分布并根据数据集去训练其参数,但这一方法的局限性在于如果选择的分布与数据并不匹配,则训练得到的结果将会很差。无参数方法因为其不需要选择概率分布,而避免了以上问题,PRML中主要介绍了三种非参数方法。

a. Histogram density models

条形图密度模型(Histogram density models)是一种简单的模型,其主要方法是,制定条形图的宽度(即把[0,1]分割成多个区间),然后统计数据集中落入每个区间的数据量。

  • 优势:能够顺序处理数据集;
  • 局限性:
    • 密度估计是不连续的,相邻的条形图之间有密度的断层;
    • 不适用于高维数据。

b. Kernel density estimation

核密度估计(Kernel density estimation)的主要方法是,指定一个单位空间大小(即制定核函数,例如高斯核函数),然后在数据集中按照该单位空间下包含的数据个数来决定相应的概率密度,这一方法显然是条形图密度模型的扩展,其核心便是将二维的条形图变成了核函数。

  • 局限性:

    • 若单位空间过大,将导致某个高密度区域对应的密度曲线过于平滑,不能反映真实的密度变化情况;
    • 若单位空间过小,则会使密度曲线中存在很多噪音,曲线不平滑。

c. Nearest-neighbor methods

最近邻方法(Nearest-neighbor methods),利用数据集中所有的数据点,通过指定一个KKK值,以某一数据为中心,查找距离该数据点最近的K" role="presentation" style="position: relative;">KKK个数据点,而估计该区域的密度。

Code

https://github.com/zhoudinglive/PRML_exercise

PRML Chapter 02 Probability Distributions相关推荐

  1. PRML - Chapter 02 Probability Distributions

    PRML - Chapter 02 Probability Distributions 提纲 重点 密度估计 充分统计量 高斯分布 ( 建议充分熟悉 ) 难点 贝叶斯估计 多元高斯分布 指数族分布 共 ...

  2. 模式识别 | PRML Chapter 7 Sparse Kernel Machines

    PRML Chapter 7 Sparse Kernel Machines 7.1 Maximum Margin Classifiers The two-class classification pr ...

  3. ATF(Arm Trusted Firmware)/TF-A Chapter 02 BL1-ROMCode

    第二章目录: Chapter 02.TF-A(Arm Trusted Firmware, ATF ) BL1-ROMCode(本文) Chapter 02.TF-A(Arm Trusted Firmw ...

  4. SSH Chapter 02 Oracle数据库应用

    SSH Chapter 02 Oracle数据库应用 笔记 本章目标 : 会创建表空间 会创建用户并授权 掌握序列的使用方法 理解同义词的使用方法 了解索引,会创建常用索引 了解分区表 ​ 1. 表空 ...

  5. Java Math3 Probability Distributions(概率分布)

    文章目录 术语 常见的概率分布 math3 概率分布模块的框架 术语 英文 中文 probability density function 概率密度函数 probability mass functi ...

  6. 《隐形说服力》Chapter 02 流畅技术

    在这里,流畅技术实际上指的是给对方的"阅读体验".在信息爆炸的时代,怎么才能抓住目标用户的特点?Chapter 01 承认拒绝技术营造了一种自由的氛围来降低顾客的警惕,这里则是营造 ...

  7. Chapter 02:复合 VS 继承

    复合优先于继承,继承是实现代码重用的有力手段,并不是所有情况都适用,使用不当会导致软件变得很脆弱.与方法调用不同的是,继承打破了封装性. 总而言之,组合和继承,都能实现对类的扩展.但是要分具体情况用哪 ...

  8. 大家一起学面向对象设计模式系列Chapter 02 软件设计的基本原则

    我们为什么要使用设计模式呢?有人可能会说为了设计出"高内聚低耦合"的软件."高内聚低耦合"的软件实际上也就是本文所说的具有可维护性和可复用性的软件. 这篇文章主 ...

  9. [bbk2907]第3集 - Chapter 02 - RAC的安装过程中需要注意的要点

    阿斯顿飞 转载于:https://www.cnblogs.com/arcer/archive/2013/06/14/3135335.html

  10. 伯努利分布、二项分布、Beta分布、多项分布和Dirichlet分布与他们之间的关系,以及在LDA中的应用

    在看LDA的时候,遇到的数学公式分布有些多,因此在这里总结一下思路. 一.伯努利试验.伯努利过程与伯努利分布 先说一下什么是伯努利试验: 维基百科伯努利试验中: 伯努利试验(Bernoulli tri ...

最新文章

  1. power 芯片 运行linux,IBM Power系列的是不是只能用linux?
  2. Nature:全球表层土微生物组群落结构和功能
  3. HDU-2102 A计划 BFS
  4. u盘排序软件_总有一款U盘适合你
  5. 从华为“鸿蒙”备胎看IT项目建设
  6. *[topcoder]JumpFurther
  7. CodeForces 1361E James and the Chase(dfs + 结论)
  8. JBoss Fuse 6.2发布–指导如何快速尝试
  9. [deviceone开发]-心形点赞动画示例
  10. 论文笔记_S2D.75_2021-CoRL_TANDEM_基于深度多视图立体视觉的实时跟踪和稠密建图
  11. 项目管理:如何做好进度管理?
  12. chm文件显示“已取消网页导航”的解决办法
  13. 德国地学研究中心到国家基础地理信息中心作学术交流
  14. xml与json互转 C语言实现,通过json-lib、jdom及xom定义XML和JSON格式处理工具类实现xml和json间相互转换...
  15. 微信支付应用签名修改后多久可以生效?
  16. ES6基本的语法(十六) lterator
  17. ffmpeg 设定码率
  18. 绝了!美图技术专家获取肉鸡服务器密码如探囊取物
  19. LitePal 数据库基本操作和关联表方式(一对多)(原创)
  20. A类 B类 AB类 D类 K类功放简单对比

热门文章

  1. 2018年度总结 - 黑子
  2. 系统动力学Vensim的使用
  3. android 物业管理系统,基于Android的物业管理系统
  4. 接口文档模板(Markdown)
  5. 给架构师的推荐——《企业IT架构转型之道》
  6. 使用TiledMap做的圈地游戏
  7. 大数据分析中的四大数据类型
  8. mysql省市区三级联动数据库的源码(一)
  9. 易宝php测试账号和密匙,易宝php支付
  10. 江苏计算机二级c语言考试范围,江苏省计算机二级C语言考试大纲