PRML Chapter 02 Probability Distributions

本章的内容，主要是对概率论中概率分布的概念进行的扩展，介绍了常见的概率分布。概率分布的一个重要作用是通过仅有的几个参数对模型进行控制，进而完成对数据的描述。本章主要介绍的内容有，二项分布、多项分布、高斯分布、指数族、非参数方法的概念和定义，而如高斯分布的推导、Robbins-Monro算法的原理将另起新篇进行讲述。

PRML Chapter 02 Probability Distributions
- A. Binary Varibles
  - a. Bernoulli Distribution
  - b. Binary Distribution
  - c. Beta Distribution
- B. Multinomial Varibles
  - a. Generalization of the Bernoulli Distribution
  - b. Multinomial Distribution
  - c. Dirichlet Distribution
- C. The Gaussian Distribution
  - a. Gaussian Distribution
  - b. Conditional Gaussian distributions
  - c. Marginal Gaussian distributions
  - d. Maximum likelihood for the Gaussian
  - e. Sequential estimation
  - f. Bayesian Inference for the Gaussian
  - g. Student’s t-distribution
  - h. Periodic variables
  - i. Mixtures of Gaussians
- D. The Exponential Family
  - a. Maximum likehood and sufficient statistics
  - b. Conjugate priors
  - c. Noninformation priors
- E. Nonparametric Methods
  - a. Histogram density models
  - b. Kernel density estimation
  - c. Nearest-neighbor methods
- Code

A. Binary Varibles

a. Bernoulli Distribution

形如x∈{0,1}x∈{0,1}x \in \{0, 1\}的二元单变量是很常见的，伯努利分布(Bernoulli Distribution)的主要功能便是描述二元随机变量的分布情况，其具体形式如下，

Bern(x|μ)=μx(1−μ)1−x(2.1)(2.1)Bern(x|μ)=μx(1−μ)1−x

Bern(x| \mu) = \mu^x(1-\mu)^{1-x}\tag{2.1}

该分布的均值和方差分别为，

E[x]=μvar[x]=μ(1−μ)(2.2)(2.3)(2.2)E[x]=μ(2.3)var[x]=μ(1−μ)

\begin{gather} E[x] = \mu \tag{2.2}\\ var[x] = \mu(1-\mu) \tag{2.3} \end{gather}

仍然以掷硬币为例，随机变量x∈{0,1}x∈{0,1}x \in \{0, 1\}表示掷硬币的结果，1表示正面，0表示反面，其中μμ\mu表示正面的概率，1−μ1−μ1-\mu表示方面的概率，则伯努利分布对掷硬币结果的描述为，

p(x=1|μ)=u1(1−μ)0=μp(x=0|μ)=u0(1−μ)1=1−μ(2.4)(2.5)(2.4)p(x=1|μ)=u1(1−μ)0=μ(2.5)p(x=0|μ)=u0(1−μ)1=1−μ

\begin{gather} p(x = 1 | \mu) = u^1(1-\mu)^0 = \mu \tag{2.4} \\ p(x = 0 | \mu) = u^0(1-\mu)^1 = 1- \mu \tag{2.5} \end{gather}

从式(2.4)和式(2.5)可以看出，伯努利分布完美的描述了二元随机变量在一次随机试验中的分布情况。

b. Binary Distribution

伯努利分布描述的是二元随机变量在一次随机试验中的分布情况，二项分布(Binary Distribution)则对其进行了相应的扩展，即能够描述二元随机变量在多次随机试验中的分布情况，其具体形式如下，

Bin(m|N,μ)=CmNμm(1−μ)N−m(2.6)(2.6)Bin(m|N,μ)=CNmμm(1−μ)N−m

Bin(m | N, \mu) = C_N^m \mu^m(1-\mu)^{N-m} \tag{2.6}

其中，排列CmNCNmC_N^m 表示排列数，

CmN≡N!(N−m)!m!(2.7)(2.7)CNm≡N!(N−m)!m!

C_N^m \equiv \frac{N!}{(N-m)!m!} \tag{2.7}

二项分布的均值和方差为，

E[m]≡∑m=0NmBin(m|N,μ)=Nμvar[m]≡∑m=0N(m−E[m])2Bin(m|N,μ)=Nμ(1−μ)(2.8)(2.9)(2.8)E[m]≡∑m=0NmBin(m|N,μ)=Nμ(2.9)var[m]≡∑m=0N(m−E[m])2Bin(m|N,μ)=Nμ(1−μ)

\begin{gather} E[m] \equiv \sum_{m=0}^N mBin(m|N,\mu) = N\mu \tag{2.8} \\ var[m] \equiv \sum_{m=0}^N (m-E[m])^2Bin(m|N,\mu) = N\mu(1-\mu) \tag{2.9} \end{gather}

c. Beta Distribution

在介绍Beta分布(Beta Distribution)前，我们首先要了解共轭分布(Conjugate Distribution)的概念，考虑贝叶斯公式有如下形式，

posterior=likelihood∗priorevidence(2.10)(2.10)posterior=likelihood∗priorevidence

posterior = \frac{likelihood*prior}{evidence} \tag{2.10}

共轭分布(Conjugate Distribution)：如果先验分布和似然函数确定的后验分布与该先验分布属于同一类型的分布，则称先验分布为似然函数的共轭分布，也称为共轭先验。

了解了共轭分布的定义，显然可以知道，其主要目的是为了方便计算，即对于某一似然函数，通过其共轭先验得到的后验分布仍然可以作为新的先验分布，以这样的方式，可以简化运算过程。

这里介绍的Beta分布，即是二项分布的共轭分布，其具体形式如下，

Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1(2.11)(2.11)Beta(μ|a,b)=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1

Beta(\mu | a,b) = \frac{\Gamma (a+b)}{\Gamma(a) \Gamma(b)}\mu^{a-1}(1-\mu)^{b-1}\tag{2.11}

其中Γ(x)Γ(x)\Gamma(x)为Gamma函数，定义为，

Γ(x)≡∫∞0μx−1e−μdμ(2.12)(2.12)Γ(x)≡∫0∞μx−1e−μdμ

\Gamma(x) \equiv \int_0^{\infty} \mu^{x-1}e^{-\mu} d\mu \tag{2.12}

Gamma函数常用的性质有，

Γ(x+1)=xΓ(x)Γ(x+1)=x!Γ(1)=1(2.13)(2.14)(2.15)(2.13)Γ(x+1)=xΓ(x)(2.14)Γ(x+1)=x!(2.15)Γ(1)=1

\begin{gather} \Gamma(x + 1) = x\Gamma(x) \tag{2.13} \\ \Gamma(x + 1) = x! \tag{2.14} \\ \Gamma(1) = 1 \tag{2.15} \end{gather}

其均值和方差分别为，

E[μ]=aa+bvar[μ]=ab(a+b)2(a+b+1)(2.16)(2.17)(2.16)E[μ]=aa+b(2.17)var[μ]=ab(a+b)2(a+b+1)

\begin{gather} E[\mu] = \frac{a}{a+b} \tag{2.16} \\ var[\mu] = \frac{ab}{(a+b)^2(a+b+1)} \tag{2.17} \end{gather}

考虑Beta分布作为似然分布，二项分布作为先验分布利用贝叶斯公式推导后验分布，

posterior∝likelihood∗prior=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1∗CmNμm(1−μ)l∝μm+a−1(1−μ)l+b−1(2.18)(2.18)posterior∝likelihood∗prior=Γ(a+b)Γ(a)Γ(b)μa−1(1−μ)b−1∗CNmμm(1−μ)l∝μm+a−1(1−μ)l+b−1

\begin{aligned} posterior &\propto likelihood * prior\\ & = \frac{\Gamma (a+b)}{\Gamma(a) \Gamma(b)}\mu^{a-1}(1-\mu)^{b-1} * C_N^m\mu^m(1-\mu)^l\\ & \propto \mu^{m+a-1}(1-\mu)^{l+b-1} \end{aligned}\tag{2.18}

由推导(2.18)可以看到，后验分布仍然正比于μm+a−1(1−μ)l+b−1μm+a−1(1−μ)l+b−1\mu^{m+a-1}(1-\mu)^{l+b-1}，与先验的二项分布具有相同的形式，因此二项分布是Beta分布的共轭先验。

B. Multinomial Varibles

a. Generalization of the Bernoulli Distribution

伯努利分布由于仅能描述二元随机变量的分布情况，因此在实际应用中具有较大的局限性。因此，引入伯努利分布的多元随机变量扩展。首先通过一个例子来直观的感受这种扩展，假设KKK元随机变量中K=6" role="presentation" style="position: relative;">K=6K=6K=6，我们可以采取类似于二进制的方式表示每一个事件，例如当表示x3x3x_3时，有如下形式，

x=(0,0,1,0,0,0)T(2.19)(2.19)x=(0,0,1,0,0,0)T

\textbf{x} = (0, 0, 1, 0, 0, 0)^T \tag{2.19}

类似地，表示第kkk个事件发生时，向量 x" role="presentation" style="position: relative;">xx\textbf{x}的第kkk个元素为1，其他元素为0。通过采用以上的例子，进行相应的扩展，可以得到多元随机变量的伯努利分布分布形式如下，

(2.20)p(x|μ)=∏k=1Kμkxk" role="presentation" style="position: relative;">p(x|μ)=∏k=1Kμxkk(2.20)(2.20)p(x|μ)=∏k=1Kμkxk

p(\textbf{x}| \mathbf{ \mu }) = \prod_{k=1}^K \mu_k^{x_k} \tag{2.20}

其中，对于KKK元随机变量，μk" role="presentation" style="position: relative;">μkμk\mu_k表示该随机变量取第kkk个值时的概率，xk" role="presentation" style="position: relative;">xkxkx^k表示向量xx\textbf{x}中的第kkk个元素。由式(2.20)可以推导出多元随机变量x" role="presentation" style="position: relative;">xx\textbf{x}的均值为，

E[x|μ]=∑xp(x|μ)=(μ1,...,μM)T=μ(2.21)(2.21)E[x|μ]=∑xp(x|μ)=(μ1,...,μM)T=μ

E[\textbf{x}| \mathbf{ \mu }] = \sum_{\textbf{x}}p(\textbf{x}| \mathbf{ \mu })=(\mu_1, ..., \mu_M)^T=\mathbf{\mu} \tag{2.21}

b. Multinomial Distribution

与二项分布类似，多项式分布亦是对多元变量单次试验扩展到多次试验的描述，对于N次多元随机变量的随机试验，其形式如下，

Mult(m1,m2,...,mK|μ,N)=Cm1m2..mKN∏k=1Kμmkk(2.22)(2.22)Mult(m1,m2,...,mK|μ,N)=CNm1m2..mK∏k=1Kμkmk

Mult(m_1,m_2,...,m_K|\mu, N) = C_N^{m_1m_2..m_K}\prod_{k=1}^K \mu_k^{m_k}\tag{2.22}

其中mimim_i表示第iii个事件发生的次数，满足∑k=1Kmk=1" role="presentation" style="position: relative;">∑Kk=1mk=1∑k=1Kmk=1\sum_{k=1}^K m_k = 1，Cm1m2..mKNCNm1m2..mKC_N^{m_1m_2..m_K}定义为，

Cm1m2..mKN≡N!m1!m2!...mK!(2.23)(2.23)CNm1m2..mK≡N!m1!m2!...mK!

C_N^{m_1m_2..m_K} \equiv \frac{N!}{m_1!m_2!...m_K!} \tag{2.23}

c. Dirichlet Distribution

狄利克雷分布(Dirichlet Distribution)常常以多项式分布的共轭先验分布的形式出现，其定义为

Dir(μ|α)=Γ(α0)Γ(α1)...Γ(αK)∏k=1Kμαk−1k(2.24)(2.24)Dir(μ|α)=Γ(α0)Γ(α1)...Γ(αK)∏k=1Kμkαk−1

Dir(\mathbf{\mu}|\mathbf{\alpha}) = \frac{\Gamma{(\alpha_0)}}{\Gamma{(\alpha_1)...\Gamma(\alpha_K)}}\prod_{k=1}^K \mu_k^{\alpha_k - 1} \tag{2.24}

其中，α0α0\alpha_0被定义为，

α0=∑k=1Kαk(2.25)(2.25)α0=∑k=1Kαk

\alpha_0 = \sum_{k=1}^K \alpha_k \tag{2.25}

考虑贝叶斯公式(2.10)，将狄利克雷分布作为先验分布，而将多项式分布作为似然函数，可以得到如下推导，

p(μ|,α)∝p(|μ)p(μ|α)∝∏k=1Kμαk+nk−1k(2.26)(2.26)p(μ|D,α)∝p(D|μ)p(μ|α)∝∏k=1Kμkαk+nk−1

\begin{aligned} p(\mathbf{\mu}|\mathbf{\mathcal{D}},\mathbf{\alpha}) &\propto p(\mathbf{\mathcal{D}}|\mathbf{\mu})p(\mathbf{\mu}|\mathbf{\alpha}) \\ & \propto \prod_{k=1}^K \mu_k^{\alpha_k + n_k -1} \end{aligned}\tag{2.26}

显然有狄利克雷分布是多项式分布的共轭先验。

C. The Gaussian Distribution

高斯分布(Gaussian Distribution)又称作正态分布(Normal Distribution)，是一种生活中常见的分布，例如，国人的身高、体重，学生的成绩等等都大致服从高斯分布两头少中间多的概念，高斯分布在机器学习领域的一个重要作用便是其普适的数据描述能力，因此，对高斯分布的研究是很有必要的。

a. Gaussian Distribution

对于单变量xxx，高斯分布定义如式(2.27)所示，其中μ" role="presentation" style="position: relative;">μμ\mu表示分布的平均值，σ2σ2\sigma^2表示分布方差，

(x|μ,σ2)=1(2πσ2)12exp{−12σ2(x−μ)2}(2.27)(2.27)N(x|μ,σ2)=1(2πσ2)12exp{−12σ2(x−μ)2}

\mathcal{N}(x|\mu, \sigma^2)=\frac{1}{(2\pi \sigma^2)^{\frac{1}{2}}}exp\big{\{} -\frac{1}{2\sigma^2(x-\mu)^2} \big{\}} \tag{2.27}

对于D维向量xx\textbf{x}，高斯分布定义如式(2.28)所示，其中μμ\mathbf{\mu}是D维均值向量，ΣΣ\Sigma是一个D * D维的方差矩阵，

(x|μ,Σ)=1(2π)D21|Σ|12exp{−12(x−μ)TΣ−1(x−μ)}(2.28)(2.28)N(x|μ,Σ)=1(2π)D21|Σ|12exp{−12(x−μ)TΣ−1(x−μ)}

\mathcal{N}(\mathbf{x}|\mathbf{\mu},\Sigma)=\frac{1}{(2\pi)^{\frac{D}{2}}}\frac{1}{|\Sigma|^{\frac{1}{2}}}exp\big{\{} -\frac{1}{2}(\mathbf{x}-\mathbf{\mu})^T\Sigma^{-1}(\mathbf{x}-\mathbf{\mu}){\}} \tag{2.28}

性质：对于一个一元实值变量，使熵取得最大值的是高斯分布，这个性质对于多元高斯分布也成立。
局限一：考虑到多元高斯分布的参数，发现对于一个通常的对称协方差矩阵ΣΣ\Sigma有D(D+1)2D(D+1)2\frac{D(D+1)}{2}个独立参数，μμ\mathbf{\mu}中有DDD个参数，因此使用高斯分布描述模型时，需要训练D(D+3)2" role="presentation" style="position: relative;">D(D+3)2D(D+3)2\frac{D(D+3)}{2}个参数，并且随着维度的增大平方倍增加，因此在计算和应用中有着较大的局限性。一种解决办法是通过限制协方差矩阵ΣΣ\Sigma的的形式，但这也极大的限制了高斯分布描述数据相关性的能力；
局限二：可以很显然的发现高斯分布本质上只拥有一个最大值，因此其不能够很好的拟合多峰分布、多概率分布。一种常用且有效的方法是采用混合高斯分布。

b. Conditional Gaussian distributions

假设xx\textbf{x}是一个服从高斯分布的DDD维向量，为了讨论条件高斯分布(Conditional Gaussian distributions)，将x" role="presentation" style="position: relative;">xx\textbf{x}分成两个独立的子集，

x=(xaxb)(2.29)(2.29)x=(xaxb)

\textbf{x} = \dbinom{\textbf{x}_a}{\textbf{x}_b} \tag{2.29}

这两个子集对应的期望为，

μ=(μaμb)(2.30)(2.30)μ=(μaμb)

\mathbf{\mu} = \dbinom{\mathbf{\mu}_a}{\mathbf{\mu}_b} \tag{2.30}

相应的方差可以表示为，

Σ=(ΣaaΣbaΣabΣbb)(2.31)(2.31)Σ=(ΣaaΣabΣbaΣbb)

\Sigma = \begin{pmatrix}\Sigma_{aa} & \Sigma_{ab} \\\Sigma_{ba} & \Sigma_{bb} \end{pmatrix}\tag{2.31}

经推导，条件高斯分布p(xa|xb)p(xa|xb)p(\textbf{x}_a|\textbf{x}_b)的期望和方差分别为，

μa|b=μa+ΣabΣ−1bb(xb−μb)Σa|b=Σaa−ΣabΣ−1bbΣba(2.32)(2.33)(2.32)μa|b=μa+ΣabΣbb−1(xb−μb)(2.33)Σa|b=Σaa−ΣabΣbb−1Σba

\begin{gather} \mathbf{\mu}_{a|b} = \mathbf{\mu}_a + \Sigma_{ab}\Sigma_{bb}^{-1}(\textbf{x}_b-\mathbf{\mu}_b) \tag{2.32}\\ \Sigma_{a|b} = \Sigma_{aa} - \Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba} \tag{2.33} \end{gather}

c. Marginal Gaussian distributions

边缘高斯分布(Marginal Gaussian distributions)与边缘分布的基础定义类似，都是通过条件分布进行推导，在这里使用式(2.32)、(2.33)得到的条件高斯分布进行推导，以p(xa)p(xa)p(\textbf{x}_a)为例，边缘高斯分布的期望和方差为，

E[xa]=μacov[xa]=Σaa(2.34)(2.35)(2.34)E[xa]=μa(2.35)cov[xa]=Σaa

\begin{gather} E[\textbf{x}_a] = \mathbf{\mu}_a \tag{2.34} \\ cov[\textbf{x}_a] = \Sigma_{aa} \tag{2.35} \end{gather}

d. Maximum likelihood for the Gaussian

给定数据集X=(x1,...,xN)TX=(x1,...,xN)T\textbf{X}=(\textbf{x}_1,...,\textbf{x}_N)^T，假设观测值都是独立地从高斯分布中产生，为了估计高斯分布函数中的参数，可以采用最大似然估计，其对数似然函数的定义如下所示，

lnp(\textbf{X}|\mathbf{\mu},\Sigma) = -\frac{ND}{2}ln(2\pi)-\frac{N}{2}ln|\Sigma|-\frac{1}{2}\sum_{n=1}^N(\textbf{x}_n-\mathbf{\mu})^T\Sigma^{-1}(\textbf{x}_n-\mathbf{\mu}) \tag{2.36}
通过式(2.36)分别对 μμ\mathbf{\mu}、 ΣΣ\Sigma求偏导可得期望和方差的估计值为，

μML=1N∑n=1NxnΣML=1N∑n=1N(xn−μML)(xn−μML)T(2.37)(2.38)(2.37)μML=1N∑n=1Nxn(2.38)ΣML=1N∑n=1N(xn−μML)(xn−μML)T

\begin{gather} \mathbf{\mu}_{ML} = \frac{1}{N}\sum_{n=1}^N \textbf{x}_n \tag{2.37} \\ \Sigma_{ML} = \frac{1}{N}\sum_{n=1}^N(\textbf{x}_n-\mathbf{\mu}_{ML})(\textbf{x}_n-\mathbf{\mu}_{ML})^T \tag{2.38} \end{gather}

因为最大似然估计对于概率分布的方差存在低估的现象，因此方差的无偏估计经推导得，

Σ̃=1N−1∑n=1N(xn−μML)(xn−μML)T(2.39)(2.39)Σ~=1N−1∑n=1N(xn−μML)(xn−μML)T

\tilde{\Sigma} = \frac{1}{N-1}\sum_{n=1}^N(\textbf{x}_n-\mathbf{\mu}_{ML})(\textbf{x}_n-\mathbf{\mu}_{ML})^T \tag{2.39}

e. Sequential estimation

顺序估计要解决的主要是在线应用的及时性问题，即可以每次只处理一个数据，根据当前的数据更新参数的估计值。对于高斯分布的最大似然均值，可以有如下递推式，

μML=1N∑n=1Nxn=1NxN+1N∑n=1N−1xn=1NxN+N−1Nμ(N−1)ML=μ(N−1)ML+1N(xN−μ(N−1)ML)(2.40)(2.40)μML=1N∑n=1Nxn=1NxN+1N∑n=1N−1xn=1NxN+N−1NμML(N−1)=μML(N−1)+1N(xN−μML(N−1))

\begin{aligned} \mathbf{\mu}_{ML} &= \frac{1}{N}\sum_{n=1}^N \textbf{x}_n \\ &= \frac{1}{N}\textbf{x}_N + \frac{1}{N}\sum_{n=1}^{N-1}\textbf{x}_n \\ &= \frac{1}{N}\textbf{x}_N + \frac{N-1}{N}\mathbf{\mu}_{ML}^{(N-1)} \\ &= \mathbf{\mu}_{ML}^{(N-1)}+\frac{1}{N}(\textbf{x}_N-\mathbf{\mu}_{ML}^{(N-1)}) \end{aligned}\tag{2.40}
通过式(2.40)的递推式，可以在只给一个数据的情况下更新均值的任务，但显而易见的，随着 NNN的增加，后续数据点的贡献会逐渐变小，为了避免这一问题，一般采取更加普适的Robbins-Monro算法。

Robbins-Monro算法：对于随机变量θ" role="presentation" style="position: relative;">θθ\theta、 zzz，其由联合概率分布p(z,θ)" role="presentation" style="position: relative;">p(z,θ)p(z,θ)p(z,\theta)控制，定义在已知 θθ\theta、 zzz的情况下，条件期望定义为f(θ)" role="presentation" style="position: relative;">f(θ)f(θ)f(\theta)，

f(θ)≡E[z|θ]=∫zp(z|θ)dz(2.41)(2.41)f(θ)≡E[z|θ]=∫zp(z|θ)dz

f(\theta) \equiv E[z|\theta] = \int zp(z|\theta)dz \tag{2.41}

我们的目标是要找到θ∗θ∗\theta^*使得f(θ∗)=0f(θ∗)=0f(\theta^*)=0，着就可以引出Robbins-Monro算法的顺序估计式，

θ(N)=θ(N−1)−αN−1z(θ(N−1))(2.42)(2.42)θ(N)=θ(N−1)−αN−1z(θ(N−1))

\theta^{(N)}=\theta^{(N-1)}-\alpha_{N-1}z(\theta^{(N-1)}) \tag{2.42}

其中，z(θ(N−1))z(θ(N−1))z(\theta^{(N-1)})是当θθ\theta的取值为θ(N)θ(N)\theta^{(N)}时zzz的观测值，系数αN" role="presentation" style="position: relative;">αNαN\alpha_N满足，

⎧⎩⎨⎪⎪limN→∞αN=0∑∞N=1αN=∞∑∞N=1α2N<∞(2.43)(2.43){limN→∞αN=0∑N=1∞αN=∞∑N=1∞αN2<∞

\begin{cases} \lim_{N \to \infty} \alpha_N = 0 \\ \sum_{N=1}^{\infty} \alpha_N = \infty \\ \sum_{N=1}^{\infty} \alpha_N^2

f. Bayesian Inference for the Gaussian

本节主要介绍如何通过贝叶斯定理，对高斯分布的均值和方差进行有效的估计。

单随机变量高斯分布
- 已知方差，未知均值：
  似然函数是：
  
  p(X|μ)=∏n=1Np(xn|μ)=1(2πσ2)N2exp({−12σ2∑n=1N(xn−μ)2})(2.44)(2.44)p(X|μ)=∏n=1Np(xn|μ)=1(2πσ2)N2exp({−12σ2∑n=1N(xn−μ)2})
  
  p(\textbf{X}|\mu) = \prod_{n=1}^Np(x_n|\mu)=\frac{1}{(2\pi\sigma^2)^{\frac{N}{2}}}exp(\bigg{\{} -\frac{1}{2\sigma^2}\sum_{n=1}^N(x_n-\mu)^2 \bigg{\}}) \tag{2.44}
  
  共轭先验为，
  
  p(μ)=(μ|μ0,σ20)(2.45)(2.45)p(μ)=N(μ|μ0,σ02)
  
  p(\mu)=\mathcal{N}(\mu|\mu_0,\sigma_0^2) \tag{2.45}
  
  后验分布则为，
  
  p(μ|X)∝p(X|μ)p(μ)=(μ|μN,σ2N)(2.46)(2.46)p(μ|X)∝p(X|μ)p(μ)=N(μ|μN,σN2)
  
  p(\mu|\textbf{X}) \propto p(\textbf{X}|\mu)p(\mu) = \mathcal{N}(\mu|\mu_N, \sigma_N^2) \tag{2.46}
  
  其中，
  
  μN=σ2Nσ20+σ2μ0+Nσ20Nσ20+σ2μML1σ2N=1σ20+Nσ2(2.47)(2.48)(2.47)μN=σ2Nσ02+σ2μ0+Nσ02Nσ02+σ2μML(2.48)1σN2=1σ02+Nσ2
  
  \begin{gather}\mu_N = \frac{\sigma^2}{N\sigma^2_0 + \sigma^2}\mu_0 + \frac{N\sigma_0^2}{N\sigma_0^2+\sigma^2}\mu_{ML} \tag{2.47} \\\frac{1}{\sigma^2_N}=\frac{1}{\sigma_0^2}+\frac{N}{\sigma^2} \tag{2.48}\end{gather}
- 已知均值，未知方差：
  似然函数是：
  
  p(X|λ)=∏n=1N(xn|μ,λ−1)∝λN2exp{−λ2∑n=1N(xn−μ)2}(2.49)(2.49)p(X|λ)=∏n=1NN(xn|μ,λ−1)∝λN2exp{−λ2∑n=1N(xn−μ)2}
  
  \begin{aligned}p(\textbf{X}|\lambda) &=\prod_{n=1}^N \mathcal{N}(x_n|\mu, \lambda^{-1}) \\&\propto \lambda^{\frac{N}{2}}exp\bigg{\{} -\frac{\lambda}{2}\sum_{n=1}^N(x_n-\mu)^2 \bigg{\}}\end{aligned} \tag{2.49}
  
  共轭先验为Gamma分布：
  
  Gam(λ|a,b)=1Γ(a)baλa−1exp(−bλ)(2.50)(2.50)Gam(λ|a,b)=1Γ(a)baλa−1exp(−bλ)
  
  Gam(\lambda|a,b)=\frac{1}{\Gamma (a) }b^a\lambda^{a-1}exp(-b\lambda) \tag{2.50}
  
  后验分布为：
  
  p(λ|X)∝λa0−1λN/2exp{−b0λ−λ2∑n=1N(xn−μ)2}(2.51)(2.51)p(λ|X)∝λa0−1λN/2exp{−b0λ−λ2∑n=1N(xn−μ)2}
  
  p(\lambda|\textbf{X}) \propto \lambda^{a_0 - 1}\lambda^{N/2}exp \bigg{\{} -b_0\lambda-\frac{\lambda}{2}\sum_{n=1}^N(x_n-\mu)^2 \bigg{\}} \tag{2.51}
- 未知均值，未知方差：共轭分布为高斯伽马分布(Guassian-gamma distribution)，
  
  p(μ,λ)=(μ|μ0,(βλ)−1)Gam(λ|a,b)(2.52)(2.52)p(μ,λ)=N(μ|μ0,(βλ)−1)Gam(λ|a,b)
  
  p(\mu,\lambda)=\mathcal{N}(\mu|\mu_0,(\beta\lambda)^{-1})Gam(\lambda|a,b) \tag{2.52}
多元随机变量高斯分布
- 已知方差，未知均值：采用的共轭先验仍然是高斯分布；
- 已知均值，未知方差：采用的共轭先验为Wishart分布，
  
  (Λ|W,v)=B|Λ|(v−D−1)/2exp(−12Tr(W−1Λ))(2.53)(2.53)W(Λ|W,v)=B|Λ|(v−D−1)/2exp(−12Tr(W−1Λ))
  
  \mathcal{W}(\mathbf{\Lambda}|\textbf{W},v)=B|\mathbf{\Lambda}|^{(v-D-1)/2}exp \bigg{(} -\frac{1}{2}Tr(\textbf{W}^{-1}\mathbf{\Lambda}) \bigg{)} \tag{2.53}
- 未知均值，未知方差：采用Guassian-Wishart分布，
  
  p(μ,Λ|μ0,β,W,v)=(μ|μ0,(βΛ)−1)(Λ|W,v)(2.54)(2.54)p(μ,Λ|μ0,β,W,v)=N(μ|μ0,(βΛ)−1)W(Λ|W,v)
  
  p(\mathbf{\mu},\mathbf{\Lambda}|\mathbf{\mu}_0,\beta,\textbf{W},v)=\mathcal{N}(\mathbf{\mu}|\mathbf{\mu}_0,(\beta\mathbf{\Lambda})^{-1})\mathcal{W}(\mathbf{\Lambda}|\textbf{W},v) \tag{2.54}

g. Student’s t-distribution

学生t分布(Student’s t-distribution)也称t分布(t-distribution)，其定义形式如下，

St(x|μ,λ,v)=Γ(v+12)Γ(v2)(λπv)12[1+λ(x−μ)2v]−v+12(2.55)(2.55)St(x|μ,λ,v)=Γ(v+12)Γ(v2)(λπv)12[1+λ(x−μ)2v]−v+12

St(x|\mu,\lambda,v)=\frac{\Gamma(\frac{v+1}{2})}{\Gamma(\frac{v}{2})}(\frac{\lambda}{\pi v})^{\frac{1}{2}}[1+\frac{\lambda(x-\mu)^2}{v}]^{-\frac{v+1}{2}} \tag{2.55}

学生t分布的主要作用是能够根据小样本估计呈正态分布且方差未知的总体的均值，与高斯分布相对应(高斯分布用于大量样本的正态分布估计)。另一方面，学生t分布也可以看作是是通过无线多个均值相同，精度不同的高斯分布相加而得。

h. Periodic variables

高斯分布不适合作为一些连续变量(例如，周期变量)的密度分布函数，对于周期变量()，可以采用高斯分布的周期泛化形式von-Mises分布，

p(θ|θ0,m)=12πIn(m)exp{mcos(θ−θ0)}(2.56)(2.56)p(θ|θ0,m)=12πIn(m)exp{mcos(θ−θ0)}

p(\theta|\theta_0,m)=\frac{1}{2\pi I_n(m)}exp\{ mcos(\theta-\theta_0) \} \tag{2.56}

von-Mises 分布的局限性在于，该分布是单峰的，不能表示多峰分布。

i. Mixtures of Gaussians

高斯混合解决了高斯分布的单峰局限性，其通过混合多个高斯分布的形式，实现对多峰分布的拟合，

p(x)=∑k=1Kπk(x|μk,Σk)(2.57)(2.57)p(x)=∑k=1KπkN(x|μk,Σk)

p(x) = \sum_{k=1}^K \pi_k \mathcal{N}(\textbf{x}|\mathbf{\mu}_k,\Sigma_k) \tag{2.57}

式(2.57)中πkπk\pi_k可以看作是混合系数，其满足式(2.58)，

∑k=1Kπk=1(2.58)(2.58)∑k=1Kπk=1

\sum_{k=1}^K \pi_k = 1 \tag{2.58}

D. The Exponential Family

在之前提到的很多概率分布，包括伯努利分布、高斯分布、多项式分布等都可以归类为同一类分布——指数族分布(The Exponential Family)，其分布函数形式如下，

p(x|η)=h(x)g(η)exp(ηTu(x))(2.59)(2.59)p(x|η)=h(x)g(η)exp(ηTu(x))

p(\textbf{x}|\mathbf{\eta})=h(\textbf{x})g(\mathbf{\eta})exp(\mathbf{\eta}^T\textbf{u}(\textbf{x})) \tag{2.59}

a. Maximum likehood and sufficient statistics

对式(2.59)定义的指数族分布参数ηη\mathbf{\eta}求解最大似然估计，可得

−∇lng(ηML)=1N∑n=1Nu(xn)(2.60)(2.60)−∇lng(ηML)=1N∑n=1Nu(xn)

- \nabla lng(\mathbf{\eta}_{ML})=\frac{1}{N}\sum_{n=1}^N \textbf{u}(\textbf{x}_n) \tag{2.60}

从上市可以看到∑Nn=1u(xn)∑n=1Nu(xn)\sum_{n=1}^N \textbf{u}(\textbf{x}_n)包含了最大似然估计中需要从数据获取的全部信息，因此一般称该式为充分统计凉(Sufficient statistics)。

b. Conjugate priors

指数族分布选择的共轭分布满足式(2.61)，

p(η|χ,v)=f(χ,v)g(η)vexp(vηTχ)(2.61)(2.61)p(η|χ,v)=f(χ,v)g(η)vexp(vηTχ)

p(\mathbf{\eta}|\mathbf{\chi}, v) = f(\mathbf{\chi},v)g(\mathbf{\eta})^vexp(v\mathbf{\eta}^T\mathbf{\chi}) \tag{2.61}

相对应的后验分布为，

p(η|X,χ,v)∝g(η)vexp{ηT(∑n=1Nu(xn)+vχ)}(2.62)(2.62)p(η|X,χ,v)∝g(η)vexp{ηT(∑n=1Nu(xn)+vχ)}

p(\mathbf{\eta}|\textbf{X},\mathbf{\chi},v) \propto g(\mathbf{\eta})^vexp\bigg{\{} \mathbf{\eta}^T\bigg{(} \sum_{n=1}^N \textbf{u}(\textbf{x}_n)+v\mathbf{\chi}\bigg{)} \bigg{\}} \tag{2.62}

c. Noninformation priors

当我们对未知的分布形式寻找先验时，往往会为了计算方便，而导致后验收到先验较大的影响，因此为了减少甚至消灭这种影响，一种方法是使用不影响后验分布的先验分布，这被称为无信息先验(Noninformation priors)。目的是为了让后验分布只取决于数据集本身，一般情况下，满足平移不变性(translation invariance)和缩放不变性(scale invariance)的分布可以被认为是无信息先验分布。

平移不变性(translation invariance)：p(μ−c)=p(μ)p(μ−c)=p(μ)p(\mu -c)=p(\mu)。
缩放不变性(scale invariance)：p(σ)=p(1cσ)1cp(σ)=p(1cσ)1cp(\sigma)=p(\frac{1}{c}\sigma)\frac{1}{c}。

E. Nonparametric Methods

在以上提到的所有概率分布都是参数方法，即我们需要选择一个分布并根据数据集去训练其参数，但这一方法的局限性在于如果选择的分布与数据并不匹配，则训练得到的结果将会很差。无参数方法因为其不需要选择概率分布，而避免了以上问题，PRML中主要介绍了三种非参数方法。

a. Histogram density models

条形图密度模型(Histogram density models)是一种简单的模型，其主要方法是，制定条形图的宽度(即把[0,1]分割成多个区间)，然后统计数据集中落入每个区间的数据量。

优势：能够顺序处理数据集；
局限性：
- 密度估计是不连续的，相邻的条形图之间有密度的断层；
- 不适用于高维数据。

b. Kernel density estimation

核密度估计(Kernel density estimation)的主要方法是，指定一个单位空间大小(即制定核函数，例如高斯核函数)，然后在数据集中按照该单位空间下包含的数据个数来决定相应的概率密度，这一方法显然是条形图密度模型的扩展，其核心便是将二维的条形图变成了核函数。

局限性：
- 若单位空间过大，将导致某个高密度区域对应的密度曲线过于平滑，不能反映真实的密度变化情况；
- 若单位空间过小，则会使密度曲线中存在很多噪音，曲线不平滑。

c. Nearest-neighbor methods

最近邻方法(Nearest-neighbor methods)，利用数据集中所有的数据点，通过指定一个KKK值，以某一数据为中心，查找距离该数据点最近的K" role="presentation" style="position: relative;">KKK个数据点，而估计该区域的密度。

Code

https://github.com/zhoudinglive/PRML_exercise