PRML - Chapter 01: Introduction

对于第一章来说，都是一些简单的介绍，是一些机器学习的基础知识，如：训练集、测试集、泛化、有监督学习、无监督学习、特征抽取等基本概念。并且，这章会介绍三个重要工具：概率论、决策论、信息论。虽然这些东西听起来让⼈感觉害怕，但是实际上它们非常直观。并且，在实际应⽤中，如果想让机器学习技术发挥最⼤作⽤的话，清楚地理解它们是必须的。

基本知识点

训练集 ( training set ) : 用来通过训练来调节模型的参数。
- 输入变量 x\text{x}x 的 NNN 次观测组成，记作 X≡{x1,⋯,xN}\text{X}\equiv\{\text{x}_1,\cdots,\text{x}_N\}X≡{x1,⋯,xN}
- 目标变量 ttt 的 NNN 次观测组成，记作 t≡{t1,⋯,tN}\mathbf{t}\equiv\{t_1,\cdots,t_N\}t≡{t1,⋯,tN}（通常是被独立考察，人工标注的）
学习的结果 : 表示为一个函数 y(x)y ( x )y(x)，它以新的 xxx 为输入，产生的 yyy 为输出，结果与 ttt 的形式相同。
- yyy 的具体形式 ( 参数 ) 是在训练 ( training ) 阶段被确定的，也被称为学习 ( learning ) 阶段。
- 当训练阶段完成后，可以使用新的数据集去检验训练的结果，这种数据集称为测试集 ( test set )。
- 泛化 ( generalization ) : 正确分类与训练集不同的新样本的能力。
原始输入向量需要被预处理 ( pre-processed )，变换到新的变量空间，也称为特征抽取 ( feature extraction )，使问题变得更加容易解决，加快计算速度。
有监督学习 ( supervised learning )
- 离散输出学习称为分类 ( classification ) 问题
- 连续输出学习称为回归 ( regression ) 问题
无监督学习 ( unsupervised learning )
- 离散输出学习称为聚类 ( clustering ) 问题
- 连续输出学习称为密度估计 ( density estimation )
  - 高维空间投影到二维或者三维空间，为了数据可视化 ( visualization ) 或者降维
反馈学习 ( 强化学习 ) ( reinforcement learning ) : 在给定的条件下，找到合适的动作，使得奖励达到最⼤值。

1.1. 例子 : 多项式曲线拟合

理论基础

概率论提供了数学框架，用来描述不确定性
决策论提供了合适的标准，用来进行最优的预测。

前提条件

训练集 : 输入数据 : 由 xxx 的 NNN 次观察组成 x≡(x1,⋯,xN)T\mathbf{x}\equiv ( x_1,\cdots,x_N )^Tx≡(x1,⋯,xN)T
训练集 : 目标数据 : 由 ttt 的 NNN 次观察组成 t≡(t1,⋯,tN)T\mathbf{t}\equiv ( t_1,\cdots,t_N )^Tt≡(t1,⋯,tN)T

多项式函数是线性模型，应用于线性回归 ( Ch 03 ) 和线性分类 ( Ch 04 )

y(x,w)=w0+w1x+w2x2+⋯+wMxM=∑j=0Mwjxjy ( x,\text{w} ) = w_0 + w_1 x + w_2 x^2 + \cdots + w_M x^M = \sum_{j=0}^M w_j x^j y(x,w)=w0+w1x+w2x2+⋯+wMxM=j=0∑Mwjxj

最小化误差函数 ( error function ) 可以调整多项式函数的参数

平方误差函数 ( square error function ) : 最常用

E(w)=12∑n=1N[y(xn,w)−tn]2E ( \text{w} ) =\frac12\sum_{n=1}^N [y ( x_n,\text{w} ) - t_n]^2 E(w)=21n=1∑N[y(xn,w)−tn]2

根均方 ( root-mean-square, RMS ) 误差函数 : 更方便

ERMS=2E(w∗)/NE_{RMS}=\sqrt{2E ( \text{w}^* ) /N} ERMS=2E(w∗)/N

多项式的阶数 MMM 的选择，属于模型对比 ( model comparison ) 问题或者模型选择 ( model selection ) 问题。

拟合问题 : 模型容量与实际问题不匹配

欠拟合 ( Under-fitting ) : 模型过于简单，模型容量低，不能充分描述问题
过拟合 ( Over-fitting ) : 模型过于复杂，模型容量高，可能描述数据噪声

正则化 ( regularization ) : 解决过拟合问题，即给误差函数增加惩罚项，使得系数不会达到很大的值

正则项的 λ\lambdaλ 系数控制过拟合的影响
统计学 : 叫做收缩 ( shrinkage ) 方法
二次正则项 : 称为岭回归 ( ridge regression )
神经网络 : 称为权值衰减 ( weight decay )

确定模型复杂度 : 验证集 ( validation set )，也被称为拿出集 ( hold-out set )，缺点是不能充分利用数据，太浪费有价值的训练数据了。

数据集规模 : 训练数据的数量应该是模型可调节参数的数量的 5~10 倍。

最大似然 ( maximum likelihood, ML )

最小二乘法是最大似然法的特例
过拟合问题是 ML 的一种通用属性
使用 Bayesian 方法解决过拟合问题，等价于正则化

1.2. 概率论

理解离散随机变量与连续随机变量之间的关系

离散随机变量

联合概率 : XXX 取值 xix_ixi，YYY 取值 yjy_jyj，的联合概率是

p(X=xi,Y=yj)=nijNp ( X=x_i,Y=y_j ) =\frac{n_{ij}}{N} p(X=xi,Y=yj)=Nnij

边缘概率 : XXX 取值 xix_ixi( 与 YYY 取值无关 ) 的边缘概率是

p(X=xi)=ciNp ( X=x_i ) = \frac{c_i}N p(X=xi)=Nci

加和规则推导

p(X=xi)=∑j=1Lp(X=xi,Y=yj)p ( X=x_i ) = \sum_{j=1}^L p ( X=x_i,Y=y_j ) p(X=xi)=j=1∑Lp(X=xi,Y=yj)

条件概率 : 在XXX 取值 xix_ixi 中 YYY 取值 yjy_jyj 的条件概率是

p(Y=yj∣X=xi)=nijcip ( Y=y_j|X=x_i ) =\frac{n_{ij}}{c_i} p(Y=yj∣X=xi)=cinij

乘积规则推导

p(X=xi,Y=yj)=nijN=nijci⋅ciN=p(Y=yj∣X=xi)p(X=xi)p ( X=x_i,Y=y_j ) =\frac{n_{ij}}N=\frac{n_{ij}}{c_i}\cdot\frac{c_i}N = p ( Y=y_j|X=x_i ) p ( X=x_i ) p(X=xi,Y=yj)=Nnij=cinij⋅Nci=p(Y=yj∣X=xi)p(X=xi)

贝叶斯定理

p(Y∣X)=p(X∣Y)p(Y)p(X)=p(X∣Y)p(Y)∑Yp(X∣Y)p(Y)p ( Y|X ) =\frac{p ( X|Y ) p ( Y )}{p ( X )}=\frac{p ( X|Y ) p ( Y )}{\sum_Y p ( X|Y ) p ( Y )} p(Y∣X)=p(X)p(X∣Y)p(Y)=∑Yp(X∣Y)p(Y)p(X∣Y)p(Y)

XXX 和 YYY 相互独立

p(X,Y)=p(X)p(Y)p ( X,Y ) =p ( X ) p ( Y ) p(X,Y)=p(X)p(Y)

概率论的两种基本规则 ( 后面会有大量的应用，需要充分理解才能正确的使用 )

加和规则 ( sum rule ) : p(X)=∑Yp(X,Y)p ( X ) =\sum_Y p ( X,Y )p(X)=∑Yp(X,Y)
乘积规则 ( product rule ) : p(X,Y)=p(Y∣X)p(X)p ( X,Y ) =p ( Y|X ) p ( X )p(X,Y)=p(Y∣X)p(X)

这⾥p(X,Y)p(X,Y)p(X,Y)是联合概率，可以表述为“X且Y 的概率”。类似地，p(Y∣X)p(Y | X)p(Y∣X)是条件概率，可以表述为“给定X的条件下Y 的概率”，p(X)是边缘概率，可以简单地表述为"X的概率”。这两个简单的规则组成了我们在全书中使用的全部概率推导的基础。

1.2.1. 概率密度

离散随机变量

概率质量函数 ( probability mass function )
p(X=xi)=∑jnij/Np ( X=x_i ) = \sum_j n_{ij} /N p(X=xi)=j∑nij/N
条件概率 ( conditional probability )
p(Y=yj∣X=xi)=nij/∑jnijp ( Y=y_j|X=x_i ) = n_{ij}/ \sum_j n_{ij} p(Y=yj∣X=xi)=nij/j∑nij

利用乘积规则得到联合概率 ( conditional probability )

p(X=xi,Y=yj)=p(Y=yj∣X=xi)p(X=xi)p ( X=x_i,Y=y_j ) =p ( Y=y_j|X=x_i ) p ( X=x_i ) p(X=xi,Y=yj)=p(Y=yj∣X=xi)p(X=xi)

联合概率 ( joint probability )
p(X=xi,Y=yj)=nij/Np ( X=x_i,Y=y_j ) =n_{ij}/N p(X=xi,Y=yj)=nij/N

利用加和规则得到边缘概率 ( marginal probability )

p(X=xi)=∑j=1Lp(X=xi,Y=yj)p ( X=x_i ) =\sum_{j=1}^L p ( X=x_i,Y=y_j ) p(X=xi)=j=1∑Lp(X=xi,Y=yj)

连续随机变量

概率密度函数 ( probability density function ) : p(x∈(a,b))=∫abp(x)dxp ( x\in ( a,b )) =\int_a^b p ( x ) dxp(x∈(a,b))=∫abp(x)dx

累积分布函数 ( cumulative distribution function ) : p(z)=∫−∞zp(x)dxp ( z ) = \int_{-\infty}^z p ( x ) dxp(z)=∫−∞zp(x)dx

由于概率是非负的，并且x的值一定位于实数轴上的某个位置，因此概率密度一定满足下面两个条件

p(X)≥0p(X) \ge 0p(X)≥0
∫−∞+∞p(x)dx=1\int_{-\infty}^{+\infty} p( x ) dx=1∫−∞+∞p(x)dx=1

1.2.2. 期望与协方差

期望 ( expectation ) : 函数的平均值

离散随机变量的期望 : E[f]=∑xp(x)f(x)\mathbb{E}[f] = \sum_x p ( x ) f ( x )E[f]=∑xp(x)f(x)
连续随机变量的期望 : E[f]=∫p(x)f(x)dx\mathbb{E}[f]=\int p ( x ) f ( x ) dxE[f]=∫p(x)f(x)dx
有限数量的数据集，数据集中的点满足某个概率分布函数或者概率密度函数，那么期望可以用求和的方式来估计

E[f]≃1N∑n=1Nf(xn)\mathbb{E}[f]\simeq \frac1N\sum_{n=1}^N f ( x_n ) E[f]≃N1n=1∑Nf(xn)

多变量函数的期望，使用下标 Ex[f(x,y)]\mathbb{E}_x [f ( x,y )]Ex[f(x,y)] 表明关于 xxx 的分布的平均，是 yyy 的一个函数

Ex[f(x,y)]=∑xp(x)f(x,y)\mathbb{E}_x [f ( x,y )] = \sum_x p ( x ) f ( x,y ) Ex[f(x,y)]=x∑p(x)f(x,y)

条件分布的条件期望 ( conditional expectation )

Ex[f∣y]=∑xp(x∣y)f(x)\mathbb{E}_x [f|y]=\sum_x p ( x|y ) f ( x ) Ex[f∣y]=x∑p(x∣y)f(x)

方差 ( variance ) : 度量了函数 f(x)f ( x )f(x) 在均值 E[f(x)]\mathbb{E}[f ( x )]E[f(x)] 附近的变化性
var[f]=E[(f(x)−E[f(x)])2]=E[f(x)2]−E[f(x)]2var[x]=E[x2]−E[x]2\begin{aligned} \text{var}[f] &= \mathbb{E}[( f ( x ) -\mathbb{E}[f ( x )] )^2] =\mathbb{E}[f ( x )^2]-\mathbb{E}[f ( x )]^2\\ \text{var}[x] &=\mathbb{E}[x^2]-\mathbb{E}[x]^2 \end{aligned} var[f]var[x]=E[(f(x)−E[f(x)])2]=E[f(x)2]−E[f(x)]2=E[x2]−E[x]2

协方差 ( covariance ) : 度量两个随机变量之间的关系，表示多大程度上xxx和yyy会共同变化。

两个值随机变量的协方差

cov[x,y]=Ex,y[(x−E[x])(y−E[y])]=Ex,y[xy]−E[x]E[y]\text{cov}[x,y] = \mathbb{E}_{x,y} [( x - \mathbb{E}[x] ) ( y - \mathbb{E}[y] )] = \mathbb{E}_{x,y}[xy] - \mathbb{E}[x]\mathbb{E}[y] cov[x,y]=Ex,y[(x−E[x])(y−E[y])]=Ex,y[xy]−E[x]E[y]

两个向量随机变量协方差，协方差是一个矩阵

cov[x,y]=Ex,y[(x−E[x])(yT−E[yT])]=Ex,y[xyT]−E[x]E[yT]\text{cov}[\text{x},\text{y}] = \mathbb{E}_{\text{x},\text{y}} [( \text{x}-\mathbb{E}[\text{x}] ) ( \text{y}^T-\mathbb{E}[\text{y}^T] )] = \mathbb{E}_{\text{x},\text{y}} [\text{xy}^T]-\mathbb{E}[\text{x}]\mathbb{E}[\text{y}^T] cov[x,y]=Ex,y[(x−E[x])(yT−E[yT])]=Ex,y[xyT]−E[x]E[yT]

注：如果两个随机变量相互独立，则它们的协方差为 0
一个向量随机变量 : cov[x]≡cov[x,x]\text{cov}[x] \equiv \text{cov}[x,x]cov[x]≡cov[x,x]

1.2.3. 经典概率论与贝叶斯概率论

经典概率论

概率 : 随机重复事件发生的频率。
似然函数
- 频率学派：参数 www 是固定的值，可以通过某种形式的"估计"来确定
  - 估计的误差通过考察可能的数据集 D\mathcal{D}D 获得
  - 确定误差的方法 : （自助发）Bootstrap[^Geof,2009]。通过从原始数据集中随机抽取来创建多个数据集，再对多个数据集的估计值求得方差确定参数误差
- 贝叶斯派：只有⼀个数据集DDD（即实际观测到的数据集），参数的不确定性通过www的概率分布来表达
- 似然函数的负对数被叫做误差函数 ( error function )，最大化似然函数 等价于 最小化误差函数
- 广泛使用最大似然估计 ( maximum likelihood estimator, MLE ) [^Duda,2003] ( P 68 )，
- 无信息先验概率就是最大似然估计

注意：似然函数不是www的分布，并且它关于www的积分不（一定）等于1

Bayesian 概率

概率 : 定量描述不确定性的工具。
Bayesian 定理 : p(Y∣X)=p(X∣Y)p(Y)p(X)=p(X∣Y)p(Y)∑Yp(X∣Y)p(Y)p ( Y|X ) =\frac{p ( X|Y ) p ( Y )}{p ( X )}=\frac{p ( X|Y ) p ( Y )}{\sum_Y p ( X|Y ) p ( Y )}p(Y∣X)=p(X)p(X∣Y)p(Y)=∑Yp(X∣Y)p(Y)p(X∣Y)p(Y)
- 先验概率 : p(w)p ( w )p(w) 表达参数 www 的假设
  - 先验概率可以方便地将先验知识包含在模型中
- 似然函数 : 使用条件概率 p(D∣w)p ( \mathcal{D}|w )p(D∣w) 表达观测数据的效果
  - 由观测数据集 DDD 来估计，可以被看成参数向量 www 的函数。
    - 参数的不确定性通过概率分布来表达。
  - 不是 www 的概率分布，因为它关于 www 的积分并不 ( 一定 ) 等于 1。因此它只是 www 的似然函数，不是概率。
- 后验概率 : p(w∣D)p ( w|\mathcal{D} )p(w∣D) 表达观测到 D\mathcal{D}D 之后估计参数 www 的不确定性。
  - p(w∣mathcalD)=p(D∣w)p(w)p(D)p ( w|mathcal{D} ) =\frac{p ( \mathcal{D}|w ) p ( w )}{p ( \mathcal{D} )}p(w∣mathcalD)=p(D)p(D∣w)p(w)
- 后验概率 ∝\propto∝似然函数 x\text{x}x 先验概率
- 取样方法 : MCMC ( Ch 11 ) [^Geof,2009]
- 高效判别方法 : 变分贝叶斯 ( Variational Bayes ) 和期望传播 ( Expectation Propagation )

1.2.4. 高斯分布

( 主要概率分布 Ch 02 )

高斯分布 ( Gaussian distribution )，也叫正态分布 ( normal distribution )

一元实值随机变量 xxx 的高斯分布

定义

N(x∣μ,σ2)=1(2πσ2)1/2exp⁡[−12σ2(x−μ)2]\mathcal{N} ( \text{x}|\mu,\sigma^2 ) = \frac{1}{( 2\pi\sigma^2 )^{1/2}} \exp[-\frac{1}{2\sigma^2} ( \text{x}-\mu )^2] N(x∣μ,σ2)=(2πσ2)1/21exp[−2σ21(x−μ)2]

控制参数
- 均值 μ\muμ
- 方差 σ2\sigma^2σ2，标准差 σ\sigmaσ
- 精度 ( precision ) β=1/σ2\beta = 1/{\sigma^2}β=1/σ2
性质
- 归一化 : ∫−∞+∞N(x∣μ,σ2)dx=1\int_{-\infty}^{+\infty} \mathcal{N} ( x|\mu,\sigma^2 ) dx =1∫−∞+∞N(x∣μ,σ2)dx=1
- 期望 : E[x]=∫−∞+∞N(x∣μ,σ2)xdx=μ\mathbb{E}[x] = \int_{-\infty}^{+\infty} \mathcal{N} ( x|\mu,\sigma^2 ) x dx =\muE[x]=∫−∞+∞N(x∣μ,σ2)xdx=μ
- 二阶矩 : E[x2]=∫−∞+∞N(x∣μ,σ2)x2dx=μ2+σ2\mathbb{E}[x^2] = \int_{-\infty}^{+\infty} \mathcal{N} ( x|\mu,\sigma^2 ) x^2 dx =\mu^2 + \sigma^2E[x2]=∫−∞+∞N(x∣μ,σ2)x2dx=μ2+σ2
- 方差 : var[x]=E[x2]−E[x]2=σ2\text{var}[x] = \mathbb{E}[x^2] - \mathbb{E}[x]^2 = \sigma^2var[x]=E[x2]−E[x]2=σ2
- 分布的最大值叫众数，与均值恰好相等。

D 维随机向量 x\text{x}x 的高斯分布

定义

N(x∣μ,Σ)=1(2π)D/21∣Σ∣1/2exp⁡{−12(x−μ)TΣ−1(x−μ)}\mathcal{N} ( \text{x}|\boldsymbol{\mu},\Sigma ) = \frac1{( 2\pi )^{D/2}}\frac1{|\Sigma|^{1/2}} \exp\{-\frac12 ( \text{x}-\boldsymbol{\mu} )^T\Sigma^{-1} ( \text{x}-\boldsymbol{\mu} ) \} N(x∣μ,Σ)=(2π)D/21∣Σ∣1/21exp{−21(x−μ)TΣ−1(x−μ)}

控制参数
- 均值向量 : μ∈RD\boldsymbol{\mu}\in\mathcal{R}^Dμ∈RD
- 协方差矩阵 : Σ∈RD×D{\Sigma}\in\mathcal{R}^{D \times D}Σ∈RD×D

一元随机实值变量的例子

观测数据集 x=(x1,⋯,xN)T\mathbf{x}= ( x_1,\cdots,x_N )^Tx=(x1,⋯,xN)T 表示实值变量 xxx 的 NNN 次观测
- 观测数据集独立地从高斯分布 N(μ,σ2)\mathcal{N} ( \mu,\sigma^2 )N(μ,σ2) 中抽取出来
  - μ\muμ 和 σ2\sigma^2σ2 未知
  - 独立同分布 ( independent and identically distributed, i.i.d. ) : 独立地从相同数据点集合中抽取的数据
观测数据集的概率

p(x∣μ,σ2)=∏n=1NN(xn∣μ,σ2)p ( \mathbf{x}|\mu,\sigma^2 ) = \prod_{n=1}^N \mathcal{N} ( x_n|\mu,\sigma^2 ) p(x∣μ,σ2)=n=1∏NN(xn∣μ,σ2)

对数似然函数 :

ln⁡p(x∣μ,σ2)=−12σ2∑n=1N(xn−μ)2−N2ln⁡σ2−N2ln⁡(2π)\ln p ( \mathbb{x}|\mu,\sigma^2 ) = -\frac{1}{2\sigma^2} \sum_{n=1}^N ( x_n-\mu )^2 -\frac{N}{2}\ln\sigma^2 -\frac{N}{2}\ln ( 2\pi ) lnp(x∣μ,σ2)=−2σ21n=1∑N(xn−μ)2−2Nlnσ2−2Nln(2π)

基于最大似然函数估计参数
- 均值的最大似然解等于样本均值
  - μML=1N∑n=1Nxn\mu_{ML}=\frac{1}{N}\sum_{n=1}^N x_nμML=N1∑n=1Nxn
- 方差的最大似然解等于样本均值的样本方差
  - σML2=1N∑n=1N(xn−μML)2\sigma_{ML}^2=\frac{1}{N}\sum_{n=1}^N ( x_n-\mu_{ML} )^2σML2=N1∑n=1N(xn−μML)2
- 理论上需要同时关于 μ\muμ 和 σ2\sigma^2σ2 最大化函数，实际上 μ\muμ 的解与 σ2\sigma^2σ2 的无关，因此可以先求解 μ\muμ，再求解 σ2\sigma^2σ2
最大似然的偏移问题是多项式曲线拟合问题中遇到的过拟合问题的核心。
- 最大似然估计的均值等于模型中输入的真实均值
  - ( Eq 1.55 ) : E[μML]=μ\mathbb{E}[\mu_{ML}]=\muE[μML]=μ
- 最大似然估计的方差小于模型中输入的真实方差
  - ( Eq 1.56 ) : E[σML2]=N−1Nσ2\mathbb{E}[\sigma_{ML}^2]=\frac{N-1}{N}\sigma^2E[σML2]=NN−1σ2
- 无偏的方差估计
  - ( Eq 1.59 ) : σ~2=NN−1σML2=1N−1∑n=1N(xn−μML)2\tilde{\sigma}^2 = \frac{N}{N-1}\sigma_{ML}^2 = \frac1{N-1}\sum_{n=1}^N ( x_n-\mu_{ML} )^2σ~2=N−1NσML2=N−11∑n=1N(xn−μML)2
  - 在 N→∞N\rightarrow\inftyN→∞ 时，最大似然解的偏移影响不大，方差的最大似然解与真实方差相等
最大似然估计 vs 最大后验估计
- 最大似然估计 : 在给定的"数据集"下最大化"参数"的概率
- 最大后验估计 : 在给定"参数"下最大化"数据集"的概率

1.2.5. 概率建模 : 多项式曲线拟合

概率建模

一对数据点 (x,y)( x,y )(x,y) 的模型

p(t∣x,w,β)=N(t∣y(x,w),β−1)p ( t|x,\text{w},\beta ) = \mathcal{N} ( t|y ( x,\text{w} ) ,\beta^{-1} ) p(t∣x,w,β)=N(t∣y(x,w),β−1)

NNN对数据点 ( 数据集 ) 的模型

p(t∣x,w,β)=∏n=1NN(tn∣y(xn,w),β−1)p ( \mathbf{t}|\mathbf{x},\text{w},\beta ) = \prod_{n=1}^N \mathcal{N} ( t_n|y ( x_n,\text{w} ) ,\beta^{-1} ) p(t∣x,w,β)=n=1∏NN(tn∣y(xn,w),β−1)

对数似然函数

ln⁡p(t∣x,w,β)=−β2∑n=1N(y(xn,w)−tn)2+N2ln⁡β−N2ln⁡(2π)\ln p ( \mathbf{t}|\mathbf{x},\text{w},\beta ) = -\frac{\beta}{2} \sum_{n=1}^N ( y ( x_n,\text{w} ) -t_n )^2 +\frac{N}{2}\ln\beta -\frac{N}{2}\ln ( 2\pi ) lnp(t∣x,w,β)=−2βn=1∑N(y(xn,w)−tn)2+2Nlnβ−2Nln(2π)

模型参数
- β=1/σ2\beta=1/\sigma^2β=1/σ2
- y(x,w)=∑j=0Mwjxjy ( x,\text{w} ) =\sum_{j=0}^M w_j x^jy(x,w)=∑j=0Mwjxj

最大似然解 ( 最大化似然函数等价于最小化平方和误差函数 )

模型参数 : wML\text{w}_{ML}wML
精度参数 : 1βML=1N∑n=1N[y(xn,wML)−tn]2\frac{1}{\beta_{ML}}=\frac1N\sum_{n=1}^N [y ( x_n,\text{w}_{ML} ) -t_n]^2βML1=N1∑n=1N[y(xn,wML)−tn]2
预测分布 ( Eq 1.64 ) : p(t∣x,wML,βML)=N(t∣y(x,wML,βML−1))p ( t|x,\text{w}_{ML},\beta_{ML} ) = \mathcal{N} ( t|y ( x,\text{w}_{ML},\beta_{ML}^{-1} ))p(t∣x,wML,βML)=N(t∣y(x,wML,βML−1))

最大后验解 ( 最大化后验概率等价于最小化正则化的平方和误差函数 )

先验概率

p(w∣α)=N(w∣0,α−1I)=(α2π)(M+1)/2exp⁡(−α2wTw)p ( \text{w}|\alpha ) = \mathcal{N} ( \text{w}|\boldsymbol{0},\alpha^{-1}\mathbf{I} ) = ( \frac{\alpha}{2\pi} )^{( M+1 ) /2} \exp{( -\frac{\alpha}{2}\text{w}^T\text{w} )} p(w∣α)=N(w∣0,α−1I)=(2πα)(M+1)/2exp(−2αwTw)

后验概率

p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α)p ( \text{w}|\mathbf{x},\mathbf{t},\alpha,\beta ) \propto p ( \mathbf{t}|\mathbf{x},\text{w},\beta ) p ( \text{w}|\alpha ) p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α)

与最小化正则化的平方和误差函数的等价公式

β2∑n=1N{y(xn,w)−tn}2+α2wTw\frac\beta2\sum_{n=1}^N \{y ( x_n,\text{w} ) -t_n\}^2+\frac\alpha2\text{w}^T\text{w} 2βn=1∑N{y(xn,w)−tn}2+2αwTw

1.2.6. 贝叶斯曲线拟合 ( Sec 3.3. )

( 依然用于理解贝叶斯观点在模型中的应用，无法理解可以暂时放弃 )

使用最大后验估计，依然属于点估计，不属于贝叶斯的观点。在模式识别中，对所有的模型参数 w\text{w}w 进行积分才是贝叶斯方法的核心。

贝叶斯模型

前提条件
- 输入数据 x\mathbf{x}x
- 目标数据 t\mathbf{t}t
- 新的测试点 xxx
- 新的预测目标 ttt
预测概率 ( Eq 1.69 )

p(t∣x,x,t)=∫p(t∣x,w,β)p(w∣x,t,α,β)dw=N(t∣m(x),s2(x))p ( t|x,\mathbf{x},\mathbf{t} ) = \int p ( t|x,\text{w},\beta ) p ( \text{w}|\mathbf{x},\mathbf{t},\alpha,\beta ) d\text{w} = \mathcal{N} ( t|m ( x ) ,s^2 ( x )) p(t∣x,x,t)=∫p(t∣x,w,β)p(w∣x,t,α,β)dw=N(t∣m(x),s2(x))

模型参数
- m(x)=βϕ(x)TS∑n=1Nϕ(xn)tnm ( x ) =\beta\phi ( x )^T \text{S}\sum_{n=1}^N \phi ( x_n ) t_nm(x)=βϕ(x)TS∑n=1Nϕ(xn)tn：表示预测值 ttt 的不确定性，受目标变量上的噪声影响，在最大似然的预测分布 ( 1.64 ) 中通过 βML−1\beta_{ML}^{-1}βML−1 表达
- s2(x)=β−1+ϕ(x)TSϕ(x)s^2 ( x ) =\beta^{-1} +\phi ( x )^T\text{S}\phi ( x )s2(x)=β−1+ϕ(x)TSϕ(x)：对参数 w\text{w}w 的不确定性有影响
- S−1=αI+β∑n=1Nϕ(xn)ϕ(xn)T\text{S}^{-1} =\alpha\mathbf{I} + \beta\sum_{n=1}^N\phi ( x_n ) \phi ( x_n )^TS−1=αI+β∑n=1Nϕ(xn)ϕ(xn)T
- ϕ(x)≡ϕi(x)=xi,(i=0,⋯,M)\phi ( x ) \equiv \phi_i ( x ) = x^i, ( i=0,\cdots,M )ϕ(x)≡ϕi(x)=xi,(i=0,⋯,M)

1.3. 模型选择

模型复杂度的控制 :
- 多项式的阶数控制了模型的自由参数的个数，即控制了模型的复杂度
- 正则化系数 λ\lambdaλ 影响着模型的自由参数的取值，也控制了模型的复杂度
交叉验证 ( cross validation )
- 可以解决验证模型时面临的数据不足问题
- 会增加训练成本
- 留一法 ( leave-one-out ) 是特例
信息准则 : 度量模型的质量，避免交叉验证的训练成本，使模型选择完全依赖于训练数据
- 修正最大似然的偏差的方法 : 增加惩罚项来补偿过于复杂的模型造成的过拟合
- 赤池信息准则 ( Akaike information criterion, AIC ) : ln⁡p(D∣wML)−M\ln p ( \mathcal{D}|\text{w}_{ML} ) -Mlnp(D∣wML)−M
- 贝叶斯信息准则 ( Bayesian information criterion, BIC ) : ( Sec 4.4.1. )

1.4. 维度灾难

我们在三维空间中建立的集合直觉会在考虑高维空间时不起作用。例如，在高维空间中，一个球体的大部分的体积在哪里？( 可以推导公式理解 )

DDD 维空间的 r=1r=1r=1 的球体的体积 : VD(r)=KDrDV_D ( r ) = K_D r^DVD(r)=KDrD
r=1−ϵr=1-\epsilonr=1−ϵ 和 r=1r = 1r=1 之间的球壳体积与 r=1r=1r=1 的球体的体积比 :
- (VD(1)−VD(1−ϵ))/VD(1)=1−(1−ϵ)D( V_D ( 1 ) - V_D ( 1-\epsilon )) /V_D ( 1 ) =1- ( 1-\epsilon )^D(VD(1)−VD(1−ϵ))/VD(1)=1−(1−ϵ)D
- DDD 的维数越大，体积比趋近于 1
- 在高维空间中，一个球体的大部分体积都聚焦在表面附近的薄球壳上。

维度灾难 ( curse of dimensionality ) : 在高维空间中，大部分的数据都集中在薄球壳上导致数据无法有效区分

维度灾难的解决方案
- 真实数据经常被限制在有着较低的有效维度的空间区域中；( 通过特征选择降维 )
- 真实数据通常比较光滑 ( 至少局部上比较光滑 ) ( 通过局部流形降维 )

1.5. 决策论 ( 分类问题、模式识别 )

问题原型：输入向量 x\text{x}x 和目标向量 t\text{t}t

回归问题：目标向量是连续性变量组成
分类问题：目标向量是离散性变量组成，即类别标签你

决策论 : 保证在不确定性的情况下做出最优的决策。

联合概率分布 p(x,t)p ( \text{x},\text{t} )p(x,t) 总结了所有的不确定性
从训练数据集中确定输入向量 x\text{x}x 和目标向量 t\text{t}t 的联合分布 p(x,t)p ( \text{x,t} )p(x,t) 是推断 ( inference ) 问题
从测试数据集中确定输入向量 x\text{x}x 和目标分类 Ck\mathcal{C}_kCk 的条件概率 p(Ck∣x)p ( \mathcal{C}_k |\text{x} )p(Ck∣x) 是决策 ( inference ) 问题

1.5.1. 最小化错误分类率

基本概念

输入空间根据规则切分成不同的区域，这些区域被称为决策区域。
每个类别都有一个决策区域，区域 Rk\mathcal{R}_kRk 中的点都被分到对应类别 Ck\mathcal{C}_kCk 中
决策区域间的边界叫做决策边界 ( decision boundary ) 或者决策面 ( decision surface )。

决策 : p(Ck∣x)=p(x∣Ck)p(Ck)p(x)p ( \mathcal{C}_k|\text{x} ) =\frac {p ( \text{x}|\mathcal{C}_k ) p ( \mathcal{C}_k )}{p ( \text{x} )}p(Ck∣x)=p(x)p(x∣Ck)p(Ck)

p(Ck)p ( \mathcal{C}_k )p(Ck) 称为类 Ck\mathcal{C}_kCk 的先验概率
p(Ck∣x)p ( \mathcal{C}_k|\text{x} )p(Ck∣x) 称为类 Ck\mathcal{C}_kCk 的后验概率
( Fig 1.24 ) 最小化错误分类率，将 x\text{x}x 分配到具有最大后验概率的类别中

最小化错误分类率 : 将 x\text{x}x 分配到后验概率 p(Ck∣x)p ( \mathcal{C}_k|\text{x} )p(Ck∣x) 最大的类别中，分类错误的概率最小

p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx\begin{aligned} p ( \text{mistake} ) &=p ( \text{x}\in\mathcal{R}_1,\mathcal{C}_2 ) +p ( \text{x}\in\mathcal{R}_2,\mathcal{C}_1 ) \\ &=\int_{\mathcal{R}_1} p ( \text{x},\mathcal{C}_2 ) \text{dx}+\int_{\mathcal{R}_2} p ( \text{x},\mathcal{C}_1 ) \text{dx} \end{aligned} p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx

最大化正确分类率 : 将 x\text{x}x 分配到联合概率 p(Ck,x)p ( \mathcal{C}_k,\text{x} )p(Ck,x) 最大的类别中，分类正确的概率最大

p(correct)=∑k=1Kp(x∈Rk,Ck)=∑k=1K∫Rkp(x,Ck)dxp ( \text{correct} ) =\sum_{k=1}^Kp ( \text{x}\in\mathcal{R}_k,\mathcal{C}_k ) =\sum_{k=1}^K\int_{\mathcal{R}_k} p ( \text{x},\mathcal{C}_k ) \text{dx} p(correct)=k=1∑Kp(x∈Rk,Ck)=k=1∑K∫Rkp(x,Ck)dx

1.5.2. 最小化期望损失 ( 加先验 )

损失函数 ( loss function ) 也称为代价函数 ( cost function )，是对所有可能的决策产生的损失的一种整体度量，目标是最小化整体的损失。

效用函数 ( utility function )，目标是最大化整体的效用，如果效用函数等于损失函数的相反数，则两者等价。

最小化损失的期望 : E[L]=∑k∑j∫RjLkjp(x,Ck)dx\mathbb{E}[L]=\sum_k\sum_j\int_{\mathcal{R}_j} L_{kj} p ( \text{x},\mathcal{C}_k ) dxE[L]=∑k∑j∫RjLkjp(x,Ck)dx

LkjL_{kj}Lkj 表示损失矩阵的第 k,jk,jk,j 个元素，即把类别 Ck\mathcal{C}_kCk 的数据 x\text{x}x 错分为 CjC_jCj 的损失

最小化损失的期望的决策规则 : 对于每个新的 x\text{x}x，分到的类别 CjC_jCj 保证 ∑kLkjp(Ck∣x)\sum_k L_{kj}p ( \mathcal{C}_k|\text{x} )∑kLkjp(Ck∣x) 最小化

1.5.3. 拒绝选项

拒绝选项 ( reject option ) : 为了避免做出错误的决策，系统拒绝从做出类别选择，从而使模型的分类错误率降低。

1.5.4. 推断与决策

分类问题的两个阶段

推断 ( inference ) : 使用训练数据学习后验概率 p(Ck∣x)p ( \mathcal{C}_k|x )p(Ck∣x) 的模型
决策 ( decision ) : 使用后验概率模型进行最优的分类

解决分类问题的三种方法 :

生成式模型 ( generative model ) : 显式或者隐式地对输入和输出进行建模的方法
- 推断阶段 :
  - 首先基于每个类别 Ck\mathcal{C}_kCk 推断类条件密度 p(∣Ck)p ( |\mathcal{C}_k )p(∣Ck)
  - 再推断类别的先验概率密度 p(Ck)p ( \mathcal{C}_k )p(Ck)
  - 再基于贝叶斯定理 p(Ck∣x)=p(x∣Ck)p(Ck)p(x)=p(x∣Ck)p(Ck)∑kp(x∣∣Ck)p(Ck)p ( \mathcal{C}_k|\text{x} ) = \frac {p ( \text{x}|\mathcal{C}_k ) p ( \mathcal{C}_k )}{p ( \text{x} )} = \frac {p ( \text{x}|\mathcal{C}_k ) p ( \mathcal{C}_k )} {\sum_k p ( \text{x}||\mathcal{C}_k ) p ( \mathcal{C}_k )}p(Ck∣x)=p(x)p(x∣Ck)p(Ck)=∑kp(x∣∣Ck)p(Ck)p(x∣Ck)p(Ck) 学习类别的后验概率密度
- 决策阶段 : 使用决策论来确定每个新的输入 x\text{x}x 的类别。
- 优点：能够计算数据的边缘概率密度 p(x)p ( \text{x} )p(x)，方便计算具有低概率的新数据点，即离群点检测。
- 缺点：需要计算的工作量最大
判别式模型 ( Discriminative Models ) : 直接对后验概率密度建模的方法
- 推断阶段 : 首先推断类别的后验概率密度 p(Ck∣x)p ( \mathcal{C}_k|\text{x} )p(Ck∣x)
- 决策阶段 : 使用决策论来确定每个新的输入x\text{x}x的类别。
同时解决两个阶段的问题，即把输入直接映射为决策的函数称为判别函数 ( discriminant function )

使用后验概率进行决策的理由

最小化风险 : 修改最小风险准则就可以适应损失矩阵中元素改变
拒绝选项 :
- 确定最小化误分类率的拒绝标准
- 确定最小化期望损失的拒绝标准
补偿类别先验概率 : 解决不平衡的数据集存在的问题
组合模型 ( Ch 14 ) : 通过特征的独立性假设，将大问题分解成小问题，例如 : 朴素贝叶斯模型

p(xI,xB∣Ck)=p(xI∣Ck)p(xB∣Ck)p(Ck∣xI,xB)∝p(xI,xB∣Ck)p(Ck)∝p(xI∣Ck)p(xB∣Ck)p(Ck)∝p(Ck∣xI)p(Ck∣xB)p(Ck)\begin{aligned} p ( \text{x}_I,\text{x}_B|\mathcal{C}_k ) &=p ( \text{x}_I|\mathcal{C}_k ) p ( \text{x}_B|\mathcal{C}_k ) \\ p ( \mathcal{C}_k|\text{x}_I,\text{x}_B ) &\propto p ( \text{x}_I,\text{x}_B|\mathcal{C}_k ) p ( \mathcal{C}_k ) \\ &\propto p ( \text{x}_I|\mathcal{C}_k ) p ( \text{x}_B|\mathcal{C}_k ) p ( \mathcal{C}_k ) \\ &\propto \frac{p ( \mathcal{C}_k|\text{x}_I ) p ( \mathcal{C}_k|\text{x}_B )}{p ( \mathcal{C}_k )} \end{aligned} p(xI,xB∣Ck)p(Ck∣xI,xB)=p(xI∣Ck)p(xB∣Ck)∝p(xI,xB∣Ck)p(Ck)∝p(xI∣Ck)p(xB∣Ck)p(Ck)∝p(Ck)p(Ck∣xI)p(Ck∣xB)

1.5.5. 回归问题的损失函数

回归问题的决策阶段：对于每个输入向量 x\text{x}x，输出目标变量 ttt 的特定估计 y(x)y ( \text{x} )y(x)，造成损失 L(t,y(x))L ( t,y ( \text{x} ))L(t,y(x))，则整个问题的平均损失，即损失函数的期望
E[L]=∫∫L(t,y(x))p(x,t)dx dt\mathbb{E}[L]=\int\int L ( t,y ( \text{x} )) p ( \text{x},t ) \text{dx d} t E[L]=∫∫L(t,y(x))p(x,t)dx dt

变分法最小化 E[L]\mathbb{E}[L]E[L]

δE[L]δy(x)=2∫[y(x)−t]p(x,t)dt=0\frac{\delta\mathbb{E}[L]}{\delta y ( \text{x} )}= 2\int [y ( \text{x} ) - t] p ( \text{x},t ) dt =0 δy(x)δE[L]=2∫[y(x)−t]p(x,t)dt=0

求解 y(x)y ( \text{x} )y(x) 的最优解

y(x)=∫tp(x,t)dtp(x)=∫tp(t∣x)dt=Et[t∣x]y ( \text{x} ) = \frac{\int t p ( \text{x},t ) \text{d}t}{p ( \text{x} )}= \int t p ( t|\text{x} ) \text{d}t= \mathbb{E}_t [t|\text{x}] y(x)=p(x)∫tp(x,t)dt=∫tp(t∣x)dt=Et[t∣x]

损失函数的具体选择

平方损失函数 : L(t,y(x))={y(x)−t}2L ( t,y ( \text{x} )) =\{y ( \text{x} ) -t\}^2L(t,y(x))={y(x)−t}2
损失函数的期望

E[L]=∫∫{y(x)−t}2p(x,t)dx dt=∫∫{y(x)−Et[t∣x]+Et[t∣x]−t}2p(x,t)dx dt=∫∫[{y(x)−Et[t∣x]}2+2{y(x)−Et[t∣x]}{Et[t∣x]−t}+{Et[t∣x]−t}2]p(x,t)dx dt=∫{y(x)−Et[t∣x]}2p(x)dx+∫var[t∣x]p(x)dx\begin{aligned} \mathbb{E}[L] & =\int\int\{y ( \text{x} ) -t\}^2 p ( \text{x},t ) \text{dx d} t\\ & =\int\int \{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}] + \mathbb{E}_t [t|\text{x}] -t\}^2 p ( \text{x},t ) \text{dx d}t\\ & = \int\int [\{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]\}^2 + 2\{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]\}\{\mathbb{E}_t [t|\text{x}] -t\} + \{\mathbb{E}_t [t|\text{x}] -t\}^2] p ( \text{x},t ) \text{dx d}t\\ & = \int \{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]\}^2 p ( \text{x} ) \text{dx}+ \int\text{var}[t|\text{x}] p ( \text{x} ) \text{dx} \end{aligned} E[L]=∫∫{y(x)−t}2p(x,t)dx dt=∫∫{y(x)−Et[t∣x]+Et[t∣x]−t}2p(x,t)dx dt=∫∫[{y(x)−Et[t∣x]}2+2{y(x)−Et[t∣x]}{Et[t∣x]−t}+{Et[t∣x]−t}2]p(x,t)dx dt=∫{y(x)−Et[t∣x]}2p(x)dx+∫var[t∣x]p(x)dx

第一项：当 y(x)=Et[t∣x]y ( \text{x} ) = \mathbb{E}_t [t|\text{x}]y(x)=Et[t∣x] 时取得最小值，即 E[L]\mathbb{E}[L]E[L] 最小化。
- 说明最小平方预测由条件均值给出。
第二项：是 ttt 的分布的方差在 x\text{x}x 上进行了平均，表示目标数据内在的变化性，即噪声。
- 与 y(x)y ( \text{x} )y(x) 无关，表示损失函数的不可减小的最小值。
闵可夫斯基 ( Minkowski ) 损失函数 ( 平方损失函数的一种推广 )

Lq(t,y(x))=∣y(x)−t∣qE[Lq]=∫∫∣y(x)−t∣qp(x,t)dx dt\begin{aligned} L_q ( t,y ( \text{x} )) &=|y ( \text{x} ) -t|^q\\ \mathbb{E}[L_q] &=\int\int|y ( \text{x} ) -t|^q p ( \text{x},t ) \text{dx d} t \end{aligned} Lq(t,y(x))E[Lq]=∣y(x)−t∣q=∫∫∣y(x)−t∣qp(x,t)dx dt

解决回归问题的三种思路 ( 建议从机器学习参考书中熟悉这三种方法 )

函数模型 : 直接从训练数据中寻找一个回归函数
概率建模 : 最大似然 : 先解决条件概率密度的推断问题，再求条件均值；
概率建模 : 最大后验 : 先求联合概率密度，再求条件概率密度，最后求条件均值；

1.6. 信息论

离散随机变量 xxx

信息量 : 学习 xxx 的值的时候的「惊讶」程度，
- h(x)=−log⁡2p(x)h ( x ) =-\log_2 p ( x )h(x)=−log2p(x)
- 负号确保信息一定是正数或者为零
- 对数确保低概率事件 xxx 对应高的信息量
  - 使用 2 作为对数的底，h(x)h ( x )h(x) 的单位是比特 ( bit, binary digit )
  - 使用 e 作为对数的底，h(x)h ( x )h(x) 的单位是奈特 ( nat, Napierian digit )
平均信息量 : 发送者想传输一个随机变量的值给接收者，在这个传输过程中，他们传输的平均信息量就是随机变量 xxx 的熵。
- H[x]=−∑xp(x)log⁡2p(x)H [x]=-\sum_x p ( x ) \log_2 p ( x )H[x]=−∑xp(x)log2p(x)
- 无噪声编码定理 ( noiseless coding theorem ) 表明：熵是传输一个随机变量状态值所需要的比特位的下界。
- 在统计力学中，熵用来描述无序程度的度量。

离散随机变量的熵 ( entropy )

熵：H[p(x)]=−∑ip(xi)ln⁡p(xi)H [p ( x )] = -\sum_i p ( x_i ) \ln p ( x_i )H[p(x)]=−∑ip(xi)lnp(xi)
离散随机变量服从均匀分布时，其熵值最大

连续随机变量的熵

HΔH_{\Delta}HΔ 的定义
- ∑ip(xi)Δ=1\sum_i p ( x_i ) \Delta = 1∑ip(xi)Δ=1
- 因为 Δ→0\Delta\rightarrow0Δ→0 时，熵的连续形式与离散形式的差 ln⁡Δ→∞\ln\Delta\rightarrow\inftylnΔ→∞，即具体化一个连续变量需要大量的比特位，因此省略 −ln⁡Δ-\ln\Delta−lnΔ 得连续随机变量的熵 lim⁡Δ→0{−∑ip(xi)Δln⁡p(xi)}=−∫p(x)ln⁡p(x)dx\lim_{\Delta\rightarrow0}\{-\sum_i p ( x_i ) \Delta\ln p ( x_i ) \} = -\int p ( \text{x} ) \ln p ( \text{x} ) \text{dx}limΔ→0{−∑ip(xi)Δlnp(xi)}=−∫p(x)lnp(x)dx

HΔ=−∑ip(xi)Δln⁡(p(xi)Δ)=−∑ip(xi)Δln⁡p(xi)−∑ip(xi)Δln⁡Δ=−∑ip(xi)Δln⁡p(xi)−ln⁡Δ\begin{aligned} H_{\Delta} &=-\sum_i p ( x_i ) \Delta\ln ( p ( x_i ) \Delta ) \\ &=-\sum_i p ( x_i ) \Delta\ln p ( x_i ) - \sum_i p ( x_i ) \Delta \ln\Delta \\ &= -\sum_i p ( x_i ) \Delta\ln p ( x_i ) - \ln\Delta \end{aligned} HΔ=−i∑p(xi)Δln(p(xi)Δ)=−i∑p(xi)Δlnp(xi)−i∑p(xi)ΔlnΔ=−i∑p(xi)Δlnp(xi)−lnΔ

微分熵：H[x]=−∫p(x)ln⁡p(x)dxH[\text{x}] = -\int p ( \text{x} ) \ln p ( \text{x} ) \text{dx}H[x]=−∫p(x)lnp(x)dx
- 微分熵可以为负
最大化微分熵需要遵循的三个限制
- ∫−∞+∞p(x)dx=1\int_{-\infty}^{+\infty} p ( x ) \text{d}x=1∫−∞+∞p(x)dx=1
- ∫−∞+∞xp(x)dx=μ\int_{-\infty}^{+\infty} xp ( x ) \text{d}x=\mu∫−∞+∞xp(x)dx=μ
- ∫−∞+∞(x−μ)2p(x)dx=σ2\int_{-\infty}^{+\infty} ( x-\mu )^2 p ( x ) \text{d}x=\sigma^2∫−∞+∞(x−μ)2p(x)dx=σ2
使用拉格朗日乘数法求解带有限制条件的最大化问题
- 使用变分法求解这个函数，令其导数等于零，得 p(x)=exp⁡{−1+λ1+λ2x+λ3(x−μ)2}p ( x ) =\exp\{-1+\lambda_1+\lambda_2 x+\lambda_3 ( x-\mu )^2\}p(x)=exp{−1+λ1+λ2x+λ3(x−μ)2}
- 将结果带入限制方程，得

p(x)=1(2πσ2)1/2exp⁡{−(x−μ)22σ2}−∫−∞+∞p(x)ln⁡p(x)dx+λ1(∫−∞+∞p(x)dx−1)+λ2(∫−∞+∞xp(x)dx−μ)+λ3(∫−∞+∞(x−μ)2p(x)dx−σ2)\begin{aligned} p ( x ) &= \frac1{( 2\pi\sigma^2 )^{1/2}} \exp\{-\frac{( x-\mu )^2}{2\sigma^2}\}\\ -\int_{-\infty}^{+\infty} p ( x ) \ln p ( x ) \text{d}x &+ \lambda_1 ( \int_{-\infty}^{+\infty} p ( x ) \text{d}x -1 ) \\ &+ \lambda_2 ( \int_{-\infty}^{+\infty} xp ( x ) \text{d}x - \mu )\\ &+ \lambda_3 ( \int_{-\infty}^{+\infty} ( x-\mu )^2 p ( x ) \text{d}x - \sigma^2 ) \end{aligned} p(x)−∫−∞+∞p(x)lnp(x)dx=(2πσ2)1/21exp{−2σ2(x−μ)2}+λ1(∫−∞+∞p(x)dx−1)+λ2(∫−∞+∞xp(x)dx−μ)+λ3(∫−∞+∞(x−μ)2p(x)dx−σ2)

连续随机变量服从高斯分布时，其熵值最大。
- 高斯分布的微分熵 H[x]=12{1+ln⁡(2πσ2)}H [x]=\frac12\{1+\ln ( 2\pi\sigma^2 ) \}H[x]=21{1+ln(2πσ2)}
- 熵随着分布宽度 ( σ2\sigma^2σ2 ) 的增加而增加
- 当 σ2<12πe\sigma^2<\frac1{2\pi e}σ2<2πe1 时，H[x]<0H [x]<0H[x]<0
在给定 x 的情况下，y 的条件熵
- H[y|x]=−∫∫p(y,x)ln⁡p(y|x)dy dxH[\text{y|x}]=-\int\int p ( \text{y,x} ) \ln p ( \text{y|x} ) \text{ dy dx}H[y|x]=−∫∫p(y,x)lnp(y|x) dy dx

联合熵

H[x,y]=H[y|x]+H[x]H[\text{x,y}] = H[\text{y|x}] + H[\text{x}]H[x,y]=H[y|x]+H[x]
H[x,y]H[\text{x,y}]H[x,y] 是 p(x,y)p ( \text{x,y} )p(x,y) 的微分熵
H[y|x]H[\text{y|x}]H[y|x] 是 p(y|x)p ( \text{y|x} )p(y|x) 的微分熵
H[x]H[\text{x}]H[x] 是 p(x)p ( \text{x} )p(x) 的微分熵

1.6.1. 相对熵和互信息

凸函数 : 每条弦都位于函数的弧或者弧的上面。f(λa+(1−λ)b)≤λf(a)+(1−λ)f(b)f ( \lambda a + ( 1-\lambda ) b ) \leq \lambda f ( a ) + ( 1-\lambda ) f ( b )f(λa+(1−λ)b)≤λf(a)+(1−λ)f(b)

凸函数的二阶导数处处为正。
严格凸函数 ( strictly convex function ) : 等号只在 λ=0\lambda=0λ=0 和 λ=1\lambda=1λ=1 处取得。

凹函数 : 如果 f(x)f ( x )f(x) 是凸函数，则 −f(x)-f ( x )−f(x) 是凹函数

严格凹函数 ( strictly concave function )

Jensen 不等式

f(∑i=1Mλixi≤∑i=1Mλif(xi)f ( \sum_{i=1}^M \lambda_i x_i \leq \sum_{i=1}^M \lambda_i f ( x_i )f(∑i=1Mλixi≤∑i=1Mλif(xi)
- 将 λi\lambda_iλi 看作取值为 {xi}\{x_i\}{xi} 的离散变量 xxx 的概率分布，则公式为 f(E[x])≤E[f(x)]f ( \mathbb{E}[x] ) \leq \mathbb{E}[f ( x )]f(E[x])≤E[f(x)]
f(∫xp( x ) dx)≤∫f(x)p(x)dxf ( \int\text{x}p\text{( x ) dx} ) \leq\int f ( \text{x} ) p ( \text{x} ) \text{dx}f(∫xp( x ) dx)≤∫f(x)p(x)dx

KL 散度 : 是两个分布 p(x)p ( \text{x} )p(x) 和 q(x)q ( \text{x} )q(x) 之间不相似程度的度量。

−ln⁡x-\ln x−lnx 是严格凸函数
归一化条件：∫q(x)dx=1\int q ( \text{x} ) \text{dx}=1∫q(x)dx=1

KL(p∣∣q)=−∫p(x)ln⁡q( x ) dx−(−∫p(x)ln⁡p( x ) dx)KL(p∣∣q)=−∫p(x)ln⁡(q(x)p(x))dx≥−ln⁡∫q( x ) dx=0\begin{aligned} \text{KL} ( p||q ) &= -\int p ( \text{x} ) \ln q\text{( x ) dx} - ( -\int p ( \text{x} ) \ln p\text{( x ) dx} ) \\ \text{KL} ( p||q ) &= -\int p ( \text{x} ) \ln ( \frac{q ( \text{x} )}{p ( \text{x} )} ) \text{dx} \geq -\ln\int q\text{( x ) dx} = 0 \\ \end{aligned} KL(p∣∣q)KL(p∣∣q)=−∫p(x)lnq( x ) dx−(−∫p(x)lnp( x ) dx)=−∫p(x)ln(p(x)q(x))dx≥−ln∫q( x ) dx=0

Laplace 近似 : 是用方便计算的分布去逼近不方便计算的分布，解决 KL 散度不易计算的问题 ( Sec 4.4 )

假设数据通过未知分布 p(x)p ( \text{x} )p(x) 生成，为了对 p(x)p ( \text{x} )p(x) 建模可以使用 q(x∣θ)q ( \text{x}|\theta )q(x∣θ) 来近似，q(x∣θ)q ( \text{x}|\theta )q(x∣θ) 可以是一个已知分布 ( 例如： θ\thetaθ 是控制多元高斯分布的参数 )，通过最小化 p(x)p ( \text{x} )p(x) 和 q(x∣θ)q ( \text{x}|\theta )q(x∣θ) 之间关于 θ\thetaθ 的 KL 散度，就可以得到 p(x)p ( \text{x} )p(x) 的近似分布。
- KL(p∣∣q)≃1N∑n=1N[−ln⁡q(xn∣θ)+ln⁡p(xn)]\text{KL} ( p||q ) \simeq \frac1N \sum_{n=1}^N [-\ln q ( \text{x}_n|\theta ) + \ln p ( \text{x}_n )]KL(p∣∣q)≃N1∑n=1N[−lnq(xn∣θ)+lnp(xn)]
  - −ln⁡q(xn∣θ)-\ln q ( \text{x}_n|\theta )−lnq(xn∣θ) 是使用训练集估计的分布 q(x∣θ)q ( \text{x}|\theta )q(x∣θ) 下的 θ\thetaθ 的负对数似然函数
  - ln⁡p(xn)\ln p ( \text{x}_n )lnp(xn) 与 θ\thetaθ 无关
  - 最小化 KL 散度等价于最大化似然函数
互信息 ( mutual information ) : 表示一个新的观测 y\text{y}y 造成的 x\text{x}x 的不确定性的减小 ( 反之亦然 )
- 两个随机变量 p(x)p ( \text{x} )p(x) 和 p(y)p ( \text{y} )p(y) 组成的数据集由 p(x,y)p ( \text{x,y} )p(x,y) 给出
  - 如果两个变量相互独立，则联合分布 p(x,y)=p(x)p(y)p ( \text{x,y} ) =p ( \text{x} ) p ( \text{y} )p(x,y)=p(x)p(y)，互信息 I[x,y]=0I[\text{x,y}]=0I[x,y]=0
  - 如果两个变量没有相互独立，可以通过 KL 散度判断它们之间的「独立」程度，也称为随机变量 p(x)p ( \text{x} )p(x) 和 p(y)p ( \text{y} )p(y) 之间的互信息 I[x,y]>0I[\text{x,y}]>0I[x,y]>0

I[x,y]≡KL(p(x,y)∣∣p(x)p(y))=−∫∫p(x,y)ln⁡(p(x)p(y)p(x,y))dx dyI[x,y]=H[x]−H[x|y]=H[y]−H[y|x]\begin{aligned} I[\text{x,y}] &\equiv\text{KL} ( p ( \text{x,y} ) ||p ( \text{x} ) p ( \text{y} )) \\ &= -\int\int p ( \text{x,y} ) \ln ( \frac{p ( \text{x} ) p ( \text{y} )}{p ( \text{x,y} )} ) \text{ dx dy} \\ I[\text{x,y}] &= H[\text{x}] - H[\text{x|y}]\\ &= H[\text{y}] - H[\text{y|x}] \end{aligned} I[x,y]I[x,y]≡KL(p(x,y)∣∣p(x)p(y))=−∫∫p(x,y)ln(p(x,y)p(x)p(y)) dx dy=H[x]−H[x|y]=H[y]−H[y|x]

相对熵 ( relative entropy ) 或者 KL 散度 ( Kullback-Leibler divergence ) ( 推导过程建议理解 )

小结

本章对于后面需要的重要概念都进行了说明和推导，方便深入理解后面提及的各种算法。
如果看完本章后感觉充斥着许多新的概念，那么建议先放下，找本更加基础的模式识别与机器学习的书，例如 : 李航的《统计学习方法》和周志华的《机器学习》等