PRML - Chapter 01: Introduction

对于第一章来说,都是一些简单的介绍,是一些机器学习的基础知识,如:训练集、测试集、泛化、有监督学习、无监督学习、特征抽取等基本概念。并且,这章会介绍三个重要工具:概率论、决策论、信息论。虽然这些东西听起来让⼈感觉害怕,但是实际上它们非常直观。并且,在实际应⽤中,如果想让机器学习技术发挥最⼤作⽤的话,清楚地理解它们是必须的。

基本知识点

  • 训练集 ( training set ) : 用来通过训练来调节模型的参数。

    • 输入变量 x\text{x}x 的 NNN 次观测组成,记作 X≡{x1,⋯,xN}\text{X}\equiv\{\text{x}_1,\cdots,\text{x}_N\}X≡{x1​,⋯,xN​}
    • 目标变量 ttt 的 NNN 次观测组成,记作 t≡{t1,⋯,tN}\mathbf{t}\equiv\{t_1,\cdots,t_N\}t≡{t1​,⋯,tN​}(通常是被独立考察,人工标注的)
  • 学习的结果 : 表示为一个函数 y(x)y ( x )y(x),它以新的 xxx 为输入,产生的 yyy 为输出,结果与 ttt 的形式相同。
    • yyy 的具体形式 ( 参数 ) 是在训练 ( training ) 阶段被确定的,也被称为学习 ( learning ) 阶段。
    • 当训练阶段完成后,可以使用新的数据集去检验训练的结果,这种数据集称为测试集 ( test set )。
    • 泛化 ( generalization ) : 正确分类与训练集不同的新样本的能力。
  • 原始输入向量需要被预处理 ( pre-processed ),变换到新的变量空间,也称为特征抽取 ( feature extraction ),使问题变得更加容易解决,加快计算速度。
  • 有监督学习 ( supervised learning )
    • 离散输出学习称为分类 ( classification ) 问题
    • 连续输出学习称为回归 ( regression ) 问题
  • 无监督学习 ( unsupervised learning )
    • 离散输出学习称为聚类 ( clustering ) 问题
    • 连续输出学习称为密度估计 ( density estimation )
      • 高维空间投影到二维或者三维空间,为了数据可视化 ( visualization ) 或者降维
  • 反馈学习 ( 强化学习 ) ( reinforcement learning ) : 在给定的条件下,找到合适的动作,使得奖励达到最⼤值。

1.1. 例子 : 多项式曲线拟合

理论基础

  • 概率论提供了数学框架,用来描述不确定性
  • 决策论提供了合适的标准,用来进行最优的预测。

前提条件

  • 训练集 : 输入数据 : 由 xxx 的 NNN 次观察组成 x≡(x1,⋯,xN)T\mathbf{x}\equiv ( x_1,\cdots,x_N )^Tx≡(x1​,⋯,xN​)T
  • 训练集 : 目标数据 : 由 ttt 的 NNN 次观察组成 t≡(t1,⋯,tN)T\mathbf{t}\equiv ( t_1,\cdots,t_N )^Tt≡(t1​,⋯,tN​)T

多项式函数是线性模型,应用于 线性回归 ( Ch 03 ) 和 线性分类 ( Ch 04 )

y(x,w)=w0+w1x+w2x2+⋯+wMxM=∑j=0Mwjxjy ( x,\text{w} ) = w_0 + w_1 x + w_2 x^2 + \cdots + w_M x^M = \sum_{j=0}^M w_j x^j y(x,w)=w0​+w1​x+w2​x2+⋯+wM​xM=j=0∑M​wj​xj

最小化误差函数 ( error function ) 可以调整多项式函数的参数

  • 平方误差函数 ( square error function ) : 最常用

E(w)=12∑n=1N[y(xn,w)−tn]2E ( \text{w} ) =\frac12\sum_{n=1}^N [y ( x_n,\text{w} ) - t_n]^2 E(w)=21​n=1∑N​[y(xn​,w)−tn​]2

  • 根均方 ( root-mean-square, RMS ) 误差函数 : 更方便

ERMS=2E(w∗)/NE_{RMS}=\sqrt{2E ( \text{w}^* ) /N} ERMS​=2E(w∗)/N​

多项式的阶数 MMM 的选择,属于 模型对比 ( model comparison ) 问题 或者 模型选择 ( model selection ) 问题。

拟合问题 : 模型容量 与 实际问题 不匹配

  • 欠拟合 ( Under-fitting ) : 模型过于简单,模型容量低,不能充分描述问题
  • 过拟合 ( Over-fitting ) : 模型过于复杂,模型容量高,可能描述数据噪声

正则化 ( regularization ) : 解决过拟合问题,即给误差函数增加惩罚项,使得系数不会达到很大的值

  • 正则项的 λ\lambdaλ 系数控制过拟合的影响
  • 统计学 : 叫做收缩 ( shrinkage ) 方法
  • 二次正则项 : 称为岭回归 ( ridge regression )
  • 神经网络 : 称为权值衰减 ( weight decay )

确定模型复杂度 : 验证集 ( validation set ),也被称为拿出集 ( hold-out set ),缺点是不能充分利用数据,太浪费有价值的训练数据了。

数据集规模 : 训练数据的数量应该是模型可调节参数的数量的 5~10 倍。

最大似然 ( maximum likelihood, ML )

  • 最小二乘法 是 最大似然法 的特例
  • 过拟合问题 是 ML 的一种通用属性
  • 使用 Bayesian 方法解决过拟合问题,等价于正则化

1.2. 概率论

理解 离散随机变量 与 连续随机变量 之间的关系

离散随机变量

  • 联合概率 : XXX 取值 xix_ixi​,YYY 取值 yjy_jyj​,的联合概率是

p(X=xi,Y=yj)=nijNp ( X=x_i,Y=y_j ) =\frac{n_{ij}}{N} p(X=xi​,Y=yj​)=Nnij​​

  • 边缘概率 : XXX 取值 xix_ixi​( 与 YYY 取值无关 ) 的边缘概率是

p(X=xi)=ciNp ( X=x_i ) = \frac{c_i}N p(X=xi​)=Nci​​

  • 加和规则推导

p(X=xi)=∑j=1Lp(X=xi,Y=yj)p ( X=x_i ) = \sum_{j=1}^L p ( X=x_i,Y=y_j ) p(X=xi​)=j=1∑L​p(X=xi​,Y=yj​)

  • 条件概率 : 在XXX 取值 xix_ixi​ 中 YYY 取值 yjy_jyj​ 的条件概率是

p(Y=yj∣X=xi)=nijcip ( Y=y_j|X=x_i ) =\frac{n_{ij}}{c_i} p(Y=yj​∣X=xi​)=ci​nij​​

  • 乘积规则推导

p(X=xi,Y=yj)=nijN=nijci⋅ciN=p(Y=yj∣X=xi)p(X=xi)p ( X=x_i,Y=y_j ) =\frac{n_{ij}}N=\frac{n_{ij}}{c_i}\cdot\frac{c_i}N = p ( Y=y_j|X=x_i ) p ( X=x_i ) p(X=xi​,Y=yj​)=Nnij​​=ci​nij​​⋅Nci​​=p(Y=yj​∣X=xi​)p(X=xi​)

  • 贝叶斯定理

p(Y∣X)=p(X∣Y)p(Y)p(X)=p(X∣Y)p(Y)∑Yp(X∣Y)p(Y)p ( Y|X ) =\frac{p ( X|Y ) p ( Y )}{p ( X )}=\frac{p ( X|Y ) p ( Y )}{\sum_Y p ( X|Y ) p ( Y )} p(Y∣X)=p(X)p(X∣Y)p(Y)​=∑Y​p(X∣Y)p(Y)p(X∣Y)p(Y)​

  • XXX 和 YYY 相互独立

p(X,Y)=p(X)p(Y)p ( X,Y ) =p ( X ) p ( Y ) p(X,Y)=p(X)p(Y)

概率论的两种基本规则 ( 后面会有大量的应用,需要充分理解才能正确的使用 )

  • 加和规则 ( sum rule ) : p(X)=∑Yp(X,Y)p ( X ) =\sum_Y p ( X,Y )p(X)=∑Y​p(X,Y)
  • 乘积规则 ( product rule ) : p(X,Y)=p(Y∣X)p(X)p ( X,Y ) =p ( Y|X ) p ( X )p(X,Y)=p(Y∣X)p(X)

这⾥p(X,Y)p(X,Y)p(X,Y)是联合概率,可以表述为“X且Y 的概率”。类似地,p(Y∣X)p(Y | X)p(Y∣X)是条件概率,可以表述为“给定X的条件下Y 的概率”,p(X)是边缘概率,可以简单地表述为"X的概率”。这两个简单的规则组成了我们在全书中使用的全部概率推导的基础。

1.2.1. 概率密度

离散随机变量

概率质量函数 ( probability mass function )
p(X=xi)=∑jnij/Np ( X=x_i ) = \sum_j n_{ij} /N p(X=xi​)=j∑​nij​/N
条件概率 ( conditional probability )
p(Y=yj∣X=xi)=nij/∑jnijp ( Y=y_j|X=x_i ) = n_{ij}/ \sum_j n_{ij} p(Y=yj​∣X=xi​)=nij​/j∑​nij​

  • 利用乘积规则得到联合概率 ( conditional probability )

p(X=xi,Y=yj)=p(Y=yj∣X=xi)p(X=xi)p ( X=x_i,Y=y_j ) =p ( Y=y_j|X=x_i ) p ( X=x_i ) p(X=xi​,Y=yj​)=p(Y=yj​∣X=xi​)p(X=xi​)

联合概率 ( joint probability )
p(X=xi,Y=yj)=nij/Np ( X=x_i,Y=y_j ) =n_{ij}/N p(X=xi​,Y=yj​)=nij​/N

  • 利用加和规则得到边缘概率 ( marginal probability )

p(X=xi)=∑j=1Lp(X=xi,Y=yj)p ( X=x_i ) =\sum_{j=1}^L p ( X=x_i,Y=y_j ) p(X=xi​)=j=1∑L​p(X=xi​,Y=yj​)

连续随机变量

概率密度函数 ( probability density function ) : p(x∈(a,b))=∫abp(x)dxp ( x\in ( a,b )) =\int_a^b p ( x ) dxp(x∈(a,b))=∫ab​p(x)dx

累积分布函数 ( cumulative distribution function ) : p(z)=∫−∞zp(x)dxp ( z ) = \int_{-\infty}^z p ( x ) dxp(z)=∫−∞z​p(x)dx

由于概率是非负的,并且x的值一定位于实数轴上的某个位置,因此概率密度一定满足下面两个条件

  • p(X)≥0p(X) \ge 0p(X)≥0
  • ∫−∞+∞p(x)dx=1\int_{-\infty}^{+\infty} p( x ) dx=1∫−∞+∞​p(x)dx=1

1.2.2. 期望 与 协方差

期望 ( expectation ) : 函数的平均值

  • 离散随机变量 的 期望 : E[f]=∑xp(x)f(x)\mathbb{E}[f] = \sum_x p ( x ) f ( x )E[f]=∑x​p(x)f(x)
  • 连续随机变量 的 期望 : E[f]=∫p(x)f(x)dx\mathbb{E}[f]=\int p ( x ) f ( x ) dxE[f]=∫p(x)f(x)dx
  • 有限数量的数据集,数据集中的点满足某个 概率分布函数 或者 概率密度函数,那么 期望 可以用 求和 的方式来估计

E[f]≃1N∑n=1Nf(xn)\mathbb{E}[f]\simeq \frac1N\sum_{n=1}^N f ( x_n ) E[f]≃N1​n=1∑N​f(xn​)

  • 多变量函数的期望,使用下标 Ex[f(x,y)]\mathbb{E}_x [f ( x,y )]Ex​[f(x,y)] 表明关于 xxx 的分布的平均,是 yyy 的一个函数

Ex[f(x,y)]=∑xp(x)f(x,y)\mathbb{E}_x [f ( x,y )] = \sum_x p ( x ) f ( x,y ) Ex​[f(x,y)]=x∑​p(x)f(x,y)

  • 条件分布的条件期望 ( conditional expectation )

Ex[f∣y]=∑xp(x∣y)f(x)\mathbb{E}_x [f|y]=\sum_x p ( x|y ) f ( x ) Ex​[f∣y]=x∑​p(x∣y)f(x)

方差 ( variance ) : 度量了函数 f(x)f ( x )f(x) 在均值 E[f(x)]\mathbb{E}[f ( x )]E[f(x)] 附近的变化性
var[f]=E[(f(x)−E[f(x)])2]=E[f(x)2]−E[f(x)]2var[x]=E[x2]−E[x]2\begin{aligned} \text{var}[f] &= \mathbb{E}[( f ( x ) -\mathbb{E}[f ( x )] )^2] =\mathbb{E}[f ( x )^2]-\mathbb{E}[f ( x )]^2\\ \text{var}[x] &=\mathbb{E}[x^2]-\mathbb{E}[x]^2 \end{aligned} var[f]var[x]​=E[(f(x)−E[f(x)])2]=E[f(x)2]−E[f(x)]2=E[x2]−E[x]2​

协方差 ( covariance ) : 度量两个随机变量之间的关系,表示多大程度上xxx和yyy会共同变化。

  • 两个值随机变量的协方差

cov[x,y]=Ex,y[(x−E[x])(y−E[y])]=Ex,y[xy]−E[x]E[y]\text{cov}[x,y] = \mathbb{E}_{x,y} [( x - \mathbb{E}[x] ) ( y - \mathbb{E}[y] )] = \mathbb{E}_{x,y}[xy] - \mathbb{E}[x]\mathbb{E}[y] cov[x,y]=Ex,y​[(x−E[x])(y−E[y])]=Ex,y​[xy]−E[x]E[y]

  • 两个向量随机变量协方差,协方差是一个矩阵

cov[x,y]=Ex,y[(x−E[x])(yT−E[yT])]=Ex,y[xyT]−E[x]E[yT]\text{cov}[\text{x},\text{y}] = \mathbb{E}_{\text{x},\text{y}} [( \text{x}-\mathbb{E}[\text{x}] ) ( \text{y}^T-\mathbb{E}[\text{y}^T] )] = \mathbb{E}_{\text{x},\text{y}} [\text{xy}^T]-\mathbb{E}[\text{x}]\mathbb{E}[\text{y}^T] cov[x,y]=Ex,y​[(x−E[x])(yT−E[yT])]=Ex,y​[xyT]−E[x]E[yT]

  • 注:如果两个随机变量相互独立,则它们的协方差为 0

  • 一个向量随机变量 : cov[x]≡cov[x,x]\text{cov}[x] \equiv \text{cov}[x,x]cov[x]≡cov[x,x]

1.2.3. 经典概率论 与 贝叶斯概率论

经典概率论

  • 概率 : 随机重复事件发生的频率。
  • 似然函数
    • 频率学派:参数 www 是固定的值,可以通过某种形式的"估计"来确定

      • 估计的误差通过考察可能的数据集 D\mathcal{D}D 获得
      • 确定误差的方法 : (自助发)Bootstrap[^Geof,2009]。通过从原始数据集中随机抽取来创建多个数据集,再对多个数据集的估计值求得方差确定参数误差
    • 贝叶斯派:只有⼀个数据集DDD(即实际观测到的数据集),参数的不确定性通过www的概率分布来表达
    • 似然函数的负对数被叫做误差函数 ( error function ),最大化似然函数 等价于 最小化误差函数
    • 广泛使用最大似然估计 ( maximum likelihood estimator, MLE ) [^Duda,2003] ( P 68 ),
    • 无信息先验概率 就是 最大似然估计

注意:似然函数不是www的分布,并且它关于www的积分不(一定)等于1

Bayesian 概率

  • 概率 : 定量描述不确定性的工具。
  • Bayesian 定理 : p(Y∣X)=p(X∣Y)p(Y)p(X)=p(X∣Y)p(Y)∑Yp(X∣Y)p(Y)p ( Y|X ) =\frac{p ( X|Y ) p ( Y )}{p ( X )}=\frac{p ( X|Y ) p ( Y )}{\sum_Y p ( X|Y ) p ( Y )}p(Y∣X)=p(X)p(X∣Y)p(Y)​=∑Y​p(X∣Y)p(Y)p(X∣Y)p(Y)​
    • 先验概率 : p(w)p ( w )p(w) 表达参数 www 的假设

      • 先验概率可以方便地将先验知识包含在模型中
    • 似然函数 : 使用条件概率 p(D∣w)p ( \mathcal{D}|w )p(D∣w) 表达观测数据的效果
      • 由观测数据集 DDD 来估计,可以被看成参数向量 www 的函数。

        • 参数的不确定性通过概率分布来表达。
      • 不是 www 的概率分布,因为它关于 www 的积分并不 ( 一定 ) 等于 1。因此它只是 www 的似然函数,不是概率。
    • 后验概率 : p(w∣D)p ( w|\mathcal{D} )p(w∣D) 表达观测到 D\mathcal{D}D 之后估计参数 www 的不确定性。
      • p(w∣mathcalD)=p(D∣w)p(w)p(D)p ( w|mathcal{D} ) =\frac{p ( \mathcal{D}|w ) p ( w )}{p ( \mathcal{D} )}p(w∣mathcalD)=p(D)p(D∣w)p(w)​
    • 后验概率 ∝\propto∝似然函数 x\text{x}x 先验概率
    • 取样方法 : MCMC ( Ch 11 ) [^Geof,2009]
    • 高效判别方法 : 变分贝叶斯 ( Variational Bayes ) 和期望传播 ( Expectation Propagation )

1.2.4. 高斯分布

( 主要概率分布 Ch 02 )

高斯分布 ( Gaussian distribution ),也叫正态分布 ( normal distribution )

一元实值随机变量 xxx 的高斯分布

  • 定义

N(x∣μ,σ2)=1(2πσ2)1/2exp⁡[−12σ2(x−μ)2]\mathcal{N} ( \text{x}|\mu,\sigma^2 ) = \frac{1}{( 2\pi\sigma^2 )^{1/2}} \exp[-\frac{1}{2\sigma^2} ( \text{x}-\mu )^2] N(x∣μ,σ2)=(2πσ2)1/21​exp[−2σ21​(x−μ)2]

  • 控制参数

    • 均值 μ\muμ
    • 方差 σ2\sigma^2σ2,标准差 σ\sigmaσ
    • 精度 ( precision ) β=1/σ2\beta = 1/{\sigma^2}β=1/σ2
  • 性质
    • 归一化 : ∫−∞+∞N(x∣μ,σ2)dx=1\int_{-\infty}^{+\infty} \mathcal{N} ( x|\mu,\sigma^2 ) dx =1∫−∞+∞​N(x∣μ,σ2)dx=1
    • 期望 : E[x]=∫−∞+∞N(x∣μ,σ2)xdx=μ\mathbb{E}[x] = \int_{-\infty}^{+\infty} \mathcal{N} ( x|\mu,\sigma^2 ) x dx =\muE[x]=∫−∞+∞​N(x∣μ,σ2)xdx=μ
    • 二阶矩 : E[x2]=∫−∞+∞N(x∣μ,σ2)x2dx=μ2+σ2\mathbb{E}[x^2] = \int_{-\infty}^{+\infty} \mathcal{N} ( x|\mu,\sigma^2 ) x^2 dx =\mu^2 + \sigma^2E[x2]=∫−∞+∞​N(x∣μ,σ2)x2dx=μ2+σ2
    • 方差 : var[x]=E[x2]−E[x]2=σ2\text{var}[x] = \mathbb{E}[x^2] - \mathbb{E}[x]^2 = \sigma^2var[x]=E[x2]−E[x]2=σ2
    • 分布的最大值叫众数,与均值恰好相等。

D 维随机向量 x\text{x}x 的高斯分布

  • 定义

N(x∣μ,Σ)=1(2π)D/21∣Σ∣1/2exp⁡{−12(x−μ)TΣ−1(x−μ)}\mathcal{N} ( \text{x}|\boldsymbol{\mu},\Sigma ) = \frac1{( 2\pi )^{D/2}}\frac1{|\Sigma|^{1/2}} \exp\{-\frac12 ( \text{x}-\boldsymbol{\mu} )^T\Sigma^{-1} ( \text{x}-\boldsymbol{\mu} ) \} N(x∣μ,Σ)=(2π)D/21​∣Σ∣1/21​exp{−21​(x−μ)TΣ−1(x−μ)}

  • 控制参数

    • 均值向量 : μ∈RD\boldsymbol{\mu}\in\mathcal{R}^Dμ∈RD
    • 协方差矩阵 : Σ∈RD×D{\Sigma}\in\mathcal{R}^{D \times D}Σ∈RD×D

一元随机实值变量的例子

  • 观测数据集 x=(x1,⋯,xN)T\mathbf{x}= ( x_1,\cdots,x_N )^Tx=(x1​,⋯,xN​)T 表示实值变量 xxx 的 NNN 次观测

    • 观测数据集独立地从高斯分布 N(μ,σ2)\mathcal{N} ( \mu,\sigma^2 )N(μ,σ2) 中抽取出来

      • μ\muμ 和 σ2\sigma^2σ2 未知
      • 独立同分布 ( independent and identically distributed, i.i.d. ) : 独立地从相同数据点集合中抽取的数据
  • 观测数据集的概率

p(x∣μ,σ2)=∏n=1NN(xn∣μ,σ2)p ( \mathbf{x}|\mu,\sigma^2 ) = \prod_{n=1}^N \mathcal{N} ( x_n|\mu,\sigma^2 ) p(x∣μ,σ2)=n=1∏N​N(xn​∣μ,σ2)

  • 对数似然函数 :

ln⁡p(x∣μ,σ2)=−12σ2∑n=1N(xn−μ)2−N2ln⁡σ2−N2ln⁡(2π)\ln p ( \mathbb{x}|\mu,\sigma^2 ) = -\frac{1}{2\sigma^2} \sum_{n=1}^N ( x_n-\mu )^2 -\frac{N}{2}\ln\sigma^2 -\frac{N}{2}\ln ( 2\pi ) lnp(x∣μ,σ2)=−2σ21​n=1∑N​(xn​−μ)2−2N​lnσ2−2N​ln(2π)

  • 基于 最大似然函数 估计参数

    • 均值 的 最大似然解 等于 样本均值

      • μML=1N∑n=1Nxn\mu_{ML}=\frac{1}{N}\sum_{n=1}^N x_nμML​=N1​∑n=1N​xn​
    • 方差 的 最大似然解 等于 样本均值 的 样本方差
      • σML2=1N∑n=1N(xn−μML)2\sigma_{ML}^2=\frac{1}{N}\sum_{n=1}^N ( x_n-\mu_{ML} )^2σML2​=N1​∑n=1N​(xn​−μML​)2
    • 理论上需要同时关于 μ\muμ 和 σ2\sigma^2σ2 最大化函数,实际上 μ\muμ 的解与 σ2\sigma^2σ2 的无关,因此可以先求解 μ\muμ,再求解 σ2\sigma^2σ2
  • 最大似然的偏移问题 是 多项式曲线拟合问题 中遇到的 过拟合问题 的核心。
    • 最大似然估计 的 均值 等于 模型 中 输入 的 真实均值

      • ( Eq 1.55 ) : E[μML]=μ\mathbb{E}[\mu_{ML}]=\muE[μML​]=μ
    • 最大似然估计 的 方差 小于 模型 中 输入 的 真实方差
      • ( Eq 1.56 ) : E[σML2]=N−1Nσ2\mathbb{E}[\sigma_{ML}^2]=\frac{N-1}{N}\sigma^2E[σML2​]=NN−1​σ2
    • 无偏的方差估计
      • ( Eq 1.59 ) : σ~2=NN−1σML2=1N−1∑n=1N(xn−μML)2\tilde{\sigma}^2 = \frac{N}{N-1}\sigma_{ML}^2 = \frac1{N-1}\sum_{n=1}^N ( x_n-\mu_{ML} )^2σ~2=N−1N​σML2​=N−11​∑n=1N​(xn​−μML​)2
      • 在 N→∞N\rightarrow\inftyN→∞ 时,最大似然解的偏移影响不大,方差的最大似然解与真实方差相等
  • 最大似然估计 vs 最大后验估计
    • 最大似然估计 : 在给定的"数据集"下最大化"参数"的概率
    • 最大后验估计 : 在给定"参数"下最大化"数据集"的概率

1.2.5. 概率建模 : 多项式曲线拟合

概率建模

  • 一对数据点 (x,y)( x,y )(x,y) 的模型

p(t∣x,w,β)=N(t∣y(x,w),β−1)p ( t|x,\text{w},\beta ) = \mathcal{N} ( t|y ( x,\text{w} ) ,\beta^{-1} ) p(t∣x,w,β)=N(t∣y(x,w),β−1)

  • NNN对数据点 ( 数据集 ) 的模型

p(t∣x,w,β)=∏n=1NN(tn∣y(xn,w),β−1)p ( \mathbf{t}|\mathbf{x},\text{w},\beta ) = \prod_{n=1}^N \mathcal{N} ( t_n|y ( x_n,\text{w} ) ,\beta^{-1} ) p(t∣x,w,β)=n=1∏N​N(tn​∣y(xn​,w),β−1)

  • 对数似然函数

ln⁡p(t∣x,w,β)=−β2∑n=1N(y(xn,w)−tn)2+N2ln⁡β−N2ln⁡(2π)\ln p ( \mathbf{t}|\mathbf{x},\text{w},\beta ) = -\frac{\beta}{2} \sum_{n=1}^N ( y ( x_n,\text{w} ) -t_n )^2 +\frac{N}{2}\ln\beta -\frac{N}{2}\ln ( 2\pi ) lnp(t∣x,w,β)=−2β​n=1∑N​(y(xn​,w)−tn​)2+2N​lnβ−2N​ln(2π)

  • 模型参数

    • β=1/σ2\beta=1/\sigma^2β=1/σ2
    • y(x,w)=∑j=0Mwjxjy ( x,\text{w} ) =\sum_{j=0}^M w_j x^jy(x,w)=∑j=0M​wj​xj

最大似然解 ( 最大化似然函数 等价于 最小化平方和误差函数 )

  • 模型参数 : wML\text{w}_{ML}wML​
  • 精度参数 : 1βML=1N∑n=1N[y(xn,wML)−tn]2\frac{1}{\beta_{ML}}=\frac1N\sum_{n=1}^N [y ( x_n,\text{w}_{ML} ) -t_n]^2βML​1​=N1​∑n=1N​[y(xn​,wML​)−tn​]2
  • 预测分布 ( Eq 1.64 ) : p(t∣x,wML,βML)=N(t∣y(x,wML,βML−1))p ( t|x,\text{w}_{ML},\beta_{ML} ) = \mathcal{N} ( t|y ( x,\text{w}_{ML},\beta_{ML}^{-1} ))p(t∣x,wML​,βML​)=N(t∣y(x,wML​,βML−1​))

最大后验解 ( 最大化后验概率 等价于 最小化正则化的平方和误差函数 )

  • 先验概率

p(w∣α)=N(w∣0,α−1I)=(α2π)(M+1)/2exp⁡(−α2wTw)p ( \text{w}|\alpha ) = \mathcal{N} ( \text{w}|\boldsymbol{0},\alpha^{-1}\mathbf{I} ) = ( \frac{\alpha}{2\pi} )^{( M+1 ) /2} \exp{( -\frac{\alpha}{2}\text{w}^T\text{w} )} p(w∣α)=N(w∣0,α−1I)=(2πα​)(M+1)/2exp(−2α​wTw)

  • 后验概率

p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α)p ( \text{w}|\mathbf{x},\mathbf{t},\alpha,\beta ) \propto p ( \mathbf{t}|\mathbf{x},\text{w},\beta ) p ( \text{w}|\alpha ) p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α)

  • 与 最小化正则化的平方和误差函数 的等价公式

β2∑n=1N{y(xn,w)−tn}2+α2wTw\frac\beta2\sum_{n=1}^N \{y ( x_n,\text{w} ) -t_n\}^2+\frac\alpha2\text{w}^T\text{w} 2β​n=1∑N​{y(xn​,w)−tn​}2+2α​wTw

1.2.6. 贝叶斯曲线拟合 ( Sec 3.3. )

( 依然用于理解贝叶斯观点在模型中的应用,无法理解可以暂时放弃 )

使用最大后验估计,依然属于点估计,不属于贝叶斯的观点。在模式识别中,对所有的模型参数 w\text{w}w 进行积分才是贝叶斯方法的核心。

贝叶斯模型

  • 前提条件

    • 输入数据 x\mathbf{x}x
    • 目标数据 t\mathbf{t}t
    • 新的测试点 xxx
    • 新的预测目标 ttt
  • 预测概率 ( Eq 1.69 )

p(t∣x,x,t)=∫p(t∣x,w,β)p(w∣x,t,α,β)dw=N(t∣m(x),s2(x))p ( t|x,\mathbf{x},\mathbf{t} ) = \int p ( t|x,\text{w},\beta ) p ( \text{w}|\mathbf{x},\mathbf{t},\alpha,\beta ) d\text{w} = \mathcal{N} ( t|m ( x ) ,s^2 ( x )) p(t∣x,x,t)=∫p(t∣x,w,β)p(w∣x,t,α,β)dw=N(t∣m(x),s2(x))

  • 模型参数

    • m(x)=βϕ(x)TS∑n=1Nϕ(xn)tnm ( x ) =\beta\phi ( x )^T \text{S}\sum_{n=1}^N \phi ( x_n ) t_nm(x)=βϕ(x)TS∑n=1N​ϕ(xn​)tn​:表示预测值 ttt 的不确定性,受目标变量上的噪声影响,在最大似然的预测分布 ( 1.64 ) 中通过 βML−1\beta_{ML}^{-1}βML−1​ 表达
    • s2(x)=β−1+ϕ(x)TSϕ(x)s^2 ( x ) =\beta^{-1} +\phi ( x )^T\text{S}\phi ( x )s2(x)=β−1+ϕ(x)TSϕ(x):对参数 w\text{w}w 的不确定性有影响
    • S−1=αI+β∑n=1Nϕ(xn)ϕ(xn)T\text{S}^{-1} =\alpha\mathbf{I} + \beta\sum_{n=1}^N\phi ( x_n ) \phi ( x_n )^TS−1=αI+β∑n=1N​ϕ(xn​)ϕ(xn​)T
    • ϕ(x)≡ϕi(x)=xi,(i=0,⋯,M)\phi ( x ) \equiv \phi_i ( x ) = x^i, ( i=0,\cdots,M )ϕ(x)≡ϕi​(x)=xi,(i=0,⋯,M)

1.3. 模型选择

  • 模型复杂度的控制 :

    • 多项式的阶数控制了模型的自由参数的个数,即控制了模型的复杂度
    • 正则化系数 λ\lambdaλ 影响着模型的自由参数的取值,也控制了模型的复杂度
  • 交叉验证 ( cross validation )
    • 可以解决验证模型时面临的数据不足问题
    • 会增加训练成本
    • 留一法 ( leave-one-out ) 是特例
  • 信息准则 : 度量模型的质量,避免交叉验证的训练成本,使模型选择完全依赖于训练数据
    • 修正最大似然的偏差的方法 : 增加惩罚项来补偿过于复杂的模型造成的过拟合
    • 赤池信息准则 ( Akaike information criterion, AIC ) : ln⁡p(D∣wML)−M\ln p ( \mathcal{D}|\text{w}_{ML} ) -Mlnp(D∣wML​)−M
    • 贝叶斯信息准则 ( Bayesian information criterion, BIC ) : ( Sec 4.4.1. )

1.4. 维度灾难

我们在三维空间中建立的集合直觉会在考虑高维空间时不起作用。例如,在高维空间中,一个球体的大部分的体积在哪里?( 可以推导公式理解 )

  • DDD 维空间的 r=1r=1r=1 的球体的体积 : VD(r)=KDrDV_D ( r ) = K_D r^DVD​(r)=KD​rD
  • r=1−ϵr=1-\epsilonr=1−ϵ 和 r=1r = 1r=1 之间的球壳体积与 r=1r=1r=1 的球体的体积比 :
    • (VD(1)−VD(1−ϵ))/VD(1)=1−(1−ϵ)D( V_D ( 1 ) - V_D ( 1-\epsilon )) /V_D ( 1 ) =1- ( 1-\epsilon )^D(VD​(1)−VD​(1−ϵ))/VD​(1)=1−(1−ϵ)D
    • DDD 的维数越大,体积比趋近于 1
    • 在高维空间中,一个球体的大部分体积都聚焦在表面附近的薄球壳上。

维度灾难 ( curse of dimensionality ) : 在高维空间中,大部分的数据都集中在薄球壳上导致数据无法有效区分

  • 维度灾难的解决方案

    • 真实数据经常被限制在有着较低的有效维度的空间区域中;( 通过特征选择降维 )
    • 真实数据通常比较光滑 ( 至少局部上比较光滑 ) ( 通过局部流形降维 )

1.5. 决策论 ( 分类问题、模式识别 )

问题原型:输入向量 x\text{x}x 和 目标向量 t\text{t}t

  • 回归问题:目标向量是连续性变量组成
  • 分类问题:目标向量是离散性变量组成,即类别标签你

决策论 : 保证在不确定性的情况下做出最优的决策。

  • 联合概率分布 p(x,t)p ( \text{x},\text{t} )p(x,t) 总结了所有的不确定性
  • 从训练数据集中确定输入向量 x\text{x}x 和目标向量 t\text{t}t 的联合分布 p(x,t)p ( \text{x,t} )p(x,t) 是推断 ( inference ) 问题
  • 从测试数据集中确定输入向量 x\text{x}x 和目标分类 Ck\mathcal{C}_kCk​ 的条件概率 p(Ck∣x)p ( \mathcal{C}_k |\text{x} )p(Ck​∣x) 是决策 ( inference ) 问题

1.5.1. 最小化错误分类率

基本概念

  • 输入空间根据规则切分成不同的区域,这些区域被称为决策区域。
  • 每个类别都有一个决策区域,区域 Rk\mathcal{R}_kRk​ 中的点都被分到对应类别 Ck\mathcal{C}_kCk​ 中
  • 决策区域间的边界叫做决策边界 ( decision boundary ) 或者决策面 ( decision surface )。

决策 : p(Ck∣x)=p(x∣Ck)p(Ck)p(x)p ( \mathcal{C}_k|\text{x} ) =\frac {p ( \text{x}|\mathcal{C}_k ) p ( \mathcal{C}_k )}{p ( \text{x} )}p(Ck​∣x)=p(x)p(x∣Ck​)p(Ck​)​

  • p(Ck)p ( \mathcal{C}_k )p(Ck​) 称为类 Ck\mathcal{C}_kCk​ 的先验概率
  • p(Ck∣x)p ( \mathcal{C}_k|\text{x} )p(Ck​∣x) 称为类 Ck\mathcal{C}_kCk​ 的后验概率
  • ( Fig 1.24 ) 最小化错误分类率,将 x\text{x}x 分配到具有最大后验概率的类别中

最小化错误分类率 : 将 x\text{x}x 分配到后验概率 p(Ck∣x)p ( \mathcal{C}_k|\text{x} )p(Ck​∣x) 最大的类别中,分类错误的概率最小

p(mistake)=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx\begin{aligned} p ( \text{mistake} ) &=p ( \text{x}\in\mathcal{R}_1,\mathcal{C}_2 ) +p ( \text{x}\in\mathcal{R}_2,\mathcal{C}_1 ) \\ &=\int_{\mathcal{R}_1} p ( \text{x},\mathcal{C}_2 ) \text{dx}+\int_{\mathcal{R}_2} p ( \text{x},\mathcal{C}_1 ) \text{dx} \end{aligned} p(mistake)​=p(x∈R1​,C2​)+p(x∈R2​,C1​)=∫R1​​p(x,C2​)dx+∫R2​​p(x,C1​)dx​

最大化正确分类率 : 将 x\text{x}x 分配到联合概率 p(Ck,x)p ( \mathcal{C}_k,\text{x} )p(Ck​,x) 最大的类别中,分类正确的概率最大

p(correct)=∑k=1Kp(x∈Rk,Ck)=∑k=1K∫Rkp(x,Ck)dxp ( \text{correct} ) =\sum_{k=1}^Kp ( \text{x}\in\mathcal{R}_k,\mathcal{C}_k ) =\sum_{k=1}^K\int_{\mathcal{R}_k} p ( \text{x},\mathcal{C}_k ) \text{dx} p(correct)=k=1∑K​p(x∈Rk​,Ck​)=k=1∑K​∫Rk​​p(x,Ck​)dx

1.5.2. 最小化期望损失 ( 加先验 )

损失函数 ( loss function ) 也称为代价函数 ( cost function ),是对所有可能的决策产生的损失的一种整体度量,目标是最小化整体的损失。

效用函数 ( utility function ),目标是最大化整体的效用,如果效用函数等于损失函数的相反数,则两者等价。

最小化损失的期望 : E[L]=∑k∑j∫RjLkjp(x,Ck)dx\mathbb{E}[L]=\sum_k\sum_j\int_{\mathcal{R}_j} L_{kj} p ( \text{x},\mathcal{C}_k ) dxE[L]=∑k​∑j​∫Rj​​Lkj​p(x,Ck​)dx

  • LkjL_{kj}Lkj​ 表示损失矩阵的第 k,jk,jk,j 个元素,即把类别 Ck\mathcal{C}_kCk​ 的数据 x\text{x}x 错分为 CjC_jCj​ 的损失

最小化损失的期望的决策规则 : 对于每个新的 x\text{x}x,分到的类别 CjC_jCj​ 保证 ∑kLkjp(Ck∣x)\sum_k L_{kj}p ( \mathcal{C}_k|\text{x} )∑k​Lkj​p(Ck​∣x) 最小化

1.5.3. 拒绝选项

拒绝选项 ( reject option ) : 为了避免做出错误的决策,系统拒绝从做出类别选择,从而使模型的分类错误率降低。

1.5.4. 推断与决策

分类问题的两个阶段

  • 推断 ( inference ) : 使用训练数据学习后验概率 p(Ck∣x)p ( \mathcal{C}_k|x )p(Ck​∣x) 的模型
  • 决策 ( decision ) : 使用后验概率模型进行最优的分类

解决分类问题的三种方法 :

  • 生成式模型 ( generative model ) : 显式或者隐式地对输入和输出进行建模的方法

    • 推断阶段 :

      • 首先基于每个类别 Ck\mathcal{C}_kCk​ 推断类条件密度 p(∣Ck)p ( |\mathcal{C}_k )p(∣Ck​)
      • 再推断类别的先验概率密度 p(Ck)p ( \mathcal{C}_k )p(Ck​)
      • 再基于贝叶斯定理 p(Ck∣x)=p(x∣Ck)p(Ck)p(x)=p(x∣Ck)p(Ck)∑kp(x∣∣Ck)p(Ck)p ( \mathcal{C}_k|\text{x} ) = \frac {p ( \text{x}|\mathcal{C}_k ) p ( \mathcal{C}_k )}{p ( \text{x} )} = \frac {p ( \text{x}|\mathcal{C}_k ) p ( \mathcal{C}_k )} {\sum_k p ( \text{x}||\mathcal{C}_k ) p ( \mathcal{C}_k )}p(Ck​∣x)=p(x)p(x∣Ck​)p(Ck​)​=∑k​p(x∣∣Ck​)p(Ck​)p(x∣Ck​)p(Ck​)​ 学习类别的后验概率密度
    • 决策阶段 : 使用决策论来确定每个新的输入 x\text{x}x 的类别。
    • 优点:能够计算数据的边缘概率密度 p(x)p ( \text{x} )p(x),方便计算具有低概率的新数据点,即离群点检测。
    • 缺点:需要计算的工作量最大
  • 判别式模型 ( Discriminative Models ) : 直接对后验概率密度建模的方法
    • 推断阶段 : 首先推断类别的后验概率密度 p(Ck∣x)p ( \mathcal{C}_k|\text{x} )p(Ck​∣x)
    • 决策阶段 : 使用决策论来确定每个新的输入x\text{x}x的类别。
  • 同时解决两个阶段的问题,即把输入直接映射为决策的函数称为判别函数 ( discriminant function )

使用后验概率进行决策的理由

  • 最小化风险 : 修改最小风险准则就可以适应损失矩阵中元素改变
  • 拒绝选项 :
    • 确定最小化误分类率的拒绝标准
    • 确定最小化期望损失的拒绝标准
  • 补偿类别先验概率 : 解决不平衡的数据集存在的问题
  • 组合模型 ( Ch 14 ) : 通过特征的独立性假设,将大问题分解成小问题,例如 : 朴素贝叶斯模型

p(xI,xB∣Ck)=p(xI∣Ck)p(xB∣Ck)p(Ck∣xI,xB)∝p(xI,xB∣Ck)p(Ck)∝p(xI∣Ck)p(xB∣Ck)p(Ck)∝p(Ck∣xI)p(Ck∣xB)p(Ck)\begin{aligned} p ( \text{x}_I,\text{x}_B|\mathcal{C}_k ) &=p ( \text{x}_I|\mathcal{C}_k ) p ( \text{x}_B|\mathcal{C}_k ) \\ p ( \mathcal{C}_k|\text{x}_I,\text{x}_B ) &\propto p ( \text{x}_I,\text{x}_B|\mathcal{C}_k ) p ( \mathcal{C}_k ) \\ &\propto p ( \text{x}_I|\mathcal{C}_k ) p ( \text{x}_B|\mathcal{C}_k ) p ( \mathcal{C}_k ) \\ &\propto \frac{p ( \mathcal{C}_k|\text{x}_I ) p ( \mathcal{C}_k|\text{x}_B )}{p ( \mathcal{C}_k )} \end{aligned} p(xI​,xB​∣Ck​)p(Ck​∣xI​,xB​)​=p(xI​∣Ck​)p(xB​∣Ck​)∝p(xI​,xB​∣Ck​)p(Ck​)∝p(xI​∣Ck​)p(xB​∣Ck​)p(Ck​)∝p(Ck​)p(Ck​∣xI​)p(Ck​∣xB​)​​

1.5.5. 回归问题的损失函数

回归问题的决策阶段:对于每个输入向量 x\text{x}x,输出目标变量 ttt 的特定估计 y(x)y ( \text{x} )y(x),造成损失 L(t,y(x))L ( t,y ( \text{x} ))L(t,y(x)),则整个问题的平均损失,即损失函数的期望
E[L]=∫∫L(t,y(x))p(x,t)dx dt\mathbb{E}[L]=\int\int L ( t,y ( \text{x} )) p ( \text{x},t ) \text{dx d} t E[L]=∫∫L(t,y(x))p(x,t)dx dt

  • 变分法最小化 E[L]\mathbb{E}[L]E[L]

δE[L]δy(x)=2∫[y(x)−t]p(x,t)dt=0\frac{\delta\mathbb{E}[L]}{\delta y ( \text{x} )}= 2\int [y ( \text{x} ) - t] p ( \text{x},t ) dt =0 δy(x)δE[L]​=2∫[y(x)−t]p(x,t)dt=0

  • 求解 y(x)y ( \text{x} )y(x) 的最优解

y(x)=∫tp(x,t)dtp(x)=∫tp(t∣x)dt=Et[t∣x]y ( \text{x} ) = \frac{\int t p ( \text{x},t ) \text{d}t}{p ( \text{x} )}= \int t p ( t|\text{x} ) \text{d}t= \mathbb{E}_t [t|\text{x}] y(x)=p(x)∫tp(x,t)dt​=∫tp(t∣x)dt=Et​[t∣x]

损失函数的具体选择

  • 平方损失函数 : L(t,y(x))={y(x)−t}2L ( t,y ( \text{x} )) =\{y ( \text{x} ) -t\}^2L(t,y(x))={y(x)−t}2
  • 损失函数的期望

E[L]=∫∫{y(x)−t}2p(x,t)dx dt=∫∫{y(x)−Et[t∣x]+Et[t∣x]−t}2p(x,t)dx dt=∫∫[{y(x)−Et[t∣x]}2+2{y(x)−Et[t∣x]}{Et[t∣x]−t}+{Et[t∣x]−t}2]p(x,t)dx dt=∫{y(x)−Et[t∣x]}2p(x)dx+∫var[t∣x]p(x)dx\begin{aligned} \mathbb{E}[L] & =\int\int\{y ( \text{x} ) -t\}^2 p ( \text{x},t ) \text{dx d} t\\ & =\int\int \{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}] + \mathbb{E}_t [t|\text{x}] -t\}^2 p ( \text{x},t ) \text{dx d}t\\ & = \int\int [\{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]\}^2 + 2\{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]\}\{\mathbb{E}_t [t|\text{x}] -t\} + \{\mathbb{E}_t [t|\text{x}] -t\}^2] p ( \text{x},t ) \text{dx d}t\\ & = \int \{y ( \text{x} ) - \mathbb{E}_t [t|\text{x}]\}^2 p ( \text{x} ) \text{dx}+ \int\text{var}[t|\text{x}] p ( \text{x} ) \text{dx} \end{aligned} E[L]​=∫∫{y(x)−t}2p(x,t)dx dt=∫∫{y(x)−Et​[t∣x]+Et​[t∣x]−t}2p(x,t)dx dt=∫∫[{y(x)−Et​[t∣x]}2+2{y(x)−Et​[t∣x]}{Et​[t∣x]−t}+{Et​[t∣x]−t}2]p(x,t)dx dt=∫{y(x)−Et​[t∣x]}2p(x)dx+∫var[t∣x]p(x)dx​

  • 第一项:当 y(x)=Et[t∣x]y ( \text{x} ) = \mathbb{E}_t [t|\text{x}]y(x)=Et​[t∣x] 时取得最小值,即 E[L]\mathbb{E}[L]E[L] 最小化。

    • 说明最小平方预测由条件均值给出。
  • 第二项:是 ttt 的分布的方差在 x\text{x}x 上进行了平均,表示目标数据内在的变化性,即噪声。
    • 与 y(x)y ( \text{x} )y(x) 无关,表示损失函数的不可减小的最小值。
  • 闵可夫斯基 ( Minkowski ) 损失函数 ( 平方损失函数的一种推广 )

Lq(t,y(x))=∣y(x)−t∣qE[Lq]=∫∫∣y(x)−t∣qp(x,t)dx dt\begin{aligned} L_q ( t,y ( \text{x} )) &=|y ( \text{x} ) -t|^q\\ \mathbb{E}[L_q] &=\int\int|y ( \text{x} ) -t|^q p ( \text{x},t ) \text{dx d} t \end{aligned} Lq​(t,y(x))E[Lq​]​=∣y(x)−t∣q=∫∫∣y(x)−t∣qp(x,t)dx dt​

解决回归问题的三种思路 ( 建议从机器学习参考书中熟悉这三种方法 )

  • 函数模型 : 直接从训练数据中寻找一个回归函数
  • 概率建模 : 最大似然 : 先解决条件概率密度的推断问题,再求条件均值;
  • 概率建模 : 最大后验 : 先求联合概率密度,再求条件概率密度,最后求条件均值;

1.6. 信息论

离散随机变量 xxx

  • 信息量 : 学习 xxx 的值的时候的「惊讶」程度,

    • h(x)=−log⁡2p(x)h ( x ) =-\log_2 p ( x )h(x)=−log2​p(x)
    • 负号确保信息一定是正数或者为零
    • 对数确保低概率事件 xxx 对应高的信息量
      • 使用 2 作为对数的底,h(x)h ( x )h(x) 的单位是比特 ( bit, binary digit )
      • 使用 e 作为对数的底,h(x)h ( x )h(x) 的单位是奈特 ( nat, Napierian digit )
  • 平均信息量 : 发送者想传输一个随机变量的值给接收者,在这个传输过程中,他们传输的平均信息量就是随机变量 xxx 的
    • H[x]=−∑xp(x)log⁡2p(x)H [x]=-\sum_x p ( x ) \log_2 p ( x )H[x]=−∑x​p(x)log2​p(x)
    • 无噪声编码定理 ( noiseless coding theorem ) 表明: 是传输一个随机变量状态值所需要的比特位的下界。
    • 在统计力学中,熵用来描述无序程度的度量。

离散随机变量的熵 ( entropy )

  • 熵:H[p(x)]=−∑ip(xi)ln⁡p(xi)H [p ( x )] = -\sum_i p ( x_i ) \ln p ( x_i )H[p(x)]=−∑i​p(xi​)lnp(xi​)
  • 离散随机变量服从均匀分布时,其熵值最大

连续随机变量的熵

  • HΔH_{\Delta}HΔ​ 的定义

    • ∑ip(xi)Δ=1\sum_i p ( x_i ) \Delta = 1∑i​p(xi​)Δ=1
    • 因为 Δ→0\Delta\rightarrow0Δ→0 时,熵的连续形式与离散形式的差 ln⁡Δ→∞\ln\Delta\rightarrow\inftylnΔ→∞,即具体化一个连续变量需要大量的比特位,因此省略 −ln⁡Δ-\ln\Delta−lnΔ 得连续随机变量的熵 lim⁡Δ→0{−∑ip(xi)Δln⁡p(xi)}=−∫p(x)ln⁡p(x)dx\lim_{\Delta\rightarrow0}\{-\sum_i p ( x_i ) \Delta\ln p ( x_i ) \} = -\int p ( \text{x} ) \ln p ( \text{x} ) \text{dx}limΔ→0​{−∑i​p(xi​)Δlnp(xi​)}=−∫p(x)lnp(x)dx

HΔ=−∑ip(xi)Δln⁡(p(xi)Δ)=−∑ip(xi)Δln⁡p(xi)−∑ip(xi)Δln⁡Δ=−∑ip(xi)Δln⁡p(xi)−ln⁡Δ\begin{aligned} H_{\Delta} &=-\sum_i p ( x_i ) \Delta\ln ( p ( x_i ) \Delta ) \\ &=-\sum_i p ( x_i ) \Delta\ln p ( x_i ) - \sum_i p ( x_i ) \Delta \ln\Delta \\ &= -\sum_i p ( x_i ) \Delta\ln p ( x_i ) - \ln\Delta \end{aligned} HΔ​​=−i∑​p(xi​)Δln(p(xi​)Δ)=−i∑​p(xi​)Δlnp(xi​)−i∑​p(xi​)ΔlnΔ=−i∑​p(xi​)Δlnp(xi​)−lnΔ​

  • 微分熵:H[x]=−∫p(x)ln⁡p(x)dxH[\text{x}] = -\int p ( \text{x} ) \ln p ( \text{x} ) \text{dx}H[x]=−∫p(x)lnp(x)dx

    • 微分熵可以为负
  • 最大化微分熵需要遵循的三个限制
    • ∫−∞+∞p(x)dx=1\int_{-\infty}^{+\infty} p ( x ) \text{d}x=1∫−∞+∞​p(x)dx=1
    • ∫−∞+∞xp(x)dx=μ\int_{-\infty}^{+\infty} xp ( x ) \text{d}x=\mu∫−∞+∞​xp(x)dx=μ
    • ∫−∞+∞(x−μ)2p(x)dx=σ2\int_{-\infty}^{+\infty} ( x-\mu )^2 p ( x ) \text{d}x=\sigma^2∫−∞+∞​(x−μ)2p(x)dx=σ2
  • 使用 拉格朗日乘数法求解带有限制条件的最大化问题
    • 使用变分法求解这个函数,令其导数等于零,得 p(x)=exp⁡{−1+λ1+λ2x+λ3(x−μ)2}p ( x ) =\exp\{-1+\lambda_1+\lambda_2 x+\lambda_3 ( x-\mu )^2\}p(x)=exp{−1+λ1​+λ2​x+λ3​(x−μ)2}
    • 将结果带入限制方程,得

p(x)=1(2πσ2)1/2exp⁡{−(x−μ)22σ2}−∫−∞+∞p(x)ln⁡p(x)dx+λ1(∫−∞+∞p(x)dx−1)+λ2(∫−∞+∞xp(x)dx−μ)+λ3(∫−∞+∞(x−μ)2p(x)dx−σ2)\begin{aligned} p ( x ) &= \frac1{( 2\pi\sigma^2 )^{1/2}} \exp\{-\frac{( x-\mu )^2}{2\sigma^2}\}\\ -\int_{-\infty}^{+\infty} p ( x ) \ln p ( x ) \text{d}x &+ \lambda_1 ( \int_{-\infty}^{+\infty} p ( x ) \text{d}x -1 ) \\ &+ \lambda_2 ( \int_{-\infty}^{+\infty} xp ( x ) \text{d}x - \mu )\\ &+ \lambda_3 ( \int_{-\infty}^{+\infty} ( x-\mu )^2 p ( x ) \text{d}x - \sigma^2 ) \end{aligned} p(x)−∫−∞+∞​p(x)lnp(x)dx​=(2πσ2)1/21​exp{−2σ2(x−μ)2​}+λ1​(∫−∞+∞​p(x)dx−1)+λ2​(∫−∞+∞​xp(x)dx−μ)+λ3​(∫−∞+∞​(x−μ)2p(x)dx−σ2)​

  • 连续随机变量服从高斯分布时,其熵值最大。

    • 高斯分布的微分熵 H[x]=12{1+ln⁡(2πσ2)}H [x]=\frac12\{1+\ln ( 2\pi\sigma^2 ) \}H[x]=21​{1+ln(2πσ2)}
    • 熵随着分布宽度 ( σ2\sigma^2σ2 ) 的增加而增加
    • 当 σ2<12πe\sigma^2<\frac1{2\pi e}σ2<2πe1​ 时,H[x]<0H [x]<0H[x]<0
  • 在给定 x 的情况下,y 的条件熵
    • H[y|x]=−∫∫p(y,x)ln⁡p(y|x)dy dxH[\text{y|x}]=-\int\int p ( \text{y,x} ) \ln p ( \text{y|x} ) \text{ dy dx}H[y|x]=−∫∫p(y,x)lnp(y|x) dy dx

联合熵

  • H[x,y]=H[y|x]+H[x]H[\text{x,y}] = H[\text{y|x}] + H[\text{x}]H[x,y]=H[y|x]+H[x]
  • H[x,y]H[\text{x,y}]H[x,y] 是 p(x,y)p ( \text{x,y} )p(x,y) 的微分熵
  • H[y|x]H[\text{y|x}]H[y|x] 是 p(y|x)p ( \text{y|x} )p(y|x) 的微分熵
  • H[x]H[\text{x}]H[x] 是 p(x)p ( \text{x} )p(x) 的微分熵

1.6.1. 相对熵 和 互信息

凸函数 : 每条弦都位于函数的弧或者弧的上面。f(λa+(1−λ)b)≤λf(a)+(1−λ)f(b)f ( \lambda a + ( 1-\lambda ) b ) \leq \lambda f ( a ) + ( 1-\lambda ) f ( b )f(λa+(1−λ)b)≤λf(a)+(1−λ)f(b)

  • 凸函数的二阶导数处处为正。
  • 严格凸函数 ( strictly convex function ) : 等号只在 λ=0\lambda=0λ=0 和 λ=1\lambda=1λ=1 处取得。

凹函数 : 如果 f(x)f ( x )f(x) 是凸函数,则 −f(x)-f ( x )−f(x) 是凹函数

  • 严格凹函数 ( strictly concave function )

Jensen 不等式

  • f(∑i=1Mλixi≤∑i=1Mλif(xi)f ( \sum_{i=1}^M \lambda_i x_i \leq \sum_{i=1}^M \lambda_i f ( x_i )f(∑i=1M​λi​xi​≤∑i=1M​λi​f(xi​)

    • 将 λi\lambda_iλi​ 看作取值为 {xi}\{x_i\}{xi​} 的离散变量 xxx 的概率分布,则公式为 f(E[x])≤E[f(x)]f ( \mathbb{E}[x] ) \leq \mathbb{E}[f ( x )]f(E[x])≤E[f(x)]
  • f(∫xp( x ) dx)≤∫f(x)p(x)dxf ( \int\text{x}p\text{( x ) dx} ) \leq\int f ( \text{x} ) p ( \text{x} ) \text{dx}f(∫xp( x ) dx)≤∫f(x)p(x)dx

KL 散度 : 是两个分布 p(x)p ( \text{x} )p(x) 和 q(x)q ( \text{x} )q(x) 之间不相似程度的度量。

  • −ln⁡x-\ln x−lnx 是严格凸函数
  • 归一化条件:∫q(x)dx=1\int q ( \text{x} ) \text{dx}=1∫q(x)dx=1

KL(p∣∣q)=−∫p(x)ln⁡q( x ) dx−(−∫p(x)ln⁡p( x ) dx)KL(p∣∣q)=−∫p(x)ln⁡(q(x)p(x))dx≥−ln⁡∫q( x ) dx=0\begin{aligned} \text{KL} ( p||q ) &= -\int p ( \text{x} ) \ln q\text{( x ) dx} - ( -\int p ( \text{x} ) \ln p\text{( x ) dx} ) \\ \text{KL} ( p||q ) &= -\int p ( \text{x} ) \ln ( \frac{q ( \text{x} )}{p ( \text{x} )} ) \text{dx} \geq -\ln\int q\text{( x ) dx} = 0 \\ \end{aligned} KL(p∣∣q)KL(p∣∣q)​=−∫p(x)lnq( x ) dx−(−∫p(x)lnp( x ) dx)=−∫p(x)ln(p(x)q(x)​)dx≥−ln∫q( x ) dx=0​

Laplace 近似 : 是用方便计算的分布 去逼近 不方便计算的分布,解决 KL 散度不易计算的问题 ( Sec 4.4 )

  • 假设数据通过未知分布 p(x)p ( \text{x} )p(x) 生成,为了对 p(x)p ( \text{x} )p(x) 建模可以使用 q(x∣θ)q ( \text{x}|\theta )q(x∣θ) 来近似,q(x∣θ)q ( \text{x}|\theta )q(x∣θ) 可以是一个已知分布 ( 例如: θ\thetaθ 是控制多元高斯分布的参数 ),通过最小化 p(x)p ( \text{x} )p(x) 和 q(x∣θ)q ( \text{x}|\theta )q(x∣θ) 之间关于 θ\thetaθ 的 KL 散度,就可以得到 p(x)p ( \text{x} )p(x) 的近似分布。

    • KL(p∣∣q)≃1N∑n=1N[−ln⁡q(xn∣θ)+ln⁡p(xn)]\text{KL} ( p||q ) \simeq \frac1N \sum_{n=1}^N [-\ln q ( \text{x}_n|\theta ) + \ln p ( \text{x}_n )]KL(p∣∣q)≃N1​∑n=1N​[−lnq(xn​∣θ)+lnp(xn​)]

      • −ln⁡q(xn∣θ)-\ln q ( \text{x}_n|\theta )−lnq(xn​∣θ) 是使用训练集估计的分布 q(x∣θ)q ( \text{x}|\theta )q(x∣θ) 下的 θ\thetaθ 的负对数似然函数
      • ln⁡p(xn)\ln p ( \text{x}_n )lnp(xn​) 与 θ\thetaθ 无关
      • 最小化 KL 散度 等价于 最大化似然函数
  • 互信息 ( mutual information ) : 表示一个新的观测 y\text{y}y 造成的 x\text{x}x 的不确定性的减小 ( 反之亦然 )

    • 两个随机变量 p(x)p ( \text{x} )p(x) 和 p(y)p ( \text{y} )p(y) 组成的数据集由 p(x,y)p ( \text{x,y} )p(x,y) 给出

      • 如果两个变量相互独立,则联合分布 p(x,y)=p(x)p(y)p ( \text{x,y} ) =p ( \text{x} ) p ( \text{y} )p(x,y)=p(x)p(y),互信息 I[x,y]=0I[\text{x,y}]=0I[x,y]=0
      • 如果两个变量没有相互独立,可以通过 KL 散度判断它们之间的「独立」程度,也称为随机变量 p(x)p ( \text{x} )p(x) 和 p(y)p ( \text{y} )p(y) 之间的互信息 I[x,y]>0I[\text{x,y}]>0I[x,y]>0

I[x,y]≡KL(p(x,y)∣∣p(x)p(y))=−∫∫p(x,y)ln⁡(p(x)p(y)p(x,y))dx dyI[x,y]=H[x]−H[x|y]=H[y]−H[y|x]\begin{aligned} I[\text{x,y}] &\equiv\text{KL} ( p ( \text{x,y} ) ||p ( \text{x} ) p ( \text{y} )) \\ &= -\int\int p ( \text{x,y} ) \ln ( \frac{p ( \text{x} ) p ( \text{y} )}{p ( \text{x,y} )} ) \text{ dx dy} \\ I[\text{x,y}] &= H[\text{x}] - H[\text{x|y}]\\ &= H[\text{y}] - H[\text{y|x}] \end{aligned} I[x,y]I[x,y]​≡KL(p(x,y)∣∣p(x)p(y))=−∫∫p(x,y)ln(p(x,y)p(x)p(y)​) dx dy=H[x]−H[x|y]=H[y]−H[y|x]​

相对熵 ( relative entropy ) 或者 KL 散度 ( Kullback-Leibler divergence ) ( 推导过程建议理解 )

小结

  • 本章对于后面需要的重要概念都进行了说明和推导,方便深入理解后面提及的各种算法。
  • 如果看完本章后感觉充斥着许多新的概念,那么建议先放下,找本更加基础的模式识别与机器学习的书,例如 : 李航的《统计学习方法》和周志华的《机器学习》等

PRML - Chapter 01: Introduction相关推荐

  1. PRML - Chapter 02 Probability Distributions

    PRML - Chapter 02 Probability Distributions 提纲 重点 密度估计 充分统计量 高斯分布 ( 建议充分熟悉 ) 难点 贝叶斯估计 多元高斯分布 指数族分布 共 ...

  2. M102: MongoDB for DBAs chapter 1 introduction学习记录

    M102: MongoDB for DBAs chapter 1 introduction 运行环境 操作系统:windows 10 家庭中文版 Mongodb :Mongodb 3.4 Mongod ...

  3. 北航云计算公开课 01 Introduction to Cloud Computing

    北航云计算公开课 01 Introduction to Cloud Computing_邓侃_新浪博客 北航云计算公开课 01 Introduction to Cloud Computing 受北航软 ...

  4. HIT Software Construction Review Notes(0-1 Introduction to the Course)

    0-1 Introduction to the Course 0-1 课程介绍 软件构造--开发高质量的软件系统 课程目标:了解构建软件系统的基础和设计原则 --在高级语言程序设计的基础上,认识软件构 ...

  5. 课程笔记-三维点云处理01 ——Introduction and Basic Algorithms

    课程笔记-三维点云处理01 --Introduction and Basic Algorithms 本系列笔记是对深蓝学院所开设的课程:<三维点云处理>的笔记 课程每周更新,我也会努力将每 ...

  6. 《Operating System Concepts(操作系统概念)》课程学习(1)——Chapter 1 Introduction(第1章 绪论)

    操作系统概念 Operating System Concepts 说起操作系统,我想在坐的各位同学都不会陌生.因为无论我们想用计算机干什么,首先要做的就是启动操作系统,任何软件的运行都离不开操作系统的 ...

  7. 李宏毅老师2022机器学习课程笔记 01 Introduction of Deep Learning

    01 Introduction of Deep Learning 机器学习相关规定 什么是机器学习 机器学习的概念 我觉得李老师讲得非常好的一点就是,他真正说清楚了机器学习中的一些因果逻辑. 比如我之 ...

  8. M103: Basic Cluster Administration chapter 0 Introduction学习记录

    M103: Basic Cluster Administration chapter 0 Introduction学习记录 运行环境 操作系统:windows 10 家庭中文版 Mongodb :Mo ...

  9. M312: Diagnostics and Debugging chapter 1 Introduction学习记录

    M312: Diagnostics and Debugging chapter 1 Introduction学习记录 运行环境 操作系统:windows 10 家庭中文版 Mongodb :Mongo ...

  10. 《Foundations of Cryptography》chapter 1 Introduction

    <Foundations of Cryptography>chapter 1 Introduction 原文教材:<Foundations of Cryptography>   ...

最新文章

  1. CSS之 :before :after的用法,伪类和伪元素的区别
  2. Build failed in step 'Installing CLooG for host'
  3. 数据结构(七)---循环队列的实现---java版
  4. hibernate 表关系映射详解之多对多
  5. node异步非阻塞的杂谈
  6. 硬件基础 —— 光耦
  7. Qt工作笔记-UDP多线程数据处理及发送(简单实例)
  8. 计算机学院运动会开幕式稿,运动会开幕式新闻稿 运动会开幕式广播稿原创2019...
  9. 怎么删除用户_小米手机如何恢复最近删除的便签 - 学显
  10. log4j每天产生一日志文件
  11. jquery效果插件网址
  12. 计算机操作系统笔记(四)
  13. 【转】运用jieba库分词
  14. php加ajax,PHP – AJAX 与 PHP | 菜鸟教程
  15. 试用期不合格通知单可以签吗?
  16. 2022年Q1手机银行用户规模达6.5亿,加强ESG个人金融产品创新
  17. 计算机两个硬盘的作用,固态硬盘时代谈谈双硬盘(固态+机械硬盘)的好处
  18. TMS320F28034PNT 德州TI 具有 60MHz 频率、128KB 闪存的 C2000™ 32 位 MCU
  19. NRF24L01的多对一通信
  20. WCF,WPF,WWF 的新读音?WinCom, WinPrez, WinFlow

热门文章

  1. 逻辑斯蒂回归 matlab实现
  2. 大咖说:如何借助腾讯云简单、高效移动开发
  3. 华为工程师都没有解决的问题,华为交换机acl不能使用易维版显示
  4. Redis数据结构总结
  5. 网站设计必备:网页经典代码(转)
  6. Android中使用字体库的方法
  7. 用CMD批量ping ip地址
  8. java权限管理与用户角色权限设计
  9. 重放攻击与中间人攻击
  10. Unity3D中关于Mesh.MarkDynamic