【PRML 学习笔记】第一章 - 介绍 (Introduction)

前言

如果你对这篇文章可感兴趣，可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」，查看完整博客分类与对应链接。

文章目录

前言
一、介绍 (Introduction)
- 1.1 例子：多项式拟合
- - 1.1.1 拟合过程
  - 1.1.2 增大数据量
  - 1.1.3 正则化 (Regularization)
- 1.2 概率论 (Probability Theory)
- - 1.2.1 概率密度 (Probability densities)
  - 1.2.2 期望与协方差 (Expectations and covariances)
  - 1.2.3 贝叶斯概率 (Bayesian probabilities)
  - 1.2.4 高斯分布 (The Gaussian distribution)
  - 1.2.5 曲线拟合回顾
- 1.3 模型选择 (Model Selection)
- 1.4 维度诅咒 (The Curse of Dimensionality)
- 1.5 决策论 (Decision Theory)
- - 1.5.1 最小化分类错误率 (Minimizing the misclassification rate)
  - 1.5.2 最小化期望损失 (Minimizing the expected loss)
  - 1.5.3 拒绝选项 (The reject option)
  - 1.5.4 推理与决策 (Inference and decision)
  - 1.5.5 回归损失函数 (Loss functions for regression)
- 1.6 信息论 (Information Theory)
- - 1.6.1 熵 (Entropy)
  - 1.6.2 条件熵 (Conditional entropy)
  - 1.6.3 交叉熵 (Relative entropy)
  - 1.6.4 互信息 (Mutual information)

一、介绍 (Introduction)

本章目的：介绍一些重要概念

模式识别的核心：

使用计算机算法，自动化地发现数据中的规律 (the automatic discovery of regularities in data)
利用这些规律去完成某些任务，例如数据分类

不同领域间关系：

泛化 (generalization)：

【定义】将「不曾在训练集中出现过的数据」识别准确的能力
【意义】模式识别的核心目标

预处理 (pre-processing)：

有时也称作特征提取 (feature extraction)
意义
- 缩小数据变化范围，便于后续识别 (reduce the variability)
- 提取有效信息，降低数据维度 (dimensionality reduction)，加快运算 (speed up computation)

应用分类：

有监督学习 (supervised learning)：训练集有目标向量 (target vectors)
- 分类 (classification)：期望输出为离散变量
- 回归 (regression)：期望输出为连续变量
无监督学习 (unsupervised learning)：训练集无目标向量
- 聚类 (clustering)：发现数据集中的相似数据组
- 密度估计 (density estimation)：确定数据分布
- 可视化 (visualization)：将数据从高维向低维投影
强化学习 (reinforcement learning)：在给定的状态下，找到恰当的行动 (action) 使得奖励 (reward) 最大化
- 不提供最佳输出的示例，但需要通过反复试验来发现
- 大多数情况下，当前行动会影响当前、乃至未来每一步的奖励
- 一般都在探索 (exploration) 与利用 (exploitation) 间权衡，探索指尝试新行动；利用指使用已知行动获得最多奖励

三大重要工具：

概率论 (probability theory)
决策论 (decision theory)
信息论 (information theory)

1.1 例子：多项式拟合

1.1.1 拟合过程

数据：x=(x1,...,xN)T,t=(t1,...,tN)T\mathbf{x}=(x_1,...,x_N)^T,\mathbf{t}=(t_1,...,t_N)^Tx=(x1,...,xN)T,t=(t1,...,tN)T

拟合函数：
y(x,w)=w0+w1x+w2x2+...+wMxM=∑j=0Mwjxjy(x,\mathbf{w})=w_0+w_1x+w_2x^2+...+w_Mx^M=\sum\limits_{j=0}^Mw_jx^j y(x,w)=w0+w1x+w2x2+...+wMxM=j=0∑Mwjxj

损失函数 (error function)：
E(w)=12∑n=1N{y(wn,w)−tn}2E(\mathbf{w})=\frac{1}{2}\sum\limits_{n=1}^N\{y(w_n,\mathbf{w})-t_n\}^2 E(w)=21n=1∑N{y(wn,w)−tn}2

衡量模型误差 - RMS (root-mean-square) error：

w∗\mathbf{w}^*w∗ 为模型必式解 (closed form)
ERMS=2E(w∗)/NE_{\text{RMS}}=\sqrt{2E(\mathbf{w}^{*})/N} ERMS=2E(w∗)/N

拟合结果：

发现：

M = 9 时，模型拟合了噪声，发生过拟合 (over-fitting)

1.1.2 增大数据量

实验结果：

均使用 M = 9 的拟合函数

发现：

扩大数据集可缓解过拟合，换句话说，更大的数据集可以支持更复杂的模型
【启发】数据集规模应大于模型变量个数的某一倍数（例如 5、10）

疑问点：

模型复杂度的选择，应根据问题本身的复杂程度，而不是数据集大小

1.1.3 正则化 (Regularization)

新的损失函数：

下述式子又称为岭回归 (ridge regression)
【别名】统计中的收缩 (shrinkage)，神经网络中的权重衰减 (weight decay)
E~(w)=12∑n=1N{y(xn,w)−tn}2+λ2∥w∥2\widetilde{E}(\mathbf{w})=\frac{1}{2} \sum_{n=1}^N\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{\lambda}{2}\|\mathbf{w}\|^{2} E(w)=21n=1∑N{y(xn,w)−tn}2+2λ∥w∥2

注意：

通常正则项中不包含 w0w_0w0，或者 w0w_0w0 与其它参数的系数不同 (because its inclusion causes the results to depend on the choice of origin for the target variable)

实验结果：

仍采用 M = 9 的拟合函数

发现：

正则化可以有效地抑制过拟合现象

1.2 概率论 (Probability Theory)

概率论意义：

不确定性 (uncertainty) 是模式识别领域的关键概念，其根源在于「测量误差」与「有限的数据集大小」
概率论为不确定性的量化 (quantification) 和处理 (manipulation) 提供了一致的框架，为模式识别的核心基础之一

概率论两条基本规则：

p(X,Y)p(X,Y)p(X,Y)：联合概率 (joint probability - “the probability of X and Y”)
p(Y∣X)p(Y|X)p(Y∣X)：条件概率 (conditional probability - “the probability of Y given X”)
p(X)p(X)p(X)：边缘概率 (marginal probability - “the probability of X”)
sumrulep(X)=∑Yp(X,Y)/∫p(X,Y)dYproductrulep(X,Y)=p(Y∣X)p(X)\begin{aligned} \textbf{sum rule } & p(X)=\sum_Yp(X,Y) \ / \int p(X,Y) dY\\ \textbf{product rule } & p(X,Y)=p(Y|X)p(X) \end{aligned} sum rule product rule p(X)=Y∑p(X,Y) /∫p(X,Y)dYp(X,Y)=p(Y∣X)p(X)

贝叶斯定理：

求的是 p(Y∣X)p(Y|X)p(Y∣X)，因此在观察到 XXX 前，p(Y)p(Y)p(Y) 就已确定，即为先验概率 (prior probability)
在观察到 XXX 后，p(Y∣X)p(Y|X)p(Y∣X) 即可求出，即为后验概率 (posterior probability)
p(X)p(X)p(X) 为 p(Y∣X)p(Y|X)p(Y∣X) 提供了证据因子 (evidence)
p(X∣Y)p(X|Y)p(X∣Y) 为似然 (likelihood)
p(Y∣X)=p(X∣Y)p(Y)p(X)=p(X∣Y)p(Y)∑Yp(X∣Y)p(Y)p(Y|X)=\displaystyle\frac{p(X|Y)p(Y)}{p(X)}=\displaystyle\frac{p(X|Y)p(Y)}{\sum_Yp(X|Y)p(Y)} p(Y∣X)=p(X)p(X∣Y)p(Y)=∑Yp(X∣Y)p(Y)p(X∣Y)p(Y)

1.2.1 概率密度 (Probability densities)

定义：

连续变量 xxx 落在区间 [x,x+δx](δx→0)[x,x+\delta x](\delta x\rightarrow 0)[x,x+δx](δx→0) 的概率为 p(x)δxp(x)\delta xp(x)δx，则 p(x)p(x)p(x) 为 xxx 这一点的概率密度
若 xxx 为离散变量，则 p(x)p(x)p(x) 为概率质量函数 (probability mass function)

两大条件：
p(x)≥0∫−∞∞p(x)dx=1\begin{aligned} p(x) & \geq 0 \\ \int_{-\infty}^{\infty}p(x)dx&=1 \end{aligned} p(x)∫−∞∞p(x)dx≥0=1

性质：

若 x=g(y)x=g(y)x=g(y)，则 py(y)=px(g(y))∣g′(y)∣p_y(y)=p_x(g(y))|g'(y)|py(y)=px(g(y))∣g′(y)∣，即最大化概率密度时依赖于选取的变量
【推导】xxx 落在 [x,x+δx](x→0)[x,x+\delta x](x\rightarrow 0)[x,x+δx](x→0) 的概率等价于 yyy 落在 [y,y+δy](y→0)[y,y+\delta y](y\rightarrow 0)[y,y+δy](y→0) 的概率，即 px(x)δx=py(y)δy(x,y→0)p_x(x)\delta x=p_y(y)\delta y(x,y\rightarrow 0)px(x)δx=py(y)δy(x,y→0)，则
py(y)=px(x)∣dxdy∣=px(g(y))∣g′(y)∣\begin{aligned} p_y(y)&=p_x(x)|\displaystyle\frac{\text{d}x}{\text{d}y}|\\ &=p_x(g(y))|g'(y)| \end{aligned} py(y)=px(x)∣dydx∣=px(g(y))∣g′(y)∣

1.2.2 期望与协方差 (Expectations and covariances)

期望 (expectation)：

【定义】在概率分布 p(x)p(x)p(x) 下，f(x)f(x)f(x) 的均值称作 f(x)f(x)f(x) 的期望，表示为 E[f]\mathbb{E}[f]E[f]
【离散】E[f]=∑xp(x)f(x)\mathbb{E}[f]=\sum_xp(x)f(x)E[f]=∑xp(x)f(x)
【连续】E[f]=∫p(x)f(x)dx\mathbb{E}[f]=\int p(x)f(x)\text{d}xE[f]=∫p(x)f(x)dx
【统计近似】E[f]≃1N∑n=1Nf(xn)\mathbb{E}[f]\simeq \frac{1}{N}\sum_{n=1}^Nf(x_n)E[f]≃N1∑n=1Nf(xn)
【多变量】Ex[f(x,y)]\mathbb{E}_x[f(x,y)]Ex[f(x,y)] 表示在 xxx 分布下，f(x,y)f(x,y)f(x,y) 的均值，最终应表示为 yyy 的函数
【条件期望 (conditional expectation)】Ex[f∣y]=∑xp(x∣y)f(x)\mathbb{E}_x[f|y]=\sum_x p(x|y)f(x)Ex[f∣y]=∑xp(x∣y)f(x)

方差 (variance)：

【定义】衡量 f(x)f(x)f(x) 在其均值 E[f(x)]\mathbb{E}[f(x)]E[f(x)] 周围变化性 (variability) 的大小，var[f]=E[(f(x)−E[f(x)])2]=E[f(x)2]−E[f(x)]2var[f]=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]=\mathbb{E}[f(x)^2]-\mathbb{E}[f(x)]^2var[f]=E[(f(x)−E[f(x)])2]=E[f(x)2]−E[f(x)]2
【简便表示】var[x]=E[x2]−E[x]2var[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^2var[x]=E[x2]−E[x]2

协方差 (covariance)：

【定义】cov[x,y]\text{cov}[x,y]cov[x,y] 衡量 xxx 和 yyy 共同变化的程度
cov[x,y]=Ex,y[{x−E[x]}{y−E[y]}]=Ex,y[x,y]−E[x]E[y]\begin{aligned} \text{cov}[x,y]&=\mathbb{E}_{x,y}[\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}]\\ &=\mathbb{E}_{x,y}[x,y]-\mathbb{E}[x]\mathbb{E}[y] \end{aligned} cov[x,y]=Ex,y[{x−E[x]}{y−E[y]}]=Ex,y[x,y]−E[x]E[y]

协方差矩阵：

当 x\mathbf{x}x 和 y\mathbf{y}y 为向量时，cov[x,y]\text{cov}[\mathbf{x},\mathbf{y}]cov[x,y] 为协方差矩阵
cov[x]≡cov[x,x]\text{cov}[\mathbf{x}]\equiv\text{cov}[\mathbf{x},\mathbf{x}]cov[x]≡cov[x,x]
cov[x,y]=Ex,y[{x−E[x]}{yT−E[yT]}]=Ex,y[xyT]−E[x]E[yT]\begin{aligned} \text{cov}[\mathbf{x},\mathbf{y}]&=\mathbb{E}_{\mathbf{x}, \mathbf{y}}\left[\{\mathbf{x}-\mathbb{E}[\mathbf{x}]\}\left\{\mathbf{y}^{T}-\mathbb{E}\left[\mathbf{y}^{T}\right]\right\}\right]\\ &=\mathbb{E}_{\mathbf{x}, \mathbf{y}}\left[\mathbf{x} \mathbf{y}^{T}\right]-\mathbb{E}[\mathbf{x}] \mathbb{E}\left[\mathbf{y}^{T}\right] \end{aligned} cov[x,y]=Ex,y[{x−E[x]}{yT−E[yT]}]=Ex,y[xyT]−E[x]E[yT]

1.2.3 贝叶斯概率 (Bayesian probabilities)

对比：

【频率学派 (classical or frequentist)】将概率看作是随机重复事件的发生频率
【贝叶斯学派 (Bayesian)】将概率看作是不确定性的度量 (a quantification of uncertainty)

举例：

给定数据集 D\text{D}D 求模型参数 w\mathbf{w}w
【频率学派】使用极大似然估计 (maximum likelihood)，求使 p(D∣w)p(D|\mathbf{w})p(D∣w) 概率最大时的 w\mathbf{w}w
【贝叶斯学派】用 p(w∣D)p(\mathbf{w}|D)p(w∣D) 来度量不确定性

1.2.4 高斯分布 (The Gaussian distribution)

概念：

μ\muμ：mean
σ2\sigma^2σ2：variance
σ\sigmaσ：standard deviation
β=1/σ2\beta=1/\sigma^2β=1/σ2：precision
mode：p(x)p(x)p(x) 最大时的 xxx，在高斯分布中为 μ\muμ
独立同分布 (i.i.d)：independent and identically distributed
N(x∣μ,σ2)=1(2πσ2)1/2exp⁡{−12σ2(x−μ)2}\mathcal{N}\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\} N(x∣μ,σ2)=(2πσ2)1/21exp{−2σ21(x−μ)2}

性质：

∫−∞∞N(x∣μ,σ2)dx=1\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) \mathrm{d} x=1∫−∞∞N(x∣μ,σ2)dx=1
E[x]=∫−∞∞N(x∣μ,σ2)xdx=μ\mathbb{E}[x]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x \mathrm{~d} x=\muE[x]=∫−∞∞N(x∣μ,σ2)x dx=μ
E[x2]=∫−∞∞N(x∣μ,σ2)x2dx=μ2+σ2\mathbb{E}\left[x^{2}\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x^{2} \mathrm{~d} x=\mu^{2}+\sigma^{2}E[x2]=∫−∞∞N(x∣μ,σ2)x2 dx=μ2+σ2
var⁡[x]=E[x2]−E[x]2=σ2\operatorname{var}[x]=\mathbb{E}\left[x^{2}\right]-\mathbb{E}[x]^{2}=\sigma^{2}var[x]=E[x2]−E[x]2=σ2

证明：

多元高斯分布：
N(x∣μ,Σ)=1(2π)D/21∣Σ∣1/2exp⁡{−12(x−μ)TΣ−1(x−μ)}\mathcal{N}(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\mathbf{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\} N(x∣μ,Σ)=(2π)D/21∣Σ∣1/21exp{−21(x−μ)TΣ−1(x−μ)}

极大似然估计的偏差 (bias)：

【方法】用 MLE 来估计高斯分布的参数，即 max⁡ln⁡p(x∣μ,σ2)=−12σ2∑n=1N(xn−μ)2−N2ln⁡σ2−N2ln⁡(2π)\max\ \ln p\left(\mathbf{x} \mid \mu, \sigma^{2}\right)=-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}-\frac{N}{2} \ln \sigma^{2}-\frac{N}{2} \ln (2 \pi)max lnp(x∣μ,σ2)=−2σ21∑n=1N(xn−μ)2−2Nlnσ2−2Nln(2π)
【结果】
- μML=1N∑n=1Nxn\mu_{\text{ML}}=\displaystyle\frac{1}{N}\sum\limits_{n=1}^N x_nμML=N1n=1∑Nxn
- σML2=1N∑n=1N(xn−μML)2\sigma^2_{\text{ML}}=\displaystyle\frac{1}{N}\sum\limits_{n=1}^N(x_n-\mu_{\text{ML}})^2σML2=N1n=1∑N(xn−μML)2
【结论】
- E[σML2]=(N−1N)σ2\mathbb{E}[\sigma^2_{\text{ML}}]=(\displaystyle\frac{N-1}{N})\sigma^2E[σML2]=(NN−1)σ2，小于无偏估计值，其中的差距称为 bias

1.2.5 曲线拟合回顾

极大似然估计（maximum likelihood - MLE）：

【假设】p(t∣x,w,β)=N(t∣y(x,w),β−1)p(t \mid x, \mathbf{w}, \beta)=\mathcal{N}\left(t \mid y(x, \mathbf{w}), \beta^{-1}\right)p(t∣x,w,β)=N(t∣y(x,w),β−1)
【求解】max⁡p(t∣x,w,β)\max\ p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta)max p(t∣x,w,β)
- p(t∣x,w,β)=∏n=1NN(tn∣y(xn,w),β−1)p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta)=\prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid y\left(x_{n}, \mathbf{w}\right), \beta^{-1}\right)p(t∣x,w,β)=∏n=1NN(tn∣y(xn,w),β−1)
- ln⁡p(t∣x,w,β)=−β2∑n=1N{y(xn,w)−tn}2+N2ln⁡β−N2ln⁡(2π)\ln p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta)=-\frac{\beta}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi)lnp(t∣x,w,β)=−2β∑n=1N{y(xn,w)−tn}2+2Nlnβ−2Nln(2π)
- wML=arg min⁡w∑n=1N{y(xn,w)−tn}2\mathbf{w}_{\text{ML}}=\text{arg}\ \underset{\mathbf{w}}{\min} \sum\limits_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2wML=arg wminn=1∑N{y(xn,w)−tn}2
- 1βML=1N∑n=1N{y(xn,wML)−tn}2\frac{1}{\beta_{\mathrm{ML}}}=\frac{1}{N} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}_{\mathrm{ML}}\right)-t_{n}\right\}^{2}βML1=N1∑n=1N{y(xn,wML)−tn}2
【结论】等价于最小二乘法

极大后验概率（maximum posterior - MAP）：

【假设先验概率】p(w∣α)=N(w∣0,α−1I)=(α2π)(M+1)/2exp⁡{−α2wTw}p(\mathbf{w} \mid \alpha)=\mathcal{N}\left(\mathbf{w} \mid \mathbf{0}, \alpha^{-1} \mathbf{I}\right)=\left(\frac{\alpha}{2 \pi}\right)^{(M+1) / 2} \exp \left\{-\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}\right\}p(w∣α)=N(w∣0,α−1I)=(2πα)(M+1)/2exp{−2αwTw}
【求解 - 最大后验概率】
- p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α)p(\mathbf{w} \mid \mathbf{x}, \mathbf{t}, \alpha, \beta) \propto p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta) p(\mathbf{w} \mid \alpha)p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α)
- min⁡wβ2∑n=1N{y(xn,w)−tn}2+α2wTw\underset{\mathbf{w}}{\min}\frac{\beta}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}wmin2β∑n=1N{y(xn,w)−tn}2+2αwTw
【结论】等价于加上正则项的最小二乘

1.3 模型选择 (Model Selection)

交叉验证 (cross-validation)：

【过程】分成 S 份，每一次留一份作为测试集
【缺点】对参数很多、运行一次较耗时的模型很不友好

1.4 维度诅咒 (The Curse of Dimensionality)

区域划分：

随着维度的增加，划分的格子数指数增长

多项式拟合：

随着维度增加，模型参数幂次增长
y(x,w)=w0+∑i=1Dwixi+∑i=1D∑j=1Dwijxixj+∑i=1D∑j=1D∑k=1Dwijkxixjxky(\mathbf{x}, \mathbf{w})=w_{0}+\sum_{i=1}^{D} w_{i} x_{i}+\sum_{i=1}^{D} \sum_{j=1}^{D} w_{i j} x_{i} x_{j}+\sum_{i=1}^{D} \sum_{j=1}^{D} \sum_{k=1}^{D} w_{i j k} x_{i} x_{j} x_{k} y(x,w)=w0+i=1∑Dwixi+i=1∑Dj=1∑Dwijxixj+i=1∑Dj=1∑Dk=1∑Dwijkxixjxk

解决思路：

【思路 1】实际数据通常会被限制在有效维数较低的区域中，尤其是引起目标变量重大变化的维度可能会被限制
【思路 2】实际数据通常有一些平滑性质，即输入的微扰引起目标变量的微扰，因此可以使用类似局部插值的方式进行预测

1.5 决策论 (Decision Theory)

主题：根据目标向量可能的取值，作出决策。

1.5.1 最小化分类错误率 (Minimizing the misclassification rate)

概念：

决策区域 Rk\mathcal{R}_{k}Rk (decision regions)：位于 Rk\mathcal{R}_{k}Rk 中的点均被赋为 Ck\mathcal{C}_{k}Ck 类别；决策区域可以由不相交的区域组成
决策边界 (decision boundaries / surfaces)：决策区域间的边界

决策方法：

最小化分类错误率，即将 xxx 分配给令 p(Ck,x)∝p(Ck∣x)p(C_k,x)\propto p(C_k|x)p(Ck,x)∝p(Ck∣x) 最大的 CkC_kCk
【图解】
- x^\hat{x}x^ 为决策边界，红、绿、紫为分类错误的区域
- 无论 x^\hat{x}x^ 如何变化，绿 + 紫的面积不变，但红的面积会变
- 当 x^\hat{x}x^ 位于 x0x_0x0 时，错误区域面积最小

1.5.2 最小化期望损失 (Minimizing the expected loss)

引入损失函数 (loss function) Lk,jL_{k,j}Lk,j，表示真实类别为 kkk，被错误分到 jjj 的损失，因此最小化期望损失可以如下表示：
min⁡j∑kLk,jp(Ck∣x)\min_j\ \sum_kL_{k,j}p(C_k|x) jmin k∑Lk,jp(Ck∣x)

1.5.3 拒绝选项 (The reject option)

当 max⁡k(p(Ck∣x))≤θ\underset{k}{\max}(p(C_k|x))\leq \thetakmax(p(Ck∣x))≤θ 时，拒绝为 xxx 赋类别，如下图所示：

1.5.4 推理与决策 (Inference and decision)

将分类问题划分为两个阶段，分别是：

推理阶段 (inference stage) - 建立模型学习 p(Ck∣x)p(C_k|x)p(Ck∣x)
决策阶段 (decision stage) - 使用后验概率进行最优的类别赋值

由此决策问题大致可以分为如下三种解决方法：

生成模型 (generative models)
- 求出先验与似然，即 p(Ck)p(C_k)p(Ck) 与 p(x∣Ck)p(x|C_k)p(x∣Ck)，再求出 p(x)p(x)p(x)
- 最后根据贝叶斯定理，求出后验 p(Ck∣x)p(C_k|x)p(Ck∣x)
- 缺点：确定 p(x∣Ck)p(x|C_k)p(x∣Ck) 需要大数据集的支持
- 优点：由于 p(x)p(x)p(x) 的求出，可以检测离群点 (outlier / novelty detection)
判别模型 (discriminative models)
- 直接求出 p(Ck∣x)p(C_k|x)p(Ck∣x)
- 特点：较于生成模型，要求降低，且有时候 p(x∣Ck)p(x|C_k)p(x∣Ck) 对后验概率影响不大
判别函数 (discriminant function)
- 寻找函数 f(x)f(x)f(x)，直接将输入数据映射到具体类别上，两阶段被合并为一阶段

判别函数的方式无法求出后验概率 p(Ck∣x)p(C_k|x)p(Ck∣x)，但后验概率的求解本身具有很多优势：

【Minimizing risk】若模型采用最小化期望损失，若 Lk,jL_{k,j}Lk,j 时不时地会发生修正，则率先求出后验概率可以更为方便地调整模型
【Reject option】有了后验概率才能确定拒绝条件
【Compensating for class priors】有时候原始数据分布很不均匀，例如二分类问题，为 0 的数据占 0.1%0.1\%0.1%，此时我们需要平衡数据集，提高为 0 数据的占比。由于我们更改了数据的分布，因此可以利用后验概率进行修正，即：
p补偿后(Ck∣x)=p调整后(Ck∣x)p调整前(Ck)p调整后(Ck)p_{\text{补偿后}}(C_k|x)=\displaystyle\frac{p_{\text{调整后}}(C_k|x)p_{\text{调整前}}(C_k)}{p_{\text{调整后}}(C_k)} p补偿后(Ck∣x)=p调整后(Ck)p调整后(Ck∣x)p调整前(Ck)最后再进行放缩，使得后验概率之和为 1。
【Combining models】使用后验概率进行模型合并，而不是将模型的输入数据直接拼接：

1.5.5 回归损失函数 (Loss functions for regression)

使用 y(x)y(\mathbf{x})y(x) 进行回归预测，采用平方损失，其损失均值为：
E[y(x)]=∬{y(x)−t}2p(x,t)dxdt\mathbb{E}[y(\mathbf{x})]=\iint\{y(\mathbf{x})-t\}^{2} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t E[y(x)]=∬{y(x)−t}2p(x,t)dxdt
使用欧拉-拉格朗日公式，求得 y(x)y(\mathbf{x})y(x) 最优值：
δE[L]δy(x)=2∫{y(x)−t}p(x,t)dt=0y(x)=∫tp(x,t)dtp(x)=∫tp(t∣x)dt=Et[t∣x]\begin{aligned} & \frac{\delta \mathbb{E}[L]}{\delta y(\mathbf{x})}=2 \int\{y(\mathbf{x})-t\} p(\mathbf{x}, t) \mathrm{d} t=0 \\ & y(\mathbf{x})=\frac{\int t p(\mathbf{x}, t) \mathrm{d} t}{p(\mathbf{x})}=\int t p(t \mid \mathbf{x}) \mathrm{d} t=\mathbb{E}_{t}[t \mid \mathbf{x}] \end{aligned} δy(x)δE[L]=2∫{y(x)−t}p(x,t)dt=0y(x)=p(x)∫tp(x,t)dt=∫tp(t∣x)dt=Et[t∣x]

因此在平方损失的回归任务中，y(x)y(\mathbf{x})y(x) 最优值为 Et[t∣x]\mathbb{E}_{t}[t \mid \mathbf{x}]Et[t∣x]，如下图所示：

对于 multi-label 问题，y(x)y(\mathbf{x})y(x) 最优值依然为 Et[t∣x]\mathbb{E}_{t}[\mathbf{t} \mid \mathbf{x}]Et[t∣x]：
E[L]=∬∥y(x)−t∥2p(t,x)dxdtδE[L]δy(x)=∫2(y(x)−t)p(t,x)dt=0y(x)=∫tp(t,x)dt∫p(t,x)dt=∫tp(t∣x)dty(x)=∫tp(t∣x)dt\begin{aligned} & \mathbb{E}[L]=\iint\|\mathbf{y}(\mathbf{x})-\mathbf{t}\|^{2} p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{x} \mathrm{d} \mathbf{t} \\ & \frac{\delta \mathbb{E}[L]}{\delta \mathbf{y}(\mathbf{x})}=\int 2(\mathbf{y}(\mathbf{x})-\mathbf{t}) p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{t}=0 \\ & \mathbf{y}(\mathbf{x})=\frac{\int \mathbf{t} p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{t}}{\int p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{t}}=\int \mathbf{t} p(\mathbf{t} \mid \mathbf{x}) \mathrm{d} \mathbf{t}\\ & y(\mathbf{x})=\int t p(t \mid \mathbf{x}) \mathrm{d} t \end{aligned} E[L]=∬∥y(x)−t∥2p(t,x)dxdtδy(x)δE[L]=∫2(y(x)−t)p(t,x)dt=0y(x)=∫p(t,x)dt∫tp(t,x)dt=∫tp(t∣x)dty(x)=∫tp(t∣x)dt

另外，在求出 y(x)y(\mathbf{x})y(x) 最优值后，我们可以对 {y(x)−t}2\{y(\mathbf{x})-t\}^2{y(x)−t}2 进行如下分解：
{y(x)−t}2={y(x)−E[t∣x]+E[t∣x]−t}2={y(x)−E[t∣x]}2+2{y(x)−E[t∣x]}{E[t∣x]−t}+{E[t∣x]−t}2\begin{aligned} \{y(\mathbf{x})-t\}^2 &= \{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]+\mathbb{E}[t \mid \mathbf{x}]-t\}^{2} \\ &= \{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]\}^{2}+2\{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]\}\{\mathbb{E}[t \mid \mathbf{x}]-t\}+\{\mathbb{E}[t \mid \mathbf{x}]-t\}^{2} \end{aligned} {y(x)−t}2={y(x)−E[t∣x]+E[t∣x]−t}2={y(x)−E[t∣x]}2+2{y(x)−E[t∣x]}{E[t∣x]−t}+{E[t∣x]−t}2

带回 E[y(x)]\mathbb{E}[y(\mathbf{x})]E[y(x)] 中，得到：
E[y(x)]=∫{y(x)−E[t∣x]}2p(x)dx+∬{E[t∣x]−t}2p(x,t)dxdt\mathbb{E}[y(\mathbf{x})]=\int\{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]\}^{2} p(\mathbf{x}) \mathrm{d} \mathbf{x}+\iint\{\mathbb{E}[t \mid \mathbf{x}]-t\}^{2} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t E[y(x)]=∫{y(x)−E[t∣x]}2p(x)dx+∬{E[t∣x]−t}2p(x,t)dxdt

其中第二项是在 x\mathbf{x}x 上 ttt 概率分布方差的均值，与 y(x)y(\mathbf{x})y(x) 无关，可以视为目标数据的内在变异性（噪声），损失函数的最小值。

最后考虑一下广义的损失函数：
E[Lq]=∬∣y(x)−t∣qp(x,t)dxdt\mathbb{E}\left[L_{q}\right]=\iint|y(\mathbf{x})-t|^{q} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t E[Lq]=∬∣y(x)−t∣qp(x,t)dxdt
其中 qqq 分别为 2,1,02,1,02,1,0 时的最优解 y(x)y(\mathbf{x})y(x) 如下：

1.6 信息论 (Information Theory)

1.6.1 熵 (Entropy)

当事件 xxx 发生时，如何去衡量我们所接收到的信息 h(x)h(x)h(x)？

从概率的角度去思考，p(x)p(x)p(x) 若很大，例如等于 1，则基本没有带来新信息；若 p(x)p(x)p(x) 很小，则意味着小概率事件发生了，我们可以有更多的思考，因此 h(x)h(x)h(x) 中应包含 p(x)p(x)p(x)。

另外，如果 yyy 与 xxx 独立，则 h(x,y)=h(x)+h(y)h(x,y)=h(x)+h(y)h(x,y)=h(x)+h(y)，而 p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)，因此考虑引入对数。

基于上述考虑，我们可以如下表示 h(x)h(x)h(x)：
h(x)=−log⁡2p(x)h(x)=-\log_2p(x) h(x)=−log2p(x)

注意 h(x)h(x)h(x) 的单位为 bits。

进一步地，令 xxx 为随机变量，则我们可以给出基于其离散概率分布的平均信息：
H[x]=−∑xp(x)log⁡2p(x)H[x]=-\sum_xp(x)\log_2p(x) H[x]=−x∑p(x)log2p(x)

定义 H[x]H[x]H[x] 为随机变量 xxx 的熵 (entropy)。

在离散概率分布的情况下，我们可以使用拉格朗日对偶求解得到，当 xxx 符合均匀分布时，H[x]H[x]H[x] 最大。

而当 xxx 为连续随机变量时，H[x]=−∫p(x)ln⁡p(x)dxH[x]=-\int p(x)\ln p(x)\text{d}xH[x]=−∫p(x)lnp(x)dx，在满足如下三个限制条件后，可以使用拉格朗日对偶求出当 xxx 符合高斯分布时，H[x]H[x]H[x] 最大：

H[x]=12{1+ln⁡(2πσ2)}H[x]=\displaystyle\frac{1}{2}\{1+\ln(2\pi\sigma^2)\} H[x]=21{1+ln(2πσ2)}

注意 xxx 离散时，H[x]≥0H[x]\geq 0H[x]≥0；但 xxx 连续时，H[x]H[x]H[x] 可能 <0< 0<0。

1.6.2 条件熵 (Conditional entropy)

H[x,y]=H[y∣x]+H[x]H[x,y]=H[y|x]+H[x] H[x,y]=H[y∣x]+H[x]

1.6.3 交叉熵 (Relative entropy)

xxx 真实分布为 p(x)p(x)p(x)，我们估计的分布为 q(x)q(x)q(x)，则错误估计所带来的信息差 (relative entropy or Kullback-Leibler divergence or KL divergence) 为：
KL(p∥q)=−∫p(x)ln⁡q(x)dx−(−∫p(x)ln⁡p(x)dx)=−∫p(x)ln⁡{q(x)p(x)}dx\begin{aligned} \mathrm{KL}(p \| q) &=-\int p(\mathbf{x}) \ln q(\mathbf{x}) \mathrm{d} \mathbf{x}-\left(-\int p(\mathbf{x}) \ln p(\mathbf{x}) \mathrm{d} \mathbf{x}\right) \\ &=-\int p(\mathbf{x}) \ln \left\{\frac{q(\mathbf{x})}{p(\mathbf{x})}\right\} \mathrm{d} \mathbf{x} \end{aligned} KL(p∥q)=−∫p(x)lnq(x)dx−(−∫p(x)lnp(x)dx)=−∫p(x)ln{p(x)q(x)}dx

满足以下条件：

KL(p∥q)≢KL(q∥p)\mathrm{KL}(p \| q) \not \equiv \mathrm{KL}(q \| p)KL(p∥q)≡KL(q∥p)
KL(p∥q)≥0\mathrm{KL}(p \| q)\geq 0KL(p∥q)≥0，在 p(x)=q(x)p(x)=q(x)p(x)=q(x) 时取等

因此 KLKLKL 散度是一种衡量两个分布匹配程度的方法，其值越小，两个分布之间的匹配就越好。

1.6.4 互信息 (Mutual information)

互信息为原分布 (p(x,y)p(x,y)p(x,y)) 与估计分布 (p(x)p(y)p(x)p(y)p(x)p(y)) 间的信息差：
I[x,y]≡KL⁡(p(x,y)∥p(x)p(y))=−∬p(x,y)ln⁡(p(x)p(y)p(x,y))dxdy\begin{aligned} \mathrm{I}[\mathbf{x}, \mathbf{y}] & \equiv \operatorname{KL}(p(\mathbf{x}, \mathbf{y}) \| p(\mathbf{x}) p(\mathbf{y})) \\ &=-\iint p(\mathbf{x}, \mathbf{y}) \ln \left(\frac{p(\mathbf{x}) p(\mathbf{y})}{p(\mathbf{x}, \mathbf{y})}\right) \mathrm{d} \mathbf{x} \mathrm{d} \mathbf{y} \end{aligned} I[x,y]≡KL(p(x,y)∥p(x)p(y))=−∬p(x,y)ln(p(x,y)p(x)p(y))dxdy

性质：I[x,y]≥0\mathrm{I}[\mathbf{x}, \mathbf{y}]\geq 0I[x,y]≥0，当 xxx 和 yyy 独立时，取到等号

互信息还可以用条件熵来定义：
I[x,y]=H[x]−H[x∣y]=H[y]−H[y∣x]\mathrm{I}[\mathbf{x}, \mathbf{y}]=\mathrm{H}[\mathbf{x}]-\mathrm{H}[\mathbf{x} \mid \mathbf{y}]=\mathrm{H}[\mathbf{y}]-\mathrm{H}[\mathbf{y} \mid \mathbf{x}] I[x,y]=H[x]−H[x∣y]=H[y]−H[y∣x]
可以这样理解：互信息表示由新观测值 yyy 导致的关于 xxx 的不确定性的减小量。