前言

如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。

文章目录

  • 前言
  • 一、介绍 (Introduction)
    • 1.1 例子:多项式拟合
      • 1.1.1 拟合过程
      • 1.1.2 增大数据量
      • 1.1.3 正则化 (Regularization)
    • 1.2 概率论 (Probability Theory)
      • 1.2.1 概率密度 (Probability densities)
      • 1.2.2 期望与协方差 (Expectations and covariances)
      • 1.2.3 贝叶斯概率 (Bayesian probabilities)
      • 1.2.4 高斯分布 (The Gaussian distribution)
      • 1.2.5 曲线拟合回顾
    • 1.3 模型选择 (Model Selection)
    • 1.4 维度诅咒 (The Curse of Dimensionality)
    • 1.5 决策论 (Decision Theory)
      • 1.5.1 最小化分类错误率 (Minimizing the misclassification rate)
      • 1.5.2 最小化期望损失 (Minimizing the expected loss)
      • 1.5.3 拒绝选项 (The reject option)
      • 1.5.4 推理与决策 (Inference and decision)
      • 1.5.5 回归损失函数 (Loss functions for regression)
    • 1.6 信息论 (Information Theory)
      • 1.6.1 熵 (Entropy)
      • 1.6.2 条件熵 (Conditional entropy)
      • 1.6.3 交叉熵 (Relative entropy)
      • 1.6.4 互信息 (Mutual information)

一、介绍 (Introduction)

本章目的:介绍一些重要概念

模式识别的核心:

  • 使用计算机算法,自动化地发现数据中的规律 (the automatic discovery of regularities in data)
  • 利用这些规律去完成某些任务,例如数据分类

不同领域间关系:

泛化 (generalization):

  • 【定义】将「不曾在训练集中出现过的数据」识别准确的能力
  • 【意义】模式识别的核心目标

预处理 (pre-processing):

  • 有时也称作特征提取 (feature extraction)
  • 意义
    • 缩小数据变化范围,便于后续识别 (reduce the variability)
    • 提取有效信息,降低数据维度 (dimensionality reduction),加快运算 (speed up computation)

应用分类:

  • 有监督学习 (supervised learning):训练集有目标向量 (target vectors)

    • 分类 (classification):期望输出为离散变量
    • 回归 (regression):期望输出为连续变量
  • 无监督学习 (unsupervised learning):训练集无目标向量
    • 聚类 (clustering):发现数据集中的相似数据组
    • 密度估计 (density estimation):确定数据分布
    • 可视化 (visualization):将数据从高维向低维投影
  • 强化学习 (reinforcement learning):在给定的状态下,找到恰当的行动 (action) 使得奖励 (reward) 最大化
    • 不提供最佳输出的示例,但需要通过反复试验来发现
    • 大多数情况下,当前行动会影响当前、乃至未来每一步的奖励
    • 一般都在探索 (exploration) 与利用 (exploitation) 间权衡,探索指尝试新行动;利用指使用已知行动获得最多奖励

三大重要工具:

  • 概率论 (probability theory)
  • 决策论 (decision theory)
  • 信息论 (information theory)

1.1 例子:多项式拟合

1.1.1 拟合过程

数据:x=(x1,...,xN)T,t=(t1,...,tN)T\mathbf{x}=(x_1,...,x_N)^T,\mathbf{t}=(t_1,...,t_N)^Tx=(x1​,...,xN​)T,t=(t1​,...,tN​)T

拟合函数:
y(x,w)=w0+w1x+w2x2+...+wMxM=∑j=0Mwjxjy(x,\mathbf{w})=w_0+w_1x+w_2x^2+...+w_Mx^M=\sum\limits_{j=0}^Mw_jx^j y(x,w)=w0​+w1​x+w2​x2+...+wM​xM=j=0∑M​wj​xj

损失函数 (error function):
E(w)=12∑n=1N{y(wn,w)−tn}2E(\mathbf{w})=\frac{1}{2}\sum\limits_{n=1}^N\{y(w_n,\mathbf{w})-t_n\}^2 E(w)=21​n=1∑N​{y(wn​,w)−tn​}2

衡量模型误差 - RMS (root-mean-square) error:

  • w∗\mathbf{w}^*w∗ 为模型必式解 (closed form)
    ERMS=2E(w∗)/NE_{\text{RMS}}=\sqrt{2E(\mathbf{w}^{*})/N} ERMS​=2E(w∗)/N​

拟合结果:

发现:

  • M = 9 时,模型拟合了噪声,发生过拟合 (over-fitting)

1.1.2 增大数据量

实验结果:

  • 均使用 M = 9 的拟合函数

发现:

  • 扩大数据集可缓解过拟合,换句话说,更大的数据集可以支持更复杂的模型
  • 【启发】数据集规模应大于模型变量个数的某一倍数(例如 5、10)

疑问点:

  • 模型复杂度的选择,应根据问题本身的复杂程度,而不是数据集大小

1.1.3 正则化 (Regularization)

新的损失函数:

  • 下述式子又称为岭回归 (ridge regression)
  • 【别名】统计中的收缩 (shrinkage),神经网络中的权重衰减 (weight decay)
    E~(w)=12∑n=1N{y(xn,w)−tn}2+λ2∥w∥2\widetilde{E}(\mathbf{w})=\frac{1}{2} \sum_{n=1}^N\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{\lambda}{2}\|\mathbf{w}\|^{2} E(w)=21​n=1∑N​{y(xn​,w)−tn​}2+2λ​∥w∥2

注意:

  • 通常正则项中不包含 w0w_0w0​,或者 w0w_0w0​ 与其它参数的系数不同 (because its inclusion causes the results to depend on the choice of origin for the target variable)

实验结果:

  • 仍采用 M = 9 的拟合函数

发现:

  • 正则化可以有效地抑制过拟合现象

1.2 概率论 (Probability Theory)

概率论意义:

  • 不确定性 (uncertainty) 是模式识别领域的关键概念,其根源在于「测量误差」与「有限的数据集大小」
  • 概率论为不确定性的量化 (quantification) 和处理 (manipulation) 提供了一致的框架,为模式识别的核心基础之一

概率论两条基本规则:

  • p(X,Y)p(X,Y)p(X,Y):联合概率 (joint probability - “the probability of X and Y”)
  • p(Y∣X)p(Y|X)p(Y∣X):条件概率 (conditional probability - “the probability of Y given X”)
  • p(X)p(X)p(X):边缘概率 (marginal probability - “the probability of X”)
    sumrulep(X)=∑Yp(X,Y)/∫p(X,Y)dYproductrulep(X,Y)=p(Y∣X)p(X)\begin{aligned} \textbf{sum rule } & p(X)=\sum_Yp(X,Y) \ / \int p(X,Y) dY\\ \textbf{product rule } & p(X,Y)=p(Y|X)p(X) \end{aligned} sum rule product rule ​p(X)=Y∑​p(X,Y) /∫p(X,Y)dYp(X,Y)=p(Y∣X)p(X)​

贝叶斯定理:

  • 求的是 p(Y∣X)p(Y|X)p(Y∣X),因此在观察到 XXX 前,p(Y)p(Y)p(Y) 就已确定,即为先验概率 (prior probability)
  • 在观察到 XXX 后,p(Y∣X)p(Y|X)p(Y∣X) 即可求出,即为后验概率 (posterior probability)
  • p(X)p(X)p(X) 为 p(Y∣X)p(Y|X)p(Y∣X) 提供了证据因子 (evidence)
  • p(X∣Y)p(X|Y)p(X∣Y) 为似然 (likelihood)
    p(Y∣X)=p(X∣Y)p(Y)p(X)=p(X∣Y)p(Y)∑Yp(X∣Y)p(Y)p(Y|X)=\displaystyle\frac{p(X|Y)p(Y)}{p(X)}=\displaystyle\frac{p(X|Y)p(Y)}{\sum_Yp(X|Y)p(Y)} p(Y∣X)=p(X)p(X∣Y)p(Y)​=∑Y​p(X∣Y)p(Y)p(X∣Y)p(Y)​

1.2.1 概率密度 (Probability densities)

定义:

  • 连续变量 xxx 落在区间 [x,x+δx](δx→0)[x,x+\delta x](\delta x\rightarrow 0)[x,x+δx](δx→0) 的概率为 p(x)δxp(x)\delta xp(x)δx,则 p(x)p(x)p(x) 为 xxx 这一点的概率密度
  • 若 xxx 为离散变量,则 p(x)p(x)p(x) 为概率质量函数 (probability mass function)

两大条件:
p(x)≥0∫−∞∞p(x)dx=1\begin{aligned} p(x) & \geq 0 \\ \int_{-\infty}^{\infty}p(x)dx&=1 \end{aligned} p(x)∫−∞∞​p(x)dx​≥0=1​

性质:

  • 若 x=g(y)x=g(y)x=g(y),则 py(y)=px(g(y))∣g′(y)∣p_y(y)=p_x(g(y))|g'(y)|py​(y)=px​(g(y))∣g′(y)∣,即最大化概率密度时依赖于选取的变量
  • 【推导】xxx 落在 [x,x+δx](x→0)[x,x+\delta x](x\rightarrow 0)[x,x+δx](x→0) 的概率等价于 yyy 落在 [y,y+δy](y→0)[y,y+\delta y](y\rightarrow 0)[y,y+δy](y→0) 的概率,即 px(x)δx=py(y)δy(x,y→0)p_x(x)\delta x=p_y(y)\delta y(x,y\rightarrow 0)px​(x)δx=py​(y)δy(x,y→0),则
    py(y)=px(x)∣dxdy∣=px(g(y))∣g′(y)∣\begin{aligned} p_y(y)&=p_x(x)|\displaystyle\frac{\text{d}x}{\text{d}y}|\\ &=p_x(g(y))|g'(y)| \end{aligned} py​(y)​=px​(x)∣dydx​∣=px​(g(y))∣g′(y)∣​

1.2.2 期望与协方差 (Expectations and covariances)

期望 (expectation):

  • 【定义】在概率分布 p(x)p(x)p(x) 下,f(x)f(x)f(x) 的均值称作 f(x)f(x)f(x) 的期望,表示为 E[f]\mathbb{E}[f]E[f]
  • 【离散】E[f]=∑xp(x)f(x)\mathbb{E}[f]=\sum_xp(x)f(x)E[f]=∑x​p(x)f(x)
  • 【连续】E[f]=∫p(x)f(x)dx\mathbb{E}[f]=\int p(x)f(x)\text{d}xE[f]=∫p(x)f(x)dx
  • 【统计近似】E[f]≃1N∑n=1Nf(xn)\mathbb{E}[f]\simeq \frac{1}{N}\sum_{n=1}^Nf(x_n)E[f]≃N1​∑n=1N​f(xn​)
  • 【多变量】Ex[f(x,y)]\mathbb{E}_x[f(x,y)]Ex​[f(x,y)] 表示在 xxx 分布下,f(x,y)f(x,y)f(x,y) 的均值,最终应表示为 yyy 的函数
  • 【条件期望 (conditional expectation)】Ex[f∣y]=∑xp(x∣y)f(x)\mathbb{E}_x[f|y]=\sum_x p(x|y)f(x)Ex​[f∣y]=∑x​p(x∣y)f(x)

方差 (variance):

  • 【定义】衡量 f(x)f(x)f(x) 在其均值 E[f(x)]\mathbb{E}[f(x)]E[f(x)] 周围变化性 (variability) 的大小,var[f]=E[(f(x)−E[f(x)])2]=E[f(x)2]−E[f(x)]2var[f]=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]=\mathbb{E}[f(x)^2]-\mathbb{E}[f(x)]^2var[f]=E[(f(x)−E[f(x)])2]=E[f(x)2]−E[f(x)]2
  • 【简便表示】var[x]=E[x2]−E[x]2var[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^2var[x]=E[x2]−E[x]2

协方差 (covariance):

  • 【定义】cov[x,y]\text{cov}[x,y]cov[x,y] 衡量 xxx 和 yyy 共同变化的程度
    cov[x,y]=Ex,y[{x−E[x]}{y−E[y]}]=Ex,y[x,y]−E[x]E[y]\begin{aligned} \text{cov}[x,y]&=\mathbb{E}_{x,y}[\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}]\\ &=\mathbb{E}_{x,y}[x,y]-\mathbb{E}[x]\mathbb{E}[y] \end{aligned} cov[x,y]​=Ex,y​[{x−E[x]}{y−E[y]}]=Ex,y​[x,y]−E[x]E[y]​

协方差矩阵:

  • 当 x\mathbf{x}x 和 y\mathbf{y}y 为向量时,cov[x,y]\text{cov}[\mathbf{x},\mathbf{y}]cov[x,y] 为协方差矩阵
  • cov[x]≡cov[x,x]\text{cov}[\mathbf{x}]\equiv\text{cov}[\mathbf{x},\mathbf{x}]cov[x]≡cov[x,x]
    cov[x,y]=Ex,y[{x−E[x]}{yT−E[yT]}]=Ex,y[xyT]−E[x]E[yT]\begin{aligned} \text{cov}[\mathbf{x},\mathbf{y}]&=\mathbb{E}_{\mathbf{x}, \mathbf{y}}\left[\{\mathbf{x}-\mathbb{E}[\mathbf{x}]\}\left\{\mathbf{y}^{T}-\mathbb{E}\left[\mathbf{y}^{T}\right]\right\}\right]\\ &=\mathbb{E}_{\mathbf{x}, \mathbf{y}}\left[\mathbf{x} \mathbf{y}^{T}\right]-\mathbb{E}[\mathbf{x}] \mathbb{E}\left[\mathbf{y}^{T}\right] \end{aligned} cov[x,y]​=Ex,y​[{x−E[x]}{yT−E[yT]}]=Ex,y​[xyT]−E[x]E[yT]​

1.2.3 贝叶斯概率 (Bayesian probabilities)

对比:

  • 【频率学派 (classical or frequentist)】将概率看作是随机重复事件的发生频率
  • 【贝叶斯学派 (Bayesian)】将概率看作是不确定性的度量 (a quantification of uncertainty)

举例:

  • 给定数据集 D\text{D}D 求模型参数 w\mathbf{w}w
  • 【频率学派】使用极大似然估计 (maximum likelihood),求使 p(D∣w)p(D|\mathbf{w})p(D∣w) 概率最大时的 w\mathbf{w}w
  • 【贝叶斯学派】用 p(w∣D)p(\mathbf{w}|D)p(w∣D) 来度量不确定性

1.2.4 高斯分布 (The Gaussian distribution)

概念:

  • μ\muμ:mean
  • σ2\sigma^2σ2:variance
  • σ\sigmaσ:standard deviation
  • β=1/σ2\beta=1/\sigma^2β=1/σ2:precision
  • mode:p(x)p(x)p(x) 最大时的 xxx,在高斯分布中为 μ\muμ
  • 独立同分布 (i.i.d):independent and identically distributed
    N(x∣μ,σ2)=1(2πσ2)1/2exp⁡{−12σ2(x−μ)2}\mathcal{N}\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\} N(x∣μ,σ2)=(2πσ2)1/21​exp{−2σ21​(x−μ)2}

性质:

  • ∫−∞∞N(x∣μ,σ2)dx=1\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) \mathrm{d} x=1∫−∞∞​N(x∣μ,σ2)dx=1
  • E[x]=∫−∞∞N(x∣μ,σ2)xdx=μ\mathbb{E}[x]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x \mathrm{~d} x=\muE[x]=∫−∞∞​N(x∣μ,σ2)x dx=μ
  • E[x2]=∫−∞∞N(x∣μ,σ2)x2dx=μ2+σ2\mathbb{E}\left[x^{2}\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x^{2} \mathrm{~d} x=\mu^{2}+\sigma^{2}E[x2]=∫−∞∞​N(x∣μ,σ2)x2 dx=μ2+σ2
  • var⁡[x]=E[x2]−E[x]2=σ2\operatorname{var}[x]=\mathbb{E}\left[x^{2}\right]-\mathbb{E}[x]^{2}=\sigma^{2}var[x]=E[x2]−E[x]2=σ2

证明:

多元高斯分布:
N(x∣μ,Σ)=1(2π)D/21∣Σ∣1/2exp⁡{−12(x−μ)TΣ−1(x−μ)}\mathcal{N}(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\mathbf{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\} N(x∣μ,Σ)=(2π)D/21​∣Σ∣1/21​exp{−21​(x−μ)TΣ−1(x−μ)}

极大似然估计的偏差 (bias):

  • 【方法】用 MLE 来估计高斯分布的参数,即 max⁡ln⁡p(x∣μ,σ2)=−12σ2∑n=1N(xn−μ)2−N2ln⁡σ2−N2ln⁡(2π)\max\ \ln p\left(\mathbf{x} \mid \mu, \sigma^{2}\right)=-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}-\frac{N}{2} \ln \sigma^{2}-\frac{N}{2} \ln (2 \pi)max lnp(x∣μ,σ2)=−2σ21​∑n=1N​(xn​−μ)2−2N​lnσ2−2N​ln(2π)
  • 【结果】
    • μML=1N∑n=1Nxn\mu_{\text{ML}}=\displaystyle\frac{1}{N}\sum\limits_{n=1}^N x_nμML​=N1​n=1∑N​xn​
    • σML2=1N∑n=1N(xn−μML)2\sigma^2_{\text{ML}}=\displaystyle\frac{1}{N}\sum\limits_{n=1}^N(x_n-\mu_{\text{ML}})^2σML2​=N1​n=1∑N​(xn​−μML​)2
  • 【结论】
    • E[σML2]=(N−1N)σ2\mathbb{E}[\sigma^2_{\text{ML}}]=(\displaystyle\frac{N-1}{N})\sigma^2E[σML2​]=(NN−1​)σ2,小于无偏估计值,其中的差距称为 bias

1.2.5 曲线拟合回顾

极大似然估计(maximum likelihood - MLE):

  • 【假设】p(t∣x,w,β)=N(t∣y(x,w),β−1)p(t \mid x, \mathbf{w}, \beta)=\mathcal{N}\left(t \mid y(x, \mathbf{w}), \beta^{-1}\right)p(t∣x,w,β)=N(t∣y(x,w),β−1)

  • 【求解】max⁡p(t∣x,w,β)\max\ p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta)max p(t∣x,w,β)

    • p(t∣x,w,β)=∏n=1NN(tn∣y(xn,w),β−1)p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta)=\prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid y\left(x_{n}, \mathbf{w}\right), \beta^{-1}\right)p(t∣x,w,β)=∏n=1N​N(tn​∣y(xn​,w),β−1)
    • ln⁡p(t∣x,w,β)=−β2∑n=1N{y(xn,w)−tn}2+N2ln⁡β−N2ln⁡(2π)\ln p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta)=-\frac{\beta}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi)lnp(t∣x,w,β)=−2β​∑n=1N​{y(xn​,w)−tn​}2+2N​lnβ−2N​ln(2π)
    • wML=arg min⁡w∑n=1N{y(xn,w)−tn}2\mathbf{w}_{\text{ML}}=\text{arg}\ \underset{\mathbf{w}}{\min} \sum\limits_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2wML​=arg wmin​n=1∑N​{y(xn​,w)−tn​}2
    • 1βML=1N∑n=1N{y(xn,wML)−tn}2\frac{1}{\beta_{\mathrm{ML}}}=\frac{1}{N} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}_{\mathrm{ML}}\right)-t_{n}\right\}^{2}βML​1​=N1​∑n=1N​{y(xn​,wML​)−tn​}2
  • 【结论】等价于最小二乘法

极大后验概率(maximum posterior - MAP):

  • 【假设先验概率】p(w∣α)=N(w∣0,α−1I)=(α2π)(M+1)/2exp⁡{−α2wTw}p(\mathbf{w} \mid \alpha)=\mathcal{N}\left(\mathbf{w} \mid \mathbf{0}, \alpha^{-1} \mathbf{I}\right)=\left(\frac{\alpha}{2 \pi}\right)^{(M+1) / 2} \exp \left\{-\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}\right\}p(w∣α)=N(w∣0,α−1I)=(2πα​)(M+1)/2exp{−2α​wTw}
  • 【求解 - 最大后验概率】
    • p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α)p(\mathbf{w} \mid \mathbf{x}, \mathbf{t}, \alpha, \beta) \propto p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta) p(\mathbf{w} \mid \alpha)p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α)
    • min⁡wβ2∑n=1N{y(xn,w)−tn}2+α2wTw\underset{\mathbf{w}}{\min}\frac{\beta}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}wmin​2β​∑n=1N​{y(xn​,w)−tn​}2+2α​wTw
  • 【结论】等价于加上正则项的最小二乘

1.3 模型选择 (Model Selection)

交叉验证 (cross-validation):

  • 【过程】分成 S 份,每一次留一份作为测试集
  • 【缺点】对参数很多、运行一次较耗时的模型很不友好

1.4 维度诅咒 (The Curse of Dimensionality)

区域划分:

  • 随着维度的增加,划分的格子数指数增长

多项式拟合:

  • 随着维度增加,模型参数幂次增长
    y(x,w)=w0+∑i=1Dwixi+∑i=1D∑j=1Dwijxixj+∑i=1D∑j=1D∑k=1Dwijkxixjxky(\mathbf{x}, \mathbf{w})=w_{0}+\sum_{i=1}^{D} w_{i} x_{i}+\sum_{i=1}^{D} \sum_{j=1}^{D} w_{i j} x_{i} x_{j}+\sum_{i=1}^{D} \sum_{j=1}^{D} \sum_{k=1}^{D} w_{i j k} x_{i} x_{j} x_{k} y(x,w)=w0​+i=1∑D​wi​xi​+i=1∑D​j=1∑D​wij​xi​xj​+i=1∑D​j=1∑D​k=1∑D​wijk​xi​xj​xk​

解决思路:

  • 【思路 1】实际数据通常会被限制在有效维数较低的区域中,尤其是引起目标变量重大变化的维度可能会被限制
  • 【思路 2】实际数据通常有一些平滑性质,即输入的微扰引起目标变量的微扰,因此可以使用类似局部插值的方式进行预测

1.5 决策论 (Decision Theory)

主题:根据目标向量可能的取值,作出决策。

1.5.1 最小化分类错误率 (Minimizing the misclassification rate)

概念:

  • 决策区域 Rk\mathcal{R}_{k}Rk​ (decision regions):位于 Rk\mathcal{R}_{k}Rk​ 中的点均被赋为 Ck\mathcal{C}_{k}Ck​ 类别;决策区域可以由不相交的区域组成
  • 决策边界 (decision boundaries / surfaces):决策区域间的边界

决策方法:

  • 最小化分类错误率,即将 xxx 分配给令 p(Ck,x)∝p(Ck∣x)p(C_k,x)\propto p(C_k|x)p(Ck​,x)∝p(Ck​∣x) 最大的 CkC_kCk​
  • 【图解】
    • x^\hat{x}x^ 为决策边界,红、绿、紫为分类错误的区域
    • 无论 x^\hat{x}x^ 如何变化,绿 + 紫的面积不变,但红的面积会变
    • 当 x^\hat{x}x^ 位于 x0x_0x0​ 时,错误区域面积最小

1.5.2 最小化期望损失 (Minimizing the expected loss)

引入损失函数 (loss function) Lk,jL_{k,j}Lk,j​,表示真实类别为 kkk,被错误分到 jjj 的损失,因此最小化期望损失可以如下表示:
min⁡j∑kLk,jp(Ck∣x)\min_j\ \sum_kL_{k,j}p(C_k|x) jmin​ k∑​Lk,j​p(Ck​∣x)

1.5.3 拒绝选项 (The reject option)

当 max⁡k(p(Ck∣x))≤θ\underset{k}{\max}(p(C_k|x))\leq \thetakmax​(p(Ck​∣x))≤θ 时,拒绝为 xxx 赋类别,如下图所示:

1.5.4 推理与决策 (Inference and decision)

将分类问题划分为两个阶段,分别是:

  • 推理阶段 (inference stage) - 建立模型学习 p(Ck∣x)p(C_k|x)p(Ck​∣x)
  • 决策阶段 (decision stage) - 使用后验概率进行最优的类别赋值

由此决策问题大致可以分为如下三种解决方法:

  • 生成模型 (generative models)

    • 求出先验与似然,即 p(Ck)p(C_k)p(Ck​) 与 p(x∣Ck)p(x|C_k)p(x∣Ck​),再求出 p(x)p(x)p(x)
    • 最后根据贝叶斯定理,求出后验 p(Ck∣x)p(C_k|x)p(Ck​∣x)
    • 缺点:确定 p(x∣Ck)p(x|C_k)p(x∣Ck​) 需要大数据集的支持
    • 优点:由于 p(x)p(x)p(x) 的求出,可以检测离群点 (outlier / novelty detection)
  • 判别模型 (discriminative models)

    • 直接求出 p(Ck∣x)p(C_k|x)p(Ck​∣x)
    • 特点:较于生成模型,要求降低,且有时候 p(x∣Ck)p(x|C_k)p(x∣Ck​) 对后验概率影响不大
  • 判别函数 (discriminant function)

    • 寻找函数 f(x)f(x)f(x),直接将输入数据映射到具体类别上,两阶段被合并为一阶段

判别函数的方式无法求出后验概率 p(Ck∣x)p(C_k|x)p(Ck​∣x),但后验概率的求解本身具有很多优势:

  • 【Minimizing risk】若模型采用最小化期望损失,若 Lk,jL_{k,j}Lk,j​ 时不时地会发生修正,则率先求出后验概率可以更为方便地调整模型
  • 【Reject option】有了后验概率才能确定拒绝条件
  • 【Compensating for class priors】有时候原始数据分布很不均匀,例如二分类问题,为 0 的数据占 0.1%0.1\%0.1%,此时我们需要平衡数据集,提高为 0 数据的占比。由于我们更改了数据的分布,因此可以利用后验概率进行修正,即:
    p补偿后(Ck∣x)=p调整后(Ck∣x)p调整前(Ck)p调整后(Ck)p_{\text{补偿后}}(C_k|x)=\displaystyle\frac{p_{\text{调整后}}(C_k|x)p_{\text{调整前}}(C_k)}{p_{\text{调整后}}(C_k)} p补偿后​(Ck​∣x)=p调整后​(Ck​)p调整后​(Ck​∣x)p调整前​(Ck​)​最后再进行放缩,使得后验概率之和为 1。
  • 【Combining models】使用后验概率进行模型合并,而不是将模型的输入数据直接拼接:

1.5.5 回归损失函数 (Loss functions for regression)

使用 y(x)y(\mathbf{x})y(x) 进行回归预测,采用平方损失,其损失均值为:
E[y(x)]=∬{y(x)−t}2p(x,t)dxdt\mathbb{E}[y(\mathbf{x})]=\iint\{y(\mathbf{x})-t\}^{2} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t E[y(x)]=∬{y(x)−t}2p(x,t)dxdt
使用欧拉-拉格朗日公式,求得 y(x)y(\mathbf{x})y(x) 最优值:
δE[L]δy(x)=2∫{y(x)−t}p(x,t)dt=0y(x)=∫tp(x,t)dtp(x)=∫tp(t∣x)dt=Et[t∣x]\begin{aligned} & \frac{\delta \mathbb{E}[L]}{\delta y(\mathbf{x})}=2 \int\{y(\mathbf{x})-t\} p(\mathbf{x}, t) \mathrm{d} t=0 \\ & y(\mathbf{x})=\frac{\int t p(\mathbf{x}, t) \mathrm{d} t}{p(\mathbf{x})}=\int t p(t \mid \mathbf{x}) \mathrm{d} t=\mathbb{E}_{t}[t \mid \mathbf{x}] \end{aligned} ​δy(x)δE[L]​=2∫{y(x)−t}p(x,t)dt=0y(x)=p(x)∫tp(x,t)dt​=∫tp(t∣x)dt=Et​[t∣x]​

因此在平方损失的回归任务中,y(x)y(\mathbf{x})y(x) 最优值为 Et[t∣x]\mathbb{E}_{t}[t \mid \mathbf{x}]Et​[t∣x],如下图所示:

对于 multi-label 问题,y(x)y(\mathbf{x})y(x) 最优值依然为 Et[t∣x]\mathbb{E}_{t}[\mathbf{t} \mid \mathbf{x}]Et​[t∣x]:
E[L]=∬∥y(x)−t∥2p(t,x)dxdtδE[L]δy(x)=∫2(y(x)−t)p(t,x)dt=0y(x)=∫tp(t,x)dt∫p(t,x)dt=∫tp(t∣x)dty(x)=∫tp(t∣x)dt\begin{aligned} & \mathbb{E}[L]=\iint\|\mathbf{y}(\mathbf{x})-\mathbf{t}\|^{2} p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{x} \mathrm{d} \mathbf{t} \\ & \frac{\delta \mathbb{E}[L]}{\delta \mathbf{y}(\mathbf{x})}=\int 2(\mathbf{y}(\mathbf{x})-\mathbf{t}) p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{t}=0 \\ & \mathbf{y}(\mathbf{x})=\frac{\int \mathbf{t} p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{t}}{\int p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{t}}=\int \mathbf{t} p(\mathbf{t} \mid \mathbf{x}) \mathrm{d} \mathbf{t}\\ & y(\mathbf{x})=\int t p(t \mid \mathbf{x}) \mathrm{d} t \end{aligned} ​E[L]=∬∥y(x)−t∥2p(t,x)dxdtδy(x)δE[L]​=∫2(y(x)−t)p(t,x)dt=0y(x)=∫p(t,x)dt∫tp(t,x)dt​=∫tp(t∣x)dty(x)=∫tp(t∣x)dt​

另外,在求出 y(x)y(\mathbf{x})y(x) 最优值后,我们可以对 {y(x)−t}2\{y(\mathbf{x})-t\}^2{y(x)−t}2 进行如下分解:
{y(x)−t}2={y(x)−E[t∣x]+E[t∣x]−t}2={y(x)−E[t∣x]}2+2{y(x)−E[t∣x]}{E[t∣x]−t}+{E[t∣x]−t}2\begin{aligned} \{y(\mathbf{x})-t\}^2 &= \{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]+\mathbb{E}[t \mid \mathbf{x}]-t\}^{2} \\ &= \{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]\}^{2}+2\{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]\}\{\mathbb{E}[t \mid \mathbf{x}]-t\}+\{\mathbb{E}[t \mid \mathbf{x}]-t\}^{2} \end{aligned} {y(x)−t}2​={y(x)−E[t∣x]+E[t∣x]−t}2={y(x)−E[t∣x]}2+2{y(x)−E[t∣x]}{E[t∣x]−t}+{E[t∣x]−t}2​

带回 E[y(x)]\mathbb{E}[y(\mathbf{x})]E[y(x)] 中,得到:
E[y(x)]=∫{y(x)−E[t∣x]}2p(x)dx+∬{E[t∣x]−t}2p(x,t)dxdt\mathbb{E}[y(\mathbf{x})]=\int\{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]\}^{2} p(\mathbf{x}) \mathrm{d} \mathbf{x}+\iint\{\mathbb{E}[t \mid \mathbf{x}]-t\}^{2} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t E[y(x)]=∫{y(x)−E[t∣x]}2p(x)dx+∬{E[t∣x]−t}2p(x,t)dxdt

其中第二项是在 x\mathbf{x}x 上 ttt 概率分布方差的均值,与 y(x)y(\mathbf{x})y(x) 无关,可以视为目标数据的内在变异性(噪声),损失函数的最小值。

最后考虑一下广义的损失函数:
E[Lq]=∬∣y(x)−t∣qp(x,t)dxdt\mathbb{E}\left[L_{q}\right]=\iint|y(\mathbf{x})-t|^{q} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t E[Lq​]=∬∣y(x)−t∣qp(x,t)dxdt
其中 qqq 分别为 2,1,02,1,02,1,0 时的最优解 y(x)y(\mathbf{x})y(x) 如下:

1.6 信息论 (Information Theory)

1.6.1 熵 (Entropy)

当事件 xxx 发生时,如何去衡量我们所接收到的信息 h(x)h(x)h(x)?

从概率的角度去思考,p(x)p(x)p(x) 若很大,例如等于 1,则基本没有带来新信息;若 p(x)p(x)p(x) 很小,则意味着小概率事件发生了,我们可以有更多的思考,因此 h(x)h(x)h(x) 中应包含 p(x)p(x)p(x)。

另外,如果 yyy 与 xxx 独立,则 h(x,y)=h(x)+h(y)h(x,y)=h(x)+h(y)h(x,y)=h(x)+h(y),而 p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)p(x,y)=p(x)p(y),因此考虑引入对数。

基于上述考虑,我们可以如下表示 h(x)h(x)h(x):
h(x)=−log⁡2p(x)h(x)=-\log_2p(x) h(x)=−log2​p(x)

注意 h(x)h(x)h(x) 的单位为 bits。

进一步地,令 xxx 为随机变量,则我们可以给出基于其离散概率分布的平均信息:
H[x]=−∑xp(x)log⁡2p(x)H[x]=-\sum_xp(x)\log_2p(x) H[x]=−x∑​p(x)log2​p(x)

定义 H[x]H[x]H[x] 为随机变量 xxx 的熵 (entropy)。

在离散概率分布的情况下,我们可以使用拉格朗日对偶求解得到,当 xxx 符合均匀分布时,H[x]H[x]H[x] 最大。

而当 xxx 为连续随机变量时,H[x]=−∫p(x)ln⁡p(x)dxH[x]=-\int p(x)\ln p(x)\text{d}xH[x]=−∫p(x)lnp(x)dx,在满足如下三个限制条件后,可以使用拉格朗日对偶求出当 xxx 符合高斯分布时,H[x]H[x]H[x] 最大:

H[x]=12{1+ln⁡(2πσ2)}H[x]=\displaystyle\frac{1}{2}\{1+\ln(2\pi\sigma^2)\} H[x]=21​{1+ln(2πσ2)}

注意 xxx 离散时,H[x]≥0H[x]\geq 0H[x]≥0;但 xxx 连续时,H[x]H[x]H[x] 可能 <0< 0<0。

1.6.2 条件熵 (Conditional entropy)

H[x,y]=H[y∣x]+H[x]H[x,y]=H[y|x]+H[x] H[x,y]=H[y∣x]+H[x]

1.6.3 交叉熵 (Relative entropy)

xxx 真实分布为 p(x)p(x)p(x),我们估计的分布为 q(x)q(x)q(x),则错误估计所带来的信息差 (relative entropy or Kullback-Leibler divergence or KL divergence) 为:
KL(p∥q)=−∫p(x)ln⁡q(x)dx−(−∫p(x)ln⁡p(x)dx)=−∫p(x)ln⁡{q(x)p(x)}dx\begin{aligned} \mathrm{KL}(p \| q) &=-\int p(\mathbf{x}) \ln q(\mathbf{x}) \mathrm{d} \mathbf{x}-\left(-\int p(\mathbf{x}) \ln p(\mathbf{x}) \mathrm{d} \mathbf{x}\right) \\ &=-\int p(\mathbf{x}) \ln \left\{\frac{q(\mathbf{x})}{p(\mathbf{x})}\right\} \mathrm{d} \mathbf{x} \end{aligned} KL(p∥q)​=−∫p(x)lnq(x)dx−(−∫p(x)lnp(x)dx)=−∫p(x)ln{p(x)q(x)​}dx​

满足以下条件:

  • KL(p∥q)≢KL(q∥p)\mathrm{KL}(p \| q) \not \equiv \mathrm{KL}(q \| p)KL(p∥q)​≡KL(q∥p)
  • KL(p∥q)≥0\mathrm{KL}(p \| q)\geq 0KL(p∥q)≥0,在 p(x)=q(x)p(x)=q(x)p(x)=q(x) 时取等

因此 KLKLKL 散度是一种衡量两个分布匹配程度的方法,其值越小,两个分布之间的匹配就越好。

1.6.4 互信息 (Mutual information)

互信息为原分布 (p(x,y)p(x,y)p(x,y)) 与估计分布 (p(x)p(y)p(x)p(y)p(x)p(y)) 间的信息差:
I[x,y]≡KL⁡(p(x,y)∥p(x)p(y))=−∬p(x,y)ln⁡(p(x)p(y)p(x,y))dxdy\begin{aligned} \mathrm{I}[\mathbf{x}, \mathbf{y}] & \equiv \operatorname{KL}(p(\mathbf{x}, \mathbf{y}) \| p(\mathbf{x}) p(\mathbf{y})) \\ &=-\iint p(\mathbf{x}, \mathbf{y}) \ln \left(\frac{p(\mathbf{x}) p(\mathbf{y})}{p(\mathbf{x}, \mathbf{y})}\right) \mathrm{d} \mathbf{x} \mathrm{d} \mathbf{y} \end{aligned} I[x,y]​≡KL(p(x,y)∥p(x)p(y))=−∬p(x,y)ln(p(x,y)p(x)p(y)​)dxdy​

性质:I[x,y]≥0\mathrm{I}[\mathbf{x}, \mathbf{y}]\geq 0I[x,y]≥0,当 xxx 和 yyy 独立时,取到等号

互信息还可以用条件熵来定义:
I[x,y]=H[x]−H[x∣y]=H[y]−H[y∣x]\mathrm{I}[\mathbf{x}, \mathbf{y}]=\mathrm{H}[\mathbf{x}]-\mathrm{H}[\mathbf{x} \mid \mathbf{y}]=\mathrm{H}[\mathbf{y}]-\mathrm{H}[\mathbf{y} \mid \mathbf{x}] I[x,y]=H[x]−H[x∣y]=H[y]−H[y∣x]
可以这样理解:互信息表示由新观测值 yyy 导致的关于 xxx 的不确定性的减小量。

【PRML 学习笔记】第一章 - 介绍 (Introduction)相关推荐

  1. 《Go语言圣经》学习笔记 第一章 Go语言入门

    Go语言圣经学习笔记 第一章 Go语言入门 目录 Hello, World 命令行参数 查找重复的行 GIF动画 获取URL 并发获取多个URL Web服务 本章要点 注:学习<Go语言圣经&g ...

  2. 编译原理(龙书)学习笔记 第一章

    编译原理(龙书)学习笔记 第一章 1.1语言处理器 解释器(interpreter) : 编译器(compiler): 一个语言处理系统 练习 1.1.1:编译器和解释器之间的区别 1.1.2:相对优 ...

  3. 小吴的《机器学习 周志华》学习笔记 第一章 绪论

    小吴的<机器学习 周志华>学习笔记 第一章 绪论 近一年时间接触到不少机器学习的知识,虽然断断续续学了一些,总感觉还没有入门(只学会了疯狂调包).因此,最近开始系统学习Machine Le ...

  4. 计算机网络学习笔记---第一章

    计算机网络学习笔记 第一章 文章目录 计算机网络学习笔记 第一章 前言 一.计算机网络的概念 (一)计算机网络的功能 1.数据通信(连通性) 2.资源共享(硬件 软件 数据) 3.分布式处理 (Had ...

  5. 机器人导论(第四版)学习笔记——第一章

    机器人学导论(第四版)学习笔记--第一章 1. 概述 1.1 背景 1.2 操作臂力学和控制 1.3 符号 1. 概述 1.1 背景 工业自动化的发展带来了工业机器人的高速发展.本书聚焦机械臂的力学和 ...

  6. PhalAPI学习笔记 ——— 第一章自定义HelloWorld接口

    PhalAPI学习笔记 --- 第一章自定义HelloWorld接口 前言 自定义接口 项目实例 结果 分布解析 结束语 前言 公司业务需要转学PHP,而PHP中一个功能强大且生态链完整的PHP接口框 ...

  7. Reinforcement learning book 学习笔记 第一章

    RL学习 写在前面: 本专栏是学习由Richard S. Sutton and Andrew G. Barto 所著 <Reinforcement learning>的学习笔记,如有指正请 ...

  8. [go学习笔记.第一章] go可以做什么

    go可以做什么,go有以下三大学习方向: Golang的应用领域 1.区块链应用 区块链技术,简称BT(Blockchain technology),也被称之为分布式账本技术,是一种互联网数据库技术, ...

  9. Kotlin学习笔记 第一章开始 第二章 基础

    参考链接 Kotlin官方文档 https://kotlinlang.org/docs/home.html 本系列为参考Kotlin中文文档 https://download.csdn.net/dow ...

  10. 《谁说菜鸟不会数据分析》学习笔记 第一章总览 第二章数据分析思路

    网上的信息太琐碎了,根本没搞懂什么是数据分析方法什么是数据分析方法论,所以找了一本比较简单的书来系统学习一下,本来打算粗略看完,但是觉得这本书知识还是不错的,所以决定在未来一周把这本书用心学一下. 这 ...

最新文章

  1. JS对象直接量,数组直接量和函数直接量
  2. OpenGL 加载模型Model
  3. 【springboot】【若依(ruoyi)】@RestController 接口跨域请求
  4. 行添加DataGridView导出Excel的数据表格
  5. php word excel,PHP 生成word 和 excel 文档
  6. Golang——Json的序列化和反序列化
  7. STM32那点事(5)_ADC(上)
  8. 得推乡镇拼车系统源码v1.0
  9. 创业失败三年后,这个曾经的富二代变得一无所有
  10. 重用WINXP的系统还原功能
  11. android定位地点的保存,Android获得所有存储设备位置的最佳方法
  12. Nginx概述(1)----应用场景,出现原因,优点,组成
  13. Laravel渴求式加载
  14. GeoServer 自定义字体 符号化渲染点
  15. 用python下载视频代码_python实现视频下载
  16. 探讨!自媒体的推荐机制提高百家号阅读收益方法!
  17. 晨光科力普基于GitLab CI/CD持续集成服务的应用
  18. 新浪微博2020界校招笔试-算法工程师
  19. html崩溃手机代码15,这12行代码分分钟让你电脑崩溃手机重启
  20. 大数据开发认知--spark

热门文章

  1. [c++] polymorphism without virtual function
  2. .NET MVC4 本地正常 部署 服务器错误
  3. Model to Text工具Acceleo使用教程(七)——模板服务
  4. 提高专业技能之 “完整DataSheet”
  5. 获取文件夹下所有文件名(window+linux)
  6. 反思 大班 快乐的机器人_幼儿园大班体育课教案《小熊斗怪兽》含反思
  7. SLAM--BA优化
  8. zip gbk java,java 解压 ZIP 中文 乱码 GBK UTF-8 完美解决方案
  9. 变速恒频风电机组的优缺点_风电消防安全解决方案解析
  10. 一步一步手写实现实时监测物体YOLO v3 EASY METHOD | OpenCV Python CNN卷积神经网络