【PRML 学习笔记】第一章 - 介绍 (Introduction)
前言
如果你对这篇文章可感兴趣,可以点击「【访客必读 - 指引页】一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接。
文章目录
- 前言
- 一、介绍 (Introduction)
- 1.1 例子:多项式拟合
- 1.1.1 拟合过程
- 1.1.2 增大数据量
- 1.1.3 正则化 (Regularization)
- 1.2 概率论 (Probability Theory)
- 1.2.1 概率密度 (Probability densities)
- 1.2.2 期望与协方差 (Expectations and covariances)
- 1.2.3 贝叶斯概率 (Bayesian probabilities)
- 1.2.4 高斯分布 (The Gaussian distribution)
- 1.2.5 曲线拟合回顾
- 1.3 模型选择 (Model Selection)
- 1.4 维度诅咒 (The Curse of Dimensionality)
- 1.5 决策论 (Decision Theory)
- 1.5.1 最小化分类错误率 (Minimizing the misclassification rate)
- 1.5.2 最小化期望损失 (Minimizing the expected loss)
- 1.5.3 拒绝选项 (The reject option)
- 1.5.4 推理与决策 (Inference and decision)
- 1.5.5 回归损失函数 (Loss functions for regression)
- 1.6 信息论 (Information Theory)
- 1.6.1 熵 (Entropy)
- 1.6.2 条件熵 (Conditional entropy)
- 1.6.3 交叉熵 (Relative entropy)
- 1.6.4 互信息 (Mutual information)
一、介绍 (Introduction)
本章目的:介绍一些重要概念
模式识别的核心:
- 使用计算机算法,自动化地发现数据中的规律 (the automatic discovery of regularities in data)
- 利用这些规律去完成某些任务,例如数据分类
不同领域间关系:
泛化 (generalization):
- 【定义】将「不曾在训练集中出现过的数据」识别准确的能力
- 【意义】模式识别的核心目标
预处理 (pre-processing):
- 有时也称作特征提取 (feature extraction)
- 意义
- 缩小数据变化范围,便于后续识别 (reduce the variability)
- 提取有效信息,降低数据维度 (dimensionality reduction),加快运算 (speed up computation)
应用分类:
- 有监督学习 (supervised learning):训练集有目标向量 (target vectors)
- 分类 (classification):期望输出为离散变量
- 回归 (regression):期望输出为连续变量
- 无监督学习 (unsupervised learning):训练集无目标向量
- 聚类 (clustering):发现数据集中的相似数据组
- 密度估计 (density estimation):确定数据分布
- 可视化 (visualization):将数据从高维向低维投影
- 强化学习 (reinforcement learning):在给定的状态下,找到恰当的行动 (action) 使得奖励 (reward) 最大化
- 不提供最佳输出的示例,但需要通过反复试验来发现
- 大多数情况下,当前行动会影响当前、乃至未来每一步的奖励
- 一般都在探索 (exploration) 与利用 (exploitation) 间权衡,探索指尝试新行动;利用指使用已知行动获得最多奖励
三大重要工具:
- 概率论 (probability theory)
- 决策论 (decision theory)
- 信息论 (information theory)
1.1 例子:多项式拟合
1.1.1 拟合过程
数据:x=(x1,...,xN)T,t=(t1,...,tN)T\mathbf{x}=(x_1,...,x_N)^T,\mathbf{t}=(t_1,...,t_N)^Tx=(x1,...,xN)T,t=(t1,...,tN)T
拟合函数:
y(x,w)=w0+w1x+w2x2+...+wMxM=∑j=0Mwjxjy(x,\mathbf{w})=w_0+w_1x+w_2x^2+...+w_Mx^M=\sum\limits_{j=0}^Mw_jx^j y(x,w)=w0+w1x+w2x2+...+wMxM=j=0∑Mwjxj
损失函数 (error function):
E(w)=12∑n=1N{y(wn,w)−tn}2E(\mathbf{w})=\frac{1}{2}\sum\limits_{n=1}^N\{y(w_n,\mathbf{w})-t_n\}^2 E(w)=21n=1∑N{y(wn,w)−tn}2
衡量模型误差 - RMS (root-mean-square) error:
- w∗\mathbf{w}^*w∗ 为模型必式解 (closed form)
ERMS=2E(w∗)/NE_{\text{RMS}}=\sqrt{2E(\mathbf{w}^{*})/N} ERMS=2E(w∗)/N
拟合结果:
发现:
- M = 9 时,模型拟合了噪声,发生过拟合 (over-fitting)
1.1.2 增大数据量
实验结果:
- 均使用 M = 9 的拟合函数
发现:
- 扩大数据集可缓解过拟合,换句话说,更大的数据集可以支持更复杂的模型
- 【启发】数据集规模应大于模型变量个数的某一倍数(例如 5、10)
疑问点:
- 模型复杂度的选择,应根据问题本身的复杂程度,而不是数据集大小
1.1.3 正则化 (Regularization)
新的损失函数:
- 下述式子又称为岭回归 (ridge regression)
- 【别名】统计中的收缩 (shrinkage),神经网络中的权重衰减 (weight decay)
E~(w)=12∑n=1N{y(xn,w)−tn}2+λ2∥w∥2\widetilde{E}(\mathbf{w})=\frac{1}{2} \sum_{n=1}^N\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{\lambda}{2}\|\mathbf{w}\|^{2} E(w)=21n=1∑N{y(xn,w)−tn}2+2λ∥w∥2
注意:
- 通常正则项中不包含 w0w_0w0,或者 w0w_0w0 与其它参数的系数不同 (because its inclusion causes the results to depend on the choice of origin for the target variable)
实验结果:
- 仍采用 M = 9 的拟合函数
发现:
- 正则化可以有效地抑制过拟合现象
1.2 概率论 (Probability Theory)
概率论意义:
- 不确定性 (uncertainty) 是模式识别领域的关键概念,其根源在于「测量误差」与「有限的数据集大小」
- 概率论为不确定性的量化 (quantification) 和处理 (manipulation) 提供了一致的框架,为模式识别的核心基础之一
概率论两条基本规则:
- p(X,Y)p(X,Y)p(X,Y):联合概率 (joint probability - “the probability of X and Y”)
- p(Y∣X)p(Y|X)p(Y∣X):条件概率 (conditional probability - “the probability of Y given X”)
- p(X)p(X)p(X):边缘概率 (marginal probability - “the probability of X”)
sumrulep(X)=∑Yp(X,Y)/∫p(X,Y)dYproductrulep(X,Y)=p(Y∣X)p(X)\begin{aligned} \textbf{sum rule } & p(X)=\sum_Yp(X,Y) \ / \int p(X,Y) dY\\ \textbf{product rule } & p(X,Y)=p(Y|X)p(X) \end{aligned} sum rule product rule p(X)=Y∑p(X,Y) /∫p(X,Y)dYp(X,Y)=p(Y∣X)p(X)
贝叶斯定理:
- 求的是 p(Y∣X)p(Y|X)p(Y∣X),因此在观察到 XXX 前,p(Y)p(Y)p(Y) 就已确定,即为先验概率 (prior probability)
- 在观察到 XXX 后,p(Y∣X)p(Y|X)p(Y∣X) 即可求出,即为后验概率 (posterior probability)
- p(X)p(X)p(X) 为 p(Y∣X)p(Y|X)p(Y∣X) 提供了证据因子 (evidence)
- p(X∣Y)p(X|Y)p(X∣Y) 为似然 (likelihood)
p(Y∣X)=p(X∣Y)p(Y)p(X)=p(X∣Y)p(Y)∑Yp(X∣Y)p(Y)p(Y|X)=\displaystyle\frac{p(X|Y)p(Y)}{p(X)}=\displaystyle\frac{p(X|Y)p(Y)}{\sum_Yp(X|Y)p(Y)} p(Y∣X)=p(X)p(X∣Y)p(Y)=∑Yp(X∣Y)p(Y)p(X∣Y)p(Y)
1.2.1 概率密度 (Probability densities)
定义:
- 连续变量 xxx 落在区间 [x,x+δx](δx→0)[x,x+\delta x](\delta x\rightarrow 0)[x,x+δx](δx→0) 的概率为 p(x)δxp(x)\delta xp(x)δx,则 p(x)p(x)p(x) 为 xxx 这一点的概率密度
- 若 xxx 为离散变量,则 p(x)p(x)p(x) 为概率质量函数 (probability mass function)
两大条件:
p(x)≥0∫−∞∞p(x)dx=1\begin{aligned} p(x) & \geq 0 \\ \int_{-\infty}^{\infty}p(x)dx&=1 \end{aligned} p(x)∫−∞∞p(x)dx≥0=1
性质:
- 若 x=g(y)x=g(y)x=g(y),则 py(y)=px(g(y))∣g′(y)∣p_y(y)=p_x(g(y))|g'(y)|py(y)=px(g(y))∣g′(y)∣,即最大化概率密度时依赖于选取的变量
- 【推导】xxx 落在 [x,x+δx](x→0)[x,x+\delta x](x\rightarrow 0)[x,x+δx](x→0) 的概率等价于 yyy 落在 [y,y+δy](y→0)[y,y+\delta y](y\rightarrow 0)[y,y+δy](y→0) 的概率,即 px(x)δx=py(y)δy(x,y→0)p_x(x)\delta x=p_y(y)\delta y(x,y\rightarrow 0)px(x)δx=py(y)δy(x,y→0),则
py(y)=px(x)∣dxdy∣=px(g(y))∣g′(y)∣\begin{aligned} p_y(y)&=p_x(x)|\displaystyle\frac{\text{d}x}{\text{d}y}|\\ &=p_x(g(y))|g'(y)| \end{aligned} py(y)=px(x)∣dydx∣=px(g(y))∣g′(y)∣
1.2.2 期望与协方差 (Expectations and covariances)
期望 (expectation):
- 【定义】在概率分布 p(x)p(x)p(x) 下,f(x)f(x)f(x) 的均值称作 f(x)f(x)f(x) 的期望,表示为 E[f]\mathbb{E}[f]E[f]
- 【离散】E[f]=∑xp(x)f(x)\mathbb{E}[f]=\sum_xp(x)f(x)E[f]=∑xp(x)f(x)
- 【连续】E[f]=∫p(x)f(x)dx\mathbb{E}[f]=\int p(x)f(x)\text{d}xE[f]=∫p(x)f(x)dx
- 【统计近似】E[f]≃1N∑n=1Nf(xn)\mathbb{E}[f]\simeq \frac{1}{N}\sum_{n=1}^Nf(x_n)E[f]≃N1∑n=1Nf(xn)
- 【多变量】Ex[f(x,y)]\mathbb{E}_x[f(x,y)]Ex[f(x,y)] 表示在 xxx 分布下,f(x,y)f(x,y)f(x,y) 的均值,最终应表示为 yyy 的函数
- 【条件期望 (conditional expectation)】Ex[f∣y]=∑xp(x∣y)f(x)\mathbb{E}_x[f|y]=\sum_x p(x|y)f(x)Ex[f∣y]=∑xp(x∣y)f(x)
方差 (variance):
- 【定义】衡量 f(x)f(x)f(x) 在其均值 E[f(x)]\mathbb{E}[f(x)]E[f(x)] 周围变化性 (variability) 的大小,var[f]=E[(f(x)−E[f(x)])2]=E[f(x)2]−E[f(x)]2var[f]=\mathbb{E}[(f(x)-\mathbb{E}[f(x)])^2]=\mathbb{E}[f(x)^2]-\mathbb{E}[f(x)]^2var[f]=E[(f(x)−E[f(x)])2]=E[f(x)2]−E[f(x)]2
- 【简便表示】var[x]=E[x2]−E[x]2var[x]=\mathbb{E}[x^2]-\mathbb{E}[x]^2var[x]=E[x2]−E[x]2
协方差 (covariance):
- 【定义】cov[x,y]\text{cov}[x,y]cov[x,y] 衡量 xxx 和 yyy 共同变化的程度
cov[x,y]=Ex,y[{x−E[x]}{y−E[y]}]=Ex,y[x,y]−E[x]E[y]\begin{aligned} \text{cov}[x,y]&=\mathbb{E}_{x,y}[\{x-\mathbb{E}[x]\}\{y-\mathbb{E}[y]\}]\\ &=\mathbb{E}_{x,y}[x,y]-\mathbb{E}[x]\mathbb{E}[y] \end{aligned} cov[x,y]=Ex,y[{x−E[x]}{y−E[y]}]=Ex,y[x,y]−E[x]E[y]
协方差矩阵:
- 当 x\mathbf{x}x 和 y\mathbf{y}y 为向量时,cov[x,y]\text{cov}[\mathbf{x},\mathbf{y}]cov[x,y] 为协方差矩阵
- cov[x]≡cov[x,x]\text{cov}[\mathbf{x}]\equiv\text{cov}[\mathbf{x},\mathbf{x}]cov[x]≡cov[x,x]
cov[x,y]=Ex,y[{x−E[x]}{yT−E[yT]}]=Ex,y[xyT]−E[x]E[yT]\begin{aligned} \text{cov}[\mathbf{x},\mathbf{y}]&=\mathbb{E}_{\mathbf{x}, \mathbf{y}}\left[\{\mathbf{x}-\mathbb{E}[\mathbf{x}]\}\left\{\mathbf{y}^{T}-\mathbb{E}\left[\mathbf{y}^{T}\right]\right\}\right]\\ &=\mathbb{E}_{\mathbf{x}, \mathbf{y}}\left[\mathbf{x} \mathbf{y}^{T}\right]-\mathbb{E}[\mathbf{x}] \mathbb{E}\left[\mathbf{y}^{T}\right] \end{aligned} cov[x,y]=Ex,y[{x−E[x]}{yT−E[yT]}]=Ex,y[xyT]−E[x]E[yT]
1.2.3 贝叶斯概率 (Bayesian probabilities)
对比:
- 【频率学派 (classical or frequentist)】将概率看作是随机重复事件的发生频率
- 【贝叶斯学派 (Bayesian)】将概率看作是不确定性的度量 (a quantification of uncertainty)
举例:
- 给定数据集 D\text{D}D 求模型参数 w\mathbf{w}w
- 【频率学派】使用极大似然估计 (maximum likelihood),求使 p(D∣w)p(D|\mathbf{w})p(D∣w) 概率最大时的 w\mathbf{w}w
- 【贝叶斯学派】用 p(w∣D)p(\mathbf{w}|D)p(w∣D) 来度量不确定性
1.2.4 高斯分布 (The Gaussian distribution)
概念:
- μ\muμ:mean
- σ2\sigma^2σ2:variance
- σ\sigmaσ:standard deviation
- β=1/σ2\beta=1/\sigma^2β=1/σ2:precision
- mode:p(x)p(x)p(x) 最大时的 xxx,在高斯分布中为 μ\muμ
- 独立同分布 (i.i.d):independent and identically distributed
N(x∣μ,σ2)=1(2πσ2)1/2exp{−12σ2(x−μ)2}\mathcal{N}\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\} N(x∣μ,σ2)=(2πσ2)1/21exp{−2σ21(x−μ)2}
性质:
- ∫−∞∞N(x∣μ,σ2)dx=1\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) \mathrm{d} x=1∫−∞∞N(x∣μ,σ2)dx=1
- E[x]=∫−∞∞N(x∣μ,σ2)xdx=μ\mathbb{E}[x]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x \mathrm{~d} x=\muE[x]=∫−∞∞N(x∣μ,σ2)x dx=μ
- E[x2]=∫−∞∞N(x∣μ,σ2)x2dx=μ2+σ2\mathbb{E}\left[x^{2}\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x^{2} \mathrm{~d} x=\mu^{2}+\sigma^{2}E[x2]=∫−∞∞N(x∣μ,σ2)x2 dx=μ2+σ2
- var[x]=E[x2]−E[x]2=σ2\operatorname{var}[x]=\mathbb{E}\left[x^{2}\right]-\mathbb{E}[x]^{2}=\sigma^{2}var[x]=E[x2]−E[x]2=σ2
证明:
多元高斯分布:
N(x∣μ,Σ)=1(2π)D/21∣Σ∣1/2exp{−12(x−μ)TΣ−1(x−μ)}\mathcal{N}(\mathbf{x} \mid \boldsymbol{\mu}, \mathbf{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\mathbf{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\boldsymbol{\mu})^{\mathrm{T}} \mathbf{\Sigma}^{-1}(\mathbf{x}-\boldsymbol{\mu})\right\} N(x∣μ,Σ)=(2π)D/21∣Σ∣1/21exp{−21(x−μ)TΣ−1(x−μ)}
极大似然估计的偏差 (bias):
- 【方法】用 MLE 来估计高斯分布的参数,即 maxlnp(x∣μ,σ2)=−12σ2∑n=1N(xn−μ)2−N2lnσ2−N2ln(2π)\max\ \ln p\left(\mathbf{x} \mid \mu, \sigma^{2}\right)=-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}-\frac{N}{2} \ln \sigma^{2}-\frac{N}{2} \ln (2 \pi)max lnp(x∣μ,σ2)=−2σ21∑n=1N(xn−μ)2−2Nlnσ2−2Nln(2π)
- 【结果】
- μML=1N∑n=1Nxn\mu_{\text{ML}}=\displaystyle\frac{1}{N}\sum\limits_{n=1}^N x_nμML=N1n=1∑Nxn
- σML2=1N∑n=1N(xn−μML)2\sigma^2_{\text{ML}}=\displaystyle\frac{1}{N}\sum\limits_{n=1}^N(x_n-\mu_{\text{ML}})^2σML2=N1n=1∑N(xn−μML)2
- 【结论】
- E[σML2]=(N−1N)σ2\mathbb{E}[\sigma^2_{\text{ML}}]=(\displaystyle\frac{N-1}{N})\sigma^2E[σML2]=(NN−1)σ2,小于无偏估计值,其中的差距称为 bias
1.2.5 曲线拟合回顾
极大似然估计(maximum likelihood - MLE):
【假设】p(t∣x,w,β)=N(t∣y(x,w),β−1)p(t \mid x, \mathbf{w}, \beta)=\mathcal{N}\left(t \mid y(x, \mathbf{w}), \beta^{-1}\right)p(t∣x,w,β)=N(t∣y(x,w),β−1)
【求解】maxp(t∣x,w,β)\max\ p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta)max p(t∣x,w,β)
- p(t∣x,w,β)=∏n=1NN(tn∣y(xn,w),β−1)p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta)=\prod_{n=1}^{N} \mathcal{N}\left(t_{n} \mid y\left(x_{n}, \mathbf{w}\right), \beta^{-1}\right)p(t∣x,w,β)=∏n=1NN(tn∣y(xn,w),β−1)
- lnp(t∣x,w,β)=−β2∑n=1N{y(xn,w)−tn}2+N2lnβ−N2ln(2π)\ln p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta)=-\frac{\beta}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{N}{2} \ln \beta-\frac{N}{2} \ln (2 \pi)lnp(t∣x,w,β)=−2β∑n=1N{y(xn,w)−tn}2+2Nlnβ−2Nln(2π)
- wML=arg minw∑n=1N{y(xn,w)−tn}2\mathbf{w}_{\text{ML}}=\text{arg}\ \underset{\mathbf{w}}{\min} \sum\limits_{n=1}^N\{y(x_n,\mathbf{w})-t_n\}^2wML=arg wminn=1∑N{y(xn,w)−tn}2
- 1βML=1N∑n=1N{y(xn,wML)−tn}2\frac{1}{\beta_{\mathrm{ML}}}=\frac{1}{N} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}_{\mathrm{ML}}\right)-t_{n}\right\}^{2}βML1=N1∑n=1N{y(xn,wML)−tn}2
【结论】等价于最小二乘法
极大后验概率(maximum posterior - MAP):
- 【假设先验概率】p(w∣α)=N(w∣0,α−1I)=(α2π)(M+1)/2exp{−α2wTw}p(\mathbf{w} \mid \alpha)=\mathcal{N}\left(\mathbf{w} \mid \mathbf{0}, \alpha^{-1} \mathbf{I}\right)=\left(\frac{\alpha}{2 \pi}\right)^{(M+1) / 2} \exp \left\{-\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}\right\}p(w∣α)=N(w∣0,α−1I)=(2πα)(M+1)/2exp{−2αwTw}
- 【求解 - 最大后验概率】
- p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α)p(\mathbf{w} \mid \mathbf{x}, \mathbf{t}, \alpha, \beta) \propto p(\mathbf{t} \mid \mathbf{x}, \mathbf{w}, \beta) p(\mathbf{w} \mid \alpha)p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α)
- minwβ2∑n=1N{y(xn,w)−tn}2+α2wTw\underset{\mathbf{w}}{\min}\frac{\beta}{2} \sum_{n=1}^{N}\left\{y\left(x_{n}, \mathbf{w}\right)-t_{n}\right\}^{2}+\frac{\alpha}{2} \mathbf{w}^{\mathrm{T}} \mathbf{w}wmin2β∑n=1N{y(xn,w)−tn}2+2αwTw
- 【结论】等价于加上正则项的最小二乘
1.3 模型选择 (Model Selection)
交叉验证 (cross-validation):
- 【过程】分成 S 份,每一次留一份作为测试集
- 【缺点】对参数很多、运行一次较耗时的模型很不友好
1.4 维度诅咒 (The Curse of Dimensionality)
区域划分:
- 随着维度的增加,划分的格子数指数增长
多项式拟合:
- 随着维度增加,模型参数幂次增长
y(x,w)=w0+∑i=1Dwixi+∑i=1D∑j=1Dwijxixj+∑i=1D∑j=1D∑k=1Dwijkxixjxky(\mathbf{x}, \mathbf{w})=w_{0}+\sum_{i=1}^{D} w_{i} x_{i}+\sum_{i=1}^{D} \sum_{j=1}^{D} w_{i j} x_{i} x_{j}+\sum_{i=1}^{D} \sum_{j=1}^{D} \sum_{k=1}^{D} w_{i j k} x_{i} x_{j} x_{k} y(x,w)=w0+i=1∑Dwixi+i=1∑Dj=1∑Dwijxixj+i=1∑Dj=1∑Dk=1∑Dwijkxixjxk
解决思路:
- 【思路 1】实际数据通常会被限制在有效维数较低的区域中,尤其是引起目标变量重大变化的维度可能会被限制
- 【思路 2】实际数据通常有一些平滑性质,即输入的微扰引起目标变量的微扰,因此可以使用类似局部插值的方式进行预测
1.5 决策论 (Decision Theory)
主题:根据目标向量可能的取值,作出决策。
1.5.1 最小化分类错误率 (Minimizing the misclassification rate)
概念:
- 决策区域 Rk\mathcal{R}_{k}Rk (decision regions):位于 Rk\mathcal{R}_{k}Rk 中的点均被赋为 Ck\mathcal{C}_{k}Ck 类别;决策区域可以由不相交的区域组成
- 决策边界 (decision boundaries / surfaces):决策区域间的边界
决策方法:
- 最小化分类错误率,即将 xxx 分配给令 p(Ck,x)∝p(Ck∣x)p(C_k,x)\propto p(C_k|x)p(Ck,x)∝p(Ck∣x) 最大的 CkC_kCk
- 【图解】
- x^\hat{x}x^ 为决策边界,红、绿、紫为分类错误的区域
- 无论 x^\hat{x}x^ 如何变化,绿 + 紫的面积不变,但红的面积会变
- 当 x^\hat{x}x^ 位于 x0x_0x0 时,错误区域面积最小
1.5.2 最小化期望损失 (Minimizing the expected loss)
引入损失函数 (loss function) Lk,jL_{k,j}Lk,j,表示真实类别为 kkk,被错误分到 jjj 的损失,因此最小化期望损失可以如下表示:
minj∑kLk,jp(Ck∣x)\min_j\ \sum_kL_{k,j}p(C_k|x) jmin k∑Lk,jp(Ck∣x)
1.5.3 拒绝选项 (The reject option)
当 maxk(p(Ck∣x))≤θ\underset{k}{\max}(p(C_k|x))\leq \thetakmax(p(Ck∣x))≤θ 时,拒绝为 xxx 赋类别,如下图所示:
1.5.4 推理与决策 (Inference and decision)
将分类问题划分为两个阶段,分别是:
- 推理阶段 (inference stage) - 建立模型学习 p(Ck∣x)p(C_k|x)p(Ck∣x)
- 决策阶段 (decision stage) - 使用后验概率进行最优的类别赋值
由此决策问题大致可以分为如下三种解决方法:
生成模型 (generative models)
- 求出先验与似然,即 p(Ck)p(C_k)p(Ck) 与 p(x∣Ck)p(x|C_k)p(x∣Ck),再求出 p(x)p(x)p(x)
- 最后根据贝叶斯定理,求出后验 p(Ck∣x)p(C_k|x)p(Ck∣x)
- 缺点:确定 p(x∣Ck)p(x|C_k)p(x∣Ck) 需要大数据集的支持
- 优点:由于 p(x)p(x)p(x) 的求出,可以检测离群点 (outlier / novelty detection)
判别模型 (discriminative models)
- 直接求出 p(Ck∣x)p(C_k|x)p(Ck∣x)
- 特点:较于生成模型,要求降低,且有时候 p(x∣Ck)p(x|C_k)p(x∣Ck) 对后验概率影响不大
判别函数 (discriminant function)
- 寻找函数 f(x)f(x)f(x),直接将输入数据映射到具体类别上,两阶段被合并为一阶段
判别函数的方式无法求出后验概率 p(Ck∣x)p(C_k|x)p(Ck∣x),但后验概率的求解本身具有很多优势:
- 【Minimizing risk】若模型采用最小化期望损失,若 Lk,jL_{k,j}Lk,j 时不时地会发生修正,则率先求出后验概率可以更为方便地调整模型
- 【Reject option】有了后验概率才能确定拒绝条件
- 【Compensating for class priors】有时候原始数据分布很不均匀,例如二分类问题,为 0 的数据占 0.1%0.1\%0.1%,此时我们需要平衡数据集,提高为 0 数据的占比。由于我们更改了数据的分布,因此可以利用后验概率进行修正,即:
p补偿后(Ck∣x)=p调整后(Ck∣x)p调整前(Ck)p调整后(Ck)p_{\text{补偿后}}(C_k|x)=\displaystyle\frac{p_{\text{调整后}}(C_k|x)p_{\text{调整前}}(C_k)}{p_{\text{调整后}}(C_k)} p补偿后(Ck∣x)=p调整后(Ck)p调整后(Ck∣x)p调整前(Ck)最后再进行放缩,使得后验概率之和为 1。 - 【Combining models】使用后验概率进行模型合并,而不是将模型的输入数据直接拼接:
1.5.5 回归损失函数 (Loss functions for regression)
使用 y(x)y(\mathbf{x})y(x) 进行回归预测,采用平方损失,其损失均值为:
E[y(x)]=∬{y(x)−t}2p(x,t)dxdt\mathbb{E}[y(\mathbf{x})]=\iint\{y(\mathbf{x})-t\}^{2} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t E[y(x)]=∬{y(x)−t}2p(x,t)dxdt
使用欧拉-拉格朗日公式,求得 y(x)y(\mathbf{x})y(x) 最优值:
δE[L]δy(x)=2∫{y(x)−t}p(x,t)dt=0y(x)=∫tp(x,t)dtp(x)=∫tp(t∣x)dt=Et[t∣x]\begin{aligned} & \frac{\delta \mathbb{E}[L]}{\delta y(\mathbf{x})}=2 \int\{y(\mathbf{x})-t\} p(\mathbf{x}, t) \mathrm{d} t=0 \\ & y(\mathbf{x})=\frac{\int t p(\mathbf{x}, t) \mathrm{d} t}{p(\mathbf{x})}=\int t p(t \mid \mathbf{x}) \mathrm{d} t=\mathbb{E}_{t}[t \mid \mathbf{x}] \end{aligned} δy(x)δE[L]=2∫{y(x)−t}p(x,t)dt=0y(x)=p(x)∫tp(x,t)dt=∫tp(t∣x)dt=Et[t∣x]
因此在平方损失的回归任务中,y(x)y(\mathbf{x})y(x) 最优值为 Et[t∣x]\mathbb{E}_{t}[t \mid \mathbf{x}]Et[t∣x],如下图所示:
对于 multi-label 问题,y(x)y(\mathbf{x})y(x) 最优值依然为 Et[t∣x]\mathbb{E}_{t}[\mathbf{t} \mid \mathbf{x}]Et[t∣x]:
E[L]=∬∥y(x)−t∥2p(t,x)dxdtδE[L]δy(x)=∫2(y(x)−t)p(t,x)dt=0y(x)=∫tp(t,x)dt∫p(t,x)dt=∫tp(t∣x)dty(x)=∫tp(t∣x)dt\begin{aligned} & \mathbb{E}[L]=\iint\|\mathbf{y}(\mathbf{x})-\mathbf{t}\|^{2} p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{x} \mathrm{d} \mathbf{t} \\ & \frac{\delta \mathbb{E}[L]}{\delta \mathbf{y}(\mathbf{x})}=\int 2(\mathbf{y}(\mathbf{x})-\mathbf{t}) p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{t}=0 \\ & \mathbf{y}(\mathbf{x})=\frac{\int \mathbf{t} p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{t}}{\int p(\mathbf{t}, \mathbf{x}) \mathrm{d} \mathbf{t}}=\int \mathbf{t} p(\mathbf{t} \mid \mathbf{x}) \mathrm{d} \mathbf{t}\\ & y(\mathbf{x})=\int t p(t \mid \mathbf{x}) \mathrm{d} t \end{aligned} E[L]=∬∥y(x)−t∥2p(t,x)dxdtδy(x)δE[L]=∫2(y(x)−t)p(t,x)dt=0y(x)=∫p(t,x)dt∫tp(t,x)dt=∫tp(t∣x)dty(x)=∫tp(t∣x)dt
另外,在求出 y(x)y(\mathbf{x})y(x) 最优值后,我们可以对 {y(x)−t}2\{y(\mathbf{x})-t\}^2{y(x)−t}2 进行如下分解:
{y(x)−t}2={y(x)−E[t∣x]+E[t∣x]−t}2={y(x)−E[t∣x]}2+2{y(x)−E[t∣x]}{E[t∣x]−t}+{E[t∣x]−t}2\begin{aligned} \{y(\mathbf{x})-t\}^2 &= \{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]+\mathbb{E}[t \mid \mathbf{x}]-t\}^{2} \\ &= \{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]\}^{2}+2\{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]\}\{\mathbb{E}[t \mid \mathbf{x}]-t\}+\{\mathbb{E}[t \mid \mathbf{x}]-t\}^{2} \end{aligned} {y(x)−t}2={y(x)−E[t∣x]+E[t∣x]−t}2={y(x)−E[t∣x]}2+2{y(x)−E[t∣x]}{E[t∣x]−t}+{E[t∣x]−t}2
带回 E[y(x)]\mathbb{E}[y(\mathbf{x})]E[y(x)] 中,得到:
E[y(x)]=∫{y(x)−E[t∣x]}2p(x)dx+∬{E[t∣x]−t}2p(x,t)dxdt\mathbb{E}[y(\mathbf{x})]=\int\{y(\mathbf{x})-\mathbb{E}[t \mid \mathbf{x}]\}^{2} p(\mathbf{x}) \mathrm{d} \mathbf{x}+\iint\{\mathbb{E}[t \mid \mathbf{x}]-t\}^{2} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t E[y(x)]=∫{y(x)−E[t∣x]}2p(x)dx+∬{E[t∣x]−t}2p(x,t)dxdt
其中第二项是在 x\mathbf{x}x 上 ttt 概率分布方差的均值,与 y(x)y(\mathbf{x})y(x) 无关,可以视为目标数据的内在变异性(噪声),损失函数的最小值。
最后考虑一下广义的损失函数:
E[Lq]=∬∣y(x)−t∣qp(x,t)dxdt\mathbb{E}\left[L_{q}\right]=\iint|y(\mathbf{x})-t|^{q} p(\mathbf{x}, t) \mathrm{d} \mathbf{x} \mathrm{d} t E[Lq]=∬∣y(x)−t∣qp(x,t)dxdt
其中 qqq 分别为 2,1,02,1,02,1,0 时的最优解 y(x)y(\mathbf{x})y(x) 如下:
1.6 信息论 (Information Theory)
1.6.1 熵 (Entropy)
当事件 xxx 发生时,如何去衡量我们所接收到的信息 h(x)h(x)h(x)?
从概率的角度去思考,p(x)p(x)p(x) 若很大,例如等于 1,则基本没有带来新信息;若 p(x)p(x)p(x) 很小,则意味着小概率事件发生了,我们可以有更多的思考,因此 h(x)h(x)h(x) 中应包含 p(x)p(x)p(x)。
另外,如果 yyy 与 xxx 独立,则 h(x,y)=h(x)+h(y)h(x,y)=h(x)+h(y)h(x,y)=h(x)+h(y),而 p(x,y)=p(x)p(y)p(x,y)=p(x)p(y)p(x,y)=p(x)p(y),因此考虑引入对数。
基于上述考虑,我们可以如下表示 h(x)h(x)h(x):
h(x)=−log2p(x)h(x)=-\log_2p(x) h(x)=−log2p(x)
注意 h(x)h(x)h(x) 的单位为 bits。
进一步地,令 xxx 为随机变量,则我们可以给出基于其离散概率分布的平均信息:
H[x]=−∑xp(x)log2p(x)H[x]=-\sum_xp(x)\log_2p(x) H[x]=−x∑p(x)log2p(x)
定义 H[x]H[x]H[x] 为随机变量 xxx 的熵 (entropy)。
在离散概率分布的情况下,我们可以使用拉格朗日对偶求解得到,当 xxx 符合均匀分布时,H[x]H[x]H[x] 最大。
而当 xxx 为连续随机变量时,H[x]=−∫p(x)lnp(x)dxH[x]=-\int p(x)\ln p(x)\text{d}xH[x]=−∫p(x)lnp(x)dx,在满足如下三个限制条件后,可以使用拉格朗日对偶求出当 xxx 符合高斯分布时,H[x]H[x]H[x] 最大:
H[x]=12{1+ln(2πσ2)}H[x]=\displaystyle\frac{1}{2}\{1+\ln(2\pi\sigma^2)\} H[x]=21{1+ln(2πσ2)}
注意 xxx 离散时,H[x]≥0H[x]\geq 0H[x]≥0;但 xxx 连续时,H[x]H[x]H[x] 可能 <0< 0<0。
1.6.2 条件熵 (Conditional entropy)
H[x,y]=H[y∣x]+H[x]H[x,y]=H[y|x]+H[x] H[x,y]=H[y∣x]+H[x]
1.6.3 交叉熵 (Relative entropy)
xxx 真实分布为 p(x)p(x)p(x),我们估计的分布为 q(x)q(x)q(x),则错误估计所带来的信息差 (relative entropy or Kullback-Leibler divergence or KL divergence) 为:
KL(p∥q)=−∫p(x)lnq(x)dx−(−∫p(x)lnp(x)dx)=−∫p(x)ln{q(x)p(x)}dx\begin{aligned} \mathrm{KL}(p \| q) &=-\int p(\mathbf{x}) \ln q(\mathbf{x}) \mathrm{d} \mathbf{x}-\left(-\int p(\mathbf{x}) \ln p(\mathbf{x}) \mathrm{d} \mathbf{x}\right) \\ &=-\int p(\mathbf{x}) \ln \left\{\frac{q(\mathbf{x})}{p(\mathbf{x})}\right\} \mathrm{d} \mathbf{x} \end{aligned} KL(p∥q)=−∫p(x)lnq(x)dx−(−∫p(x)lnp(x)dx)=−∫p(x)ln{p(x)q(x)}dx
满足以下条件:
- KL(p∥q)≢KL(q∥p)\mathrm{KL}(p \| q) \not \equiv \mathrm{KL}(q \| p)KL(p∥q)≡KL(q∥p)
- KL(p∥q)≥0\mathrm{KL}(p \| q)\geq 0KL(p∥q)≥0,在 p(x)=q(x)p(x)=q(x)p(x)=q(x) 时取等
因此 KLKLKL 散度是一种衡量两个分布匹配程度的方法,其值越小,两个分布之间的匹配就越好。
1.6.4 互信息 (Mutual information)
互信息为原分布 (p(x,y)p(x,y)p(x,y)) 与估计分布 (p(x)p(y)p(x)p(y)p(x)p(y)) 间的信息差:
I[x,y]≡KL(p(x,y)∥p(x)p(y))=−∬p(x,y)ln(p(x)p(y)p(x,y))dxdy\begin{aligned} \mathrm{I}[\mathbf{x}, \mathbf{y}] & \equiv \operatorname{KL}(p(\mathbf{x}, \mathbf{y}) \| p(\mathbf{x}) p(\mathbf{y})) \\ &=-\iint p(\mathbf{x}, \mathbf{y}) \ln \left(\frac{p(\mathbf{x}) p(\mathbf{y})}{p(\mathbf{x}, \mathbf{y})}\right) \mathrm{d} \mathbf{x} \mathrm{d} \mathbf{y} \end{aligned} I[x,y]≡KL(p(x,y)∥p(x)p(y))=−∬p(x,y)ln(p(x,y)p(x)p(y))dxdy
性质:I[x,y]≥0\mathrm{I}[\mathbf{x}, \mathbf{y}]\geq 0I[x,y]≥0,当 xxx 和 yyy 独立时,取到等号
互信息还可以用条件熵来定义:
I[x,y]=H[x]−H[x∣y]=H[y]−H[y∣x]\mathrm{I}[\mathbf{x}, \mathbf{y}]=\mathrm{H}[\mathbf{x}]-\mathrm{H}[\mathbf{x} \mid \mathbf{y}]=\mathrm{H}[\mathbf{y}]-\mathrm{H}[\mathbf{y} \mid \mathbf{x}] I[x,y]=H[x]−H[x∣y]=H[y]−H[y∣x]
可以这样理解:互信息表示由新观测值 yyy 导致的关于 xxx 的不确定性的减小量。
【PRML 学习笔记】第一章 - 介绍 (Introduction)相关推荐
- 《Go语言圣经》学习笔记 第一章 Go语言入门
Go语言圣经学习笔记 第一章 Go语言入门 目录 Hello, World 命令行参数 查找重复的行 GIF动画 获取URL 并发获取多个URL Web服务 本章要点 注:学习<Go语言圣经&g ...
- 编译原理(龙书)学习笔记 第一章
编译原理(龙书)学习笔记 第一章 1.1语言处理器 解释器(interpreter) : 编译器(compiler): 一个语言处理系统 练习 1.1.1:编译器和解释器之间的区别 1.1.2:相对优 ...
- 小吴的《机器学习 周志华》学习笔记 第一章 绪论
小吴的<机器学习 周志华>学习笔记 第一章 绪论 近一年时间接触到不少机器学习的知识,虽然断断续续学了一些,总感觉还没有入门(只学会了疯狂调包).因此,最近开始系统学习Machine Le ...
- 计算机网络学习笔记---第一章
计算机网络学习笔记 第一章 文章目录 计算机网络学习笔记 第一章 前言 一.计算机网络的概念 (一)计算机网络的功能 1.数据通信(连通性) 2.资源共享(硬件 软件 数据) 3.分布式处理 (Had ...
- 机器人导论(第四版)学习笔记——第一章
机器人学导论(第四版)学习笔记--第一章 1. 概述 1.1 背景 1.2 操作臂力学和控制 1.3 符号 1. 概述 1.1 背景 工业自动化的发展带来了工业机器人的高速发展.本书聚焦机械臂的力学和 ...
- PhalAPI学习笔记 ——— 第一章自定义HelloWorld接口
PhalAPI学习笔记 --- 第一章自定义HelloWorld接口 前言 自定义接口 项目实例 结果 分布解析 结束语 前言 公司业务需要转学PHP,而PHP中一个功能强大且生态链完整的PHP接口框 ...
- Reinforcement learning book 学习笔记 第一章
RL学习 写在前面: 本专栏是学习由Richard S. Sutton and Andrew G. Barto 所著 <Reinforcement learning>的学习笔记,如有指正请 ...
- [go学习笔记.第一章] go可以做什么
go可以做什么,go有以下三大学习方向: Golang的应用领域 1.区块链应用 区块链技术,简称BT(Blockchain technology),也被称之为分布式账本技术,是一种互联网数据库技术, ...
- Kotlin学习笔记 第一章开始 第二章 基础
参考链接 Kotlin官方文档 https://kotlinlang.org/docs/home.html 本系列为参考Kotlin中文文档 https://download.csdn.net/dow ...
- 《谁说菜鸟不会数据分析》学习笔记 第一章总览 第二章数据分析思路
网上的信息太琐碎了,根本没搞懂什么是数据分析方法什么是数据分析方法论,所以找了一本比较简单的书来系统学习一下,本来打算粗略看完,但是觉得这本书知识还是不错的,所以决定在未来一周把这本书用心学一下. 这 ...
最新文章
- JS对象直接量,数组直接量和函数直接量
- OpenGL 加载模型Model
- 【springboot】【若依(ruoyi)】@RestController 接口跨域请求
- 行添加DataGridView导出Excel的数据表格
- php word excel,PHP 生成word 和 excel 文档
- Golang——Json的序列化和反序列化
- STM32那点事(5)_ADC(上)
- 得推乡镇拼车系统源码v1.0
- 创业失败三年后,这个曾经的富二代变得一无所有
- 重用WINXP的系统还原功能
- android定位地点的保存,Android获得所有存储设备位置的最佳方法
- Nginx概述(1)----应用场景,出现原因,优点,组成
- Laravel渴求式加载
- GeoServer 自定义字体 符号化渲染点
- 用python下载视频代码_python实现视频下载
- 探讨!自媒体的推荐机制提高百家号阅读收益方法!
- 晨光科力普基于GitLab CI/CD持续集成服务的应用
- 新浪微博2020界校招笔试-算法工程师
- html崩溃手机代码15,这12行代码分分钟让你电脑崩溃手机重启
- 大数据开发认知--spark
热门文章
- [c++] polymorphism without virtual function
- .NET MVC4 本地正常 部署 服务器错误
- Model to Text工具Acceleo使用教程(七)——模板服务
- 提高专业技能之 “完整DataSheet”
- 获取文件夹下所有文件名(window+linux)
- 反思 大班 快乐的机器人_幼儿园大班体育课教案《小熊斗怪兽》含反思
- SLAM--BA优化
- zip gbk java,java 解压 ZIP 中文 乱码 GBK UTF-8 完美解决方案
- 变速恒频风电机组的优缺点_风电消防安全解决方案解析
- 一步一步手写实现实时监测物体YOLO v3 EASY METHOD | OpenCV Python CNN卷积神经网络