PRML学习总结（1）——Introduction

1.1 Example: Polynomial Curve Fitting
1.2 Probability Theory
- The Rules of probability
- Bayes' Theorem
- Curve fitting re-visited
1.3 Model Selection
1.4 The Curse of Dimensionality
1.5 Decision Theory
- Minimizing the misclassification rate
- Minimizing the expected loss
- The reject option
- Inference and decision
- - a) generative model
  - b) discriminative models
  - c) discriminant function
- Loss functions for regression
1.6 Information Theory
- Entropy
- Conditional Entropy
- Relative entropy and mutual information

1.1 Example: Polynomial Curve Fitting

对于训练数据集x≡(x1,…,xN)T,t≡(t1,…,tN)T\mathbf { x } \equiv \left( x _ { 1 } , \ldots , x _ { N } \right) ^ { \mathrm { T } },\mathbf { t } \equiv \left( t _ { 1 } , \ldots , t _ { N } \right) ^ { \mathrm { T } }x≡(x1,…,xN)T,t≡(t1,…,tN)T，其由sin(2πx)sin(2\pi x)sin(2πx)加上一定的噪声生成，采用多项式曲线拟合：
y(x,w)=w0+w1x+w2x2+…+wMxM=∑j=0Mwjxjy ( x , \mathbf { w } ) = w _ { 0 } + w _ { 1 } x + w _ { 2 } x ^ { 2 } + \ldots + w _ { M } x ^ { M } = \sum _ { j = 0 } ^ { M } w _ { j } x ^ { j } y(x,w)=w0+w1x+w2x2+…+wMxM=j=0∑Mwjxj
其中MMM代表改模型的最高次幂，也就是代表模型的复杂度。有了数据跟模型后，接下来就是需要训练模型，而训练模型需要一个目标函数，我们可以最小化以下目标函数：
E(w)=12∑n=1N{y(xn,w)−tn}2E ( \mathbf { w } ) = \frac { 1 } { 2 } \sum _ { n = 1 } ^ { N } \left\{ y \left( x _ { n } , \mathbf { w } \right) - t _ { n } \right\} ^ { 2 } E(w)=21n=1∑N{y(xn,w)−tn}2
不难发现，该目标函数的最小值为0，当且仅当曲线穿过所有训练数据时才满足最小值。而且该函数为关于w\mathbf { w }w的二次函数，那么在最小化该函数时很容易得到一个解析解得w⋆\mathbf { w } ^ { \star }w⋆。
现在需要关注另一个模型，那就是模型选择问题，即MMM到底选择多少才合适，不同的MMM，模型的表达能力也不同，太小则模型的拟合能力不足，太大则会过拟合，如下图所示。

当过拟合后，对于新来的测试数据，我们将会得到非常差的结果，这并不是我们想要的，这归根结底就是在模型选择上出了问题。为了定量地分析在新的数据上，模型的泛化能力，通常采用均方根误差进行度量：
ERMS=2E(w⋆)/NE _ { \mathrm { RMS } } = \sqrt { 2 E \left( \mathbf { w } ^ { \star } \right) / N } ERMS=2E(w⋆)/N
利用此误差，可以得到训练数据和测试数据的ERMSE _ { \mathrm { RMS } }ERMS：

从上图可以发现，当MMM较小时，模型的拟合能力不足，导致测试和训练的误差都很大，当M=9M=9M=9时，模型就会陷入过拟合，即训练误差为0，而测试误差很大，最合适的M∈[3,8]M\in[3,8]M∈[3,8]。
我们的数据最理想的拟合函数应该为sin(2πx)sin(2\pi x)sin(2πx)，而该函数展开后，其幂次数应该是包括了无穷多次幂，按照我们的想法，模型应该是随着MMM的增加，拟合得越好。但是却出现了过拟合，我们可以进一步探索我们模型中所学出来的最优值为多少。

从结果可以看出，随着MMM的增加，所得到的参数的绝对值很越来越大的，正是在这样变化大的参数下，导致最终拟合的曲线波动很大。我们也可以进一步看看模型与训练数据量的关系

从上图可以发现，增大训练数据量可以有效地减少过拟合。但是现实生活中我们的数据是很有限的，因此如何让模型保持一定的复杂性和灵活性，且不会出现过拟合是一个需要解决的问题。正则化正好可以解决这个问题。也就是在目标函数中加入对参数的惩罚项：
E~(w)=12∑n=1N{y(xn,w)−tn}2+λ2∥w∥2\widetilde { E } ( \mathbf { w } ) = \frac { 1 } { 2 } \sum _ { n = 1 } ^ { N } \left\{ y \left( x _ { n } , \mathbf { w } \right) - t _ { n } \right\} ^ { 2 } + \frac { \lambda } { 2 } \| \mathbf { w } \| ^ { 2 } E(w)=21n=1∑N{y(xn,w)−tn}2+2λ∥w∥2
其中λ\lambdaλ控制正则项和原目标函数之间的重要性。这样就不可避免地为模型又引入了一个参数，在M=9M=9M=9时，不同的λ\lambdaλ拟合结果如下

从上图可以看出，当λ\lambdaλ太大时，即参数的绝对值大小将会在很大程度上得到惩罚，因此最后拟合结果近似一条在0附近的线。更加定量地看待引入正则项的好处，得到如下表

可以看出引入正则项能够在一定程度上限制模型的复杂度，从而能够减少过拟合。在确定M,λM,\lambdaM,λ时，往往将数据分为训练数据和验证数据，但是对于数据非常少的情况，这种方式将会很“浪费”有效的数据！

1.2 Probability Theory

这一部分主要介绍一些概率的基本概念，这儿简要提出这几个概念，详细的内容参照书中内容。

The Rules of probability

sum rule p(X)=∑Yp(X,Y)\text { sum rule } \quad p ( X ) = \sum _ { Y } p ( X , Y ) sum rule p(X)=Y∑p(X,Y)
product rule p(X,Y)=p(Y∣X)p(X)\text { product rule } \quad p ( X , Y ) = p ( Y | X ) p ( X ) product rule p(X,Y)=p(Y∣X)p(X)

Bayes’ Theorem

p(Y∣X)=p(X∣Y)p(Y)p(X)p ( Y | X ) = \frac { p ( X | Y ) p ( Y ) } { p ( X ) } p(Y∣X)=p(X)p(X∣Y)p(Y)
posterior ∝likelihood ×prior \text { posterior } \propto \text { likelihood } \times \text { prior } posterior ∝ likelihood × prior

Curve fitting re-visited

介绍了一些基本的概率概念后，现在再回看之前的曲线拟合问题，我们可以建模如下
p(t∣x,w,β)=N(t∣y(x,w),β−1)p ( t | x , \mathbf { w } , \beta ) = \mathcal { N } \left( t | y ( x , \mathbf { w } ) , \beta ^ { - 1 } \right) p(t∣x,w,β)=N(t∣y(x,w),β−1)
可以形象地表示为下图

对于模型中的参数w,β\mathbf { w },\betaw,β，我们利用训练数据{x,t}\{ \mathbf { x } , \mathbf { t } \}{x,t}进行最大似然估计，一般来说我们都假设数据是独立的，因此
p(t∣x,w,β)=∏n=1NN(tn∣y(xn,w),β−1)p ( \mathbf { t } | \mathbf { x } , \mathbf { w } , \beta ) = \prod _ { n = 1 } ^ { N } \mathcal { N } \left( t _ { n } | y \left( x _ { n } , \mathbf { w } \right) , \beta ^ { - 1 } \right) p(t∣x,w,β)=n=1∏NN(tn∣y(xn,w),β−1)
转化为log
ln⁡p(t∣x,w,β)=−β2∑n=1N{y(xn,w)−tn}2+N2ln⁡β−N2ln⁡(2π)\ln p ( \mathbf { t } | \mathbf { x } , \mathbf { w } , \beta ) = - \frac { \beta } { 2 } \sum _ { n = 1 } ^ { N } \left\{ y \left( x _ { n } , \mathbf { w } \right) - t _ { n } \right\} ^ { 2 } + \frac { N } { 2 } \ln \beta - \frac { N } { 2 } \ln ( 2 \pi ) lnp(t∣x,w,β)=−2βn=1∑N{y(xn,w)−tn}2+2Nlnβ−2Nln(2π)
对于w\mathbf{w}w，发现优化的目标与一开始的目标函数一致，这儿记为wML\mathbf { w } _ { \mathrm { ML } }wML。对β\betaβ求导，可以得到
1βML=1N∑n=1N{y(xn,wML)−tn}2\frac { 1 } { \beta _ { \mathrm { ML } } } = \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \left\{ y \left( x _ { n } , \mathbf { w } _ { \mathrm { ML } } \right) - t _ { n } \right\} ^ { 2 } βML1=N1n=1∑N{y(xn,wML)−tn}2
当确定了w,β\mathbf { w },\betaw,β之后，就可以得到预测概率
p(t∣x,wML,βML)=N(t∣y(x,wML),βML−1)p \left( t | x , \mathbf { w } _ { \mathrm { ML } } , \beta _ { \mathrm { ML } } \right) = \mathcal { N } \left( t | y \left( x , \mathbf { w } _ { \mathrm { ML } } \right) , \beta _ { \mathrm { ML } } ^ { - 1 } \right) p(t∣x,wML,βML)=N(t∣y(x,wML),βML−1)
以上的方法为最大似然估计（点估计）ML，接下来我们在参数上引入一个先验概率
p(w∣α)=N(w∣0,α−1I)=(α2π)(M+1)/2exp⁡{−α2wTw}p ( \mathbf { w } | \alpha ) = \mathcal { N } \left( \mathbf { w } | \mathbf { 0 } , \alpha ^ { - 1 } \mathbf { I } \right) = \left( \frac { \alpha } { 2 \pi } \right) ^ { ( M + 1 ) / 2 } \exp \left\{ - \frac { \alpha } { 2 } \mathbf { w } ^ { \mathrm { T } } \mathbf { w } \right\} p(w∣α)=N(w∣0,α−1I)=(2πα)(M+1)/2exp{−2αwTw}
其中α\alphaα为超参数。利用贝叶斯公式，我们可以得到β\betaβ的后验概率
p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α)p ( \mathbf { w } | \mathbf { x } , \mathbf { t } , \alpha , \beta ) \propto p ( \mathbf { t } | \mathbf { x } , \mathbf { w } , \beta ) p ( \mathbf { w } | \alpha ) p(w∣x,t,α,β)∝p(t∣x,w,β)p(w∣α)
需要说明的一点是，此时的β\betaβ我们也考虑为超参。也是一个预先给定的值。不像之前通过最大似然估计出来。
在后验上进行最大点估计，也就是最大后验估计（点估计），MAP。最终结果为
β2∑n=1N{y(xn,w)−tn}2+α2wTw\frac { \beta } { 2 } \sum _ { n = 1 } ^ { N } \left\{ y \left( x _ { n } , \mathbf { w } \right) - t _ { n } \right\} ^ { 2 } + \frac { \alpha } { 2 } \mathbf { w } ^ { \mathrm { T } } \mathbf { w } 2βn=1∑N{y(xn,w)−tn}2+2αwTw
这个结果正是之前说的正则化方式！！！
无论是ML还是MAP，它们都是点估计！点估计有个致命的弱点是会导致过拟合！而全贝叶斯的观点是，我们不需要对参数进行点估计，我们只要得到其后验概率，然后在预测概率上，我们利用积分积掉参数部分，这样就不会涉及点估计就能得到预测概率！
p(t∣x,x,t)=∫p(t∣x,w)p(w∣x,t)dwp ( t | x , \mathbf { x } , \mathbf { t } ) = \int p ( t | x , \mathbf { w } ) p ( \mathbf { w } | \mathbf { x } , \mathbf { t } ) \mathrm { d } \mathbf { w } p(t∣x,x,t)=∫p(t∣x,w)p(w∣x,t)dw
最终可得
p(t∣x,x,t)=N(t∥m(x),s2(x))m(x)=βϕ(x)TS∑n=1Nϕ(xn)tns2(x)=β−1+ϕ(x)TSϕ(x)\begin{aligned} p ( t | x , \mathbf { x } , \mathbf { t } ) &= \mathcal { N } \left( t \| m ( x ) , s ^ { 2 } ( x ) \right)\\m ( x ) & = \beta \boldsymbol {\phi} ( x ) ^ { \mathrm { T } } \mathbf { S } \sum _ { n = 1 } ^ { N } \boldsymbol {\phi} \left( x _ { n } \right) t _ { n } \\ s ^ { 2 } ( x ) & = \beta ^ { - 1 } + \boldsymbol {\phi} ( x ) ^ { \mathrm { T } } \mathbf { S } \boldsymbol {\phi} ( x ) \end{aligned} p(t∣x,x,t)m(x)s2(x)=N(t∥m(x),s2(x))=βϕ(x)TSn=1∑Nϕ(xn)tn=β−1+ϕ(x)TSϕ(x)
其中
S−1=αI+β∑n=1Nϕ(xn)ϕ(x)T\mathbf { S } ^ { - 1 } = \alpha \mathbf { I } + \beta \sum _ { n = 1 } ^ { N } \boldsymbol {\phi} \left( x _ { n } \right) \boldsymbol { \phi } ( x ) ^ { \mathrm { T } } S−1=αI+βn=1∑Nϕ(xn)ϕ(x)T
ϕi(x)=xifor i=0,…,M\phi _ { i } ( x ) = x ^ { i } \text { for } i = 0 , \ldots , M ϕi(x)=xi for i=0,…,M

1.3 Model Selection

在1.1中，我们发现不同的MMM导致模型的泛化能力也不同，因此如何选择一个恰当的模型是一个很重要的问题。往往采用的方式为交叉验证的方式

但是这种方式最大的问题就是效率太低，需要对模型进行很多次训练！最理想的情况下就是对模型就行一次训练就能达到效果！这一类方法将在后续讲到。

1.4 The Curse of Dimensionality

为了更加深刻地了解这个问题，首先引入一个数据集

这个数据集中的数据有12个维度，且有三个类别，上图展示了x6,x7x_6,x_7x6,x7的二维分布图。当我们要判断图中黑色交叉点到底是属于哪一类时，可以发现该点周围大部分都是红色或是绿色的点，因此很大程度上可以判断为属于这两个类别，或是可以说不可能属于蓝色点那一类，因为离得太远了！因此我们可以利用这样的最近邻方式判断点到底属于哪一类。我们可以把该空间划分为规则的块，同一块中的点最多的点决定改块的类别！
该方法有个致命的缺点是，随着维度的增加，这样划分出来的块的数量将会呈指数增长！

不仅如此，在高维空间中，一个单位超球体的体积大部分都集中在一个球体表面！高维所带来的一系列问题都可以称为维数灾难。在低维所构建的模型，一般来说泛化到高维空间中会导致效果很差！但是在现实生活中，我们的数据往往处于低维的流形中，因此可以借助于其他手段处理高维的数据！

1.5 Decision Theory

概率理论告诉我们对不确定进行度量，而决策理论则告诉我们怎么利用这个不确定度进行最优决策！下面以一个医疗问题入手，对于一个病人的X光照图片xxx，需要判断该病人是(C1\mathcal { C } _ { 1 }C1)否(C2\mathcal { C }_2C2)得了癌症。

Minimizing the misclassification rate

我们的目标是尽可能最小化错分率。定义决策域Rk\mathcal { R } _ { k }Rk表示在这个区域中的xxx属于Ck\mathcal { C }_kCk类。
p(mistake )=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx\begin{aligned} p ( \text { mistake } ) & = p \left( \mathbf { x } \in \mathcal { R } _ { 1 } , \mathcal { C } _ { 2 } \right) + p \left( \mathbf { x } \in \mathcal { R } _ { 2 } , \mathcal { C } _ { 1 } \right) \\ & = \int _ { \mathcal { R } _ { 1 } } p \left( \mathbf { x } , \mathcal { C } _ { 2 } \right) \mathrm { d } \mathbf { x } + \int _ { \mathcal { R } _ { 2 } } p \left( \mathbf { x } , \mathcal { C } _ { 1 } \right) \mathrm { d } \mathbf { x } \end{aligned} p( mistake )=p(x∈R1,C2)+p(x∈R2,C1)=∫R1p(x,C2)dx+∫R2p(x,C1)dx
为了最小化以上表达式，如果存在p(x,C1)>p(x,C2)p \left( \mathbf { x } , \mathcal { C } _ { 1 } \right)>p \left( \mathbf { x } , \mathcal { C } _ { 2 } \right)p(x,C1)>p(x,C2)，那么我们应该让xxx属于C1\mathcal { C } _ { 1 }C1。p(x,Ck)=p(Ck∣x)p(x)p \left( \mathbf { x } , \mathcal { C } _ { k } \right) = p \left( \mathcal { C } _ { k } | \mathbf { x } \right) p ( \mathbf { x } )p(x,Ck)=p(Ck∣x)p(x)，由于p(x)p(\mathbf{x})p(x)都一样，所以最小化错分率，就等同于最大化后验概率。
对于KKK分类问题，定义为最大化正确分类率
p(correct )=∑k=1Kp(x∈Rk,Ck)=∑k=1K∫Rkp(x,Ck)dx\begin{aligned} p ( \text { correct } ) & = \sum _ { k = 1 } ^ { K } p \left( \mathbf { x } \in \mathcal { R } _ { k } , \mathcal { C } _ { k } \right) \\ & = \sum _ { k = 1 } ^ { K } \int _ { \mathcal { R } _ { k } } p \left( \mathbf { x } , \mathcal { C } _ { k } \right) \mathrm { d } \mathbf { x } \end{aligned} p( correct )=k=1∑Kp(x∈Rk,Ck)=k=1∑K∫Rkp(x,Ck)dx
发现同样等同于最大后验概率！

Minimizing the expected loss

在现实生活中，有些问题更加复杂，对于上面的医疗诊断问题来说，误诊为癌症比误诊为健康好！因此可以适当地错分为癌症，但要最大程度上减少错分为健康！处理这个问题，其实就是进行加权！对于该问题，我们可以引入这样的权重

LkjL_{kj}Lkj代表属于Ck\mathcal { C } _ { k }Ck的而被判别为Cj\mathcal { C } _ { j}Cj所引入的权重。从上图可以看出对误分为健康的权重很大。
E[L]=∑k∑j∫RjLkjp(x,Ck)dx\mathbb { E } [ L ] = \sum _ { k } \sum _ { j } \int _ { \mathcal { R } _ { j } } L _ { k j } p \left( \mathbf { x } , \mathcal { C } _ { k } \right) \mathrm { d } \mathbf { x } E[L]=k∑j∑∫RjLkjp(x,Ck)dx
按照上面一样的推导，对于某一个新的点xxx，我们只需要找到jjj类使得下式最小即可
∑kLkjp(Ck∣x)\sum _ { k } L _ { k j } p \left( \mathcal { C } _ { k } | \mathbf { x } \right) k∑Lkjp(Ck∣x)

The reject option

Inference and decision

之前我们将分类问题划分为两个阶段：inference和decision。inference stage：利用训练样本得到后验概率p(Ck∣x)p \left( \mathcal { C } _ { k } | \mathbf { x } \right)p(Ck∣x)，decision stage 利用得到的这个后验概率进行决策。
总共有以下三种形式（按照难度减少）：

a) generative model

首先infer p(x∣Ck)p \left( \mathbf { x } | \mathcal { C } _ { k } \right)p(x∣Ck)，然后infer p(Ck)p \left( \mathcal { C } _ { k } \right)p(Ck)，然后利用贝叶斯公式
p(Ck∣x)=p(x∣Ck)p(Ck)p(x)p \left( \mathcal { C } _ { k } | \mathbf { x } \right) = \frac { p \left( \mathbf { x } | \mathcal { C } _ { k } \right) p \left( \mathcal { C } _ { k } \right) } { p ( \mathbf { x } ) } p(Ck∣x)=p(x)p(x∣Ck)p(Ck)
得到后验概率，其中
p(x)=∑kp(x∣Ck)p(Ck)p ( \mathbf { x } ) = \sum _ { k } p \left( \mathbf { x } | \mathcal { C } _ { k } \right) p \left( \mathcal { C } _ { k } \right) p(x)=k∑p(x∣Ck)p(Ck)
同样的我们也可以直接建模联合概率分布p(x,Ck)p \left( \mathbf { x } , \mathcal { C } _ { k } \right)p(x,Ck)。在得到了后验概率后就可以利用决策论进行类别划分。

b) discriminative models

直接建模后验概率分布p(Ck∣x)p \left( \mathcal { C } _ { k } | \mathbf { x } \right)p(Ck∣x)

c) discriminant function

直接找一个判别函数f(x)f ( \mathbf { x } )f(x)，将输入xxx直接映射到类别标签，在二分类的情况下，我们可以令f=0f=0f=0代表C1\mathcal { C } _ { 1 }C1类，而f=1f=1f=1代表C2\mathcal { C } _ { 2 }C2类。

Loss functions for regression

以上讨论的是分类模型的损失函数，这个部分主要讨论回归问题的损失函数
E[L]=∬L(t,y(x))p(x,t)dxdt\mathbb { E } [ L ] = \iint L ( t , y ( \mathbf { x } ) ) p ( \mathbf { x } , t ) \mathrm { d } \mathbf { x } \mathrm { d } t E[L]=∬L(t,y(x))p(x,t)dxdt
一般来说，我们取平方误差
L(t,y(x))={y(x)−t}2L ( t , y ( \mathbf { x } ) ) = \{ y ( \mathbf { x } ) - t \} ^ { 2 }L(t,y(x))={y(x)−t}2
如果我们的y(x)y ( \mathbf { x } )y(x)为任意函数的话，我们利用变分可以得到
δE[L]δy(x)=2∫{y(x)−t}p(x,t)dt=0\frac { \delta \mathbb { E } [ L ] } { \delta y ( \mathbf { x } ) } = 2 \int \{ y ( \mathbf { x } ) - t \} p ( \mathbf { x } , t ) \mathrm { d } t = 0 δy(x)δE[L]=2∫{y(x)−t}p(x,t)dt=0
y(x)=∫tp(x,t)dtp(x)=∫tp(t∣x)dt=Et[t∣x]y ( \mathbf { x } ) = \frac { \int t p ( \mathbf { x } , t ) \mathrm { d } t } { p ( \mathbf { x } ) } = \int t p ( t | \mathbf { x } ) \mathrm { d } t = \mathbb { E } _ { t } [ t | \mathbf { x } ] y(x)=p(x)∫tp(x,t)dt=∫tp(t∣x)dt=Et[t∣x]
这个函数称为回归函数，下图为回归函数的具体意义

回归函数还可以按照如下方式得到
{y(x)−t}2={y(x)−E[t∣x]+E[t∣x]−t}2={y(x)−E[t∣x]}2+2{y(x)−E[t∣x]}{E[t∣x]−t}+{E[t∣x]−t}2\begin{array} { l } { \{ y ( \mathbf { x } ) - t \} ^ { 2 } = \{ y ( \mathbf { x } ) - \mathbb { E } [ t | \mathbf { x } ] + \mathbb { E } [ t | \mathbf { x } ] - t \} ^ { 2 } } \\ { \quad = \{ y ( \mathbf { x } ) - \mathbb { E } [ t | \mathbf { x } ] \} ^ { 2 } + 2 \{ y ( \mathbf { x } ) - \mathbb { E } [ t | \mathbf { x } ] \} \{ \mathbb { E } [ t | \mathbf { x } ] - t \} + \{ \mathbb { E } [ t | \mathbf { x } ] - t \} ^ { 2 } } \end{array} {y(x)−t}2={y(x)−E[t∣x]+E[t∣x]−t}2={y(x)−E[t∣x]}2+2{y(x)−E[t∣x]}{E[t∣x]−t}+{E[t∣x]−t}2
先对ttt进行积分，则获得
E[L]=∫{y(x)−E[t∣x]}2p(x)dx+∫{E[t∣x]−t}2p(x)dx\mathbb { E } [ L ] = \int \{ y ( \mathbf { x } ) - \mathbb { E } [ t | \mathbf { x } ] \} ^ { 2 } p ( \mathbf { x } ) \mathrm { d } \mathbf { x } + \int \{ \mathbb { E } [ t | \mathbf { x } ] - t \} ^ { 2 } p ( \mathbf { x } ) \mathrm { d } \mathbf { x } E[L]=∫{y(x)−E[t∣x]}2p(x)dx+∫{E[t∣x]−t}2p(x)dx
为了使上式最小，则能得到回归函数。上式右边的第二部分为ttt在p(x)p(\mathbf{x})p(x)上的方差，是固有噪声，不可消除！
与分类问题类似，回归问题也可以按照先难后易有三种解决回归问题的方法：
a)直接建模p(x,t)p ( \mathbf { x } , t )p(x,t)，然后得到p(t∣x)p ( t | \mathbf { x } )p(t∣x)，最后得到回归函数；
b)直接建模p(t∣x)p ( t | \mathbf { x } )p(t∣x)；
c)建模一个映射函数y(x)y ( \mathbf { x } )y(x)

1.6 Information Theory

简要介绍一些关于信息论的概念

Entropy

H[x]=−∫p(x)ln⁡p(x)dx\mathrm { H } [ \mathrm { x } ] = - \int p ( \mathrm { x } ) \ln p ( \mathrm { x } ) \mathrm { d } \mathrm { x } H[x]=−∫p(x)lnp(x)dx

Conditional Entropy

H[y∣x]=−∬p(y,x)ln⁡p(y∣x)dydx\mathrm { H } [ \mathbf { y } | \mathbf { x } ] = - \iint p ( \mathbf { y } , \mathbf { x } ) \ln p ( \mathbf { y } | \mathbf { x } ) \mathrm { d } \mathbf { y } \mathrm { d } \mathbf { x } H[y∣x]=−∬p(y,x)lnp(y∣x)dydx
H[x,y]=H[y∣x]+H[x]\mathrm { H } [ \mathrm { x } , \mathrm { y } ] = \mathrm { H } [ \mathbf { y } | \mathrm { x } ] + \mathrm { H } [ \mathrm { x } ] H[x,y]=H[y∣x]+H[x]

Relative entropy and mutual information

KL divergence
KL(p∥q)=−∫p(x)ln⁡q(x)dx−(−∫p(x)ln⁡p(x)dx)=−∫p(x)ln⁡{q(x)p(x)}dx\begin{aligned} \mathrm { KL } ( p \| q ) & = - \int p ( \mathbf { x } ) \ln q ( \mathbf { x } ) \mathrm { d } \mathbf { x } - \left( - \int p ( \mathbf { x } ) \ln p ( \mathbf { x } ) \mathrm { d } \mathbf { x } \right) \\ & = - \int p ( \mathbf { x } ) \ln \left\{ \frac { q ( \mathbf { x } ) } { p ( \mathbf { x } ) } \right\} \mathrm { d } \mathbf { x } \end{aligned} KL(p∥q)=−∫p(x)lnq(x)dx−(−∫p(x)lnp(x)dx)=−∫p(x)ln{p(x)q(x)}dx
需要注意的是KL(p∥q)̸=KL(q∥p)\mathrm { KL } ( p \| q ) \not= \mathrm { KL } ( q \| p )KL(p∥q)̸=KL(q∥p)，且KL(q∥p)⩾0\mathrm { KL } ( q \| p ) \geqslant 0KL(q∥p)⩾0，当且仅当q(x)=p(x)q(x)=p(x)q(x)=p(x)时，取等。下面从KL散度来推导最大似然估计，假设我么有个未知分布p(x)p(x)p(x)，我们利用q(x∣θ)q ( \mathbf { x } | \boldsymbol { \theta } )q(x∣θ)去近似这个未知分布，则
KL(p∥q)≃∑n=1N{−ln⁡q(xn∣θ)+ln⁡p(xn)}\mathrm { KL } ( p \| q ) \simeq \sum _ { n = 1 } ^ { N } \left\{ - \ln q \left( \mathbf { x } _ { n } | \boldsymbol { \theta } \right) + \ln p \left( \mathbf { x } _ { n } \right) \right\} KL(p∥q)≃n=1∑N{−lnq(xn∣θ)+lnp(xn)}
右边的第二部分与θ\boldsymbol { \theta }θ无关，只需要看第一部分，这部分正好就是最大似然估计项！！最小KL散度就是在最大似然函数！
下面开始介绍互信息，其是在KL散度上定义的，用于衡量x,yx,yx,y与独立的距离！
I[x,y]≡KL(p(x,y)∥p(x)p(y))=−∬p(x,y)ln⁡(p(x)p(y)p(x,y))dxdy\begin{aligned} \mathrm { I } [ \mathbf { x } , \mathbf { y } ] & \equiv \mathrm { KL } ( p ( \mathbf { x } , \mathbf { y } ) \| p ( \mathbf { x } ) p ( \mathbf { y } ) ) \\ & = - \iint p ( \mathbf { x } , \mathbf { y } ) \ln \left( \frac { p ( \mathbf { x } ) p ( \mathbf { y } ) } { p ( \mathbf { x } , \mathbf { y } ) } \right) \mathrm { d } \mathbf { x } \mathrm { d } \mathbf { y } \end{aligned} I[x,y]≡KL(p(x,y)∥p(x)p(y))=−∬p(x,y)ln(p(x,y)p(x)p(y))dxdy
I(x,y)⩾0I ( \mathbf { x } , \mathbf { y } ) \geqslant 0I(x,y)⩾0，当且仅当独立时取等。
互信息与熵有如下关系
I[x,y]=H[x]−H[x∣y]=H[y]−H[y∣x]\mathrm { I } [ \mathrm { x } , \mathrm { y } ] = \mathrm { H } [ \mathrm { x } ] - \mathrm { H } [ \mathrm { x } | \mathrm { y } ] = \mathrm { H } [ \mathrm { y } ] - \mathrm { H } [ \mathrm { y } | \mathrm { x } ] I[x,y]=H[x]−H[x∣y]=H[y]−H[y∣x]

PRML学习总结（1）——Introduction相关推荐

ZBrush全面入门学习教程 Schoolism – Introduction to ZBrush
ZBrush全面入门学习教程 Schoolism – Introduction to ZBrush ZBrush全面入门学习教程 Schoolism – Introduction to ZBrush ...
台大李宏毅Machine Learning 2017Fall学习笔记 (7)Introduction of Deep Learning
台大李宏毅Machine Learning 2017Fall学习笔记 (7)Introduction of Deep Learning 最近几年,deep learning发展的越来越快,其应用也越来 ...
台大李宏毅Machine Learning 2017Fall学习笔记 (1)Introduction of machine Learning
台大李宏毅Machine Learning 2017Fall学习笔记 (1)Introduction of machine Learning 台大李宏毅讲的这门课应该不错,课程链接: http://b ...
PRML学习总结（6）——Kernel Methods
PRML学习总结(6)--Kernel Methods 6.1 Dual Representations 6.2 Constructing Kernels 6.3 Radial Basis Funct ...
Brian2学习笔记一 Introduction to Brian part1:Neurons
Brian2学习笔记一 Introduction to Brian part 1 :Neurons 1. 前言 2. 正文 2.1 单位系统(Units system) 2.2 一个简单的模型(A s ...
PRML学习总结（8）——Graphical Models
PRML学习总结(8)--Graphical Models 8.1 Bayesian Networks 8.1.1 Example: Polynomial regression 8.1.2 Gener ...
PRML学习总结（5）——Neural Networks
PRML学习总结(5)--Neural Networks 5.1 Feed-forward Network Functions 5.1.1 Weight-space symmetries 5.2 Ne ...
机器学习基础-吴恩达-coursera-（第一周学习笔记）----Introduction and Linear Regression
课程网址:https://www.coursera.org/learn/machine-learning Week 1 -- Introduction and Linear Regression 目录 ...
PRML读书会第一章 Introduction(机器学习基本概念、学习理论、模型选择、维灾等)...
主讲人常象宇大家好,我是likrain,本来我和网神说的是我可以作为机动,大家不想讲哪里我可以试试,结果大家不想讲第一章.估计都是大神觉得第一章比较简单,所以就由我来吧.我的背景是统计与数学,稍懂 ...
Generalizing from a Few Examples: A Survey on Few-Shot Learning 小样本学习最新综述| Introduction and Overview
参考链接:小样本学习与智能前沿·公众号 Author list YAQING WANG, Hong Kong University of Science and Technology and Baid ...

PRML学习总结（1）——Introduction

PRML学习总结（1）——Introduction

1.1 Example: Polynomial Curve Fitting

1.2 Probability Theory

The Rules of probability

Bayes’ Theorem

Curve fitting re-visited

1.3 Model Selection

1.4 The Curse of Dimensionality

1.5 Decision Theory

Minimizing the misclassification rate

Minimizing the expected loss

The reject option

Inference and decision

a) generative model

b) discriminative models

c) discriminant function

Loss functions for regression

1.6 Information Theory

Entropy

Conditional Entropy

Relative entropy and mutual information

PRML学习总结（1）——Introduction相关推荐

最新文章

热门文章