引言
概率密度
期望和协方差 Expectations and covariances
- 1加权平均值
- 2 多变量权重
- 3 条件期望
- 4 函数方差
- 5 协方差
Bayesian Probability
5高斯分布
重回多项式拟合
- 1理解误差函数
- 2 理解规则化
贝叶斯曲线拟合

主要讲解了贝叶斯概率与统计派概率的不同。概率论，决策论，信息论（probability theory, decision theory, and information theory）是以后用到的三个重要工具，本节主要介绍概率论，这里的介绍还是结合前面的多项式拟合的例子讲解。

1 引言

模式识别中一个重要的概念就是不确定性，而概率论可以很好的解释不确定性，在结合后面讲学到的决策论时，会利用概率论的方法，充分利用现有的信息得到一个最优解。
这部分需要提前了解以下三个概念和三个理论：

下面开始进入例子：

有两个盒子(box记为B)，红色记为r蓝色记为b，也就是B（r），B（b）
里面有苹果与橘子，黄色代表橘子o，绿色代表苹果a。
假设：
（也可认为有红盒子4个，蓝盒子6个）
那么我们可以知道一下四个条件概率：

问题1：抓到红色苹果的概率是多少？
想必这问题还是挺简单的

问题2：如果抓到的是橘子，那么是从红色箱子拿出来的概率是多少？
这里要用到贝叶斯概率了

这里p(B)是先验概率，p(B|F)是后验概率
另外还需要知道的一个概念就是独立变量，如果两个变量独立，那么P(x,y)=p(x)p(y).或者p(x|y)=p(x),这个例子中如果两个盒子的橘子和苹果的比例相同，那么选取盒子和选取水果这个两个变量就是相互独立的。
明白上面的知识，就可以继续向下看了。

2 概率密度

对于连续变量，如果x在(x,x+δ)(x,x+\delta)中的概率为p(x)δxp(x)\delta x那么这里的p(x)就是概率密度，这里定义累积分布函数

可以看到概率密度是累积分布函数的微分

这里还需要知道自变量函数的概率密度的，假设x=g(y),因为，我们需要求y的概率密度，则：

当x为多个变量时，此时的密度函数为联合概率密度。
引言中提到的三个理论同样适用于概率密度函数，其sum rule 和product rule 如下：

3 期望和协方差 Expectations and covariances

3.1加权平均值

在离散变量中的加权平均值计算公式如下：

相应的连续变量的为：

其中f(x)f(x)为权重函数。
如果已知N个点的值，我们可以按照下式估计其加权平均值，如果N趋于无穷，那么他的值应该与上面的式子结果相同。

3.2 多变量权重

另外，还有一种可能是，我们的权重函数是多变量的，这时候我们可以通过添加下标来表明是求那个变量的加权平均值，下式是求x的加权平均值：

值得注意的是其结果不是一个常数，而是一个关于y的函数。

3.3 条件期望

还有一种条件期望，下式为离散变量的形式

3.4 函数方差

变量函数的方差为:

3.5 协方差

变量的协方差为：

协方差矩阵为：

4 Bayesian Probability

目前为止我们都是以随机可重复事件的频率出发，来看待概率的，这样的视角叫作经典概率或者频率派概率。现在我们将用贝叶斯的视角重新审视人生，这种Bayesian 概率，它的不同在于引入了不确定的因素。
我们用概率来表达不确定性，在上节多项式拟合中，使用频率派的观点已经很合理的解决了这个问题，但是我们还可以通过贝叶斯的观点来定性和定量的分析各个参数的不确定性。
之前我们在研究拿水果的问题时，我们通过贝叶斯公式用先验概率求得了后验概率，在后面我们也会用类似的方法来求多项式拟合中参数的不确定性，其公式如下：

（从这里开始就不太好理解了，建议结合原书和后面给的链接多读几遍）
p(w|D)的意思就是在现有观察的数据D的前提下w的不确定性。
p(D|w)是在w的条件下出现D的可能性，也叫作似然函数。
在频率派中p(D|w)是将w看做确定数值，误差是由D的分布决定的；而贝叶斯派则是将w看作是不确定的，误差是由w的分布决定的。
http://www.aiweibang.com/yuedu/52652665.html有个好点的解释

里面也解释了有兴趣的可以看看。文中指出如果参数比较多，这里的p(D)就是多重积分了，所以在马尔科夫链等方法出来之前贝叶斯的运用较少。

5高斯分布

高斯分布也叫正态分布，其一元表达式如下：

一阶矩：

二阶矩：

方差：

多元表达式：

μ\mu是n维均值，Σ\Sigma是协方差矩阵，|Σ||\Sigma|是它的行列式。
设x独立同分布，其似然函数为:

这里文中之处，在求p(x|参数)的最大似然估计和p(参数|x)是有联系的。
现在利用上式求最大似然估计的μ、σ2\mu 、\sigma^2的值。对其求对数，然后加负号，求极小值得到以下结果：

高斯分布中μ、σ2\mu 、\sigma^2相互独立，可以计算出μ\mu的值之后代入sigmasigma的计算公式中。
对其计算结果求均值得到：

可以看出方差并不是无偏估计，下图是只有两个点的时候的计算的方差和均值：

绿色是真实情况，蓝色是样本点。可以看出样本数量较少的情况得到的结果不太好，但是如果样本数量很大，其偏差就可以忽略不计了。但是参数越多的时候其偏差就会越明显。

6 重回多项式拟合

这次从概率的角度重新审视误差函数和规则化的含义，另外感受下beyas方案。
之前我们想要通过现有的x和t，来预测新的x对应的t，之前并没有给出预测的不确定程度，现在通过beyas方法来计算。
假设我们的预测函数是以y为均值的高斯分布函数，如下图所示：

其中的β=1/σ2\beta=1/\sigma^2.也就是新的预测值的概率密度为：

这样就表征出了预测值的不确定性。
其似然函数为：

利用最大似然函数就可以求出w和β\beta注意这里依然由于他们二者不会由于比赛改变自己的极值所以可以分别求出。

6.1理解误差函数

在求的过程中可以发现，最小二乘法就是其求解的一种特殊情况。

在如果求出两者，那么我们就有一个预测模型了，这样代入即可求出预测值的分布（之前的拟合只能到处一个数值）。

6.2 理解规则化

我们进一步利用beyas概论，还记得下面的图片么？

这里可以写成下式：

如果我们考虑w的先验分布，那么其后验分布应该满足上式，这时候的w应该使后验概率最大化，This technique is called maximum posterior, or simply MAP.其求解结果是：

总是那么神奇，可以看出这样的形式类似于有惩罚项的最小二乘法的代价函数。
其中w的先验概率的条件变量α/β\alpha/\beta可以看成惩罚因子。
从这里可以看出概率派和频率派只是一个问题的不同解决方式，并没有绝对的谁对谁错。

7 贝叶斯曲线拟合

上面虽然得到了预测值的不确定性，但是并不是完整的贝叶斯的方法，因为我们的参数的不确定性还没有给出。
拟合问题中我们是要求在知道已知向量x,t及新的向量数值x时预测一个新的t，他可以用下式表示：

其中左边是我们刚才说想要求的，右边整体是用了sum rule 在连续变量中就是求边缘密度，中间里面的乘法用的是product rule。
其中的p(t|x,w)p(t|x,\mathbf w)为在参数为W的条件下，对应x的预测值为t的概率，也就是前面的方程：为了简便起见，没有标记alpha和beta。
p(w|x,t)p(w|\mathbf{x,t})为在输入为x，t条件下参数为w的概率。他们的乘积就是参数为w输入为x,t时的概率。
要注意，这里我们并不是把参数设为固定值，因此如果想得到最终的p(t|x,x,t)p(t|x,\mathbf{x,t})必须要利用sum rule 将其求积分，求解方法暂时没有详细列出，结果如下：

其中

注意这里的s2s^2包含两项，第一项是前面已经用似然函数得到的由于目标函数的噪声产生的β−1\beta^{-1}，而第二项是由w的不确定产生的。
其拟合结果如下：

这里只是讲解了beyas方法求解拟合问题的一般过程，其具体求解步骤还没有详细叙述，后面应该会有讲解。

PRML 02 Introduction：贝叶斯概率相关推荐

有关贝叶斯概率和贝叶斯网络和贝叶斯因果网络的自习笔记
回校一周了,前段时间忙活着组会讨论班的事儿,然后安装了一个Ubuntu的双系统,暂时不想码代码先把一直好奇的贝叶斯网络了解下. 贝叶斯概率首先是贝叶斯概率.贝叶斯作为泥腿子颠覆了前人"事件 ...
关于贝叶斯概率（Bay概率（Bayes theory）
理论前天上课上到贝叶斯概率,复习一下,理论参见:百度百科贝叶斯公式和wiki百科贝叶斯定理. 理论不难,重点是区分,前验概率,后验概率和条件概率.在这里举个例子帮助理解. 例子三家工厂生产同一件产 ...
《数据科学家养成手册》--第十一章算法学2---（非监督，监督贝叶斯概率以及损失函数）
11.8 机器学习-----自动归纳数据挖掘是随着商务智能发展起来的一种相对比较新的一种算法学科. 只知道自己想学习的是数据挖掘和大数据,但是真的说出个所以然自己真的办不到.现在说是一种算法学科,忽 ...
频率概率与贝叶斯概率
概率论最初的发展是为了分析事件发生的频率.我们可以很容易地看出概率论,对于像在扑克牌游戏中抽出一手特定的牌这种事件的研究中,是如何使用的.这类事件往往是可以重复的.当我们说一个结果发生的概率为 ppp ...
易被忽视的贝叶斯概率
易被忽视的贝叶斯概率 @(概率论) 全概率是对事件进行划分,求的是总概率.贝叶斯是已知某事件发生,求是其中一件的概率.在前面我们列举过一个例子,讲村庄被偷的概率就是全概率,已知被偷,那么计算是哪个小偷 ...
期望方差和贝叶斯概率
期望(expectation)就是平均权重,用E(f)表示,连续型的期望如下: 给出有限的 N 个点期望可以如下表示: 当 N趋向于无穷大的时候上式会非常准确,上式在抽样方法里面会广泛使用. 多个变量 ...
概率论基础 —— 2. 条件概率、全概率、贝叶斯概率公式
文章目录条件概率全概率贝叶斯概率条件概率条件概率是一种比较特殊的概率体系,和我们前面提到过的基本概率(交事件)有所不同.它最大的特点在于事件发生时有一定的限制前提,通常一般是说在事件A发生后 ...
【简述与推导】似然函数，最大似然估计，条件概率，全概率，贝叶斯概率
目录 1. 似然(likehood)与最大似然估计 2. 条件概率(conditional probability),全概率(total probability),和贝叶斯概率(Bayes proba ...
概率论知识回顾（三）：事件域，条件概率，全概率，贝叶斯概率
概率论知识回顾(三) 关键点:事件域,条件概率,全概率,贝叶斯概率知识回顾用于巩固知识和查漏补缺.知识回顾步骤: 查看知识回顾中的问题,尝试自己解答自己解答不出来的可以查看下面的知识解答巩固知识. ...

PRML 02 Introduction：贝叶斯概率