envi最大似然分类_闲谈最大后验概率估计（MAP estimate）amp;极大似然估计（MLE）和机器学习中的误差分类...

上一篇文章中提到了一个有趣的实验，简单来说就是1-100中有若干个数字是“正确的”，只告诉其中一部分“正确的”数字，去猜全部“正确的”数字。

为了严谨的去研究这个问题，我们需要将一些概念进行抽象。首先，把提前告知的其中一部分“正确的”数字定义为样本

，全部“正确的”数字定义为假设

，我们想要做的就是在给定样本下找到最适合的假设。

这里需要说明一点，由以上定义容易发现

，但是为了一般性，暂时不做

的假设。

有了前面这些准备，我们就可以给出likelihood的定义：

，即给定假设下样本发生的概率。对于离散化的问题，如前面提到的那个实验，公式还可进一步写成：

，

为样本数。为了引入极大似然估计这个概念，我们需要提前约定包含所有假设

的假设空间为

。

所以，极大似然估计（MLE）就是在

中找到一个

使得likelihood达到最大，公式写成

。MIT教授Joshua Brett Tenenbaum称之为size principle，它意味着模型会倾向于更简单（在这里就是

所含元素更少）的假设。

但是，这种结果在机器学习中却不是令人满意的。譬如说如果

，很明显，

是

的MLE，但是实际上他是没有意义的，因为它不具有泛化性，即无法预测未知的数据。换句话说，它其实根本没有进行训练。

因此，我们需要定义prior。仍然令

，我们可以做出很多假设，譬如

，或者

。可以发现，

比

有更高的likelihood，但是我们不愿意接受

，这是因为在我们心中的假设空间中，

比

的可能性低的多。

所以，prior的定义就是假设在假设空间的概率

。不过，这种定义实际上是很主观的，譬如一个小孩和一个数学教授不仅假设空间不同，他们的prior也会不同。但是为了方便处理，我们一般令他们的假设空间相同，但是改变其中的prior。譬如说对于advance的假设，小孩的prior就是0，数学教授的prior可能就会稍微高一些。

有了likelihood和prior，我们可以去定义后验概率（posteriori probability）

。先给出公式：

，有些朋友会发现这其实就是贝叶斯公式。顾名思义，

最大后验概率估计（MAP estimate）就是找到一个假设

，使得后验概率取到最大值。

我们可以发现，如果

是均匀分布，那么后验概率和likelihood是成正比的，这时的MLE就等价于MAP estimate。

但是真实情况往往不是这样，

的分布是多种多样的，不过如果我们的样本量N趋于无穷，我们仍然可以得到很好的结论，下面来证明这一点。

由于

的分母是常数，所以MAP estimate也可写成如下公式：

，而

，所以

是关于N线性上升的，而

是常数，若同除以

，因为

与

无关，所以不会影响

，但是

会趋于0当

趋于无穷。而

，所以也就是说，当我们有足够多的样本，prior的作用就可以忽略不计。在这种情况下，MAP estimate会收敛于MLE。

最后想谈一谈误差分类

我们不可能会产生一个精确的模型，我们产生的模型往往是含有噪音的，这些噪音可能来自：

模型并不是真实数据产生的模型
采样本身也是有噪音的
等等

我们也会非常关心：

这些噪音随着采样是以什么尺度下降的
随着神经元数目增加，我的模型可以把误差下降到多小
训练误差和测试误差
应该选择什么优化方式
等等

有很多很多的误差，我们需要对误差分类（error decomposition）

逼近误差（Approximation error）

它衡量了我的模型能最好逼近真实模型到什么程度（譬如说用分片线性函数去拟合非线性函数）。但是要注意，这种逼近是不计成本的，也就是说，在不计一切代价的情况下，如果目标是

，我们可以最佳逼近到

。但实际上不计一切成本是不可能的。

在八十年代末九十年代初，最杰出的结论就是universal approximation theorem（万有逼近原理）。这个结论是说，即使只有一个隐藏层(只要够宽)，都可以把神经网络拟合的很好。当然，激活函数不可以是仿射函数，要不然连最普通的XOR问题都解决不了。

2. 泛化误差（Generalization error)

它衡量了我可以通过数据集得到的最好的模型

和

的距离。

泛化即推广能力。举个例子，给出一系列数据点，我们可以找到一条函数将数据点拟合。那么这条函数在我没有见过的数据点的预测能力和表现性能就叫做泛化能力。

泛化误差是我们很关心的误差，因为理论上已经证明了，

可以几乎等于我们的目标函数

，所以我们泛化误差可以就认为是

与

的误差

3. 优化误差（Optimization error）

它衡量了我可以通过数据集和某一种优化算法得到的最好的模型

和

的举例距离。

所以最终我们可以得到一个等式

，直观图如下：

参考：

Machine Learning_A Probabilistic Perspective[Murphy 2012-08-24]
bilibili：数学学院本科课程：统计计算与机器学习1

envi最大似然分类_闲谈最大后验概率估计（MAP estimate）amp;极大似然估计（MLE）和机器学习中的误差分类...相关推荐

极大似然估计，最大后验概率估计(MAP)，贝叶斯估计
1.贝叶斯公式三种参数估计方法都和贝叶斯公式有关,因此首先从分析贝叶斯公式入手: 贝叶斯公式可以表达为: posterior:通过样本X得到参数的概率 likehood:通过参数得到样本X的概率 p ...
一文看懂 “极大似然估计” 与 “最大后验估计” —— 极大似然估计篇
参考: 唐宇迪<人工智能数学基础>第8章 Richard O. Duda <模式分类>第三章白板机器学习 P2 - 频率派 vs 贝叶斯派频率学派还是贝叶斯学派?聊一聊机器 ...
最大似然估计、最大后验概率估计和贝叶斯估计
本内容主要介绍概率论与统计学相关基础知识,主要涉及联合概率.边缘概率和条件概率:贝叶斯公式.先验概率.后验概率和似然函数:最大似然估计.最大后验概率估计和贝叶斯估计等.为机器学习中的贝叶斯分类 ...
贝叶斯公式的对数似然函数_贝叶斯估计、最大似然估计、最大后验概率估计
贝叶斯估计.最大似然估计(MLE).最大后验概率估计(MAP)这几个概念在机器学习和深度学习中经常碰到,读文章的时候还感觉挺明白,但独立思考时经常会傻傻分不清楚(
机器学习之最大似然估计（MLE）和最大后验概率估计（MAP）
最大似然估计MLE MLE(Maximum Likelihood Estimation)就是利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值的计算过程.直白来讲,就是给定了一定的数据, ...
透彻理解机器学习中极大似然估计MLE的原理（附3D可视化代码)
文章目录相关资料一.什么是概率,什么是似然二.极大似然估计 Maximum Likelihood Estimation (MLE) 的含义 2.1 机器学习中的极大化似然函数 2.2 极大似然估 ...
数学知识——概率统计（8）统计推断之参数估计：极大似然估计和最大后验概率
目录 1. 统计推断概念问题表述小结参数估计抽样分布假设检验 2. 两大估计方法后面的学派概率的定义本质区别 3. 参数估计的思想 3.1 最大似然估计(MLE) 3.2 贝叶斯估计: ...
对极大似然估计和极大验后估计的理解
文章目录 Part.I 概念理解 Part.II 例子 Part.III 总结 Reference Part.I 概念理解概率与统计:概率(probabilty)和统计(statistics)看似两 ...
最大似然估计(MLE)，最大后验概率估计（MAP），贝叶斯估计入门讲解
已知数据X,去拟合某个概率模型的参数θ,是最基本的机器学习过程. 本文将入门讲解3个最基本的方法:最大似然估计(Maximum Likelihood Estimation,简称MLE),最大后验概率估 ...

envi最大似然分类_闲谈最大后验概率估计（MAP estimate）amp;极大似然估计（MLE）和机器学习中的误差分类...

envi最大似然分类_闲谈最大后验概率估计（MAP estimate）amp;极大似然估计（MLE）和机器学习中的误差分类...相关推荐

最新文章

热门文章