最大后验估计_PR Ⅱ：贝叶斯估计/推断及其与MAP的区别

Probabilistic in Robotics Ⅱ: Bayesian Estimation/Inference

统计推断旨在根据可观察到的事物来了解不可观察到的事物。即，统计推断是基于一个总体或一些样本中的某些观察变量（通常是影响）得出结论的过程，例如关于总体或样本中某些潜在变量（通常是原因）的准时估计、置信区间或区间估计等。

先前我们已经介绍了最大似然估计MLE和最大后验概率估计MAP

刘浚嘉：机器人学的概率方法——最大似然估计MLE与最大后验概率估计MAPzhuanlan.zhihu.com

贝叶斯估计/推断

贝叶斯估计(Bayesian Estimation)和贝叶斯推断(Bayesian Inference)大致是一个意思，Inference范围更大一点，包括区间估计、假设检验等；Estimation则更倾向于指参数估计。
—— polimi 某统计大佬

我们在上一章强调贝叶斯派与频率派世界观差异的时候，着重描述了贝叶斯派对于参数是随机变量的看法，然而最大后验概率估计MAP得到的值却是个定值

，是参数这个变量概率分布中的一个特定点。这听起来没有很好的贯彻贝叶斯派的精神。

贝叶斯推断是个更彻底的贝叶斯派，是MAP的进一步扩展。不再估计一个特定的参数

，而是要估计它的

分布。

在贝叶斯推断中，样本经验分布

不再被省略，因为这不再是专门对参数

的估计。

离散型贝叶斯公式：

连续型贝叶斯公式：

很明显，这并不是一个好处理的公式，尤其是连续型的分母（归一化因子）

(全概率公式展开，还记得吗 )

手算贝叶斯推断

我们先试着做做，还是之前的扔硬币，不过样本变了点，正六反四：

以下内容来自贝叶斯估计、最大似然估计、最大后验概率估计

使用共轭先验分布，就可以更好的解决这个问题。二项分布参数的共轭先验是Beta分布，由于 θ 的似然函数服从二项分布，因此在贝叶斯推断中，假设 θ 的先验分布服从

，Beta分布的概率密度公式为：

因此，贝叶斯公式可写作：

从上面的公式可以看出，

。其中 B 函数，也称Beta函数，是一个标准化常量，用来使整个概率的积分为1。

就是贝叶斯推断的结果。

如果使用贝叶斯推断得到的 θ 分布存在一个有限均值，则可以用后验分布的期望作为 θ 的估计值。假设

，在这种情况下，先验分布会在0.5处取得最大值，则

，Beta(θ|9,7)的曲线如下图：

从上图可以看出，在

的情况下，θ的估计值

应该在0.6附近。根据Beta分布的数学期望公式

，我们可以和MAP一样求出一个参数的特值：

求解步骤：

确定参数的似然函数
确定参数的先验分布，应是后验分布的共轭先验
确定参数的后验分布函数
根据贝叶斯公式求解参数的后验分布

对测试集的估计

这个功能是贝叶斯推断独有的。贝叶斯估计要解决的不是如何估计参数，而是用来估计新测量数据出现的概率，对于新出现的数据

：

那么实际项目中，我们如何计算贝叶斯推断呢？

基于采样的马尔可夫链蒙特卡罗(Markov Chain Monte Carlo，简称MCMC)方法
基于近似的变分推断(Variational Inference，简称VI)方法

刘浚嘉：PR Sampling Ⅰ: 重要性采样及python实现zhuanlan.zhihu.com

Reference

Bayesian inference problem, MCMC and variational inference
贝叶斯估计、最大似然估计、最大后验概率估计