【机器学习基本理论】详解最大后验概率估计（MAP）的理解

https://mp.weixin.qq.com/s/dQxN46wEbFrpvV369uOHdA

最大似然估计（Maximum likelihood estimation, 简称MLE）和最大后验概率估计（Maximum a posteriori estimation, 简称MAP）是很常用的两种参数估计方法，如果不理解这两种方法的思路，很容易弄混它们。
下文将详细说明MLE和MAP的思路与区别。上篇讲解了MLE的相应知识。【机器学习基本理论】详解最大似然估计（MLE）、最大后验概率估计（MAP），以及贝叶斯公式的理解
下面讲解最大后验概率MAP的相关知识。
1最大后验概率估计
最大似然估计是求参数theta, 使似然函数p(x0|theta)最大。
最大后验概率估计则是想求theta使得p(x0|theta)p(theta)最大。

求得的theta不单单让似然函数大，theta自己出现的先验概率也得大。（这有点像正则化里加惩罚项的思想，不过正则化里是利用加法，而MAP里是利用乘法）

MAP其实是在最大化p(theta|x0)=p(x0|theta)p(theta)/p(x0),不过因为x0是确定的（即投出的“反正正正正反正正正反”），p(x0)是一个已知值，所以去掉了分母p(x0)
（假设“投10次硬币”是一次实验，实验做了1000次，“反正正正正反正正正反”出现了n次，
则p(x0)=n/1000总之，这是一个可以由数据集得到的值）。最大化p(theta|x0)的意义也很明确，x0已经出现了，要求theta取什么值使p(theta|x0)最大。顺带一提，p(theta|x0)即后验概率，这就是“最大后验概率估计”名字的由来。

对于投硬币的例子来看，我们认为（”先验地知道“）theta取取0.5的概率很大，取其他值的概率小一些。我们用一个高斯分布来具体描述我们掌握的这个先验知识，例如假设p(theta)为均值0.5，方差0.1的高斯函数，如下图：

则p(x0|theta)p(theta)的函数图像为：

注意，此时函数取最大值时，theta取值已向左偏移，不再是0.7。实际上，在theta=0.558时函数取得了最大值。即，用最大后验概率估计，得到theta=0.558。

最后，那要怎样才能说服一个贝叶斯派相信theta=0.7呢？
你得多做点实验。。

如果做了1000次实验，其中700次都是正面向上，这时似然函数为:

如果仍然假设p(theta)为均值0.5，方差0.1的高斯函数，则p(x0|theta)p(theta)的函数图像为：

在theta=0.696，p(x0|theta)p(theta)取得最大值。

这样，就算一个考虑了先验概率的贝叶斯派，也不得不承认得把theta估计在0.7附近了。

PS. 要是遇上了顽固的贝叶斯派，认为p(theta=0.5)=1，那就没得玩了。。无论怎么做实验，使用MAP估计出来都是theta=0.5。这也说明，一个合理的先验概率假设是很重要的。（通常，先验概率能从数据中直接分析得到）

2最大似然估计和最大后验概率估计的区别
相信读完上文，MLE和MAP的区别应该是很清楚的了。
MAP就是多个作为因子的先验概率p(theta)。
或者，也可以反过来，认为MLE是把先验概率p(theta)认为等于1，即认为theta为均匀分布，无论theta为何值，p(theta)均为1
文章地址：http://blog.csdn.net/u011508640/article/details/72815981

【机器学习基本理论】详解最大后验概率估计（MAP）的理解相关推荐

大数据时代 | 数据分析方法及理论详解
大数据时代 | 数据分析方法及理论详解 1 数据分析前,我们需要思考像一场战役的总指挥影响着整个战役的胜败一样,数据分析师的思想对于整体分析思路,甚至分析结果都有着关键性的作用. 2 分析问题和解决 ...
python随机森林变量重要性_随机森林如何评估特征重要性【机器学习面试题详解】...
今天爱分享给大家带来随机森林如何评估特征重要性[机器学习面试题详解],希望能够帮助到大家. 解析: 衡量变量重要性的方法有两种,Decrease GINI 和 Decrease Accuracy: 1 ...
手机摄影中多摄融合理论详解与代码实战
转载AI Studio项目链接https://aistudio.baidu.com/aistudio/projectdetail/3465839 手机摄影中多摄融合理论详解与代码实战前言从20 ...
Data Guard ----理论详解(四)
1.Data Guard 第一章详细部分阅读–传送门 2 DG Services 详解 – Redo Transport Services 第二章详细部分阅读–传送门 3 DG Services 详解 ...
机器学习分类器评价指标详解（Precision, Recall, PR, ROC, AUC等）（一）
为了系统性地理解机器学习模型的不同评价指标及其之间的关系,我们将从其定义出发,探究其物理含义及彼此之间的联系,并从数学上给出相应的公式推导,以方便后续用到时复习理解.由于篇幅较长,因此将其分为两篇,这 ...
python apply lambda if_详解Python中的map、lambda和apply用法
Hello大家好,欢迎来到[统计GO],本公众号内容主要针对数据分析的爱好者,不定期分享一些好用的数据分析工具和机器学习资料,以及一些求职必备技能,帮助大家花更少的时间学更多的知识. 今天为大家推荐的 ...
dataframe groupby_详解pandas中的map、apply、applymap、groupby、agg.
一.简介 pandas提供了很多方便简洁的方法,用于对单列.多列数据进行批量运算或分组聚合运算,熟悉这些方法后可极大地提升数据分析的效率,也会使得你的代码更加地优雅简洁. 本文就将针对pandas中的 ...
极大似然估计，最大后验概率估计(MAP)，贝叶斯估计
1.贝叶斯公式三种参数估计方法都和贝叶斯公式有关,因此首先从分析贝叶斯公式入手: 贝叶斯公式可以表达为: posterior:通过样本X得到参数的概率 likehood:通过参数得到样本X的概率 p ...
机器学习经典算法详解及Python实现--元算法、AdaBoost
http://blog.csdn.net/suipingsp/article/details/41822313 第一节,元算法略述遇到罕见病例时,医院会组织专家团进行临床会诊共同分析病例以判定结果. ...

【机器学习基本理论】详解最大后验概率估计（MAP）的理解

【机器学习基本理论】详解最大后验概率估计（MAP）的理解相关推荐

最新文章

热门文章