最大似然估计:把待估计的参数看作是确定性的量(只是其取值未知),其最佳估计就是使得产生已观察到的样本(即训练样本)的概率为最大的那个值。(即求条件概率密度p(D|$)为最大时的$,其中D为样本集,$为条件概率密度分布的参数)。特点:简单适用;在训练样本增多时通常收敛得很好。只考虑某个模型能产生某个给定观察序列的概率,而未考虑该模型本身的概率,这点与贝叶斯估计区别。

目标是寻求能最大化likehood:的值。可以写出目标函数:

一般使用对数来进行简化处理:

要最大化L,对L求导数并令导数为0即可求解。

最大后验估计(MAPMaxaposterior):求p(D|$)*p($)取最大值的那个参数向量$,最大似然估计可以理解为当先验概率p($)为均匀分布时的MAP估计器。(MAP缺点:如果对参数空间进行某些任意非线性变换,如旋转变换,那么概率密度p($)就会发生变化,其估计结果就不再有效了。)根据经验数据获得对难以观察的量的点估计。与最大似然估计类似,但是最大的不同时,最大后验估计的融入了要估计量的先验分布在其中,可看做是规则化的最大似然估计。

   和极大似然估计不同的是,MAP寻求的是能使后验概率最大的值。

之所以可以省略分母p(X),是因为p(X)和没有关系。注意当前验 p 是 uniform(也就是常函数)时最大后验估计与最大似然估计重和。

加上对数处理后,上面公式可以表达为:

的先验分布,在实际应用中,这个先验可以用来描述人们已经知道或者接受的普遍规律。例如在扔硬币的试验中,每次抛出正面发生的概率应该服从一个概率分布,这个概率在0.5处取得最大值,这个分布就是先验分布。先验分布的参数我们称为超参数(hyperparameter)即

至于上面目标函数的求解,也和极大似然估计是一样的,对目标函数求导并令导数为0来求解。

以扔硬币的伯努利实验为例子,N次实验的结果服从二项分布,参数为P,即每次实验事件发生的概率,不妨设为是得到正面的概率。为了估计P,采用最大似然估计,似然函数可以写作

其中表示实验结果为i的次数。下面求似然函数的极值点,有

得到参数p的最大似然估计值为

可以看出二项分布中每次事件发的概率p就等于做N次独立重复随机试验中事件发生的概率。

如果我们做20次实验,出现正面12次,反面8次

那么根据最大似然估计得到参数值p为12/20 = 0.6。

下面我们仍然以扔硬币的例子来说明,我们期望先验概率分布在0.5处取得最大值,我们可以选用Beta分布即

其中Beta函数展开是

当x为正整数时

Beta分布的随机变量范围是[0,1],所以可以生成normalised probability values。

我们取,这样先验分布在0.5处取得最大值,现在我们来求解MAP估计函数的极值点,同样对p求导数我们有

得到参数p的的最大后验估计值为

和最大似然估计的结果对比可以发现结果中多了这样的pseudo-counts,这就是先验在起作用。并且超参数越大,为了改变先验分布传递的belief所需要的观察值就越多,此时对应的Beta函数越聚集,紧缩在其最大值两侧。

如果我们做20次实验,出现正面12次,反面8次,那么

那么根据MAP估计出来的参数p为16/28 = 0.571,小于最大似然估计得到的值0.6,这也显示了“硬币一般是两面均匀的”这一先验对参数估计的影响。

假设为独立同分布的,μ有一个先验的概率分布为。那么我们想根据来找到μ的最大后验概率。根据前面的描述,写出MAP函数为:

  

  此时我们在两边取对数可知。所求上式的最大值可以等同于求

  

  的最小值。求导可得所求的μ为

  

  以上便是对于连续变量的MAP求解的过程。

MAPMLE最大区别是MAP中加入了模型参数本身的概率分布,或者说,MLE中认为模型参数本身的概率的是均匀的,即该概率为一个固定值。MAP允许我们把先验知识加入到估计模型中,这在样本很少的时候是很有用的,因为样本很少的时候我们的观测结果很可能出现偏差,此时先验知识会把估计的结果“拉”向先验,实际的预估结果将会在先验结果的两侧形成一个顶峰。通过调节先验分布的参数,比如beta分布的,我们还可以调节把估计的结果“拉”向先验的幅度,越大,这个顶峰越尖锐。这样的参数,我们叫做预估模型的“超参数”。

MAP与Bayesian区别:尽管最大后验估计与 Bayesian 统计共享前验分布的使用,通常并不认为它是一种 Bayesian 方法

举例:

1.考虑一个医疗诊断问题,有两种可能的假设:(1)病人有癌症。(2)病人无癌症。样本数据来自某化验测试,它也有两种可能的结果:阳性和阴性。假设我们已经有先验知识:在所有人口中只有0.008的人患病。此外,化验测试对有病的患者有98%的可能返回阳性结果,对无病患者有97%的可能返回阴性结果。假设现在有一个新病人,化验测试返回阳性,是否将病人断定为有癌症呢?

上面的数据可以用以下概率式子表示:

P(cancer)=0.008,P(无cancer)=0.992
P(阳性|cancer)=0.98,P(阴性|cancer)=0.02
P(阳性|无cancer)=0.03,P(阴性|无cancer)=0.97

我们可以来计算极大后验假设:

P(阳性|cancer)p(cancer)=0.98*0.008 = 0.0078
P(阳性|无cancer)*p(无cancer)=0.03*0.992 = 0.0298

因此,应该判断为无癌症。

确切的后验概率可将上面的结果归一化以使它们的和为1:

P(canner|+)=0.0078/(0.0078+0.0298)=0.21
P(cancer|-)=0.79

2.假设有五个袋子,各袋中都有无限量的饼干(樱桃口味或柠檬口味),已知五个袋子中两种口味的比例分别是

    樱桃 100%

    樱桃 75% + 柠檬 25%

    樱桃 50% + 柠檬 50%

    樱桃 25% + 柠檬 75%

    柠檬 100%

  如果只有如上所述条件,那问从同一个袋子中连续拿到2个柠檬饼干,那么这个袋子最有可能是上述五个的哪一个?

我们首先采用最大似然估计来解这个问题,写出似然函数。假设从袋子中能拿出柠檬饼干的概率为p(我们通过这个概率p来确定是从哪个袋子中拿出来的),则似然函数可以写作

  

  由于p的取值是一个离散值,即上面描述中的0,25%,50%,75%,1。我们只需要评估一下这五个值哪个值使得似然函数最大即可,得到为袋子5。这里便是最大似然估计的结果。

上述最大似然估计有一个问题,就是没有考虑到模型本身的概率分布,下面我们扩展这个饼干的问题。

假设拿到袋子1或5的机率都是0.1,拿到2或4的机率都是0.2,拿到3的机率是0.4,那同样上述问题的答案呢?这个时候就变MAP了。我们根据公式

  

写出我们的MAP函数。

  

根据题意的描述可知,p的取值分别为0,25%,50%,75%,1,g的取值分别为0.1,0.2,0.4,0.2,0.1.分别计算出MAP函数的结果为:0,0.0125,0.125,0.28125,0.1.由上可知,通过MAP估计可得结果是从第四个袋子中取得的最高。

菜鸟学概率统计——最大后验概率(MAP)相关推荐

  1. 为什么计算机专业要学概率统计,计算机类专业概率统计的教学

    计算机类专业概率统计的教学 来源:职称阁时间:2018-12-04 11:09热度: 这篇论文主要介绍的是计算机类专业概率统计的教学的相关内容,本文作者就是通过对计算机专业的统计学内容做出详细的阐述与 ...

  2. 为什么计算机专业要学概率统计,计算机类专业概率统计教学探讨与尝试

    第 32卷第 1期 VoL32 No.1 长春师范学院学报(自然科学版) Journal of Changchun Normal University(Natural Science) 2013年 2 ...

  3. 概率统计极简入门:通俗理解微积分/期望方差/正态分布前世今生(23修订版)

    原标题:数据挖掘中所需的概率论与数理统计知识(12年首次发布,23年重编公式且反复改进) 修订背景 本文初稿发布于12年年底,十年后的22年底/23年初ChatGPT大火,在写ChatGPT通俗笔记的 ...

  4. 深度学习中需要掌握的数学1之概率统计

    深度学习中需要掌握的概率统计 1.常见的概率分布 1.1伯努利分布(二值分布,0-1分布) 1.2二项分布(离散的) 1.3均匀分布 1.4`高斯分布`(连续) 2.独立事件的解释 3.多变量概率分布 ...

  5. 机器学习中的数学:概率统计

    内容亮点 详解 6 大核心板块:概率思想.随机变量.统计推断.随机过程.采样理论.概率模型,筑牢机器学习核心基础. 教你熟练使用 Python 工具库:依托 NumPy.SciPy.Matplotli ...

  6. 菜鸟学Linux 第034篇笔记 vmlinuz, initrd, modules, script

    菜鸟学Linux 第034篇笔记  vmlinuz, initrd, modules, script 内核两部分 核心 /boot/vmlinuz-version 内核模块 /lib/modules/ ...

  7. 概率与计算机论文,数学概率统计论文范文

    一.引言 如本校数学与应用数学专业和信息与计算科学专业,该课程实践教学主要是利用计算机对理论知识的模拟和实证.这样的实践教学对理论知识的理解有一定的帮助,但对于实际的运用却缺少训练.基于此,在实践教. ...

  8. 概率分布分位点_概率统计计量经济学_假设检验中的重要概念_分位点/p值

    在学完了几个重要分布之后,紧接着的内容就是这几个分布的使用,实际上这就是假设检验的过程 其中有一些概念: 分位点和分位数,p值,分布表,置信区间 因为是新概念, 我这种蒻蒻就是看得很不清楚,理解起来总 ...

  9. 概率统计16——均匀分布、先验与后验

    相关阅读: 最大似然估计(概率10) 重要公式(概率4) 概率统计13--二项分布与多项分布 贝叶斯决策理论(1)基础知识 | 数据来自于一个不完全清楚的过程-- 均匀分布 简单来说,均匀分布是指事件 ...

最新文章

  1. ECMAScript 引用类型
  2. python怎么导入视频-Python读取视频的两种方法(imageio和cv2)
  3. python Logging日志记录模块详解
  4. sklearn机器学习常用数据处理总结
  5. 机器视觉支架制作(带效果测试)
  6. 人脸识别的前世今生:从人工特征的百花齐放到深度学习的一统江湖
  7. 透析 | 卷积神经网络CNN究竟是怎样一步一步工作的?
  8. 推翻相对论的专家,就差安排明天几点日出了
  9. 剑指Offer之复杂链表的复制
  10. PHP设计模式之----观察者模式
  11. 优雅的使用Python之软件管理
  12. 捕捞季节 通达信副图指标公式 源码
  13. 英国云主机节点是欧美五大节点之一
  14. 百度文库文章提取器(下)
  15. Markdown转pdf分页
  16. 手机网络延迟测试软件,手机网速延迟测试在线(手机网络延迟测试工具)
  17. 量化中获取A股交易日信息
  18. Android 手机上利用adb shell模拟手机相关操作
  19. Go XP开发,以GoLand为例
  20. python在一个函数中调用另一函数中的变量

热门文章

  1. 老年祝福火爆短视频微信小程序源码下载支持流量主
  2. python开源项目学习目录
  3. Jmeter压力测试报告案例
  4. 关于Django框架和Flask框架的区别。
  5. 为什么程序员都特别想要一把机械键盘?
  6. js汉字转换首字母大写拼音
  7. Vs Code 终端激活 anconda 环境问题解决措施
  8. Odoo MRP模块
  9. THE WAVELET THEORY: A MATHEMATICAL APPROACH
  10. Android系统-应用权限白名单