极大似然估计(Maximum Likelihood Estimator) 和最大后验估计(Maximum a posteriori Estimator)是机器学习概率模型中常用到的两种参数估计方法。两者分别来自频率学派贝叶斯学派

两者差别在哪?

  • MLE在规模大数据集上表现好,但在规模小的数据集上容易过拟合。
  • MAP在规模小的数据集上表现好,但依赖于先验分布的选取。
  • MLE在批量学习上可以应用,在线学习不可;MAP均可。

关于频率学派和贝叶斯学派的观点下面两篇回答讲的挺不错的:

  1. 贝叶斯学派与频率学派有何不同? - 任坤的回答 - 知乎 https://www.zhihu.com/question/20587681/answer/17435552
  2. 极大似然估计与最大后验概率估计 - 张小磊的文章 - 知乎 https://zhuanlan.zhihu.com/p/40024110

1.背景介绍

1.1 频率学派参数估计

频率学派认为“不确定性”来自于事件本身,他们直接对事件进行建模,即事件A在大量独立重复实验中发生的频率趋于事件A发生的概率,正是基于此,该种估计方法在大规模数据下有很好的效果。

频率学派并不关心参数空间的具体构造,他们认为数据都是在参数空间中某个“具体”的值下产生的,尽管我们并不知道这个值是什么。因此频率学家的目的是--在参数空间中圈出那个最有可能的参数,也就有了极大似然估计(MLE)

1.2 贝叶斯学派参数估计

贝叶斯学派认为“不确定性”来源于观测者的知识状态不确定,假设观测者已经对事件有自己的先验知识(prior knowledge),通过实验观测到的‘证据’来推测符合逻辑的结果,即为后验知识(posterior knowledge)。

贝叶斯学派希望能摸清参数空间的分布,将参数看作随机变量,利用给出参数先验分布和似然函数来建模后验分布,进而进行参数估计,也就有了最大后验概率估计(MAP)。

2. 详解MLE和MAP

问题1: 抛图钉

抛了10次图钉,其中6次针尖朝上,4次针尖朝下。问下一次针尖朝上的概率。

问题2: 抛硬币

抛10次硬币,其中9次正面,1次反面。问下一次正面的概率。

2.1 Maximum Likelihood Estimation

我们来看问题1,假设针尖朝上的概率为

,抛一次图钉的结果为随机变量记为
,针尖朝上
,针尖朝下
,那么
服从参数为
的伯努利分布:

极大似然估计的思想: 在给定的参数

里选择一个与所给的观测数据

最契合的参数

例如对于抛图钉问题,如果我们选择

(理论上是可以的)会发现那就不会出现针尖朝上的情况,但是这与我们的观测不相符;如果我们选择
,即抛10次图钉会出现6次针尖朝上的情况,这与观测是符合的。因此MLE就是想找到一个参数,使得我们观测到的情况最有可能成立。

(1)似然函数的给出:上面说的参数

和观测数据

的契合度,我们使用条件概率来表示,其中

是一个变量。

(假设观测数据独立同分布)

(2)接下来便是计算使得似然函数最大的

:

那么我们接下来可以在抛图钉问题上采用极大似然估计计算一下针尖朝上的概率。

step1: 给出似然函数

step2: 计算

最大时
的取值

大家会发现我们计算出来的这个概率值刚好为频率。当然可以把问题一般化,N次抛图钉,针尖朝上

次,针尖朝下
次。利用MLE估计下一次针尖朝上的概率为
,证明过程和上面一样。

2.2 Maximum A Posteriori Estimator

问题1: 抛图钉

抛了10次图钉,其中6次针尖朝上,4次针尖朝下。问下一次针尖朝上的概率。

问题2: 抛硬币

抛10次硬币,其中9次正面,1次反面。问下一次正面的概率。

「现在我们来综合看一下问题1和问题2,两者都是一个二分类的问题,如果采用MLE对抛硬币的问题进行参数估计,最后的结果为

,显然这是不正确的。因为在现实生活中,当硬币均匀的时候,我们知道正反面出现的概率各为
。这个时候采用MLE便会出现较大偏差。当然究其原因便是观测数据量太少的缘故。」
  • 极大似然估计是无法区分上述两个问题的,因为它视待估参数是一个

贝叶斯估计思想:给出参数

的先验分布
来减小样本量过小对结果产生的影响,再利用似然函数得到给定观测数据
下参数
的后验分布

(1)似然函数同问题1给出:

(2)假设参数

的先验分布为Beta分布:

关于

的先验知识相当于已经抛了
次硬币,其中
次正面,
次反面。

(3)计算后验分布

后验分布仍为Beta分布。

(4)估计参数

贝叶斯估计参数常用的有两种,一种为完全贝叶斯估计,一种为最大后验概率估计。后者更为常用。

分析:

当样本量较少的时候, 先验知识

在起作用,帮助我们减少样本量少带来的偏差。当样本量增大时,
的作用减小,数据占指导作用。

「」

最大后验估计_极大似然估计 V.S. 贝叶斯估计相关推荐

  1. 极大似然估计_极大似然估计、极大后验估计和贝叶斯估计

    本文题目中的三个概念,都属于概率统计领域,但机器学习相关的工作者们,也应该很好地理解并掌握. 有些同学也许会反问,我不了解,也没用过这些东西,工作也做的很好啊? 那好,再来看看下面几个问题. a. 机 ...

  2. 浅议极大似然估计(MLE)背后的思想原理

    1. 概率思想与归纳思想 0x1:归纳推理思想 所谓归纳推理思想,即是由某类事物的部分对象具有某些特征,推出该类事物的全部对象都具有这些特征的推理.抽象地来说,由个别事实概括出一般结论的推理称为归纳推 ...

  3. 机器学习: 简单讲极大似然估计和贝叶斯估计、最大后验估计

    一.前言 我在概率论:参数估计里面提到了极大似然估计,不熟悉的可以看一下,本文重点介绍后两者估计方法. 在这里两种估计方法估计的是什么?我们使用一个较为泛化的问题表示: 考虑这样一个问题:总体X的概率 ...

  4. 极大似然估计_一文读懂矩估计,极大似然估计和贝叶斯估计

    概率论和数理统计是机器学习重要的数学基础. 概率论的核心是已知分布求概率,数理统计则是已知样本估整体. 概率论和数理统计是互逆的过程.概率论可以看成是由因推果,数理统计则是由果溯因. 数理统计最常见的 ...

  5. 一文看懂 “极大似然估计” 与 “最大后验估计” —— 极大似然估计篇

    参考: 唐宇迪<人工智能数学基础>第8章 Richard O. Duda <模式分类>第三章 白板机器学习 P2 - 频率派 vs 贝叶斯派 频率学派还是贝叶斯学派?聊一聊机器 ...

  6. 伽马分布极大似然估计_一文通俗解释极大似然估计

    我们都知道机器学习的大致流程是通过建立一个合理的模型学习现有数据集,然后通过该模型去完成特定的任务.其中每个模型都包含自身的一组特定参数,而这组参数决定着模型的本身.但这里存在一个很关键的一个问题,就 ...

  7. 参数估计——极大似然估计与贝叶斯估计

    极大似然估计与贝叶斯估计的理解 1 参数估计 2 极大似然估计(MLE) 3 贝叶斯估计 4 极大验后估计(MAP) 参考 1 参数估计 参数估计(Parameter Estimation)是根据从总 ...

  8. 极大似然估计和贝叶斯估计

    极大似然估计和贝叶斯估计 在掷硬币实验中估计出现正面向上的概率为θ\thetaθ,通过一系列的实验就可以得到n个观测结果,把每个观测结果都用一个随机变量xix_ixi​进行表示,如果抛掷的硬币正面向上 ...

  9. 一文读懂矩估计、极大似然估计和贝叶斯估计

    概率论和数理统计是机器学习重要的数学基础. 概率论的核心是已知分布求概率,数理统计则是已知样本估整体. 概率论和数理统计是互逆的过程.概率论可以看成是由因推果,数理统计则是由果溯因. 数理统计最常见的 ...

  10. 机器学习强基计划4-2:通俗理解极大似然估计和极大后验估计+实例分析

    目录 0 写在前面 1 从一个例子出发 2 极大似然估计 3 极大后验估计 4 Python实现 0 写在前面 机器学习强基计划聚焦深度和广度,加深对机器学习模型的理解与应用."深" ...

最新文章

  1. win10怎么设置开机启动项目_苹果mac开机启动项怎么设置
  2. Java基础篇:数组
  3. XmlHttpRequest 对象详解
  4. LInux 下安装 python notebook 及指向路径,运行计时,炫酷的深蓝午夜主题,本地登陆远程服务器
  5. Windows下创建软硬链接
  6. php issign为false,支付宝接口集成及错误排除
  7. 大数据和人工智能,金融产业的创新发展通道
  8. servlet的doPost 和doGet和web文件结构
  9. 多线程的概念原理过程
  10. SCI-HUB 印度被诉、twitter账号被封,是梁上君子还是罗宾汉?
  11. Google Code 中使用svn工具说明
  12. linux mbr转gpt分区,linux将GPT分区转换为MBR、RHEL GPT报错
  13. 运营MM又来求我发软文了......
  14. 芝士满满:TikTok快速吸粉视频技巧
  15. Problem B: 薪酬计算
  16. 【怎么卸载影子系统?卸载影子系统解决方法】
  17. 期末测验: 课程水平综合测验 (第10周)
  18. PDFpenPro 10 for Mac(pdf编辑软件) v10.2.1破解版
  19. 服务器502错误的原因分析
  20. mysql 大地坐标系_国家2000大地坐标系CGCS2000(EPSG4490和EPSG4479)参数

热门文章

  1. BZOJ——T 1612: [Usaco2008 Jan]Cow Contest奶牛的比赛
  2. SPOJ VLATTICE Visible Lattice Points 莫比乌斯反演
  3. 【树】Unique Binary Search Trees II
  4. Javascript面向对象编程与继承机制的设计思想(转)
  5. VM上安装Redhat无法选包
  6. 第三天 二列和三列布局
  7. ArrayList、LinkedList原理
  8. SpringBoot自动装配原理与自己写一个starter
  9. 展望Spring野心-Spring资源定位
  10. 解决:本地计算机上的MySQL80服务启动后停止,某些服务在未由其他服务或者程序使用时将自动停止