我们假设硬币有两面,一面是“花”,一面是“字”。
一般来说,我们都觉得硬币是公平的,也就是“花”和“字”出现的概率是差不多的。
如果我扔了100次硬币,100次出现的都是“花”。
在这样的事实下,我觉得似乎硬币的参数不正常。极有可能两面都是“花”!
这种通过事实,反过来猜测硬币的情况,就是似然。

通过事实,推断出最有可能的硬币情况,就是最大似然估计。

1 概率vs似然

让我们先来比较下概率和似然。
为了避免和我们想讨论的概率混淆,我们把硬币的“花”出现的概率称为硬币的参数。

1.1 概率
已知硬币的参数,就可以去推测抛硬币的各种情况的可能性,这称为概率。
比如已知硬币是个正常的硬币,也就是硬币的参数为0.5。
那么我们就可以推测,扔10次硬币,出现5次“花”朝上的概率为(抛硬币遵循二项分布,这个就不多解释了):

1.2 似然
正如开头所说,我们对硬币的参数并不清楚,要通过抛硬币的情况去推测硬币的参数,这称为似然。
可以再举不那么恰当(主要模型不好建立)的例子,蹭下热点。

比如我们发现,鹿晗和关晓彤戴同款手链,穿同款卫衣,我们应该可以推测这两人关系的“参数”是“亲密”。
进一步发现,两人在同一个地方跨年,似乎,关系的“参数”是“不简单”。
最后,关晓彤号称要把初吻留给男友,但是最近在荧幕中献出初吻,对象就是鹿晗:我觉得最大的可能性,关系的“参数”是“在一起”。

通过证据,对两人的关系的“参数”进行推断,叫做似然,得到最可能的参数,叫做最大似然估计。

2 最大似然估计

来看看怎么进行最大似然估计。

2.1 具体的例子
我们实验的结果是,10次抛硬币,有6次是“花”。
所谓最大似然估计,就是假设硬币的参数,然后计算实验结果的概率是多少,概率越大的,那么这个假设的参数就越可能是真的。
我们先看看硬币是否是公平的,就用0.5作为硬币的参数,实验结果的概率为:

单独的一次计算没有什么意义,让我们继续往后面看。
再试试用0.6作为硬币的参数,实验结果的概率为:

之前说了,单次计算没有什么意义,但是两次计算就有意义了,因为可以进行比较了。
可以看到:

我们可以认为,0.6作为参数的可能性,是0.5作为参数的可能性的1.2倍。

2.2 作图
我们设硬币的参数为为 θθθ ,可以得到似然函数为:

这个函数用图形表示就是这样(横轴是 θθθ , 纵轴是 似然函数 L)

我们可以从图中看出两点:
• 参数为0.6时,概率最大
• 参数为0.5 或其他值也是有可能的,但可能性都小一点
所以更准确的说,似然(现在可以说似然函数了)是参数 θθθ 的概率分布。

而求最大似然估计的问题,就变成了求似然函数的极值。在这里,极值出现在 θθθ 为 0.6 时。

2.3 更多的实验结果
如果实验结果是,投掷100次,出现了60次“花”呢?
似然函数为:

用 0.5 作为硬币的参数,实验结果的概率为:

再试试用0.6作为硬币的参数,实验结果的概率为:

此时,0.6作为参数的可能性是0.5作为参数的可能性的8倍,新的实验结果更加支持0.6这个参数

用图形表示这个似然函数:

很明显图像缩窄了,可以这么解读,可选的参数的分布更集中了。也就是越多的实验结果(抛100次 vs. 抛 10次),让参数越来越明确。

2.4 更复杂一些的最大似然估计

2.4.1 数学名词
下面提升一点难度,开始采用更多的数学名词了。
先说一下数学名词:
• 一次实验:抛硬币10次,出现6次“花”,就是一次实验。
• 二项分布:抛硬币10次,出现6次“花”的概率为0.25,出现5次“花”的概率为0.21,所有的可能的结果(比如抛硬币10次,出现11次“花”,这就是不可能)的概率,放在一起就是二项分布

2.4.2 多次实验
之前的例子只做了一次实验。只做一次实验,没有必要算这么复杂,比如投掷100次,出现了60次“花”,我直接这样求最大似然估计:

不就好了?

最大似然估计真正的用途是针对多次实验。

2.4.3 上帝视角

为了说清楚这个问题,我引入一个上帝视角。
比如,我有如下的二项分布,θθθ 为出现“花”的概率(硬币最多抛10次):

在实际生活中,θθθ 往往是不知道的,这里你可以看得到,就好像你是上帝一样。

要提醒大家注意的一点,上面的图像只有上帝才能看到的,包括:
• 二次分布的柱状图
• 二次分布的曲线图
• θθθ 值为多少
我把只有上帝能看到的用虚线表示,θθθ 用淡一点的颜色表示:

2.4.4 通过多次实验进行最大似然估计

上面的二项分布用通俗点的话来说,就是描述了抛10次硬币的结果的概率,其中,“花”出现的概率为 θθθ 。
针对上面的二项分布,我进行6次实验(也就是总共6次,每次抛10次硬币),把实验结果用点的形式标记在图像上(从技术上讲,这6个点是根据二项分布随机得到的):

这个实验结果,也就是图上的点,是我们“愚蠢的人类”可以看见的了。

可以看到,虽然进行了6次实验,但是却没有6个点,这是因为有的实验结果是一样的,就重合了。
为了方便观察,我把6个点的值用文字表示出来:
上图中的 {4,5,5,2,7,4} 就是6次实验的结果,分别表示:
• 第一次实验,4次出现“花”
• 第二次实验,5次出现“花”
• 第三次实验,5次出现“花”
• 以此类推
我们用 x1​,x2​,x3​,…xn​x1​,x2​,x3​,…xn​x1​,x2​,x3​,…xn​ 表示每次实验结果,因为每次实验都是独立的,所以,多次实验的似然函数可以写作(得到这个似然函数很简单,独立事件的联合概率,直接相乘就可以得到):

f(xn​∣θ)f(xn​∣θ)f(xn​∣θ) 表示在同一个参数下的实验结果,也可以认为是条件概率。
上面除了实验结果外,其他都是上帝看到的,而下面是通过实验结果,利用似然函数对 θθθ 值进行推断:
下面这幅图,分为两部分,上面这个图是6次试验的上帝视角,下图是估算出的 θθθ 值(具体的估算方法参见二项分布的最大似然估计相关的算法和计算步骤)。

可以看出,推断出来的 θθθ 值和上帝看到的差不多。之所以有差别是因为实验本身具有二项随机性,相信试验次数越多,推测会越准确。
自己动手试试当上帝的感觉吧,上面的 滑动条可以拖动哦:
此处有互动内容,点击此处前往操作。

最大似然估计也是机器学习的一个重要算法,大家是否通过上面的操作,是否感受到了机器是如何学习的?

3 最大似然估计与贝叶斯定理的异同

3.1 相同之处
扔了100次硬币,100次出现的都是“花”,不论是最大似然估计,或者是贝叶斯定理,都认为有必要对之前假设的硬币的参数进行调整。
我在 怎样用非数学语言讲解贝叶斯定理(Bayes’ theorem)? 的最后也提出了这个问题。

3.2 不同之处
贝叶斯定理还要考虑,两面都是“花”的硬币本身存在的概率有多高。
如果我的硬币不是精心准备的,而是随机挑选的,那么一枚硬币两面都是“花”可能性微乎其微,几乎就是一个传说。
那么贝叶斯会认为哪怕扔了100次硬币,100次出现的都是“花”,但是因为两面都是“花”的硬币实在太少,那么实际这枚硬币是两面“花”的可能性仍然不高。

4 如何求解极大似然估计

https://blog.csdn.net/zengxiantao1994/article/details/72787849

5 极大似然估计的python实现

https://blog.csdn.net/pengjian444/article/details/71215965

6 参考

本文转载自 https://www.matongxue.com/madocs/447.html

如何通俗地理解概率论中的「极大似然估计法」?相关推荐

  1. 移动端 范围筛选html,移动端多项筛选中的「不限选项」,到底该怎么用?

    释放双眼,带上耳机,听听看~! 移动端多项筛选中的不限选项到底该怎么用? 移动端筛选再常见不过了-- 我们在租房时,对于户型.朝向都要要求时会用到多项筛选:我们在找工作时,对薪资和工作经验也会做多项筛 ...

  2. 【白话理解神经网络中的“损失函数”——最小二乘法和极大似然估计法】

    目录 写在前面的话 理解损失函数 最小二乘法 最大似然估计法(统计方法) 写在前面的话 "损失函数"是如何设计出来的?直观理解"最小二乘法"和"极大似 ...

  3. “损失函数”是如何设计出来的?直观理解“最小二乘法”和“极大似然估计法”

    [本文内容是自对视频:"损失函数"是如何设计出来的?的整理.补充和修正] 在大多数课程,尤其是帮助大家快速掌握深度学习的课程,损失函数似乎并不是一个需要额外关心的问题.因为它往往都 ...

  4. 极大似然估计法的理解和用途

      在机器学习的算法中,经常看到极大似然估计的身影,不接触数学一段时间的我,对它又熟悉又陌生,还是决定系统的写一下极大似然估计的思想.   极大似然估计法是求点估计的常用方法之一.极大似然估计法是建立 ...

  5. 解惑(二)----- 如何通俗地理解Python中的if __name__ == ‘__main__‘

    1. 摘要 通俗的理解__name__ == '__main__':假如你叫小明.py,在朋友眼中,你是小明(__name__ == '小明'):在你自己眼中,你是你自己(__name__ == '_ ...

  6. 大模型中的「罗翔老师」!北大兔展联合团队搞出ChatLaw,发布即登顶热榜,可提供法律咨询...

    明敏 发自 凹非寺 量子位 | 公众号 QbitAI 大模型中的"罗翔老师",出现了! 北大团队打造的法律大模型ChatLaw,发布即冲上知乎热搜第一. 它具备大模型能力和充足法律 ...

  7. 机器学习基础:理解梯度下降本质「附Python代码」

    https://www.toutiao.com/a6646958932096975373/ 2019-01-16 13:15:26 今天我们尝试用最简单的方式来理解梯度下降,在之后我们会尝试理解更复杂 ...

  8. “Art-Side艺次元空间+”将携日中之间「龙天无界」联手“蒲公英高级文旅”与“馋艺术空间”赋能古镇

    ArtFin艺术饭报道:本拟落地于川沙新镇的"龙天无界"国际艺术和平活动将先落地于浦东新场古镇! 台北"美私奢玩"跨界斜杠派展结束返回后,联手版权猫ipMALL ...

  9. 统计学中的「标准差和方差」

    标准差(Standard deviation) 简单来说,标准差是一组数值自平均值分散程度的一种测量观念.一个较大的标准差,代表大部分的数值和其平均值之间差异较大,一个较小的标准差,代表这些数值较接近 ...

最新文章

  1. 聊聊高并发系统之队列术
  2. LinkedHashMap 源码详细分析(JDK1.8)
  3. 理解和使用systrace
  4. 自己实现strstr函数与strchr函数
  5. 牛客 -- leetcode -- max-points-on-a-line
  6. 前端学习(2139):webpack的安装
  7. Codeforces Codeforces Round #383 (Div. 2) E (DFS染色)
  8. curl命令php,php生成curl命令行的方法
  9. es的doc_value对排序字段的作用
  10. Reg命令查询注册表
  11. torch.optim的一些方法
  12. python编写背单词程序
  13. Activity毛玻璃背景效果
  14. TCP BBR Startup gain计算总结和Startup失速问题
  15. HTB打靶(Active Directory 101 Mantis)
  16. MySQL 1414错误
  17. 使用 spacedesk 与 parsec 让安卓平板 或者电脑 作为电脑的拓展屏 的简单介绍
  18. 快速删除oracle中重复数据,效率高于直接删除数倍.
  19. 美国康奈尔大学计算机科学,美国康奈尔大学计算机科学硕士申请
  20. 汤因比与《历史研究》

热门文章

  1. JsonView--离线查看JSON格式化工具
  2. Linux之搜索路径PATH
  3. atoi函数的介绍和模拟实现
  4. STM32F767 (基础)CubeMX参数设置之RCC
  5. stm32h743 FM25CL64铁电存储器踩坑记录
  6. 机械手引导视觉系统定位抓取
  7. ACM-ICPC 2019 南昌 邀请赛(网络赛)
  8. [转载] 信息系统项目管理师视频教程——25 战略管理
  9. 计算机局域网组建课件,为什么《计算机局域网组建与维护案例教程沈大林课件》找不到?...
  10. openlayers3教程详细_OpenLayers 3 入门教程