1、先验概率

假定 B 1 , B 2 , … , B n B_1,B_2,\ldots ,B_n B1​,B2​,…,Bn​是某个过程所有可能的前提条件,也就是 B 1 , B 2 , … , B n B_1,B_2,\ldots ,B_n B1​,B2​,…,Bn​为试验 E E E样本空间 Ω \Omega Ω的一个划分,或称为试验 E E E的一个完备事件组。
        由以上的假设,则 P ( B i ) ( i = 1 , 2 , … , n ) P(B_i)(i=1,2,\ldots ,n) P(Bi​)(i=1,2,…,n)是人们事先对各个前提条件出现的可能性大小的估计,称为先验概率。可以视为因果关系中的 P ( 因 ) P(因) P(因),用公式表示为 P ( θ ) P(\theta) P(θ)。
        通俗来讲,先验概率就是通过历史经验来确定事件 B i B_i Bi​发生的原因。小学课本里面学习过的看云识天气,就一种先验概率。通过观察天空中云朵和云层的状态,来推测今天是阴天、晴天还是雨天(即事件 B i B_i Bi​)。“朝霞不出门,晚霞行千里”,讲的就是先验概率

2、后验概率

如果通过先验概率得到了一个结果 A A A,那么贝叶斯公式就为我们提供了根据A的出现评价各个前提条件作用的方法。 P ( B i ∣ A ) ( i = 1 , 2 , … , n ) P(B_i | A)(i=1,2,\ldots ,n) P(Bi​∣A)(i=1,2,…,n)即是 B i B_i Bi​对 A A A的出现发挥作用的可能性,称为后验概率。同理,可以视为 P ( 因 ∣ 果 ) P(因|果) P(因∣果),用公式表示为 P ( θ ∣ X ) P(\theta|X) P(θ∣X)。这里第一次出现 X X X和 θ \theta θ两个变量,是相互独立的。
        比方说,出门散步和不出门散步是事件 A A A的两种状态。那么,现在已经知道我出门状态的结果,倒过来推测天气情况,就是后验概率。假如我今天不出门,极大可能是下雨,也有可能是阴天(看似很快就要下雨了);但如果我出门,极大可能是晴天,但也有可能是因为要紧的事要出门处理,不得不冒雨出去。通过结果来推测原因,这就是后验概率。这个例子很像决策树中的经典例子~

3、似然估计

Likelihood的中文是似然。已知原因来估计结果的概率分布就是似然估计。可以视为 P ( 果 ∣ 因 ) P(果|因) P(果∣因),用公式表示为 P ( X ∣ θ ) P(X|\theta) P(X∣θ)。
        即已知天气的情况,决定是否出门散步的概率。

4、总结

首先我们需要知道条件概率公式:
        假设 A A A, B B B是两个事件,且 P ( A ) > 0 P(A)>0 P(A)>0,称 P ( B ∣ A ) = P ( A B ) P ( A ) P(B|A)=\frac{P(AB)}{P(A)} P(B∣A)=P(A)P(AB)​ 为在事件A发生条件下事件B发生的条件概率
        接着我们分析 贝叶斯公式: P ( B i ∣ A ) = P ( B i ) × P ( A ∣ B i ) P ( A ) P (B_i | A) = \frac{P (B_i) \times P (A | B_i)}{P (A)} P(Bi​∣A)=P(A)P(Bi​)×P(A∣Bi​)​,规范化即 后 验 概 率 = P ( θ ∣ X ) = P ( θ ) × P ( X ∣ θ ) P ( X ) = 先 验 概 率 × 似 然 估 计 P ( X ) 后验概率=P (\theta | X) = \frac{P (\theta) \times P ( X| \theta)}{P (X)}=\frac{先验概率 \times 似然估计}{P (X)} 后验概率=P(θ∣X)=P(X)P(θ)×P(X∣θ)​=P(X)先验概率×似然估计​。
        其中, P ( X ) P (X) P(X)表示全概率公式为: P ( X ) = ∑ j = 1 n P ( θ j ) × P ( X ∣ θ j ) P (X) = \sum_{j=1}^{n} P ( \theta_j) \times P (X | \theta_j) P(X)=∑j=1n​P(θj​)×P(X∣θj​)。还是这个看云识天气的情景, P ( X ) P (X) P(X)表示结果的概率分布,即365天里面每天出门或者宅在家里面的概率分布,即二项分布(X这个事件有两种可能状态)。当然可以是多项分布以及其它别的分布。
        以上的理论引申出两大学派,大致为:频率派贝叶斯派频率派代表的理论是 M L E MLE MLE(最大似然估计),而贝叶斯派的代表理论则是 M A P MAP MAP(最大后验估计)。
        频率派认为,用样本估计事件发生的概率分布是真实可信的。也就是,365天中每一天都有一种天气状况,往深的考虑,一天甚至有多种天气状况。这个问题就变为了,求在当前的天气状态下,我是出门还是不出门宅在家里的概率。所以以一年的数据为样本,样本总量 n ≥ 365 n\geq365 n≥365。最终可能得到的统计结果是晴天出门概率为0.8,阴天出门的概率为0.5,雨天出门的概率为0.2,雷暴大风天气出门概率为0.05等等。
        上面这个问题可能有点复杂,我们以丢硬币为例子,是典型的二项分布。
        分布律为 P { X = K } = C n k × θ k × ( 1 − θ ) n − k P\{X=K\} =C^k_ {n}\times \theta^k \times (1-\theta)^{n-k} P{X=K}=Cnk​×θk×(1−θ)n−k
        频率派认为在 K K K表示正面朝上时,求出使得 P { X = K } P\{X=K\} P{X=K}最大的 θ \theta θ的值(求导后求极值即可),其中n实验的总次数和k正面朝上的次数由统计得出。显然极端情况100次硬币都是正面朝上的概率没有频率派没有考虑到。在缺乏样本数据的情况下,很容易得到错误的答案。
        而贝叶斯派认为参数都是随机变量,都有分布。利用贝叶斯定理, P ( θ i ∣ X ) = P ( θ i ) × P ( X ∣ θ i ) P ( X ) P (\theta_i | X) = \frac{P (\theta_i) \times P ( X| \theta_i)}{P (X)} P(θi​∣X)=P(X)P(θi​)×P(X∣θi​)​。我们关心左式子最大值时候的 θ \theta θ, θ \theta θ是有分布的。其中, θ i \theta_i θi​分别代表晴天、阴天等天气情况或者是硬币正和反两种情况。
        把这n次试验作为一组样本,那么在总样本里面 P ( X ) P(X) P(X)与 θ \theta θ无关,由统计得出。最大后验估计即为已知一组实验结果的情况下求 θ \theta θ的最大值。换句话说, M A P MAP MAP即是假设参数 θ \theta θ的概率分布,然后通过样本数据去进行修正。所以式子就变为 a r g m a x θ = a r g m a x P ( X i ∣ θ ) × P ( θ ) argmax \theta=argmaxP (X_i | \theta) \times P (\theta) argmaxθ=argmaxP(Xi​∣θ)×P(θ),等式左右两边成正比。在样本比较小的情况下,我们计算出来的 θ \theta θ的值比 M L E MLE MLE计算出来的更加好。比方说丢硬币正面朝上的概率会在50%附近波动,不会出现极端值。
        但是,最大后验估计并不是完全的贝叶斯派,只不过用到了贝叶斯理论。完全的贝叶斯派应该将 P ( X ) P(X) P(X)也计算出来,称为贝叶斯预测或者完整的后验概率计算。

5、参考

以上是我个人的观点和总结。参考了b站机器学习我到底在学什么、一个例子搞清楚(先验分布/后验分布/似然估计)以及频率派vs贝叶斯派
        如果存在不足之处,欢迎指正,相互学习。觉得不错请点个赞吧,创作不易,谢谢!少年加油,但行好事,莫问前程~

机器学习基础——先验概率、后验概率和似然估计的讲解;频率派和贝叶斯派之分;以及MLE和MAP方法的解析相关推荐

  1. 『机器学习白板』频率派vs贝叶斯派

    频率派vs贝叶斯派! 文章目录 一. 数据描述 二. 频率派观点 三. 贝叶斯派观点 四. 总结 五. 参考文章 一. 数据描述 对概率的诠释有两大学派,一种是频率派另一种是贝叶斯派.后面我们对观测集 ...

  2. 机器学习领域中各学派划分——符号主义、频率主义、贝叶斯主义、连接主义核心思想和理论

    机器学习领域中各学派划分--符号主义.频率主义.贝叶斯主义.连接主义 文章目录 机器学习领域中各学派划分--符号主义.频率主义.贝叶斯主义.连接主义 符号主义 频率主义 贝叶斯主义 连接主义 符号主义 ...

  3. 似然函数,最大似然估计,以及与条件概率,贝叶斯概率区别简要说明

    目录 1. 似然(likehood)与最大似然估计 2. 条件概率(conditional probability),全概率(total probability),和贝叶斯概率(Bayes proba ...

  4. 先验概率、后验概率、似然估计三者的区别与联系

    在机器学习日渐风靡于全世界的今天,概率论与数理统计作为机器学习的关键理论越来越体现出它的重要地位.本文模仿<机器学习>中周志华老师的举例,以西瓜的品质好坏为例,对三个概念:先验概率.后验概 ...

  5. 机器学习 · 总览篇 III 统计推断: 频率学派和贝叶斯学派

    统计推断作为重要的机器学习基础,对它的了解十分必要,否则我们做机器学习只是在黑盒操作,对其原理和结果难以解释 本文首发于我的知乎专栏<机器怎么学习>中 机器学习·总览篇(3) 统计推断: ...

  6. 机器学习(五)常用分类模型(K最近邻、朴素贝叶斯、决策树)和分类评价指标

    机器学习(五)常用分类模型(K最近邻.朴素贝叶斯.决策树)和分类评价指标 文章目录 机器学习(五)常用分类模型(K最近邻.朴素贝叶斯.决策树)和分类评价指标 综述 常用分类模型 K最近邻模型 朴素贝叶 ...

  7. 频率学派还是贝叶斯学派?聊一聊机器学习中的MLE和MAP

    作者:夏飞 Google | 软件工程师 量子位 已获授权编辑发布 转载请联系原作者 本文作者夏飞,清华大学计算机软件学士,卡内基梅隆大学人工智能硕士,现为谷歌软件工程师. 在这篇文章中,他探讨了机器 ...

  8. 机器学习领域中各学派划分(符号主义、频率主义、贝叶斯主义、连接主义)

    前言 如果你对这篇文章感兴趣,可以点击「[访客必读 - 指引页]一文囊括主页内所有高质量博客」,查看完整博客分类与对应链接. 在机器学习领域中,算法数量可谓是数不胜数,若只关注每个算法本身,将各个算法 ...

  9. 【阿旭机器学习实战】【11】文本分类实战:利用朴素贝叶斯模型进行邮件分类

    [阿旭机器学习实战]系列文章主要介绍机器学习的各种算法模型及其实战案例,欢迎点赞,关注共同学习交流. 本文主要介绍如何使用朴素贝叶斯模型进行邮件分类,置于朴素贝叶斯模型的原理及分类,可以参考我的上一篇 ...

最新文章

  1. 说说我为什么看好Spring Cloud Alibaba
  2. 北大 AI 公开课 2019 | 颜水成:人工智能行业观察与实践
  3. JAVA-抽象类/类继承
  4. vc 将已有项目打包成dll 并应用于其他项目_.NET混淆器 Dotfuscator使用教程:保护你的应用之存档报告文件...
  5. thinkphp利用模型通用数据编辑添加和删除实例
  6. android richtext显示html,【报Bug】关于rich-text显示html 的问题
  7. style 字体加粗_第9篇 Qt Quick入门教程之基础(九)文本显示和字体
  8. java 求两线交点_JAVA求两直线交点和三角形内外心的编程代码
  9. 找出最具竞争力的子序列_每日算法系列【LeetCode 376】摆动序列
  10. 在编程的路上遇见另一个自己
  11. 力扣-605 种花问题
  12. balabala视频格式转换器
  13. 单个文件如何修改MD5
  14. matlab句柄无效怎么解决,新编MATLABSimulink自学一本通第21章 MATLAB程序编译.ppt
  15. win10下卸载office2010(测试多种方法后,成功实现)
  16. Vue集成百度的Ueditor的前后端实现
  17. 三星i865刷android,三星亮剑,120Hz+1.08亿+高通骁龙865,这才是安卓机皇
  18. uni-app 快手小程序如何设置跟元素样式
  19. 什么是RPC?RPC好处?常用的RPC框架?
  20. c语言:(指针)输入一行文字,找出其中的大写字母,小写字母,数字,空格以及其他字符

热门文章

  1. Error in nextTick TypeError Cannot read property 'children' of undefined 解决
  2. 1 error and 0 warnings potentially fixable with the `--fix` option.
  3. React Native 热更新方案
  4. selenium.common.exceptions.SessionNotCreatedException浏览器版本不匹配报错
  5. 23种设计模式详解(代码讲解、持续更新)
  6. 微信公众号自定义菜单失效,无法设置的解决方法
  7. JSON-Study
  8. 经济危机会影响软件质量吗?
  9. 获取打印机分辨率_为孩子准备的第一台口袋打印机,喵喵机P2S评测
  10. 6款MacOS系统性能监控优化工具介绍