前言

对于一个数学模型来说,最主要的莫过于根据观察到的数据进行模型的参数估计了,而概率学派和贝叶斯学派对于这个参数估计有着不同的做法,接下来我们讨论下。如有谬误,请联系指正。转载请注明出处。

∇ \nabla ∇ 联系方式:

e-mail: FesianXu@gmail.com

QQ: 973926198

github: https://github.com/FesianXu

知乎专栏: 计算机视觉/计算机图形理论与应用

微信公众号


概率派和贝叶斯派的区别

对于一个问题,从概率派和贝叶斯派看起来是完全不一样的,其最主要的区别就是对于一个问题中模型参数的“信仰”:

  • 对于频率派学者来说,一个模型中的参数是“固定”的,而数据是在分布中随机采样的。我们要重点理解这个固定,这里指的固定意思是

对于一个模型或者也可说一个分布中的参数,我们相信它是固定不变的,而我们观察(采样)到的数据是这个分布中的一个独立同分布样本。也就是说,我们相信这个分布的参数不管你怎么采样,根据参数对其的估计都应该是不会变的,They remain constant!如果根据数据估计出来的参数和真实模型不符合,只可能是引入了噪声而已。在这个观点中,模型参数才是上帝,数据为之服务。

  • 对于贝叶斯派学者来说,我们观察到的数据才是“固定”的,而我们的模型的参数才是在一直变化的。我们不停地观察数据,估计出来的模型参数就可能一直的变化。不仅如此,我们对于这个模型的参数可能会有一个最初始的信仰,称之为先验假设,一旦设置后了之后,我们就可以听由观察到的数据指导模型参数更新了。在这种观点中,我们的模型参数不再是一个参数,而是一个分布了。一般来说,对于贝叶斯派,有公式:
    P { θ ∣ D } = P { D ∣ θ } P { θ } P { D } (1.0) P\{\theta|D\} = \dfrac{P\{D|\theta\}P\{\theta\}}{P\{D\}} \tag{1.0} P{θ∣D}=P{D}P{D∣θ}P{θ}​(1.0)
    其中 P { θ ∣ D } P\{\theta|D\} P{θ∣D}称为后验概率,指的是由观察数据和先验假设推测出来的参数分布,而 P { θ } P\{\theta\} P{θ}称之为先验分布,指的是对于参数的专家知识或者假设而引入的知识,可以指导参数 θ \theta θ的学习,而 P { D ∣ θ } P\{D|\theta\} P{D∣θ}称之为似然函数,指的就是由于观察数据导致的参数更新。

我们举个投硬币的例子也说明下这两者区别:

Question:现在我们有一个硬币,假设朝向正面的几率为 p p p,朝向反面的几率为 1 − p 1-p 1−p,这个 p p p是未知的,现在为了估计 p p p,投掷了14次,其中有10次朝向正面,问再投掷两次,都朝向正向的概率为多少。

在传统的概率派解答中,因为相信这个模型的参数是固定的,所以很容易知道 p = 10 14 = 0.714 p=\dfrac{10}{14}=0.714 p=1410​=0.714,因此在后面投掷两次的过程中,假设都是独立过程,那么
P { H H ∣ d a t a } = p 2 = 0.51 (1.1) P\{HH|data\}=p^2=0.51 \tag{1.1} P{HH∣data}=p2=0.51(1.1)


而在贝叶斯派眼中,问题就没有那么简单了,我们相信参数 p p p不是简单的一个参数,而应该是一个随机变量,服从一个分布,那么我们就需要用观察到了的数据 d a t a data data去估计这个参数 p p p的分布,利用贝叶斯公式有:
P { p ∣ d a t a } = P { d a t a ∣ p } P { p } P { d a t a } (1.2) P\{p|data\} = \dfrac{P\{data|p\}P\{p\}}{P\{data\}} \tag{1.2} P{p∣data}=P{data}P{data∣p}P{p}​(1.2)
因为在已知观察中, d a t a data data是固定的,所以 P { d a t a } = c o n s t a n t P\{data\}=constant P{data}=constant是一个常数,不妨忽略它,有:
P { p ∣ d a t a } ∝ P { d a t a ∣ p } P { p } (1.3) P\{p|data\} \propto P\{data|p\}P\{p\} \tag{1.3} P{p∣data}∝P{data∣p}P{p}(1.3)

有:
P { d a t a ∣ p } = C 14 10 p 10 ( 1 − p ) 4 (1.4) P\{data|p\} = C_{14}^{10} p^{10}(1-p)^{4} \tag{1.4} P{data∣p}=C1410​p10(1−p)4(1.4)
参数 C 14 10 C_{14}^{10} C1410​可以忽略,现在对于先验假设 P { p } P\{p\} P{p}进行假设,一般来说,我们希望这个假设是一个共轭先验(conjugate prior)1
这里用Beta分布作为硬币参数的先验假设,

B e t a ( p ; a , b ) = Γ ( a + b ) Γ ( a ) ⋅ Γ ( b ) ⋅ p a − 1 ( 1 − p ) b − 1 (1.5) Beta(p;a,b)=\dfrac{\Gamma(a+b)}{\Gamma(a) \cdot \Gamma(b)} \cdot p^{a-1}(1-p)^{b-1} \tag{1.5} Beta(p;a,b)=Γ(a)⋅Γ(b)Γ(a+b)​⋅pa−1(1−p)b−1(1.5)
其中伽马函数 Γ ( ⋅ ) \Gamma(\cdot) Γ(⋅)定义为:
Γ ( x ) = ∫ 0 + ∞ t x − 1 e − t d t (1.6) \Gamma(x) = \int_{0}^{+\infty} t^{x-1}e^{-t} \rm dt \tag{1.6} Γ(x)=∫0+∞​tx−1e−tdt(1.6)

Beta分布有两个控制参数a和b,不同的a和b其CDF的形状差别很大:


在这个先验假设下,我们有:
P { p } = B e t a ( p ; a , b ) (1.7) P\{p\} = Beta(p;a,b) \tag{1.7} P{p}=Beta(p;a,b)(1.7)
同样的,因为 Γ ( a + b ) Γ ( a ) \dfrac{\Gamma(a+b)}{\Gamma(a)} Γ(a)Γ(a+b)​是常数项,忽略所以有:
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ P\{p|data\} &\…

为了让
∫ 0 + ∞ p { p ∣ d a t a } d p = 1 (1.9) \int_{0}^{+\infty} p\{p|data\} \rm dp = 1 \tag{1.9} ∫0+∞​p{p∣data}dp=1(1.9)
需要拼凑系数,可知道系数为(这里不是特别懂
Γ ( ( 10 + a ) + ( 4 + b ) ) Γ ( 10 + a ) ⋅ Γ ( 4 + b ) = 1 B ( 10 + a , 4 + b ) (1.10) \dfrac{\Gamma((10+a)+(4+b))}{\Gamma(10+a) \cdot \Gamma(4+b)} = \dfrac{1}{B(10+a,4+b)} \tag{1.10} Γ(10+a)⋅Γ(4+b)Γ((10+a)+(4+b))​=B(10+a,4+b)1​(1.10)
其中 B ( x , y ) B(x,y) B(x,y)为Beta函数, B ( x , y ) = Γ ( x ) Γ ( y ) Γ ( x + y ) B(x,y) = \dfrac{\Gamma(x) \Gamma(y)}{\Gamma(x+y)} B(x,y)=Γ(x+y)Γ(x)Γ(y)​

于是最终有参数 p p p的概率分布为:
P { p ∣ d a t a } = B e t a ( p ; a + 10 , b + 4 ) (1.11) P\{p|data\} = Beta(p;a+10, b+4) \tag{1.11} P{p∣data}=Beta(p;a+10,b+4)(1.11)
如果我们对 p p p毫无先验可言,那么可以令 a = b = 0 a=b=0 a=b=0,这个时候的计算结果就和频率学派的一模一样,但是如果我们自认为对这个硬币的参数 p p p有所了解,但是又不是完全了解,比如说我们知道这个先验应该是一个均匀分布的(也就是正面和反面都应该是0.5的,这个应该是最朴素和直观的假设了。),而均匀分布是Beta分布的一个特例,我们可以令 a = b = 1 a=b=1 a=b=1,这个时候有:
P { p ∣ d a t a } = B e t a ( p ; 11 , 5 ) (1.12) P\{p|data\} = Beta(p;11,5) \tag{1.12} P{p∣data}=Beta(p;11,5)(1.12)
图像如:

可以看到因为引入了这个朴素的假设,使得 p p p变成了一个中心在 p = 0.7 p=0.7 p=0.7附近的钟形分布,这个时候就发现了和频率派的区别:我们的参数p是一个分布,而不只是一个数值而已。


有了 P { p ∣ d a t a } P\{p|data\} P{p∣data},我们回归原问题,求:
P { H H ∣ d a t a } = ∫ 0 1 P { H H ∣ p } P { p ∣ d a t a } d p (1.13) P\{HH|data\} = \int_{0}^{1} P\{HH|p\} P\{p|data\} \rm dp \tag{1.13} P{HH∣data}=∫01​P{HH∣p}P{p∣data}dp(1.13)
这里用积分的原因很简单,就是因为我们的p是一个分布,其值从0到1,因此需要用积分。
这里进行两个假设:

  1. 投掷硬币每一次都是独立无关的。
  2. 在这接下来的两个投掷过程中我们不更新 P { p ∣ d a t a } P\{p|data\} P{p∣data}

所以有:
P { H H ∣ p } = [ P { H ∣ p } ] 2 = p 2 (1.14) P\{HH|p\} = [P\{H|p\}]^2 = p^2 \tag{1.14} P{HH∣p}=[P{H∣p}]2=p2(1.14)
所以有:
P { H H ∣ d a t a } = ∫ 0 1 p 2 ⋅ P { p ∣ d a t a } d p (1.15) P\{HH|data\} = \int_{0}^{1} p^2 \cdot P\{p|data\} \rm dp \tag{1.15} P{HH∣data}=∫01​p2⋅P{p∣data}dp(1.15)
所以有:
KaTeX parse error: No such environment: align at position 8: \begin{̲a̲l̲i̲g̲n̲}̲ P\{HH|data\} &…

同样假设 a = b = 1 a=b=1 a=b=1则有 B ( 13 , 5 ) B ( 11 , 5 ) = 0.485 \dfrac{B(13,5)}{B(11, 5)}=0.485 B(11,5)B(13,5)​=0.485,从这里就看出了频率学派和贝叶斯学派的区别。

总结

频率学派和贝叶斯学派的方法优缺点概况:

  • 频率学派是目前深度学习中最常使用的指导思想,但是要想其效果好,必须基于数据量巨大的情况下,否则很难估计出一个好的参数。(因为其不引入任何先验假设,只能从大数据中学习得到。)
  • 贝叶斯学派的方法可以应用在数据量小的情况下,而且方便引入各种专家知识和先验知识,有些场景中表现更为优越。

实际上,频率学派和贝叶斯学派有着千丝万缕的关系,不可割裂看待,也没有孰优孰劣。

Reference

  1. Bishop 《Pattern Recognize and Machine Learning, PRML》
  2. 《Are you a Bayesian or a Frequentist? (Or Bayesian Statistics 101)》
  3. 《Bayesian and frequentist reasoning in plain English》
  4. 《先验概率、后验概率以及共轭先验》

  1. 后验概率分布(正⽐于先验和似然函数的乘积)拥有与先验分布相同的函数形式。这个性质被叫做共轭性(Conjugacy)。共轭先验(conjugate prior)有着很重要的作⽤。它使得后验概率分布的函数形式与先验概率相同,因此使得贝叶斯分析得到了极⼤的简化 ↩︎

概率学派和贝叶斯学派的区别相关推荐

  1. 频率学派与贝叶斯学派(先验分布与后验分布,MLE和MAP)

    频率学派(古典学派)和贝叶斯学派是数理统计领域的两大流派. 这两大流派对世界的认知有本质的不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范 ...

  2. 频率学派和贝叶斯学派的参数估计

    一 频率学派与贝叶斯学派的区别 二 频率学派的参数估计 极大似然估计 1 离散随机变量的似然函数 2 连续随机变量的似然函数 3 最大似然估计一般求解过程 三 贝叶斯学派的参数估计 最大后验估计 贝叶 ...

  3. 关于概率中的贝叶斯学派和频率学派的各种解释

    通过举例进行解释 频率学派需要做大量实验才能给出结论,比如为了得到抛硬币正面朝上的概率,通过抛100次硬币,用硬币正面向上的次数除以100. 贝叶斯概率论假设观察者对某事件处于某个知识状态中(刚开始先 ...

  4. 频率学派和贝叶斯学派的一些区别

    很多人能讲出一大堆哲学理论来阐明这一对区别. 但我觉得,从工程师角度来讲,这样理解就够了: 频率 vs 贝叶斯 = P(X;w) vs P(X|w) 或 P(X,w) 你是把参数当作一个待确认系数 还 ...

  5. 频率学派和贝叶斯学派区别浅谈

    区别 往大里说,世界观就不同,频率派认为参数是客观存在,不会改变,虽然未知,但却是固定值:贝叶斯派则认为参数是随机值,因为没有观察到,那么和是一个随机数也没有什么区别,因此参数也可以有分布,个人认为这 ...

  6. 从一个例子看频率学派与贝叶斯学派的不同(Python)

    考虑如下的一个游戏场景: setup: Alice and Bob enter a room. Behind a curtain there is a billiard table, which th ...

  7. 浅析概率中的频率学派观点和贝叶斯学派观点

        使用随机事件的发生的频率描写叙述概率的方法,就是通常说的古典概型.或者称为频率学派. 另外有一个更加综合的观点就是贝叶斯学派.在贝叶斯学派的观点下概率表示的是事件的不确定性大小.     使用 ...

  8. 再谈贝叶斯学派与频率学派的区别

    频率主义(Frequentism)与贝叶斯主义(Bayesianism)的哲学辨异与实践(Python仿真) 从 Beta_Binomial共轭分布开始说起: Beta(p|α,β)+BinomCou ...

  9. 频率学派(似然估计)与贝叶斯学派(后验估计)

    "若是心怀旧梦,就别再无疾而终!" 频率学派与贝叶斯学派 作为统计学的两大学派,由于对统计推断的观点不一致,相应的方法也不一样.本文主要小结两派思想的区别,并结合实例对两种思想对应 ...

最新文章

  1. 指针运算(自己做个笔记)
  2. linux执行命令段错误,Linux运行fortran程序 出现段错误(segmentation fault)
  3. Android 入门开发
  4. python【蓝桥杯vip练习题库】ALGO-91 Anagrams问题
  5. [国家集训队] 特技飞行
  6. python3.6生成exe_Python 3.6打包成EXE可执行程序的实现
  7. java jar包与配置文件的写法
  8. Linux系统(简介、文件管理、常用命令、账号管理、c开发工具)
  9. 测试软件ipc,IPC产线调焦测试工具
  10. 软件工程系组织12级学生到工商学院参加比赛
  11. 计算机ping使用的端口,ping 端口:Ping端口命令的使用方法介绍
  12. 最长公共子串——python
  13. python信息技术答案_高中信息技术《Python语言》模块试卷习题.doc
  14. 躺在床上刷抖音,不如来写第一个 GO 程序入门篇
  15. 项目实践日记(Gitlab的搭建及配置)
  16. 痴迷技术,青春无悔,我那不务正业的大学时光!
  17. 安卓的SoundPool(音效池)播放声音(及具体参数解析)
  18. Sentinel-2批量大气校正_基于Sen2Cor
  19. 第二章 离散时间信号和系统的时域描述分析 2.2.2 线性时不变系统
  20. 文本生成任务常见评估指标

热门文章

  1. jdk8 元空间(Metaspace) GC
  2. java web用jsp编写注册页面提交后显示注册成功页面
  3. 中学理化生实验室建设及配置要求
  4. 【正点原子MP157连载】第十八章 RGB LCD彩条显示实验-摘自【正点原子】STM32MP1嵌入式Linux驱动开发指南V1.7
  5. 【爬虫实战】python爬取中国最好大学排行榜
  6. 载薄荷醇纳米多孔PS微球/LA57接枝纳米炭黑修饰/Ag纳米粒子/聚苯乙烯微球性能相关研究
  7. 傻傻分不清的tr,th和td
  8. 羧酸-COOH功能化修饰红色荧光聚苯乙烯AIE微球的产品组成和保存条件
  9. Vertx快速入门参考
  10. python列表元素统计ls_给定列表ls = [1, 2, 3, 1, 2, 3],其元素包含2种数据类型,哪个选项是列表ls的数据组织维度?...