频率主义(Frequentism)与贝叶斯主义(Bayesianism)的哲学辨异与实践(Python仿真)

从 Beta_Binomial共轭分布开始说起:

Beta(p|α,β)+BinomCount(m 1 ,m 2 )=Beta(p|α+m 1 ,β+m 2 ) 

Beta(p|\alpha, \beta) + BinomCount(m_1,m_2) = Beta(p|\alpha+m_1, \beta+m_2)

一个小小的特例为:

Beta(p|1,1)+BinomCount(α−1,β−1)=Beta(p|α,β) 

Beta(p|1,1) + BinomCount(\alpha-1,\beta-1)=Beta(p|\alpha, \beta)

Beta(p|1,1) Beta(p|1,1)恰好正是均匀分布U[0,1] U[0,1](概率密度恒等于1,且与p p无关)
假设有一个不均匀的(或者说均匀与否不可知)的硬币抛出正面的概率为 p p,抛 m m次后出现正面和反面的次数分别是 m 1 ,m 2  m_1,m_2,那么按传统的频率学派观点,p p 的估计值应该为 p ^ =m 1 m  \hat p=\frac{m_1}{m},而如果从贝叶斯的观点来看,开始时对硬币的不均匀性一无所知,所以应该假设 p∼U[0,1] p\sim U[0,1],于是有了二项分布的计数 (m 1 ,m 2 ) (m_1,m_2)之后,按照贝叶斯公式如下计算 p p的后验分布:

P(p|m 1 ,m 2 )===== P(p)P(m 1 ,m 2 |p)P(m 1 ,m 2 ) P(p)P(m 1 ,m 2 |p)∫ 1 0 P(m 1 ,m 2 |t)P(t)dt 1⋅P(m 1 ,m 2 |p)∫ 1 0 P(m 1 ,m 2 |t)⋅1dt (mm 1 )p m 1  (1−p) m 2  ∫ 1 0 (mm 1 )t m 1  (1−t) m 2  dt p m 1  (1−p) m 2  ∫ 1 0 t m 1  (1−t) m 2  dt   

\begin{split} P(p|m_1,m_2)=&\frac{P(p)P(m_1,m_2|p)}{P(m_1,m_2)}\\ =&\frac{P(p)P(m_1,m_2|p)}{\int_0^1P(m_1,m_2|t)P(t)dt}\\ =&\frac{1\cdot P(m_1,m_2|p)}{\int_0^1P(m_1,m_2|t)\cdot 1dt}\\ =& \frac{\binom{m}{m_1}p^{m_1}(1-p)^{m_2}}{\int_0^1\binom{m}{m_1}t^{m_1}(1-t)^{m_2}dt}\\ =&\frac{p^{m_1}(1-p)^{m_2}}{\int_0^1t^{m_1}(1-t)^{m_2}dt} \end{split}
计算得到的后验分布正好是 Beta(p|m 1 +1,m 2 +1) Beta(p|m_1+1,m_2+1)

文本建模中的频率学派与贝叶斯学派

频率学派:上帝只有一个骰子,这个骰子有 V V个面,每个面对应一个词,各个面的概率不一;每抛一次,抛出的面就对应产生一个词,如果一篇文档有 N N个词(也即词频),上帝就是独立的抛 n n次以产生这 N N个词(可见有重复);

词频为 N N时,如果我们关注每个词 v i  v_i的发生次数 n i  n_i,那么n ⃗ =(n 1 ,n 2 ,…,n V ) \vec n=(n_1,n_2,\ldots,n_V)恰好是一个多项分布:

p(n ⃗ )=Multi(n ⃗ |N,p ⃗ )=(Nn ⃗ )∏ k=1 V p n k  k  

p(\vec n)=Multi(\vec n|N,\vec p)=\binom N{\vec n}\prod_{k=1}^Vp_k^{n_k}
其中 ∑ V k=1 p k =1,∑ V k=1 n k =N \sum_{k=1}^Vp_k=1,\; \sum_{k=1}^Vn_k=N
此时,一个很重要的任务即是估计模型中的参数 p ⃗ =(p 1 ,p 2 ,…,p V ) \vec p=(p_1,p_2,\ldots,p_V),也就是问上帝拥有的这个骰子的各个面的概率分别是多大,按照统计学家中频率派的观点,使用最大似然估计最大化 p(W) p(\mathcal W),于是参数 p i  p_i的估计值是:

p ^  i =n i N  

\hat p_i=\frac{n_i}{N}
对于以上模型,贝叶斯统计学派的统计学家会有不同的意见,他们会很挑剔地批评只假设上帝拥有唯一一个固定的骰子(也即 p ⃗ =(p 1 ,p 2 ,…,p V ) \vec p = (p_1,p_2,\ldots,p_V))是不合理的。 在贝叶斯学派看来,一切参数都是随机变量,也即以上模型中的骰子 p ⃗  \vec p不是唯一固定的,它是一个随机变量。

贝叶斯学派:上帝有一个装有无穷多骰子的坛子,里面有各式各样的骰子(也即 p ⃗  \vec p各不相同),每个骰子均有 V V个面;上帝从坛子里面抽了一个骰子出来,然后用这个骰子不断地抛,抛 N N次。

上帝的这个坛子里面,骰子可以是无穷多个,有些类型的骰子数量多,有些类型的骰子少,所以从概率分布的角度看,坛子里边的骰子 p ⃗  \vec p服从于概率分布 p(p ⃗ ) p(\vec p),这个分布称为参数 p ⃗  \vec p的先验分布

以上是贝叶斯学派的游戏规则,此时预料 W \mathcal W的概率如何计算呢?由于我们并不知道上帝到底使用了哪个骰子(p ⃗  \vec p),所以每个骰子都有可能被使用,只是使用的概率由先验分布 p(p ⃗ ) p(\vec p)来决定。对每一个具体的骰子 \vcp \vc p,由该骰子产生的数据的概率是 p(W|p ⃗ ) p(\mathcal W|\vec p),所以最终数据产生的概率就是对每一个骰子 p ⃗  \vec p产生的数据概率进行积分累加求和:

p(W)=∫p(W|p ⃗ )p(p ⃗ )dp ⃗  

p(\mathcal W)=\int p(\mathcal W|\vec p)p(\vec p)d\vec p
在贝叶斯分析的框架下, 此处先验分布 p(p ⃗ ) p(\vec p)可以有多种选择,注意到:

p(W|p ⃗ )=p(n ⃗ |N,p ⃗ )=(Nn ⃗ )∏ k=1 V p n k  k  

p(\mathcal W|\vec p)=p(\vec n|N,\vec p)=\binom{N}{\vec n}\prod_{k=1}^Vp_k^{n_k}
实际上在计算一个多项分布的概率,所以对先验分布 p(p ⃗ ) p(\vec p) 的一个比较好的选择即是与多项分布成共轭的共轭分布,也即Dirichlet分布:

Dir(p ⃗ |α ⃗ )=1Δ(α ⃗ ) ∏ k=1 V p α k −1 k Δ(α ⃗ )=∫∏ k=1 V p α k −1 k dp ⃗  

Dir(\vec p|\vec \alpha)=\frac1{\Delta (\vec \alpha)}\prod_{k=1}^Vp_k^{\alpha_k-1}\quad \Delta (\vec \alpha)=\int \prod_{k=1}^Vp_k^{\alpha_k-1}d\vec p
Δ(p ⃗ ) \Delta (\vec p)是归一化因子;

再谈贝叶斯学派与频率学派的区别相关推荐

  1. 详解贝叶斯学派与频率学派的区别和联系

    大家好,我是东哥. 要说贝叶斯和频率学派,那简直太有意思了.为什么这么说呢?因为两个学派的理解对于我来说真的是一场持久战.我是在学习机器学习的时候接触到的这两个学派,此前并不知道,当时就被深深吸引了, ...

  2. 【机器学习】贝叶斯学派与频率学派有何不同?

    要说贝叶斯和频率学派,那简直太有意思了.为什么这么说呢?因为两个学派的理解对于我来说真的是一场持久战.我是在学习机器学习的时候接触到的这两个学派,此前并不知道,当时就被深深吸引了,于是找了各种资料学习 ...

  3. 关于概率中的贝叶斯学派和频率学派的各种解释

    通过举例进行解释 频率学派需要做大量实验才能给出结论,比如为了得到抛硬币正面朝上的概率,通过抛100次硬币,用硬币正面向上的次数除以100. 贝叶斯概率论假设观察者对某事件处于某个知识状态中(刚开始先 ...

  4. 频率学派(似然估计)与贝叶斯学派(后验估计)

    "若是心怀旧梦,就别再无疾而终!" 频率学派与贝叶斯学派 作为统计学的两大学派,由于对统计推断的观点不一致,相应的方法也不一样.本文主要小结两派思想的区别,并结合实例对两种思想对应 ...

  5. 贝叶斯学派和贝叶斯公式

    先来看看高教版<概率论与数理统计>中关于"大数定律"的几个定理. (一)贝叶斯学派 贝叶斯学派和频率学派是统计学的两大学派. 频率学派认为,一个事件出现的概率是可以由大 ...

  6. 频率学派与贝叶斯学派(先验分布与后验分布,MLE和MAP)

    频率学派(古典学派)和贝叶斯学派是数理统计领域的两大流派. 这两大流派对世界的认知有本质的不同:频率学派认为世界是确定的,有一个本体,这个本体的真值是不变的,我们的目标就是要找到这个真值或真值所在的范 ...

  7. 频率学派和贝叶斯学派的参数估计

    一 频率学派与贝叶斯学派的区别 二 频率学派的参数估计 极大似然估计 1 离散随机变量的似然函数 2 连续随机变量的似然函数 3 最大似然估计一般求解过程 三 贝叶斯学派的参数估计 最大后验估计 贝叶 ...

  8. 频率学派和贝叶斯学派的一些区别

    很多人能讲出一大堆哲学理论来阐明这一对区别. 但我觉得,从工程师角度来讲,这样理解就够了: 频率 vs 贝叶斯 = P(X;w) vs P(X|w) 或 P(X,w) 你是把参数当作一个待确认系数 还 ...

  9. 浅析概率中的频率学派观点和贝叶斯学派观点

        使用随机事件的发生的频率描写叙述概率的方法,就是通常说的古典概型.或者称为频率学派. 另外有一个更加综合的观点就是贝叶斯学派.在贝叶斯学派的观点下概率表示的是事件的不确定性大小.     使用 ...

最新文章

  1. 48 jQuery元素操作
  2. datatables ajax刷新数据
  3. 大厂实习生面试常问的一道算法题,LeetCode11 题目解析
  4. 从Activity返回结果
  5. 循序渐进PYTHON3(十三) --4-- DJANGO之CSRF使用
  6. linux system查看内存占用,Linux查看系统内存占用
  7. python中的shallow copy 和 deep copy
  8. 16S多样性组成谱研究,9.13分的Water Research轻松二连发!
  9. 51单片机通过WIFI模块ESP8266控制四路继电器
  10. 基于Matlab的车辆型号识别系统
  11. 高项_第六章项目进度管理
  12. mysql cleaned up_关于mysqld自动停止的问题
  13. 囚徒困境(条件判断)
  14. .MMAP是什么格式?
  15. 软件定义闪存: SSD加速企业数据中心变革
  16. Un-Routed Net ConStraint报错的原因
  17. 忆17级信管杨友大三学年个人风雨兼程岁月
  18. 如何让百度搜索到我的博客或者网站
  19. Java 爪哇学习(三) 基础
  20. 联想服务器 硬盘支架 st,【供应联想存储SureSAS112 SF112磁盘阵列3.5寸SATA SAS转FC硬盘托架】价格_厂家 - 中国供应商...

热门文章

  1. 剑指offer面试题24. 反转链表(双指针)
  2. Linux常用命令(二)——超详版
  3. 《GPU高性能编程CUDA实战》代码整理
  4. SQL SERVER 和ACCESS/excel的数据导入导出
  5. 替换分隔符 ^p, 或者是回车
  6. 科软-信息安全实验3-Rootkit劫持系统调用
  7. JavaEE Design Patter(2)
  8. Git Diff 魔法
  9. RabbitMQ官方教程一 Hello World!
  10. Mahout-Pearson correlation的实现