原作者:DavidRobinson    原文链接:http://varianceexplained.org/statistics/beta_distribution_and_baseball/

像正态分布、二项分布和均匀分布这样的一些分布,在统计学习当中往往会结合一些现实世界中的实际应用来解释,因此对于统计学的初学者来说也很容易清晰地理解这些分布。但是我发现Beta分布就很少会用这样可以凭直觉感知的方法来解释它的用处在哪里,而且Beta分布经常会和一些复杂的概念一起出现,比如“共轭先验”和“顺序统计量”。我对此感到羞愧,因为Beta分布背后的直观感受非常酷。

简而言之,Beta分布可以理解为它表示概率的概率分布——也就是在我们不知道一件事的概率是多少的时候,它能表示一个概率的所有可能值。下面这个例子是我最喜欢的解释:

懂棒球的人都会对棒球的安打率(击球率)很熟悉,简单来说就是他击中球的次数除以出手次数(译者表示自己不懂棒球,暂且这样解释,欢迎懂棒球的朋友指正),所以说击球率应该是一个0到1之间的数。通常认为平均的击球率是0.266,如果能达到0.300就非常棒了。

想象一下有一个棒球运动员,我们想要预测他这个赛季的击球率。你可能会说,我们就用他到目前为止的击球率就可以了。但如果是在赛季初做出的预测,结果会非常差!如果一个运动员刚出手一次就击中了,那他的击球率就是1.000了,如果他这次没有击中那击球率就是0.000。就算出手次数达到5到6次,他也很可能非常幸运地拿到1.000的击球率,或者非常不幸地得到一个0。无论是这两种情况中的哪一种都远远算不上对该运动员本赛季表现的很好的预测。

为什么用前几次击球的结果来预测最终的击球率就不好呢?当一个运动员的第一次出手没有击中的情况下,为什么没人预测他整个赛季一次都不会击中呢?因为我们有先前的期望,我们了解以往的情况,在一个赛季当中,大多数的击球率都是在0.215到0.360之间浮动的,只有极少数的情况下会出现极端的高或低的结果。我们都知道,假如一个运动员在最开始的几次失手,这可能意味着他最终的击球率会稍稍低于平均水平,但是不会偏离这个范围太远。

给定了这个击球率的问题,它可以用一个二项分布来表示(击球成功或失败)。用来表示这些先前的期望(统计学中叫先验概率)的最好的方法是Beta分布,就是说在我们看到这个运动员第一次挥棒以前,我们就能大致推测他的击球率是多少。Beta分布的定义域是(0,1),和概率的区间一样,所以我们已经知道我们的方向是对的,但是想让这个分布恰当地解决这个问题到这里还远远不够。

译注:这里稍微补充一点,使用Beta分布是因为Beta分布是二项分布的共轭先验分布,关于Beta-Binomial共轭,意思就是,数据符合二项分布的时候,参数的先验分布和后验分布都能保持Beta分布的形式,这种形式不变的好处是,我们能够在先验分布中赋予参数很明确的物理意义,这个物理意义可以延续到后验分布中进行解释,同时从先验变换到后验过程中从数据中补充的知识也容易有物理解释。(此处参考:http://cos.name/2013/01/lda-math-beta-dirichlet/)

我们预期这个运动员一个赛季的击球率大约是0.27,但在0.21到0.35之间都是合理的。这种情况可以用一个参数α=81和 β=219的Beta分布来表示:

我出于以下两个原因选择了这两个参数:

1.      平均数(期望)是α/(α+β)=81/(81+219)=0.270

2.      从图中你就可以看出来,这个分布几乎全部分布在(0.2,0.35)这个范围之间,也就是击球率的合理范围。

(关于参数的选取,参考:http://stats.stackexchange.com/questions/47916/bayesian-batting-average-prior/47921#47921)

在这个Beta分布密度图中,x轴代表的是他的击球率。因此请注意在这个实例当中,不仅y轴是概率(或者更准确地说是概率密度),x轴也是(击球率就是一次击球击中的概率)。这个Beta分布表示了一个概率的概率分布。

译注:这里有个小问题,概率跟概率密度的概念不等同,y轴代表的是概率密度。由于本文最初发表于http://stats.stackexchange.com/a/47782/8373,作为一个提问的答案。从原文评论来看作者是为了对应提问者的问题的表述(现在已经修改)才说y轴和x轴都表示概率。

但是为什么Beta分布会如此合理呢?想象一下如果这个运动员击中一次,他在本赛季的记录就是“击中一次,出手一次”。我们就需要更新我们的概率——我们想要将整个曲线稍稍移动一点来反映我们刚刚得到的信息。其中的数学原理可以参考这里,结果很简单。新的Beta分布如下:

Beta (α0+击中的次数,β0+未击中的次数)

其中α0 和 β0是初始参数,即81和219。因此在上述情况下,α增加1,β不变,也就是我们新的Beta分布为Beta(81+1,219)。让我们和之前的图像做个比较:

可以看到几乎没什么变化,这点改变几乎是用眼睛看不到的,这是因为一次击中代表不了什么。

然而,随着这个运动员在本赛季击中次数增加,这条曲线就会不断偏移调整来拟合新的信息,并且当我们的信息越多,基于实际情况调整后的曲线就会越窄。假设到赛季中期,运动员已经出手300次,其中100次击中。新的分布就是Beta(81+100,219+200):

可以看到,跟以前相比,曲线现在变得更“瘦”了,并且向右(更高的击中率)移动了,我们对于该运动员的集中率有了更好的感受。

我们最感兴趣的结果之一就是Beta分布的期望,也就是你最新的估计。复习一下,Beta分布的期望值是α/(α+β)。因此,在300次出手击中100次的情况下,新的Beta分布的期望值就是(82+100)/(82+100+219+200)=0.303,比单纯计算概率来估计击球率的方法100/(100+200)=0.333要低,但是比赛季初所做的预测0.270高了。其实这种方法相当于先赋予一个运动员击中和未击中的次数——也就是让他以81次击中和219次未击中的数据来作为该赛季的初始数据。

可以看到,Beta分布是表示概率的概率分布的最佳方式——我们可能无法提前知道一件事的概率,但是我们可以做一些合理的猜测。


该文章发布于2014年12月20日

直观理解Beta分布相关推荐

  1. 如何通俗理解 beta分布、汤普森采样和狄利克雷分布

    如果想理解汤普森采样算法,就必须先熟悉了解贝塔分布. 一次伯努利实验(比如扔硬币,二元变量)叫做伯努利分布(Bernoulli distribution).多次伯努利实验叫做二项式分布(Binomia ...

  2. 如何通俗理解beta分布?

    作者:小杰 链接:https://www.zhihu.com/question/30269898/answer/123261564 来源:知乎 著作权归作者所有.商业转载请联系作者获得授权,非商业转载 ...

  3. 如何理解beta分布?

    相信大家学过统计学的都对 正态分布 二项分布 均匀分布 等等很熟悉了,但是却鲜少有人去介绍beta分布的. 用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西的具体概率是多少时, ...

  4. 带你理解beta分布

    #beta分布介绍 相信大家学过统计学的都对 正态分布 二项分布 均匀分布 等等很熟悉了,但是却鲜少有人去介绍beta分布的. 用一句话来说,beta分布可以看作一个概率的概率分布,当你不知道一个东西 ...

  5. 超详细理解Gamma分布,Beta分布,多项式分布,Dirichlet狄利克雷分布

    项目github地址:bitcarmanlee easy-algorithm-interview-and-practice 欢迎大家star,留言,一起学习进步 1.Gamma函数 首先我们可以看一下 ...

  6. 伯努利分布、二项分布、多项分布、Beta分布、Dirichlet分布

    https://blog.csdn.net/michael_r_chang/article/details/39188321 https://www.cnblogs.com/wybang/p/3206 ...

  7. Gamma分布,Beta分布,多项式分布,Dirichlet狄利克雷分布

    如何通俗理解 beta 分布?(很好理解,beta就是二项式分布的先验分布) 所谓共轭先验就是先验分布是beta分布,而后验分布同样是beta分布. 超详细理解Gamma分布,Beta分布,多项式分布 ...

  8. 概率分布之Beta分布与Dirichlet分布

    Beta分布与Dirichlet分布的定义域均为[0,1],在实际使用中,通常将两者作为概率的分布,Beta分布描述的是单变量分布,Dirichlet分布描述的是多变量分布,因此,Beta分布可作为二 ...

  9. beta分布的直观理解

    ​ 前言 在学习统计学习方法第一章习题中,有提到伯努利模型的贝叶斯估计.在网上的各种解答中,都有出现一个beta分布--"贝塔分布是一个作为伯努利分布和二项式分布的共轭先验分布的密度函数&q ...

最新文章

  1. 成为MySQL DBA 博客系列-数据库升级
  2. IOS支付宝集成一系列问题
  3. 确保nginx安全的10个技巧
  4. 《数据分析变革:大数据时代精准决策之道》一第1章 了解运营型分析1.1 定义运营型分析...
  5. java uri_Android中的Uri与Java中的URI类
  6. 【pyqt5学习】——items view相关控件(list view、table view)
  7. 142_Power BI之同比预测
  8. macOS安装docker
  9. python读取log文件生成图形表_python提取log文件内容并画出图表
  10. 关于Kafka中的再均衡
  11. 怎样学好python编程-一个新手,什么编程都没学过怎么学好Python?
  12. linux 正则查找email,linux的正则表达式查找
  13. 怪兽充电启动招股:2020年业绩下滑五成,小米、高瓴参与认购
  14. 【滤波器】基于matlab高斯滤波器【含Matlab源码 995期】
  15. 【魔兽世界】WLK版本的常规宏教程
  16. 如何让excel表格排头一直都在_如何快速整理Excel表格?学会这一招整理表格无压力...
  17. 用python画微笑脸表情_python画表情包
  18. GPS天线类型和特点
  19. js对象数组去除重复
  20. 干了5Android开发还没掌握-binder-机制、驱动核心源码?我劝你早点改行吧

热门文章

  1. 选择题汇总4(括号里填的答案都是对的,不用管下面那个答案正确与错误,因为作者懒得删了)
  2. Django笔记-实现用户退出登录(logout)
  3. logout命令详解
  4. Linux:如何在后台运行一个程序?
  5. 设置非阻塞socket收发数据
  6. 人类一败涂地做图教程_人类一败涂地-怎么制作地图-地图制作教程详细入门级...
  7. Python将数据写入excel表格中保存
  8. 建立个人网站的基本步骤
  9. 1003 Emergency (25 point(s))
  10. Administrator privileges required for OLE Remote Procedure Call debugging: this feature will not wor