编者按:贝塔分布的定义很简单,具有两个参数α、β(α,β > 0)的一组定义在(0, 1)区间的连续概率分布。但是,它背后的直觉却不是那么明显。Stack Overflow数据科学家David Robinson在Cross Validated解释了贝塔分布背后的直觉。

简而言之,贝塔分布代表probabilities(概率的复数形式)的分布,也就是说,它代表当我们不知道概率是什么时,概率的所有可能值。

所有看棒球的人都熟悉打击率这个概念,也就是安打数除以打数(因此,打击率是0到1之间的百分数)。

.266是一个平均水平的打击率,而.300是一个优秀的打击率。

假设我们想预测某个棒球手在整个赛季的打击率。你可能会说,使用已有的打击率数据不就行了?但是在赛季刚开始的时候,这会是一个非常差的衡量指标,如果棒球手的打数只有几次,可能预测出棒球手的打击率为1.000或0.000这样的数字。

我们为什么知道上面的预测很糟糕?如果我们观察到棒球手在赛季一开始出现了一个三振,为什么没人会预测这个棒球手在整个赛季都拿不到一个安打?因为我们有先验知识,我们知道,在历史上,绝大多数棒球手的赛季平均打击率在.215到.360之间,有一些极端罕见的例外低于或高于这个范围。我们知道,如果一个棒球手刚开始出现了几个三振,那可能意味着他最终的打击率会比平均值低一点,但我们知道他大概不会偏离上面提到的范围。

我们的打击率问题可以表示为二项分布(一系列成功和失败),表示这些先验预期(在统计学上我们直接称为先验)的最好方式是贝塔分布——也就是说,在我们观测到棒球手的打击数据前,我们大致期望他的打击率会是这样的。贝塔分布的定义域为(0, 1),和概率一样,因此我们知道我们的路线是正确的——但是贝塔分布与当前任务的相关性远不止这些。

我们期望,棒球手整个赛季的打击率最有可能在.27附近,但.21到.35

也很合理。这可以用参数α=81、β=219的贝塔分布表示:

curve(dbeta(x, 81, 219))

注意,分布的均值为α/(α β) = 81/(81 219) = .270。

整个分布基本上完全位于(.2, .35)之间,对打击率而言,这个范围很合理。

在我们的例子中,贝塔分布的x轴代表打击率。因此,不仅y轴代表概率(更准确地说,概率密度),x轴也代表概率(打击率是安打的概率)!贝塔分布是概率的概率分布。

接着我们讨论为什么贝塔分布非常合适我们的问题。假设棒球手完成了一个安打。当前赛季的记录为安打 1;打数 1。我们需要更新概率——我们希望略微移动整个曲线以反映我们新获得的信息。尽管相应的数学证明有点复杂(证明见此),结果非常简单。新的贝塔分布将是:

Beta(α0 hits,β0 misses)

其中,α0和β0是刚开始的参数81和219。因此,在这一情形下,α增加了1(1次安打),而β完全没有增加(目前还没有落空)。这意味着我们的新分布是Beta(81 1,219):

curve(dbeta(x, 82, 219))

注意上面的图像基本上没有变动——肉眼观察不到改变!(这是因为一个安打其实说明不了什么。)

然而,随着赛季的进行,棒球手的安打数越多,曲线为了适应新证据所作的移动也会越多,而且,由于我们有更多的证据,它会收拢。比如,到赛季的一半,球手的打数达到了300,其中有100个安打。新的分布会是Beta(81 100,219 200):

curve(dbeta(x, 81 100, 219 200))

注意,和原来相比,现在曲线变得更狭长了,同时向右侧(更高的击打率)移动了。我们对球手的打击率更有概念了。

基本上,所得贝塔分布的期望值,就是我们新的估计。回顾一下,贝塔分布的期望值为α/(α β)。因此,在真实打数为300,安打数为100的情况下,新贝塔分布的期望值为(81 100)/(81 100 219 200) = .303。注意它比朴素的估计值100/(100 200) = .333要低,但比赛季开始前的估计值81/(81 219) = .270要高。你可能会注意到,这一等式等价于球手加上“提前开始”的安打数和落空数——也就是说“在赛季开始时,球手已经有81安打、219落空的记录”。

因此,贝塔函数最适宜用来表示概率的概率分布——当你并不预先知道概率是多少,但具备一些合理的猜测的时候。

matlab检验贝塔分布规律,贝塔分布背后的直觉:概率的概率分布相关推荐

  1. 机器学习中的无监督学习_无监督机器学习中聚类背后的直觉

    机器学习中的无监督学习 When it comes to analyzing & making sense of the data from the past and understandin ...

  2. word2vec应用场景_介绍Word2Vec和Glove这两种最流行的词嵌入方法背后的直觉

    NLP 的首要问题就是寻求恰当的文本表示方法. 因为, 良好的文本表示形式, 是后续进一步处理的基础.近年来,词嵌入方法越来越流行,在各种各样的 NLP 任务中 得到了广泛的应用.简单而言,词嵌入是通 ...

  3. 变分自编码器背后的直觉【VAE】

    在阅读有关机器学习的内容时,你遇到的大部分材料可能都与分类问题有关. 你有一个特定的输入,ML 模型试图找出该输入的特征. 例如,分类模型可以决定图像中是否包含猫. 当你想创建具有预定义特征的数据时, ...

  4. matlab text黑体,MATLAB论文利用MATLAB研究黑体辐射规律.doc

    PAGE PAGE 1<MATLAB语言>课程论文利用MATLAB研究黑体辐射规律姓名:陈清源 学号:12010245332 专业:电子信息工程 班级:2010级1班指导老师:汤全武 学院 ...

  5. matlab泊松分布参数,MATLAB如何使用poisspdf函数计算泊松分布的概率

    MATLAB如何使用poisspdf函数计算泊松分布的概率 [语法说明] Y=poisspdf(X,lambda):计算X中元素在参数lambda指定的泊松分布下的概率值.Y是与X.lambda同型的 ...

  6. 弦振动 matlab,弦振动规律及MATLAB数据处理

    弦振动形成驻波的规律和数据的MATLAB处理 苗锟1,黄育红2, *,李康1,宋翠1 (1陕西师范大学理工科基础教学部,陕西西安,700062: 2陕西师范大学物理学与信息技术学院,陕西西安,7100 ...

  7. 弦振动 matlab,弦振动规律和MATLAB数据处理.doc

    弦振动规律和MATLAB数据处理 弦振动形成驻波的规律和数据的MATLAB处理 苗锟1,黄育红2, 本论文受陕西师范大学"大学生开放性实验基金项目"资助. 作者简介:黄育红(198 ...

  8. matlab检验相关性显著性检验,显著性检验matlab.ppt

    显著性检验matlab * 第六章 显著性检验 基本思想 检验规则 检验步骤 常见的假设检验 基本思想 小概率原理: 如果对总体的某种假设是真实的,那么不利于或不能支持这一假设的事件A(小概率事件)在 ...

  9. matlab 指数分布检验,如何使用Matlab检验数据服从什么分布

    MatLab实现数据分布检验的程序 拿到数据的时候,首先要判断以下这批数据服从什么分布,下面是matlab程序/ function f=p_judge(A,alpha) % 本程序用于判别所给数据源在 ...

  10. 聚类分析matlab检验,「matlab聚类分析」聚类分析的Matlab 程序—系统聚类(附有案例分析) - 金橙教程网...

    matlab聚类分析 聚类分析的Matlab 程序-系统聚类 (1)计算数据集每对元素之间的距离,对应函数为pdistw. 调用格式:Y=pdist(X),Y=pdist(X,'metric'), Y ...

最新文章

  1. 数据中心的7个新兴发展趋势
  2. oracle链接字符串java,java连Oracle连接字符串写法
  3. Windows 10下安装scrapy(pip方式,非wheel)
  4. 虚拟机增强工具的安装
  5. 与mysql的零距离接触_与MySQL的零距离接触
  6. 阿里云OSS linux使用备忘录
  7. 以云为跳板,疑似中国黑客组织黑进全球知名IT服务公司
  8. 【Hive】性能调优 - map-side JOIN
  9. Acwing第 34 场周赛
  10. matlab相机标定
  11. php 按钮美化,input(file)按钮样式美化第二种
  12. 无模型matlab程序实验报告,MATLAB仿真瑞利衰落信道实验报告结果
  13. 首日回顾:新一代区块链开发平台初步建成 | ArcBlock Devcon 2020
  14. 单面打印机打印双面小册子
  15. 数学建模快速入门(6)二维图和三维图
  16. javascript的基本概念
  17. 论文Express | 谷歌DeepMind最新动作:使用强化对抗学习,理解绘画笔触
  18. ECCV 2020 论文大盘点-手势估计篇
  19. 怎样使用pickerview来实现地址菜单的三级联动效果
  20. Internet Download Manager6.41加速器最快的电脑工具下载器

热门文章

  1. python计算1的平方减2的平方加3的平方减4的平方怎么算_100的平方减99的平方加98的平方减97的平方怎么算...
  2. vr软件测试,如何进行VR可用性测试?
  3. 手工内存管理规则的总结
  4. [Alg]排序算法之插入排序
  5. scrapy手工识别验证码登录超星泛雅
  6. 东北大学 计算机网络,东北大学计算机网络B卷(附答案).pdf
  7. [Ynoi2015]此时此刻的光辉
  8. 洛谷p3398仓鼠找suger题解
  9. Excel -- 行列数据移动(移动复制)
  10. 机器学习笔记(九)——数据降维:主成分分析法(PCA)