用正态分布近似代替二项分布

假设一个情境:有40道题,每一道你都不知道答案,答对概率为1/4。求答对30题及以上的概率。

这个是典型的二项分布,具体介绍见:【读书笔记->统计学】07-02 离散型概率分布-二项分布概念简介。我们需要求P(X>=30),即我们必须将P(X=30)直至P(X=40)的概率算出来,再加总。**要算出11个概率在求和,这得多麻烦呀!**不过正态分布可以代替二项分布。

因为正态分布要用到,我们求出二项分布的期望和方差,分别是np和npq,则分别为40*0.25=10和40*0.25*0.75=7.5。

在某些情况下,泊松分布可以近似代替二项分布(具体见:【读书笔记->统计学】07-03 离散型概率分布-泊松分布概念简介),不过,在另一些情况下,正态分布也可以近似代替二项分布

在某些情况下,二项分布的形状看上去和正态分布的形状十分相似,这时就可以代替。一般说来,当np和nq双双大于5时,可以用正态分布近似代替二项分布。

为了方便正态分布查表,我们需要知道均值和方差,则μ=np\mu=npμ=np且σ2=npq\sigma^2=npqσ2=npq。把二项分布的参数设置为正态分布的参数。

二项分布的近似

如果X~B(n, p),且np>5,nq>5(有些教材是>10),则可以使用X~N(np, npq)近似代替二项分布。


在计算结果之前,我们先看看另一个例子:求12个问题中答对5题及以下的概率,其中每个问题只有两个备选答案。

准确的是0.387,近似正态分布的结果是0.5,差距有点大。错在哪里呢?

首先看概率分布X~B(12, 0.5),我们想求出答对的问题不足6个的概率,并已通过计算P(X<6)获得答案。

然后我们用X~N(6, 3)对这个分布进行近似,根据需要,为了求出二项分布的概率P(X<6),我们用正态分布计算P(X<6):

进一步仔细观察两种概率分布。虽然不易察觉,但两者之间确实存在重大差别:我们分别用于计算两个概率的两个范围略有不同。在计算正态分布的时候,我们使用的实际范围略微大一些,这正是概率变大的原因。

我们在对前面的两种概率进行计算时忽略了一件事一没有考虑到其中一种分布是离散分布(二项分布),而另一种分布是连续分布(正态分布)。这很重要,因为我们所用的概率范围会大大影响最终概率。

以下在同一张图上体现了 X~B (12,0.5) 和 N (6,3) 这两种概率分布。我们特别指出了正态分布所用概率范围超出二项分布所用范围的部分。

当我们从一个离散概率分布中取出一些整数,并将这些整数转化为连续标度时,我们所观察的并不仅仅是那些精确的孤立数值,相反,我们观察的是由多个数字形成的范围,这些数字经过取整,得到的正是我们取用的那些精确的离散整数。

让我们以离散数值 6 为例,当我们将数字 6 转化成一个连续标度时,我们需要考虑所有取整后等于 6 的数字,即,从 5.5 到 6.5 的整个数字范围。

此前我们试着用正态分布近似计算答对题数在 6 以下的概率时,没有注意到离散数值 6 转变成了连续标度。可实际上,离散数值 6 包含了从 5.5 到 6.5 之间的一个范围,因此,我们不应该计算 P (X<6),而应该试着计算 P (X <5.5)。

这种调整被称为连续性修正。在将离散数值转换为连续标度时,所作的小幅调整就是连续性修正。

如果我们用P(X<5.5)=0.3858来计算概率,则与用二项分布得的概率就十分近似了。

几种连续性修正的情况

问:确实能得到精确结果吗?

答:没错,在大多数情况下都足够精确。但要记住:需要进行连续性修正。如果不进行连续性修正,则结果的正确性将下降。

问:怎么对<和>进行连续性修正?像≤和≥一样进行处理吗?

答:有差别的,这要看你要包含哪个数值,要排除哪个数值。

在用≤和≥计算概率的时候,你需要确保不等式中的数值落在已知概率范围之内。因此,假如要计算 P (X≤ 10),则需要确保数值范围中包含 10,即需要考虑 P (X <10.5)。

在用<或>计算概率时,你需要确保不等式中的数值落在已知概率范围之外。即,假如要计算 P (X <10),则需要确保数值范围中不包含 10,即需要考虑 P (X <9.5)。

问:正态分布和泊松分布都能作为二项分布的近似,我该用哪一个?

答:这要看具体情况。如果 X~ B (n, p),当 np>5 且 nq>5 时,则使用正态分布近似代替二项分布。如果 n>50 且 p <0.1, 则可以使用泊松分布近似代替二项分布。

连续性修正例题

情景答案:

小知识:“正态”是中文说法,其实,在英语里,名字是“normal’”,意思是“常见的,典型的”,主要是因为它能恰当代表多种多样的数据类型。这些数据的概率分布具有独特的形状一钟形,十分平滑。可以说它是理想型。(比如一批面包的重量可能符合正态分布,有重有轻,但在一个数值边缘徘徊)

用正态分布近似代替泊松分布

假设一个情境:过山车有时候会发生故障,故障导致延迟,延迟导致耗钱。过山车预期的故障次数为每年40次。投资人算过,如果停机概率低于每年52次,就可以赚到钱。求这个概率。

这是一个典型的泊松分布,详细介绍见:【读书笔记->统计学】07-03 离散型概率分布-泊松分布概念简介。如果X表示一年内的故障次数,则X~Po(40)。我们需要求P(X<52),为此我们需要求出52以内的所有X值分别对应的概率。

这也太麻烦了,所幸!在某些特定情况下,泊松分布的形状很像正态分布。

这样我们就不需要一个个计算了,直接求正态概率表的值。

如果X~Po(λ),表示相应的正态近似为X~N(λ, λ)。当λ很大的时候,泊松分布的形状就会与正态分布相似,这时候就可以代替。

当λ大于15时可谓足够大。

泊松分布的近似

如果X~Po(λ)且λ>15,我们就能用X~N(λ, λ)近似计算X~Po(λ)。

泊松分布例题(⚠️记得连续性修正

总结

小知识:几何分布是不能用正态分布替代的,因为它的分布外形永远不会和正态分布相似。(其他两个能代替是因为某些情况下,形状相似

问:用正态分布近似二项分布或泊松分布有什么好处呢?如果坚持用原来的分布,结果是不是会更准确呢?

答:如果使用原来的分布,结果的确会更准确,但这极费时间。如果你想通过二项分布或泊松分布求出一个数值范围的概率,就需要求出该数值范围中的每一个单独数值的概率。相反,使用正态分布则可以查找整个范围的概率,这样就大大地简化了。

【读书笔记->统计学】09-02 将正态分布运用到其他概率分布-用正态分布近似代替二项分布、泊松分布概念简介相关推荐

  1. 读书笔记 Effective C++: 02 构造析构赋值运算

    条款05:了解C++默认编写并调用的哪些函数 编译器会为class创建: 1. default构造函数(前提是:没有定义任何构造函数): 如果已经声明了一个构造函数,编译器就不会再创建default构 ...

  2. IOS学习笔记 ---- 15/09/02

    1.三种方式监听方式: addTarget方法: 使用代理方法: [[NSNotificationCenter defaultCenter] addObserver]方法监听通知: 2.在storyb ...

  3. 【读书笔记->统计学】07-03 离散型概率分布-泊松分布概念简介

    泊松分布 假设一个情境:下星期电影院有一个大型促销,影院经理希望一切都完美无缺.爆米花机每一周的平均故障次数为3.4,或者说爆米花机的故障率为3.4. 求爆米花机下一周不发生故障的概率有多大?(如果预 ...

  4. 【读书笔记->统计学】01-02 饼图、条形图、直方图、累计频数图、折线图概念简介

    饼图 大家应该都知道饼图,饼图块的大小表示占总体的比例(频数).下面是一个例子. 频数:"频数"表示在一个特定组,或者说在一个特定区间内的统计对象的数目,类似于数数. 饼图可以帮助 ...

  5. 读书笔记: 博弈论导论 - 16 - 不完整信息的动态博弈 信号传递博弈

    读书笔记: 博弈论导论 - 16 - 不完整信息的动态博弈 信号传递博弈 信号传递博弈(Signaling Games) 本文是Game Theory An Introduction (by Stev ...

  6. 读书笔记: 博弈论导论 - 总结

    读书笔记: 博弈论导论 - 总结 总结 本文是Game Theory An Introduction (by Steven Tadelis) 的学习笔记的总结. 博弈论 博弈论是关于智能理性决策者的协 ...

  7. 读书笔记: 博弈论导论 - 14 - 不完整信息的静态博弈 机制设计

    读书笔记: 博弈论导论 - 14 - 不完整信息的静态博弈 机制设计 机制设计(Mechanism Design) 本文是Game Theory An Introduction (by Steven ...

  8. 091025 L DNA读书笔记

    读书笔记和读后感 02 如何开始第一个工作     大企业,有很多好处.它与小企业的不同在于,小企业的竞争是对外的,而大企业的竞争则是来自于内部的.选择进入大企业的人,一定要有一个目标,多年后做到某个 ...

  9. 读书笔记: 博弈论导论 - 05 - 完整信息的静态博弈 纳什均衡

    读书笔记: 博弈论导论 - 05 - 完整信息的静态博弈 纳什均衡 压制信念:纳什均衡(Pinning Down Beliefs: Nash Equilibrium) 本文是Game Theory A ...

最新文章

  1. c++ std::priority_queue优先队列
  2. Ada 程序设计语言(The Ada Programming Language)[第二集]
  3. 一行代码搞定 R 语言模型输出!(使用 stargazer 包)
  4. 百度网盘的这个收作业的功能不好用
  5. 《我的青春谁做主》我想要的结局
  6. Mac远程控制软件哪款好用?Remote Desktop manager for mac「专业」
  7. 解决windows 2003打了系统补丁后远程桌面不能用
  8. GitLab+Nornor3.0.0完成CI/CD流水线配置(更新版)
  9. 百德科技专业定制软件开发
  10. 拼多多api接口php算法,php封装的拼多多开放平台API类库
  11. Nginx-免费SSL证书申请
  12. quartz mysql表文件_quartz 持久化 数据库表
  13. 三段论--正向演绎推理
  14. unity 获取本地视频/下载网络视频
  15. shell清除cach
  16. 以太网、令牌环、FDDI、ATM、WLAN
  17. 2.4.1 数据库中间件设计篇
  18. Python打造一个在线G代码生成器
  19. 9102年了,还不知道Android为什么卡?
  20. 动态面板的作用和用法

热门文章

  1. 重庆大学 c++2022级第七次作业——类 7-2 国际贸易统计
  2. 被AI包裹的冬天,智慧供热打破城市供热的“不可能三角”
  3. 千锋教育python2104期总结day6
  4. Vue进阶知识(2)
  5. 数据库课程设计(电子报纸订购系统)
  6. [蓝桥杯]K倍区间(c++超详解)
  7. 前端开发实习生面试总结
  8. CellPress | 蛋白设计所带来的行业革命
  9. mysql设置大小写区分
  10. 从内到外无懈可击,努比亚Z17让你一见钟情!