在前文中,实际上我们不仅仅在考虑,抽样分布的置信区间与假设检验方法;实际上,我们面对的是一种特殊的分布。当然,我们都学过概率论,所以我们也知道,这其实就是中心极限定理——特别的,这里是二项分布逼近正态分布的情况,然后我们对它采取标准化操作,变为标准正态分布。以下我们还是从直观的、统计的角度来看待、感受标准正态分布,而不是像概率论教材里那样严谨的从数学上证明。

8.标准正态分布

上面我们提到的对抽样分布的归一化公式,其中 p ^ \hat p p^​ 是各次实验的统计数据, p p p是问题的真值(实践中,我们用抽样分布的均值 μ \mu μ来代替, n n n:
p ^ − p p ( 1 − p ) n \hat p- p \over \sqrt { p(1-p) \over n} np(1−p)​ ​p^​−p​
例如,之前对于民意调查的实验结果,经过归一化后如下:

我们将离散的分布连续化,将其中的内容变得更加平滑:

在这里,我们可以看到之前的95%置信区间的1.96是怎么来的,其实就是归一化后,[-1.96,1.96]就是95%置信区间。

实际上,标准化是十分有用的,这里还是再举个类似的例子,啰嗦两句:

例如,其中的0.62是某一次的抽样结果,那么它不在95%置信区间内。通过归一化方法,我们发现归一化后的值为2.4,也不在95%置信区间内。

归一化使得我们在内核相同但具体应用场景不同的时候,即具体数字不同,但分布形态相同时,将分布转换为相同的标准正态分布,将具体的抽样结果对应起来。啰嗦一下,标准正态分布的概率密度函数是:
1 2 π e − 1 2 x 2 {1 \over \sqrt {2 \pi}}e^{-{1\over 2}x^2} 2π ​1​e−21​x2
值得注意的是,使用正态分布近似伯努利分布,并不意味着他们真正的相同。首先,伯努利分布是离散的分布,而正态分布是连续的;其次,这种近似也是有条件的近似,其相关条件如下所述。

  • 理论上,就是“棣莫弗-拉普拉斯中心极限定理”,中心极限定理的先驱。

9.近似条件

并不是所有的伯努利实验结果,都可以被近似为正态分布,并用上面的方法分析。直观的来说,真实的概率 p p p和样本容量 n n n都会影响近似程度,因为他们都会影响抽样分布的形态。下面举两个例子:

9.1 样本容量的影响

首先,我们自然是希望样本容量大一些好,如果样本容量 n n n很小,例如在抛硬币的时候,我们认为 n = 2 n=2 n=2,那么结果如下:

显然,由于每次实验的结果都太离散了,不可能用连续的分布去近似它。而且我们算一算95%置信区间,结果都超出[0,1]范围了。因此,n要足够大,才能够充分得到更加连续的结果。

9.2 真实值影响

如果真实值非常接近0或者接近1,那么分布形态也会不太像正态分布。如下所示,看起来类似于一个“偏态分布”:

显然,这里的n不够大:n比较小的时候,分布比较宽,直观地想象,分布的“一侧难以展开”,因此如果n取值大一些,那么分布还是会比较类似于正态分布的。

总结

实际上,在概率论课本上,写的是当 n p > 20 np>20 np>20的时候,我们就可以用正态分布来逼近伯努利分布了。我们首先要意识到, n p np np其实是多次实验时,事件发生的期望的含义,这意味着很多时候我们只要知到事件发生的期望,而不需要知到具体的概率,就可以做近似了。其次,上面的公式可以说是一个经验公式, n p ≥ 10 np \ge10 np≥10或者说 n ( 1 − p ) ≥ 10 n(1-p) \ge 10 n(1−p)≥10都是可以的。这里我们要注意,p和1-p是对称的,因此我们需要考虑p和1-p的较小值,满足上面的条件。

例如我们在上面9.1节中投硬币的实验中,设置 n = 20 n=20 n=20,那么结果就好多了。

或者9.2节中,将样本大小设为 n = 100 n=100 n=100,结果也看起来好多了(因为100*(1-0.9)=10),这里我们要注意,p和1-p是对称的,在这里p很大,所以我们肯定考虑1-p满足条件。

此外,用泊松分布逼近伯努利分布,其实也是这个公式,类似的这个道理。但是如果实在是不能满足上面的公式,即 n n n太小,或者 p p p取值过于极端,那么我们应该如何?

书中介绍,可以使用exact methods。实际上就是我们可以假设二项分布中的 p p p和 1 − p 1-p 1−p来直接计算理想的结果,但是这和我们验证假设又有什么关系呢。。。

【Statistics-5】——正态分布与二项分布的逼近相关推荐

  1. 【分布族谱】正态分布和二项分布的关系

    文章目录 正态分布 二项分布 验证 正态分布 正态分布,最早由棣莫弗在二项分布的渐近公式中得到,而真正奠定其地位的,应是高斯对测量误差的研究,故而又称Gauss分布.测量是人类定量认识自然界的基础,测 ...

  2. 【概率论与数理统计】猴博士 笔记 p33-35 超几何分布、正态分布、二项分布

    超几何分布H 例1: 设随机变量X~H(5,3,2),求P{X=1}.EX.DX. 解: 题意是:共有5个球,其中3个目标球,共取2次,取到1个目标球的概率. P { X = 1 } = 3 5 E ...

  3. 复杂正态分布运用——独立正态分布组合概率、二项分布、泊松分布近似正态分布的运用

    上一篇讲了正态分布的基本概念和概率求解的计算方法(正态分布及其概率计算https://blog.csdn.net/weixin_41140174/article/details/99696028),这 ...

  4. 几种概率分布(伯努利分布、二项分布、泊松分布、均匀分布、正态分布、指数分布、伽马分布)

    伯努利分布(Bernoulli Distribution) 又名两点分布或者0-1分布,是一个离散型概率分布,为纪念瑞士科学家雅各布·伯努利而命名.若伯努利试验成功,则伯努利随机变量取值为1.若伯努利 ...

  5. 【读书笔记->统计学】09-02 将正态分布运用到其他概率分布-用正态分布近似代替二项分布、泊松分布概念简介

    用正态分布近似代替二项分布 假设一个情境:有40道题,每一道你都不知道答案,答对概率为1/4.求答对30题及以上的概率. 这个是典型的二项分布,具体介绍见:[读书笔记->统计学]07-02 离散 ...

  6. 概率论与数理统计(Probability Statistics I)

    Table of Contents 概率论的基本概念(The Basic Concept of Probability Theory) 随机变量及其分布(Random Variable and Its ...

  7. UA MATH564 概率分布1 二项分布下

    UA MATH564 概率分布1 二项分布下 de Moivre-Laplace定理 Poisson分布近似二项分布 这一篇考虑二项分布的一些近似计算问题,考虑X∼Binom(n,p)X \sim B ...

  8. 第八九章 正态分布与超越正态

    正态分布 对于正态分布,首先补充其理论知识,然后我们根据<深入浅出统计学>中的计算步骤,进行编程实现. 正态分布(Normal distribution),也称"常态分布&quo ...

  9. 笔记:《深入浅出统计学》第八、九章:概率密度、正态分布(高斯分布)

    离散数据由单个数值组成,连续数据包含一个数据范围. 1.概率密度: 连续随机变量的概率分布可用概率密度函数描述. 概率密度是一种表示概率的方法,并非概率本身.概率密度指出各种范围内的概率的大小,通过概 ...

最新文章

  1. proxmox 宕机转义_Proxmox+Ceph的HCI环境搭建
  2. 远程服务器如何传文件大小,linux服务器远程传文件大小
  3. python创建一个新的txt文件-如何在python中编辑文本文件并创建一个新的文本文件?...
  4. 【错误记录】NDK 动态库报错 ( dlopen failed: file offset for the library /lib/arm64/libwebp.so“ >= file size:0)
  5. SSM始用 @Autowired(required = false)的一个坑
  6. mysql数据库new和old_数据库触发器中new表和old表是什么意思?
  7. 火绒的下载使用(附应急解决Q盾:QQProtect.exe的方法)
  8. Linux 2 unit7 挂载网络共享
  9. python的使用说明_Python教程:Python中__init__.py的使用用法说明
  10. 中英文混合字符串长度的获取
  11. 如何用一头死驴赚到998元
  12. java简单递归算法,Java递归算法简单示例两则
  13. 《Python程序设计(第3版)》课后习题答案
  14. 2021年最近的猝死案例有点多!!!(关注我,让你活的更久一点)
  15. DRM in Android详解
  16. MATLAB中plot函数的用法
  17. python 单一继承定义_python 单继承、多继承、菱形继承
  18. 微信小程序开发经验总结
  19. 用fun函数实现s=(ln(1)+ln(2)+...+ln(m))^1/2,函数返回s
  20. android 层叠view,RecyclerView进阶之层叠列表(上)

热门文章

  1. oracle 12.2 迅雷下载,oracle下载-oracle数据库v12.2 最新版下载-6188手游网
  2. Unable to load authentication plugin ‘caching_sha2_password‘
  3. JS图像处理:找出两张图片的差异部分并提取出来
  4. R语言获取dataframe数据中某一数据列以某一特定字符串开头的数据行
  5. 程序员跳槽找工作避坑指南
  6. 寻宝机器人电路板焊接_寻宝活动——组装机器人
  7. 2022/1/17 位运算
  8. 猿来小课Java视频教程讲师浅谈JAVA体系结构
  9. c语言pta运行时错误,求助大佬PTA提交结果有个结果是运行时错误,是什么原因啊?...
  10. linux中病毒排查步骤,linux系统下病毒排除思路