【Statistics-5】——正态分布与二项分布的逼近
在前文中,实际上我们不仅仅在考虑,抽样分布的置信区间与假设检验方法;实际上,我们面对的是一种特殊的分布。当然,我们都学过概率论,所以我们也知道,这其实就是中心极限定理——特别的,这里是二项分布逼近正态分布的情况,然后我们对它采取标准化操作,变为标准正态分布。以下我们还是从直观的、统计的角度来看待、感受标准正态分布,而不是像概率论教材里那样严谨的从数学上证明。
8.标准正态分布
上面我们提到的对抽样分布的归一化公式,其中 p ^ \hat p p^ 是各次实验的统计数据, p p p是问题的真值(实践中,我们用抽样分布的均值 μ \mu μ来代替, n n n:
p ^ − p p ( 1 − p ) n \hat p- p \over \sqrt { p(1-p) \over n} np(1−p) p^−p
例如,之前对于民意调查的实验结果,经过归一化后如下:
我们将离散的分布连续化,将其中的内容变得更加平滑:
在这里,我们可以看到之前的95%置信区间的1.96是怎么来的,其实就是归一化后,[-1.96,1.96]就是95%置信区间。
实际上,标准化是十分有用的,这里还是再举个类似的例子,啰嗦两句:
例如,其中的0.62是某一次的抽样结果,那么它不在95%置信区间内。通过归一化方法,我们发现归一化后的值为2.4,也不在95%置信区间内。
归一化使得我们在内核相同但具体应用场景不同的时候,即具体数字不同,但分布形态相同时,将分布转换为相同的标准正态分布,将具体的抽样结果对应起来。啰嗦一下,标准正态分布的概率密度函数是:
1 2 π e − 1 2 x 2 {1 \over \sqrt {2 \pi}}e^{-{1\over 2}x^2} 2π 1e−21x2
值得注意的是,使用正态分布近似伯努利分布,并不意味着他们真正的相同。首先,伯努利分布是离散的分布,而正态分布是连续的;其次,这种近似也是有条件的近似,其相关条件如下所述。
- 理论上,就是“棣莫弗-拉普拉斯中心极限定理”,中心极限定理的先驱。
9.近似条件
并不是所有的伯努利实验结果,都可以被近似为正态分布,并用上面的方法分析。直观的来说,真实的概率 p p p和样本容量 n n n都会影响近似程度,因为他们都会影响抽样分布的形态。下面举两个例子:
9.1 样本容量的影响
首先,我们自然是希望样本容量大一些好,如果样本容量 n n n很小,例如在抛硬币的时候,我们认为 n = 2 n=2 n=2,那么结果如下:
显然,由于每次实验的结果都太离散了,不可能用连续的分布去近似它。而且我们算一算95%置信区间,结果都超出[0,1]范围了。因此,n要足够大,才能够充分得到更加连续的结果。
9.2 真实值影响
如果真实值非常接近0或者接近1,那么分布形态也会不太像正态分布。如下所示,看起来类似于一个“偏态分布”:
显然,这里的n不够大:n比较小的时候,分布比较宽,直观地想象,分布的“一侧难以展开”,因此如果n取值大一些,那么分布还是会比较类似于正态分布的。
总结
实际上,在概率论课本上,写的是当 n p > 20 np>20 np>20的时候,我们就可以用正态分布来逼近伯努利分布了。我们首先要意识到, n p np np其实是多次实验时,事件发生的期望的含义,这意味着很多时候我们只要知到事件发生的期望,而不需要知到具体的概率,就可以做近似了。其次,上面的公式可以说是一个经验公式, n p ≥ 10 np \ge10 np≥10或者说 n ( 1 − p ) ≥ 10 n(1-p) \ge 10 n(1−p)≥10都是可以的。这里我们要注意,p和1-p是对称的,因此我们需要考虑p和1-p的较小值,满足上面的条件。
例如我们在上面9.1节中投硬币的实验中,设置 n = 20 n=20 n=20,那么结果就好多了。
或者9.2节中,将样本大小设为 n = 100 n=100 n=100,结果也看起来好多了(因为100*(1-0.9)=10),这里我们要注意,p和1-p是对称的,在这里p很大,所以我们肯定考虑1-p满足条件。
此外,用泊松分布逼近伯努利分布,其实也是这个公式,类似的这个道理。但是如果实在是不能满足上面的公式,即 n n n太小,或者 p p p取值过于极端,那么我们应该如何?
书中介绍,可以使用exact methods
。实际上就是我们可以假设二项分布中的 p p p和 1 − p 1-p 1−p来直接计算理想的结果,但是这和我们验证假设又有什么关系呢。。。
【Statistics-5】——正态分布与二项分布的逼近相关推荐
- 【分布族谱】正态分布和二项分布的关系
文章目录 正态分布 二项分布 验证 正态分布 正态分布,最早由棣莫弗在二项分布的渐近公式中得到,而真正奠定其地位的,应是高斯对测量误差的研究,故而又称Gauss分布.测量是人类定量认识自然界的基础,测 ...
- 【概率论与数理统计】猴博士 笔记 p33-35 超几何分布、正态分布、二项分布
超几何分布H 例1: 设随机变量X~H(5,3,2),求P{X=1}.EX.DX. 解: 题意是:共有5个球,其中3个目标球,共取2次,取到1个目标球的概率. P { X = 1 } = 3 5 E ...
- 复杂正态分布运用——独立正态分布组合概率、二项分布、泊松分布近似正态分布的运用
上一篇讲了正态分布的基本概念和概率求解的计算方法(正态分布及其概率计算https://blog.csdn.net/weixin_41140174/article/details/99696028),这 ...
- 几种概率分布(伯努利分布、二项分布、泊松分布、均匀分布、正态分布、指数分布、伽马分布)
伯努利分布(Bernoulli Distribution) 又名两点分布或者0-1分布,是一个离散型概率分布,为纪念瑞士科学家雅各布·伯努利而命名.若伯努利试验成功,则伯努利随机变量取值为1.若伯努利 ...
- 【读书笔记->统计学】09-02 将正态分布运用到其他概率分布-用正态分布近似代替二项分布、泊松分布概念简介
用正态分布近似代替二项分布 假设一个情境:有40道题,每一道你都不知道答案,答对概率为1/4.求答对30题及以上的概率. 这个是典型的二项分布,具体介绍见:[读书笔记->统计学]07-02 离散 ...
- 概率论与数理统计(Probability Statistics I)
Table of Contents 概率论的基本概念(The Basic Concept of Probability Theory) 随机变量及其分布(Random Variable and Its ...
- UA MATH564 概率分布1 二项分布下
UA MATH564 概率分布1 二项分布下 de Moivre-Laplace定理 Poisson分布近似二项分布 这一篇考虑二项分布的一些近似计算问题,考虑X∼Binom(n,p)X \sim B ...
- 第八九章 正态分布与超越正态
正态分布 对于正态分布,首先补充其理论知识,然后我们根据<深入浅出统计学>中的计算步骤,进行编程实现. 正态分布(Normal distribution),也称"常态分布&quo ...
- 笔记:《深入浅出统计学》第八、九章:概率密度、正态分布(高斯分布)
离散数据由单个数值组成,连续数据包含一个数据范围. 1.概率密度: 连续随机变量的概率分布可用概率密度函数描述. 概率密度是一种表示概率的方法,并非概率本身.概率密度指出各种范围内的概率的大小,通过概 ...
最新文章
- proxmox 宕机转义_Proxmox+Ceph的HCI环境搭建
- 远程服务器如何传文件大小,linux服务器远程传文件大小
- python创建一个新的txt文件-如何在python中编辑文本文件并创建一个新的文本文件?...
- 【错误记录】NDK 动态库报错 ( dlopen failed: file offset for the library /lib/arm64/libwebp.so“ >= file size:0)
- SSM始用 @Autowired(required = false)的一个坑
- mysql数据库new和old_数据库触发器中new表和old表是什么意思?
- 火绒的下载使用(附应急解决Q盾:QQProtect.exe的方法)
- Linux 2 unit7 挂载网络共享
- python的使用说明_Python教程:Python中__init__.py的使用用法说明
- 中英文混合字符串长度的获取
- 如何用一头死驴赚到998元
- java简单递归算法,Java递归算法简单示例两则
- 《Python程序设计(第3版)》课后习题答案
- 2021年最近的猝死案例有点多!!!(关注我,让你活的更久一点)
- DRM in Android详解
- MATLAB中plot函数的用法
- python 单一继承定义_python 单继承、多继承、菱形继承
- 微信小程序开发经验总结
- 用fun函数实现s=(ln(1)+ln(2)+...+ln(m))^1/2,函数返回s
- android 层叠view,RecyclerView进阶之层叠列表(上)
热门文章
- oracle 12.2 迅雷下载,oracle下载-oracle数据库v12.2 最新版下载-6188手游网
- Unable to load authentication plugin ‘caching_sha2_password‘
- JS图像处理:找出两张图片的差异部分并提取出来
- R语言获取dataframe数据中某一数据列以某一特定字符串开头的数据行
- 程序员跳槽找工作避坑指南
- 寻宝机器人电路板焊接_寻宝活动——组装机器人
- 2022/1/17 位运算
- 猿来小课Java视频教程讲师浅谈JAVA体系结构
- c语言pta运行时错误,求助大佬PTA提交结果有个结果是运行时错误,是什么原因啊?...
- linux中病毒排查步骤,linux系统下病毒排除思路