正态分布

对于正态分布,首先补充其理论知识,然后我们根据<深入浅出统计学>中的计算步骤,进行编程实现.

正态分布(Normal distribution),也称“常态分布”,又名高斯分布(Gaussian distribution),最早由A.棣莫弗在求二项分布的渐近公式中得到。C.F.高斯在研究测量误差时从另一个角度导出了它。P.S.拉普拉斯和高斯研究了它的性质。是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
正态曲线呈钟型,两头低,中间高,左右对称因其曲线呈钟形,因此人们又经常称之为钟形曲线。
若随机变量X服从一个数学期望为μ、方差为σ^2的正态分布,记为N(μ,σ^2)。其概率密度函数为正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。当μ = 0,σ = 1时的正态分布是标准正态分布。

定理

由于一般的正态总体其图像不一定关于y轴对称,对于任一正态总体,其取值小于x的概率。只要会用它求正态总体在某个特定区间的概率即可。
为了便于描述和应用,常将正态变量作数据转换。将一般正态分布转化成标准正态分布。

服从标准正态分布,通过查标准正态分布表就可以直接计算出原正态分布的概率值。故该变换被称为标准化变换。(标准正态分布表:标准正态分布表中列出了标准正态曲线下从-∞到X(当前值)范围内的面积比例。)

标准正态分布

当 时,正态分布就成为标准正态分布

分布曲线的图形特征

集中性:正态曲线的高峰位于正中央,即均数所在的位置。
对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
曲线与横轴间的面积总等于1,相当于概率密度函数的函数从正无穷到负无穷积分的概率为1。即频率的总和为100%。

关于μ对称,并在μ处取最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点,形状呈现中间高两边低,正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线

正态概率计算三步走

  1. 确定分布与范围
    如果正态分布适用于遇到的情况,则看看是否能求出均值和标准差.只要先得知这些信息,才能求出概率;还需要弄清楚要求的是哪一部分面积
  2. 数据标准化
    使数据标准化,从而得到一个标准正态曲线.下面我会给出相应的代码.
  3. 查找概率
    在原书中所写的是在概率表中直接查找相应的概率,但是在这里我们只需要编程求得即可,不再需要这么麻烦的操作.

例题与代码

能不能找到心上人-朱莉的相亲问题

问: 朱莉有一个问题,她希望理想中的伴侣能够比她高,最好能够比穿上五英寸高跟鞋的她还要高,这样她就可以自在的穿高跟鞋了。我们查找数据,统计邦的男生身高服从于N(71,20.25),而朱莉身高64英寸,那么在穿和不穿高跟鞋的两种情况下,朱莉的约会者比她高的概率是多少呢?

答: 此处我们使用scipy.stats中的norm类解决该问题,在默认情况下norm为X~N(0,1)的标准正态分布,如果有需要的话,比如我们想要直接计算X~N(3,4^2)的正态分布,我们也可以使用norm_34=norm(3,4)类似的语法来创建我们需要的norm类,要注意的是前面的3 为 期望μ,而方差σ = 4 。

from scipy.stats import norm
# 对于不服从标准正态分布的函数我们需要先进行标准化,也就是Z = (X - μ) / σ
# math.sqrt(20.25) = 4.5
print("约会者比朱莉高的概率为:{0:.3f}".format(1 - norm.cdf((64-71)/4.5)))
print("约会者比穿五英寸高根鞋的朱莉高的概率为:{0:.3f}".format(1 - norm.cdf((69-71)/4.5)))
约会者比朱莉高的概率为:0.940
约会者比穿五英寸高根鞋的朱莉高的概率为:0.672

看来我们的朱莉能够很快找到符合择偶标准的心上人的,既然如此,我们还是回到语法上来,更加深入的学习一下语法问题吧.更多语法问题请参考scipy的norm 模块,不过鉴于我们不需要知道这么多,所以列出常用函数如下:

# 计算负无穷到x的概率
print(norm.cdf(-0.15))
# 计算负无穷到点的概率
print(norm.cdf([-0.15,0.5]))
print(norm.cdf([-0.15,0.15]))
# 概率密度函数
print(norm.pdf(0.15))
0.4403823076297575
[0.44038231 0.69146246]
[0.44038231 0.55961769]
0.39447933090788895

爱情就像过山车-不止一个事件

最近婚礼筹办市场办的红火,德克推出了”爱情过山车”项目,可是过山车载重超过380磅就会有危险.我们的新郎和新娘还能顺利的坐上过山车吗?

对于之前朱莉的相亲问题,她的相亲对象只有一个,因此我们只要计算一个独立事件的正态分布就可以了.但是现在我们要计算的是新郎和新娘两个人体重的正态分布,来确保他们的综合体重不超过380磅,这个时候又要这么办呢?

对于计算两个事件的综合概率,我们首先要搞清楚的是这两个事件是否独立,然后要计算的概率分布类型.首先对于新郎和新娘的体重这两个事件而言,应该属于两个独立事件.我们需要按照两个独立变量去求解.而综合体重也属于连续数据,而且也是符合正态分布的.那么我们要求解的就是两个独立变量的综合正态分布.对于两个独立事件的正态分布,其期望与方差的计算方式与之前四五章的离散概率的计算是一样的

E(X+Y) = E(X)+E(Y)
E(X-Y) = E(X)-E(Y)
Var(X+Y) = Var(X)+Var(Y)
Var(X-Y) = Var(X)+Var(Y)

现在已知新郎的体重:Y~N(190,500),新娘体重:X~N(150,400),那么两者综合体重小于380的概率为:

根据上面的双独立变量的期望与方差计算,已知新郎和新娘两人体重的正态分布,那么可以得到,两人综合体重的正态分布为 (X+Y)~N(340,900),由代码计算得到:

import math
print("第一种计算方式先化为标准分,然后计算",norm.cdf((380-340)/math.sqrt(900)))
print("第二种计算方式:直接声明一个(X+Y)~N(340,900)的norm类")
norm_340_30 = norm(340,30)
print(norm_340_30.cdf(380))
第一种计算方式先化为标准分,然后计算 0.9087887802741321
第二种计算方式:直接声明一个(X+Y)~N(340,900)的norm类
0.9087887802741321

替代计算

泊松分布与正态分布

当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。通常当n≧20,p≦0.05时,就可以用泊松公式近似得计算。
事实上,泊松分布正是由二项分布推导而来的,具体推导过程可参见百度百科-泊松分布词条相关部分。其对应关系如下:

X ~ Po(λ)
X ~ N(λ ,λ)
μ = λ  = σ^2

二项分布与正态分布

仅仅从数学角度上来讲,当np,nq双双大于 5 时,二项分布也可以通过近似正态分布来计算。但是因为两者一个为连续性分布,一个为离散型分布,所以必须要进行连续性修正。

划分方式十分简单,当需要计算二项分布的整数时,只需要计算该整数上下0.5的连续变量即可。换句话也就数说,正态分布中[n-0.5,n+0.5]这一连续区间的概率即为 二项分布中 n这一整数所对应的概率。

踏破铁鞋无觅处-只因没有计算机?

对于编程计算的我们而言,使用正态分布近似来简化二项分布的计算其实已经是一种得不偿失的方法。对于计算机而言,即使很大的正态分布也可以在一秒钟之内算完。不过这并不代表着我们就不需要了解正态分布近似二项分布这一数学性质了。所以即使是已经有计算机,不再需要简化运算,而更求精度与编写效率的我们,基本数学知识也是必不可少的。

参考

[1] 百度百科-正态分布

[2] scipy的norm 模块
[3] 《深入浅出统计学》

第八九章 正态分布与超越正态相关推荐

  1. Java编程思想—第八九章

    1.前期绑定 后期绑定 当子类向上转型为基类对象的时候,不知道原来是哪一个子对象,所以需要辨别,此时用到了绑定,来判定哪一个子对象. 前期绑定:运行程序之前就绑定. 后期绑定:Java中除了stati ...

  2. 《Unix编程艺术》 八九章读书笔记

    8 微型语言: 寻找歌唱的乐符 从好的符号体味出的巧妙和启发,就算身边的老师也不过如此. 对软件错误模式进行大量的研究得出的一个最一致的结论时,程序员每百行代码的出错率和所使用的编程语言在很大程度上无 ...

  3. 重大突破!中国量子计算机“九章”问世!速度超谷歌“量子霸权”100亿倍

    今日,潘建伟团队量子计算原型机"九章"问世,实现"量子霸权". 去年美国谷歌曾经推出了一台量子计算原型机"悬铃木",当时国际科学界都给予很大 ...

  4. 笔记:《深入浅出统计学》第八、九章:概率密度、正态分布(高斯分布)

    离散数据由单个数值组成,连续数据包含一个数据范围. 1.概率密度: 连续随机变量的概率分布可用概率密度函数描述. 概率密度是一种表示概率的方法,并非概率本身.概率密度指出各种范围内的概率的大小,通过概 ...

  5. 山海演武传·黄道·第一卷 雏龙惊蛰 第十八 ~ 十九章 煌煌金麟不夜城

    山海演武传·黄道·第一卷 雏龙惊蛰 第十八 - 十九章 煌煌金麟不夜城 "圣明来源于君主本身,而不是臣下的忠言.在昏君眼里,即使天使的声音,也终会化作恶魔的诅咒." <古神纪 ...

  6. 【Nan‘s 吴恩达机器学习笔记】第八、九章 神经网络

    [Nan's 吴恩达机器学习笔记]第八.九章 神经网络 神经网络(Neural Networks) 8.1 非线性假设 8.2 模型表示 前向传播算法(Forward Propagation) 8.3 ...

  7. 量子计算机九章人民日报,超越“量子霸权”100亿倍!中国“九章”为何后来居上?...

    来源 | 信风智库综合 <九章算术>,是中国古代最早的数学专著,它的出现标志中国古代数学形成了完整的体系. 借用<九章算术>之名,12月4日,中国科学技术大学宣布该校潘建伟团队 ...

  8. SQL基础教程MICK版 ···第七、八、九章总结

    SQL基础教程MICK版 ···第七.八.九章总结 表的联结 -- 内联结.外联结 表的合并--- UNION (其他操作对MYSQL不适用.没有看) 关于ROLLUP---显示小计和总计 驱动的概念 ...

  9. 八皇后时间复杂度_九章算法 | N皇后问题

    n皇后问题是将n个皇后放置在n*n的棋盘上,皇后彼此之间不能相互攻击(任意两个皇后不能位于同一行,同一列,同一斜线). 给定一个整数n,返回所有不同的n皇后问题的解决方案. 每个解决方案包含一个明确的 ...

最新文章

  1. 项目war包部署到第三方Tomcat,访问路径必须加上项目名称的坑
  2. 前端跨域请求get_前端跨域请求jsonp实现
  3. 『Balancing Act 树的重心』
  4. 【腾讯Bugly干货分享】Android内存优化总结实践
  5. Django多表查询练习题
  6. 【C语言】在有序数组中插入一个数,保证它依然有序
  7. Golang开发环境配置
  8. 问题二十五:为什么有时候XnView无法显示PPM图片?
  9. win和linux下DBI安装手册
  10. spine怎么取消版本升级_设置 - Spine用户指南
  11. oracle loap函数用法
  12. java 面向对象三个特征_[Java] 面向对象的三个特征与含义
  13. 王逸凡的十万个为什么
  14. win7喇叭红叉耳机扬声器已拔出驱动无法修复
  15. 面试再问ThreadLocal,别说你不会!
  16. 工业软件国产化路在何方?INTEWELL助力民族工业落地生“根”
  17. 【Java的反射机制】
  18. Chrome中实现使用迅雷一次性选中并下载网页内全部链接的方法
  19. python音乐库_python - 网易云音乐的 Python 组件库
  20. 2016年,对我影响最大的三本书

热门文章

  1. React上下文-Context
  2. Docker:You cannot remove a running container
  3. 创建分区表+分区表的分类+创建散列分区表+查看散列分区表分区中的数据+创建列表分区表+查看列表分区表分区中的数据...
  4. asp 导出excel数据 fso 单元格格式
  5. 对require和import的认识
  6. 使用charles对vue项目进行map Local功能mock数据页面不正常显示
  7. wine清除软件残余图标
  8. Java中 volatile 关键字的最全总结,快给自己查缺补漏吧!
  9. 苏宁高时效、高并发秒杀业务中台的设计与实现
  10. 最近学习了 HTTP 连接池