正态分布(Normal distribution)又名高斯分布(Gaussian distribution)
正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学、物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力。
若随机变量X服从一个数学期望为μ、标准方差为σ2的高斯分布,记为:
- X∼N(μ,σ2),
则其概率密度函数为
正态分布的期望值μ决定了其位置,其标准差σ决定了分布的幅度。因其曲线呈钟形,因此人们又经常称之为钟形曲线。我们通常所说的标准正态分布是μ = 0,σ = 1的正态分布(见右图中绿色曲线)。
目录[隐藏]
|
[编辑]概要
[编辑]历史
拉普拉斯在误差分析试验中使用了正态分布。勒让德于1805年引入最小二乘法这一重要方法;而高斯则宣称他早在1794年就使用了该方法,并通过假设误差服从正态分布给出了严格的证明。
这个分布被称为“正态”或者“高斯”正好是Stigler名字由来法则的一个例子,这个法则说“没有科学发现是以它最初的发现者命名的”。
[编辑]正态分布的定义
[编辑]概率密度函数
四个不同参数集的概率密度函数(绿色线代表标准正态分布)
正态分布的概率密度函数均值为μ 方差为σ2 (或标准差σ)是高斯函数的一个实例:
- 。
(请看指数函数以及π.)
如果一个随机变量X服从这个分布,我们写作 X ~ N(μ,σ2). 如果μ = 0并且σ = 1,这个分布被称为标准正态分布,这个分布能够简化为
- 。
右边是给出了不同参数的正态分布的函数图。
正态分布中一些值得注意的量:
- 密度函数关于平均值对称
- 平均值是它的众数(statistical mode)以及中位数(median)
- 函数曲线下68.268949%的面积在平均值左右的一个标准差范围内
- 95.449974%的面积在平均值左右两个标准差2σ的范围内
- 99.730020%的面积在平均值左右三个标准差3σ的范围内
- 99.993666%的面积在平均值左右四个标准差4σ的范围内
- 反曲点(inflection point)在离平均值的距离为标准差之处
[编辑]累积分布函数
上图所示的概率密度函数的累积分布函数
累积分布函数是指随机变量X小于或等于x的概率,用密度函数表示为
正态分布的累积分布函数能够由一个叫做误差函数的特殊函数表示:
标准正态分布的累积分布函数习惯上记为Φ,它仅仅是指μ = 0,σ = 1时的值,
将一般正态分布用误差函数表示的公式简化,可得:
它的反函数被称为反误差函数,为:
该分位数函数有时也被称为probit函数。probit函数已被证明没有初等原函数。
正态分布的分布函数Φ(x)没有解析表达式,它的值可以通过数值积分、泰勒级数或者渐进序列近似得到。
[编辑]生成函数
[编辑]动差生成函数
可以通过在指数函数内配平方得到。
[编辑]特征函数
特征函数被定义为exp(itX)的期望值,其中i是虚数单位. 对于一个正态分布来讲,特征函数是:
把矩生成函数中的t换成it就能得到特征函数。
[编辑]性质
- 如果且a与b是实数,那么aX + b∼N(aμ + b,(aσ)2) (参见期望值和方差).
- 如果与是统计独立的正态随机变量,那么:
- 它们的和也满足正态分布 (proof).
- 它们的差也满足正态分布.
- U与V两者是相互独立的。
- 如果和是独立正态随机变量,那么:
- 它们的积XY服从概率密度函数为p的分布
- 其中K0是贝塞尔函数(modified Bessel function)
- 它们的比符合柯西分布,满足X / Y∼Cauchy(0,σX / σY).
- 它们的积XY服从概率密度函数为p的分布
- 如果为独立标准正态随机变量,那么服从自由度为n的卡方分布。
[编辑]标准化正态随机变量
[编辑]矩(英文:moment)
阶数 | 原点矩 | 中心矩 | 累积量 |
---|---|---|---|
0 | 1 | 0 | |
1 | μ | 0 | μ |
2 | μ2 + σ2 | σ2 | σ2 |
3 | μ3 + 3μσ2 | 0 | 0 |
4 | μ4 + 6μ2σ2 + 3σ4 | 3σ4 | 0 |
[编辑]生成正态随机变量
[编辑]中心极限定理
-
主条目:中心极限定理
正态分布的概率密度函数,参数为μ = 12,σ = 3,趋近于n = 48、p = 1/4的二项分布的概率质量函数。
正态分布有一个非常重要的性质:在特定条件下,大量统计独立的随机变量的和的分布趋于正态分布,这就是中心极限定理。中心极限定理的重要意义在于,根据这一定理的结论,其他概率分布可以用正态分布作为近似。
- 参数为n和p的二项分布,在n相当大而且p不接近1或者0时近似于正态分布(有的参考书建议仅在np与n(1 − p)至少为5时才能使用这一近似)。
近似正态分布平均数为μ = np且方差为σ2 = np(1 − p).
- 一泊松分布带有参数λ当取样样本数很大时将近似正态分布λ.
近似正态分布平均数为μ = λ且方差为σ2 = λ.
这些近似值是否完全充分正确取决于使用者的使用需求
[编辑]无限可分性
[编辑]稳定性
[编辑]标准偏差
深蓝色区域是距平均值小于一个标准差之内的数值范围。在正态分布中,此范围所占比率为全部数值之68%。根据正态分布,两个标准差之内(蓝,棕)的比率合起来为95%。根据正态分布,三个标准差之内(深蓝,橙,黄)的比率合起来为99%。
在实际应用上,常考虑一组数据具有近似于正态分布的概率分布。若其假设正确,则约68%数值分布在距离平均值有1个标准差之内的范围,约95%数值分布在距离平均值有2个标准差之内的范围,以及约99.7%数值分布在距离平均值有3个标准差之内的范围。称为"68-95-99.7法则"或"经验法则".
[编辑]正态测试
[编辑]相关分布
- R∼Rayleigh(σ)是瑞利分布,如果,这里X∼N(0,σ2)和Y∼N(0,σ2)是两个独立正态分布。
- 是卡方分布具有ν自由度,如果这里Xk∼N(0,1)其中是独立的。
- Y∼Cauchy(μ = 0,θ = 1)是柯西分布,如果Y = X1 / X2,其中X1∼N(0,1)并且X2∼N(0,1)是两个独立的正态分布。
- Y∼Log-N(μ,σ2)是对数正态分布如果Y = eX并且X∼N(μ,σ2).
- 与Lévy skew alpha-stable分布相关:如果因而.
[编辑]参量估计
[编辑]参数的极大似然估计
[编辑]概念一般化
[编辑]参数的矩估计
[编辑]常见实例
[编辑]光子计数
[编辑]计量误差
某饮料公司装瓶流程严谨,每罐饮料装填量符合平均600毫升,标准差3毫升的常态分配法则。随机选取一罐,容量超过605毫升的概率?容量小于590毫升的概率
[编辑]生物标本的物理特性
[编辑]金融变量
[编辑]寿命
[编辑]测试和智力分布
假设某校入学新生的智力测验平均分数与方差分别为100与12。那么随机抽取50个学生,他们智力测验平均分数大于105的概率?小于90的概率?
本例没有常态分配的假设,还好中心极限定理提供一个可行解,那就是当随机样本长度超过30,样本平均数xbar近似于一个常态变量,因此标准常态变量Z = (xbar –μ) /σ/ √n。
平均分数大于105的概率 = p(Z> (105 – 100) / (12 /√50))= p(Z> 5/1.7) = p( Z > 2.94) = 0.0016
平均分数小于90的概率 = p(Z< (90 – 100) / (12 /√50))= p(Z < 5.88) = 0.0000
[编辑]计算统计应用
[编辑]生成正态分布随机变量
Box-Muller方法是以两组独立的随机数U和V,这两组数在(0,1]上均匀分布,用U和V生成两组独立的标准正态分布随即变量X和Y:
这个方程的提出是因为二自由度的卡方分布(见性质4)很容易由指数随机变量(方程中的lnU)生成。因而通过随机变量V可以选择一个均匀环绕圆圈的角度,用指数分布选择半径然后变换成(正态分布的)x,y坐标。
正态分布(Normal distribution)又名高斯分布(Gaussian distribution)相关推荐
- 高斯分布Gaussian distribution、线性回归、逻辑回归logistics regression
高斯分布Gaussian distribution/正态分布Normal distribution 1.广泛的存在 2020年11月24日,探月工程嫦娥五号探测器发射成功.其运转轨道至关重要,根据开普 ...
- 高斯分布 (Gaussian distribution)
采用正态分布在很多应用中都是一个明智的选择.当我们由于缺乏关于某个实数上分布的先验知识而不知道该选择怎样的形式时,正态分布是默认的比较好的选择,其中有两个原因.
- mysql 密度函数,高斯分布(Gaussian Distribution)的概率密度函数(probability density function)...
高斯分布(Gaussian Distribution)的概率密度函数(probability density function) 对应于numpy中: numpy.random.normal(loc= ...
- 正态分布(Normal distribution)与高斯分布(Gaussian distribution)
正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学.物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力. ...
- tableau linux无网络安装_举个栗子!Tableau 技巧(110)两种方法实现正态分布 Normal distribution...
关于正态分布 正态分布(Normal distribution),也称"常态分布",又名高斯分布(Gaussian distribution).正态分布是统计学中一个重要的概率分布 ...
- 黎曼和 Riemann Sum ,黎曼积分Riemann Integral,正态分布normal distribution
这里有一块形状不规则的土地,要测量它的面积,怎么办呢?一个叫黎曼的德国数学家(Bernhard Riemann, 1826-1866),他想了个办法:将这不规则图形切成一条条的小长条儿,然后将这个长条 ...
- 多元高斯分布(Multivariate Gaussian Distribution)
from:https://www.jianshu.com/p/d6c8ca915f69 还是对计算机的监测,我们发现CPU负载和占用内存之间,存在正相关关系. CPU负负载增加的时候占用内存也会增加: ...
- 广义逆高斯分布(Generalized Inverse Gaussian Distribution)及修正贝塞尔函数
1. PDF generalized inverse Gaussian distribution (GIG) 是一个三参数的连续型概率分布: f(x)=(a/b)p/22Kp(ab−−√)xp−1e− ...
- isotropic Gaussian distribution
isotropic Gaussian distribution 各向同性的高斯分布(球形高斯分布)指的是各个方向方差都一样的多维高斯分布,协方差为正实数与 identity matrix 相乘. 因为 ...
最新文章
- Centos 7 让docker飞一会儿
- C/C++面试题精选
- goland go test 多个文件_这个代码怎么会编译不通过?Goland 新手常见问题解决:GOPATH 和 Go Modules 编译不成功...
- TCP/IP(三):IP协议相关技术
- 苹果7手机严重卡顿_苹果手机仅配备4GB运存都不会卡顿,安卓系统为何要更多内存?...
- 用户数据报协议是啥?看完这文就懂了!| 技术头条
- 4位双扫描、8位单扫描
- tcpdf中文解决方案
- php分片数据库,4、PHP测试分片集群
- IT人 不要一辈子靠技术生存(转
- 使用二分查询数组中的某一个元素,简单示例,详细注解
- 商务办公软件应用与实践【4】
- java贪吃蛇总结报告_java贪吃蛇开发总结
- namedpipe资料 政治课报告3000字 base64编码 《近世代数引论》冯克勤 P 1-5 - 学习记录 2020/6/5
- fbx文件批量格式转换(glb/gltf)与压缩
- mysql 易语言 邮件_易语言实现163邮箱登录获取邮件列表等操作的代码
- 牛顿法与拟牛顿法求解比较
- Dice Loss,balanced cross entropy,Focal Loss
- 硕士生写小论文的经验(转载)
- NAS信令学习笔记 ——GUTI reallocation过程