在统计学中有各种各样的分布,称为统计分布,例如有离散型的伯努利分布、二项分布、超几何分布、几何分布、负二项分布、泊松分布,有连续型的均匀分布、指数分布、t分布、卡方分布、F分布、正态分布等等,其中正态分布无疑最为常见、应用也最为广泛。正态分布不但其曲线优雅,而且其密度函数也很有数学美感,特别是其标准化后的概率密度函数非常简洁漂亮。更令人惊讶的是,两个最重要的数学常量π,e都出现在了公式之中,使得其具有一些神秘色彩。生物统计学家高尔顿对正态分布推崇备至:“我几乎不曾见过像误差呈正态分布这么激发人们无穷想象的宇宙秩序”。

正态分布因其分布形状似同古代铸钟,故也称为钟型分布。正态分布的基本特征是“中间大、两头小”,即中心数值出现的频率最高,两边数值的频率渐次下降,也形同一座山峰。在现实中,或许完全符合正态分布的现象并不存在,但接近或形同正态分布的现象却比比皆是。例如,人的身高分布、体重分布、寿命分布,大量的生物医学指标分布,历史气温分布、降雨量分布,地块产量分布,居民收入(财产)分布等等,都是“中间大、两头小”的分布。正态分布最早由德国数学家、天文学家棣莫弗(De Moivre)发现,但却以德国另一数学家高斯(Gauss)命名。德国的钢镚和10马克的纸币上都刻有或印有高斯的头像和正态密度曲线,以主要纪念其在正态分布上的突出贡献。

然而,正态分布看似简单,但其被发现的过程却不简单。

1733年,为了回答赌徒提出的赌场挣钱期望问题,棣莫弗基于两位赌徒的获胜概率,就二项分布的计算方法和随机变量X落在二项分布中心点一定范围的概率问题进行了数学推导(由于惠更斯(christiaan huygens)、帕斯卡(Blaise Pascal)等人研究了平均情况下一个赌徒期望自己能够赢得多少钱,故总体均值也被称为数学期望)。在假定赌徒获胜概率为1/2时,棣莫弗在其所推导出的积分公式中出现了正态分布的密度函数形式。之后,他与拉普拉斯(Lapalace)都对赌徒获胜概率非1/2的情况进行了拓展分析,把二项分布的正态近似特性推广到了赌徒获胜概率为任意值的情况。这就是最早的被数学家以二项分布极限形式勾画出来的正态密度函数。这个结果,就叫做棣莫弗-拉普拉斯中心极限定理。但由于棣莫弗未从统计学的角度去考虑其工作的意义,所以没有引起社会的足够重视,也失去了以其命名正态分布的机会。1770年,拉普拉斯给出了中心极限定理的一般形式,之后又被其他数学家们推广到了任意分布的情形。再之后,统计学家进一步研究发现,当样本量趋于无穷大时,样本均值的概率分布都趋于服从正态分布。

那为什么正态分布的命名会幸运地落在高斯的头上?原因就在于高斯在开展天文观测误差的研究中,拓展了最小二乘法,并把正态分布与最小二乘法联系在一起,使得正态分布在统计误差分析中确立了地位。十八世纪中后期到十九世纪初,欧拉(Euler)、拉普拉斯、勒让德(Legendre)和高斯等人,基于天文学(例如计算土星和木星的运行轨道)和测地学(测量通过巴黎的子午线的长度)研究中积累的多次测量数据,探讨了观测误差和测量数据平均值的应用问题——测量中的随机误差应该服从怎样的概率分布?算术平均的优良性与误差分布是什么样的关系?为了得出测量值,欧拉和拉普拉斯采用求解方程组的方法来求解线性方程,但遇到了困难,直到勒让德于1805年发明了最小二乘法。勒让德概括出最小二乘法的优点是“使误差平方和达到最小,可以导出算术平均数作为估计值。”然而,高斯在1809年发表文章声称自己早已使用最小二乘法进行天文观测数据分析了,使得其与勒让德的发明权之争,齐名于牛顿与莱布尼茨的微积分发明权之争。客观地讲,高斯确实利用自己独特的小行星轨道计算方法,成功地预测了1801年12月31日夜晚谷神星的出现,而其1809年所公布的计算方法正是以正态误差分布为基础的最小二乘法。

关于观测误差,伽利略早在其名著《关于两个主要世界系统的对话》中就作了大致的描述:误差分布是对称的。之后,包括托马斯•辛普森(Thomas Simpson)、拉普拉斯在内的许多天文学家和数学家都开展了寻找误差分布曲线的相关工作。然而,真正解决问题的是高斯。他以“算术平均数是一个好的估计”为出发点,去寻找满足“极大似然估计等于算术平均数”这一条件的误差密度函数,结果在所有的概率密度函数中,只有正态分布密度函数满足这个要求。基于这个误差分布函数,高斯对最小二乘法进行了进一步的解释,使之成为了十九世纪统计学最为重要的成就。尽管有人质疑高斯的推导过程有“循环论证”之嫌,但丝毫不影响其发明之伟大。之后,拉普拉斯发现正态分布既可以从随机抛掷钢镚产生的序列求和中生成、也可以被完美地作为误差分布定律。他将误差的正态分布理论与中心极限定理联系起来,提出了元误差解释:如果可以把误差看成许多微小量的叠加,那么根据他的中心极限定理,随机误差分布自然就是正态分布。随着20世纪中心极限定理的进一步发展,这个解释也更有力道,并且消除了“循环论证”之虑。只可惜,从发现正态分布密度函数的时间上看,拉普拉斯比高斯晚了一步。为了争夺命名权,法国人称正态分布为“拉普拉斯分布”,德国人称之为“高斯分布”,其他人则称之为“拉普拉斯-高斯分布”。后来经法国数学家庞加莱提议、英国统计学家卡尔.皮尔逊推动,才统一称之为正态分布。

之后,又有多位专家从不同的角度推导出了正态分布密度函数,并且随着中心极限定理的进一步完善,正态分布的属性特征也不断被人们挖掘、熟知并应用。特别是比利时统计学家凯特勒和英国统计学家高尔顿对正态分布的实践应用起到了关键的作用。凯特勒的贡献是把概率论引入统计学,用正态分布来拟合他所收集的关于人体生理测量的数据(如体重、身高与胸围等)。在他的带领下,正态分布逐渐在人口、农业、工业、商业、政治、道德等社会领域和天文学、物理学、生物学、气象学等自然科学领域得到了推广应用。高尔顿的贡献则是用正态分布来研究生物遗传现象,他甚至亲手设计了一个叫高尔顿钉板(quincunx,或者Galton board)的装置,试图通过模拟正态分布的性质来解释生物遗传现象(亲子身高关系)。再之后,以正态分布为基础,皮尔逊发明了包含四个参数的皮尔逊分布族(例如以均值、标准差、偏度和峰度来测度正态性),戈塞特(W.S.Gosset)以学生氏之名发明了小样本t分布,费希尔(R.A.Fisher)则基于方差分析发明了F分布,丰富和发展了统计分布理论。

正态分布的最神奇之处就是变量分布以均值为中心左右两边完全对称,这看起来似乎没什么,但却蕴含着很多优良特性。例如,两个正态分布密度的乘积还是正态分布;两个正态分布密度的卷积、即两个正态分布的和还是正态分布;正态分布的傅立叶变换依然是正态分布;中心极限定理保证了多个随机变量的求和效应会导致正态分布;正态分布和其它具有相同方差的概率分布相比具有最大熵,等等。最重要的是,任何其他分布的极限形式都是正态分布,正可谓万变不离其宗。难怪有人说,正态分布是“神”的分布。

如今,正态分布已是众人皆知,尤其是正态分布再生定理和中心极限定理的实践应用非常普遍,在产品质量控制(例如6σ方法)、假设检验、抽样区间估计、回归模型构建等方面发挥了巨大的作用。当然,这并不是说我们已经完全掌握了正态分布的奥妙,事实上我们对其来龙去脉依然还有很多未知,特别是对于多维多元、非线性的情况更是如此。现实中,人们乱用正态分布的现象并不少见,例如假设检验中的p值乱象就非常突出。在进入大数据时代后,对于大数据分析尤其是非结构化数据分析,正态分布理论与方法还能不能使用、该怎么使用,则是一个崭新的课题。

正态曲线是一条完美而神奇的曲线。让我们跟随着数据型态变化的步伐,去努力保持正态分布的正态性,保持正态曲线的完美性!

(已刊登于《中国统计》2020年第9期)

matlab中表示拉普拉斯分布_神奇的正态分布相关推荐

  1. matlab中表示拉普拉斯分布_拉普拉斯分布的随机数

    一.功能 产生拉普拉斯分布的随机数. 二.方法简介 1.产生随机变量的组合法 将分布函数\(F(x)\)分解为若干个较为简单的子分布函数的线性组合 \[F(x)=\sum_{i=1}^{K}p_{i} ...

  2. matlab中表示拉普拉斯分布_分布拟合——正态/拉普拉斯/对数高斯/瑞利 分布

    作者:桂. 时间:2017-03-16  20:30:20 声明:欢迎被转载,记得注明出处~ 前言 本文为曲线与分布拟合的一部分,主要介绍正态分布.拉普拉斯分布等常用分布拟合的理论推导以及代码实现. ...

  3. matlab中表示拉普拉斯分布_深度优化局部拉普拉斯金字塔滤波器。

    微信公众号:OpenCV学堂关注获取更多计算机视觉与深度学习知识 觉得文章有用,请戳底部[好看]支持 算法概述 基于局部拉普拉斯金字塔的Edge-aware滤波器是在2011年由Adobe 公司的研究 ...

  4. matlab中表示拉普拉斯分布_双导体球在匀强外电场中的空间电场分布

    导体球或球壳在匀强外电场中的场强分布是电动力学中的经典题目,也是大家所熟悉的题目,但均匀电场中出现两个导体球或球壳(二聚体)时的场强却少有讨论.两导体球电极化所引起的导体球间电磁场的局域增强是表面等离 ...

  5. matlab中表示拉普拉斯分布_CHAPT1:场论;电磁学和微波学的基本的数学手段和表示...

    物理学中把某个物理量在空间一个区域内的分布称为场.从各种场的取值性质来看可以分成两大类,一类是每个点对应一个数值,这种场统称为标量场,如温度场.密度场等;另一类是每 个点对应一个向量,这种场称为向量场 ...

  6. matlab中表示拉普拉斯分布_matlab 拉普拉斯变换

    ,其拉普拉斯变换为 s s F 1 ) (  .首先,利用两 个向量来确定绘制曲面图的 s 平面的横.纵坐标的范围.例如可定义绘制曲面图的横坐 标范围向量 x1 和纵坐标范围向量 y1 分别为: x ...

  7. matlab stem 属性,matlab中stem函数用法_常见问题解析

    matlab中如何自定义图例_常见问题解析 matlab中自定义图例的方法:首先打开matlab软件:然后点击勾选按钮,新建一个文件并输入代码为"x = 0:pi/50:2*pi;" ...

  8. stem什么意思matlab,matlab中stem函数用法_常见问题解析,matlab

    matlab中如何自定义图例_常见问题解析 matlab中自定义图例的方法:首先打开matlab软件:然后点击勾选按钮,新建一个文件并输入代码为"x = 0:pi/50:2*pi;" ...

  9. 拉普拉斯分布_中心极限定理:从高尔顿板到麦克斯韦分布

    ​神奇的正态分布源于"加". 撰文 | 张和持 时隔多年,或许你早就记不得16岁那年夏天高中闷热的教室,但可能会记得有一天数学老师说着要给大伙看个稀奇--一块祖传的高尔顿板.尽管班 ...

最新文章

  1. 关于使用android系统设备充当web服务器的一点准备
  2. 冯小刚导演系列公益短片之羽泉版
  3. 创业第一站丨产品经理、海归转型成创业者有多难?
  4. linux 生成密码本,Linux下CentOS7使用OTPW实现双因子密码本登录
  5. Libevent学习环境搭建
  6. Kotlin 基础语法
  7. 给一个不多于5位的正整数,求出它是几位数?
  8. NetCore 依赖注入之服务之间的依赖关系
  9. 小心使用tf.image.resize_images,填坑经验分享给你
  10. 可变形卷积神经网络 | Deformable Network
  11. android录音播放并上传
  12. 一 VC2008环境中ICE的配置
  13. LeetCode 945. 使数组唯一的最小增量
  14. 通过JCONSOLE监控TOMCAT的JVM使用情况
  15. SQFREE - Square-free integers
  16. Java经典设计模式-创建型模式-抽象工厂模式(Abstract Factory)
  17. 网络编程基础知识之单线程与多线程
  18. Physics Bodies(中文翻译)—UE4官方文档
  19. win10分屏快捷键无法使用_Win10系统Win快捷键不能用怎么办_win10 Win快捷键无法使用如何解决-系统城...
  20. 线程局部存储-pthread_getspecific和pthread_setspecific使用

热门文章

  1. mysql备份到制定目录_写一个脚本定时自动备份mysql到指定目录
  2. 学习笔记之C / C++
  3. Membership学习(二)membership入门[xgluxv]
  4. python + selenium - selenium常用元素定位
  5. composer 安装包时与php版本不符 提示报错
  6. 福特新CEO“泼冷水”,给自动驾驶设立商业化节点是否真的有必要?
  7. python环境搭建-pycharm2016软件注册码
  8. 京东商品信息及其价格爬虫
  9. Python与JavaWeb的第一次碰撞
  10. 珍藏40个android应用源码分享