「跟我一起机器学习系列文章将首发于公众号:月来客栈,欢迎搜索关注!」

「神说,要有正态分布,就有了正态分布。」「神看正态分布是好的,就让随机误差服从了正态分布。」「— 创世纪—数理统计」

「一个问题的出现」

故事发生的时间是 18 世纪中到 19 世纪初。17、18 世纪是科学发展的黄金年代,微积分的发展和牛顿万有引力定律的建立,直接的推动了天文学和测地学的迅猛发展。这些天文学和测地学的问题,无不涉及到数据的多次测量、分析与计算。很多年以前,学者们就已经经验性的认为,对于有误差的测量数据,「多次测量取算术平均是比较好的处理方法」,并且这种做法现在我们依旧在使用。虽然当时缺乏理论上的论证,且也不断的受到一些人的质疑,但取算术平均作为一种直观的方式,已经被使用了千百年。 在多年积累的数据的处理经验中也得到相当程度的验证,被认为是一种良好的数据处理方法,但是在当时没人能给出为什么。

1805年,勒让德提出了一种方法来解决这个问题,基本思想就是认为测量中有误差,且让所有方程的累积误差为

,然后通过最小化累积误差来计算得到理论值。设真实值为
,同时
分别为

「独立」观测后的测量值,每次测量的误差为

,按照勒让德提出的方法,累计误差为:

可以看出勒让德给出的方法其实就是「最小二乘法(Least Square)」,且通过对

求导后并令其为0,求解
得到的结果正是算术平均
。由于算术平均是一个历经考验的方法,而以上的推理说明,算术平均是最小二乘法的一个特例,所以从另一个角度说明了最小二乘法的优良性,使当时的人们对最小二乘法更加有信心。(从这里可以看出,这种做法的逻辑是:首先认为算术平均这种做法好但不知道为什么,然后有人提出了一种衡量误差的方法最小二乘,接着对误差最小化求解后发现其解正是算术平均,所以肯定了最小二乘的有用性。事实上就是既没有说清楚算术平均为什么好,反而用算术平均的结果来肯定最小二乘的厉害,有点像用公理来推定理的味道)。

与此同时,伽利略在他著名的《关于两个主要世界系统的对话》中,对误差的分布做过一些定性的描述,主要包括: 「误差是对称分布的; 大的误差出现频率低,小的误差出现频率高」(这也很符合我们的认知常识)。用数学的语言描述,也就是说误差分布函数

关于
对称分布,概率密度函数
增加而减小。于是许多天文学家和数学家开始了寻找误差分布曲线的尝试,但最终没能给出什么有用的结果。

你们不行让我来

现在轮到高斯登场了,高斯在数学史中的地位极高,年轻的时候号称数学王子,后来被称为数学家中的老狐狸。数学家阿贝尔对他的评论是 :“高斯像一只狐狸,用尾巴将沙地上的足迹抹去 (He is like the fox, who effaces his tracks in the sand with his tail) 。” 在误差分布的处理中,高斯以极其简单的手法确立了随机误差的概率分布(即高斯分布),其结果成为数理统计发展史上的一块里程碑。

高斯的介入首先要从天文学界的一个事件说起。1801 年 1 月,天文学家朱塞普·皮亚齐发现了一颗从未见过的光度为8等的星在移动,这颗现在被称作谷神星(Ceres)的小行星在夜空中出现 6 个星期,扫过八度角后就在太阳的光芒下没了踪影,无法观测。而留下的观测数据有限,难以计算出他的轨道,天文学家也因此无法确定这颗新星是彗星还是行星,这个问题很快成了学术界关注的焦点。高斯当时已经是很有名望的年轻数学家了,这个问题引起了他的兴趣。高斯以其卓越的数学才能创立了一种崭新的行星轨道的计算方法,一个小时之内就计算出了谷神星的轨道,并预言了他在夜空中出现的时间和位置。1801 年 12 月 31 日夜,德国天文爱好者奥伯斯 (Heinrich Olbers, 1758-1840),在高斯预言的时间里,用望远镜对准了这片天空。果然不出所料,谷神星出现了!

高斯为此名声大震,但是高斯当时拒绝透露计算轨道的方法,原因可能是高斯认为自己的方法的理论基础还不够成熟,而高斯一向治学严谨、精益求精,不轻易发表没有思考成熟的理论。直到1809年高斯系统地完善了相关的数学理论后,才将他的方法公布于众,而其中使用的数据分析方法,就是「以正态误差分布为基础的最小二乘法」。那高斯是如何推导出误差分布为正态分布的?让我们看看高斯是如何猜测上帝的意图的。

姜还是老的辣

同样设真实值为

分别为

「独立」观测后的测量值,每次测量的误差为

,假设误差
的密度函数为
,则测量值的联合概率为
个误差的联合概率,记为:

高斯直接取使

达到最大值的
作为
的估计值,即

现在我们把

称为样本的似然函数,而得到的估计值
称为极大似然估计。高斯首次给出了极大似然的思想,这个思想后来被统计学家费希尔系统的发展成为参数估计中的极大似然估计理论。(最大似然估计是指:在已知样本结果的情况下,推断出最有可能使得该结果出现的参数的过程。也就是说最大似然估计一个过程,它用来估计出某个模型的参数,而这些参数能使得已知样本的结果最可能发生)

数学家波利亚 (George Pólya, 1887-1985) 说过:“要成为一个好的数学家,……, 你必须首先是一个好的猜想家 (To be a good mathematician,…, you must be a good guesser)。” 历史上一流的数学家都是伟大的猜想家。高斯接下来的想法特别牛,他开始揣度上帝的意图,而这充分体现了高斯的数学天才。高斯把整个问题的思考模式倒过来:既然千百年来大家都认为算术平均是一个好的估计,那我就认为极大似然估计导出的就应该是算术平均!所以高斯猜测上帝在创世纪中的旨意就是:「误差分布导出的极大似然估计 = 算术平均值。」

然后高斯去找误差密度函数

以迎合这一点。即寻找这样的概率分布密度函数
, 使得极大似然估计正好是算术平均
。而高斯应用数学技巧求解了这个函数
,并证明所有的概率密度函数中,唯一满足这个性质的就是:

瞧,正态分布的密度函数

被高斯他老人家给解出来了!

进一步,高斯基于这个误差分布的密度函数对最小二乘法给出了一个很漂亮的解释。对于最小二乘公式中涉及的每个误差

, 由于误差服从概率分布
则其对应是似然估计为:

而要使得

最大化,则必须同样使得
取值最小,这就正好就是最小二乘法的要求了。(可以看出,高斯这种做法的初始动机仍旧是以算术平均作为一种“公理”;然后以此为基础作出假设找到一种符合人们常识的误差密度函数,即正太分布;接着高斯又提出了最大似然估计来推导得出了最小二乘法。但是其仍旧没有解决算术平均为何优良。)

高斯所拓展的最小二乘法成为了 19 世纪统计学的最重要成就,它在 19 世纪统计学的重要性就相当于 18 世纪的微积分之于数学。而勒让德和高斯的关于最小二乘法的发明权之争,成了数学史上仅次于牛顿、莱布尼茨微积分发明权的争端。相比于勒让德 1805 年给出的最小二乘法描述,高斯基于误差正态分布的最小二乘理论显然更高一筹,高斯的工作中既提出了极大似然估计的思想,又解决了误差的概率密度分布的问题,由此我们可以对误差大小的影响进行统计度量了。高斯的这项工作对后世的影响极大,而正态分布也因此被冠名高斯分布。

17、18 世纪科学界流行的做法,是尽可能从某种简单明了的准则 (first principle) 出发进行逻辑推导。高斯设定了准则“「最大似然估计应该导出优良的算术平均」”,并导出了误差服从正态分布,并且推导的形式上非常简洁优美。但是高斯给的准则在逻辑上并不足以让人完全信服,因为「算术平均的优良性当时更多的是一个经验直觉,缺乏严格的理论支持」。高斯的推导存在循环论证的味道:因为算术平均是优良的,推出误差必须服从正态分布;反过来,又基于正态分布推导出最小二乘法和算术平均,来说明最小二乘法和算术平均的优良性。这陷入了一个鸡生蛋蛋生鸡的怪圈,逻辑上算术平均的优良性到底有没有自行成立的理由呢?

解铃还须系铃人

高斯的文章发表之后,拉普拉斯很快得知了高斯的工作。拉普拉斯看到,正态分布既可以从抛钢镚产生的序列和中生成出来,又可以被优雅的作为误差分布定律,这难道是偶然现象?拉普拉斯不愧为概率论的大牛,他马上将误差的正态分布理论和中心极限定理联系起来,提出了元误差解释。他指出如果误差可以看成许多微小量的叠加,则根据他的中心极限定理,随机误差理所应当是高斯分布。而 20 世纪中心极限定理的进一步发展,也给这个解释提供了更多的理论支持。因此以这个解释为出发点,高斯的循环论证的圈子就可以打破。 估计拉普拉斯悟出这个结论之后一定想撞墙,自己辛辛苦苦寻寻觅觅了这么久的误差分布曲线就在自己的眼皮底下,自己却长年视而不见,被高斯占了先机。

至此,误差分布曲线的寻找尘埃落定,正态分布在误差分析中确立了自己的地位,并在整个 19 世纪不断的开疆扩土,直至在统计学中鹤立鸡群,傲世其它一切概率分布;而高斯和拉普拉斯的工作,为现代统计学的发展开启了一扇大门。本次要介绍的内容就到此结束,青山不改,绿水长流,月来客栈见!

引用

  • 详细内容参见(强烈推荐阅读):https://cosx.org/2013/01/story-of-normal-distribution-1/

计算标准累积正态分布_神说要有正态分布,于是就有了正态分布。相关推荐

  1. 贴片按键开关_【干货】SMT贴片加工之贴片点数计算标准(2019精华版),你值得拥有!...

    SMT 顶级人脉圈 一个共享人脉资源.实现职业晋升的专业圈子 SMT人才网 目前SMT贴片工艺有:无铅焊接工艺.铅焊接工艺和红胶焊接工艺.而且它的点计算方法也非常相似,但是很多SMT工厂对于焊点的计算 ...

  2. 拥抱开放计算标准 重构数据中心格局

    如今,我国正在从互联网大国向互联网强国迈进,互联网时代正在逐渐演变为智慧时代.而开放计算,无疑为智慧时代下数据中心的重构带来了极大的动能.浪潮一直走在开放计算领域的前列,近日,在浪潮主办的<开放 ...

  3. IEEE正推进制定量子计算标准

    国际电机电子工程师学会(IEEE)旗下的全球标准制定机构--IEEE标准协会(IEEE-SA),率先为量子计算(quantum computing)建立标准定义. IEEE-SA的"量子计算 ...

  4. Android计算标准BMI值

    今天做了关于计算标准BMI值的小作业,可以计算出你的体重是正常,偏瘦或偏胖 MainAcitivity.java 1 package com.example.bmi; 2 3 import java. ...

  5. 外网怎么访问内网_神卓互联搭建远程桌面和web应用(很详细)

    外网怎么访问内网_神卓互联搭建远程桌面和web应用,我们都知道国内IP资源严重不足,导致运营商商们都不给固定的IP,都是动态分配的,现在基本的已经是100或者10开头的局域网的IP,运营商的ADSL网 ...

  6. python随机生成正态分布_随机生成正态分布数据

    http://www.petroleumcloud.cn/pages/620.html 正态分布,又名高斯分布,是一个非常重要的概率分布.在数学.物理及工程等领域以及统计学的许多方面有着重大的影响力. ...

  7. python随机生成正态分布_正态分布数据随机生成工具

    http://www.petroleumcloud.cn/pages/620.html 正态分布,又名高斯分布,是一个非常重要的概率分布.在数学.物理及工程等领域以及统计学的许多方面有着重大的影响力. ...

  8. python随机生成正态分布_正态分布数据随机生成

    http://www.petroleumcloud.cn/pages/620.html 正态分布,又名高斯分布,是一个非常重要的概率分布.在数学.物理及工程等领域以及统计学的许多方面有着重大的影响力. ...

  9. 14_[nvim0.5+从0单排]_神级文件模糊搜索插件telescope

    视频与目录 项目 值 教程目录 https://blog.csdn.net/lxyoucan/article/details/120641546 视频全屏 https://www.bilibili.c ...

  10. 计算机编程题目身高计算,VB1设计一个由输入身高计算标准体重的程序。计算公式为:男:标准体重(kg)=身高(cm)-100;- 一起装修网...

    VB1设计一个由输入身高计算标准体重的程序.计算公式为:男:标准体重kg=身高cm-100: 我来回答>> 百度用户(缘梦ym666) 浏览37次 2021-07-13 16:08 女:标 ...

最新文章

  1. 人人都是 API 设计者:我对 RESTful API、GraphQL、RPC API 的思考
  2. Linux网络协议栈(二)——套接字缓存(socket buffer)
  3. Storyboard中segue使用总结
  4. Several frontend roundtrip diagram - synchronous and Asynchronous
  5. java并发排它锁_Java并发编程进阶——锁(解析)
  6. 电脑软件:巧用微软小工具解决日常问题!
  7. C语言之字符串探究(二):字符串原生操作——strlen、strcat、strcpy、strcmp自实现
  8. 《Ruby程序员修炼之道》(第2版)—第1章1.1节进入Ruby的世界
  9. RDD的两种操作(Transformation和Action)
  10. AudioTrack到AudioFlinger流程分析(三十八)
  11. 解压.tar.bz2文件命令
  12. Docker日志查看命令
  13. Class 类文件结构解析
  14. 如何通过python多线程抓取所有东方财富股票信息
  15. 企业移动应用—我有 开启移动营销的里程碑
  16. Rime(1):介绍与安装
  17. C++编写木马全过程
  18. 一千万的股票能一天卖出吗
  19. 【学习笔记】builtin函数
  20. 「塔望咨询」×「皇品食品」2022上半年营销集锦

热门文章

  1. Spring5.0响应式编程入门
  2. 网站SEO提升关键词排名的六个步骤
  3. 【工具使用】无法登陆bing搜索引擎
  4. 北美票房:《触不可及》惊喜夺冠
  5. office 2010 激活 toolkit.exe 应用程序正常初始化失败
  6. 二行代码解决全部网页木马(含iframe/script木马)
  7. Fujitsu Diagnostic(硬盘坏道检测工具)v6.8绿色版
  8. 解谜破案类游戏:夜间呼叫 for Mac
  9. 引用百度地图,隐藏百度地图logo
  10. 小学教训计算机培训的简单内容,小学计算机教育随笔