正态分布(德语:Normalverteilung;英语:normal distribution)又名高斯分布(德语:Gauß-Verteilung;英语:Gaussian distribution, 以德国数学家卡尔·弗里德里希·高斯的姓冠名)。想必这个大名鼎鼎的分布,跟高斯这个名字一样,如雷贯耳,只要稍有数学常识,都应该不陌生吧,即便你已经记不太清楚它的密度函数具体长什么样子了,没关系,密度函数长这样:

“对对对”,想必你立刻就会说:“我就记得长这个样子!”

确实,正态分布太有名了,也确实有用的很,本质上讲正态分布是整个概率论与数理统计的核心,讲的广一点呢,也是现代科学,包括迄今为止被广泛应用在各类工程中的公式,定理,模型的基石。说的彻底一点呢,若是没有这样完美的正态分布,或许说不定这个世界现在你所看到的美好也就荡然无存了。

比如,“什么?”,“对,说你的呢,你的Dota中最钟爱的混沌骑士CK妥妥是没有了,混沌的世界,电脑真的好难懂啊!”

再比如,“什么?”,“没错,说的就是你,你的美图你的PS都没有了,滤波器都找不到了,你还想要美颜?小心分分钟变贞子哦!”

当然我还是比较相信,大多数的你们还是对这个正态分布分布的重要是还是略知一二的,不过你们可曾细细的了解过正态分布呢?下面先来看这个所谓的高斯分布正态分布的前世今生吧。

正态分布的前世今生

正态分布最早是由一个叫亚伯拉罕·棣莫弗(Abraham de Moivre,简称棣莫弗,法语发音为(IPA)[də mwavʀ])(1667年5月26日-1754年11月27日)的法国人在其对二项分布的研究中提出的。

什么?棣莫弗,这是谁,怎么那么陌生呢?想想你学过的复数,想想三角函数!哦,好像,好像记得上学的时候有学过什么棣莫弗公式,貌似它把三角函数跟复数联系起来了。

对,就是这个棣莫弗。准确的来讲,正是他给出了复数的三角表达式,这个东西的对后世基于复变函数的各种学科的发展来说,这个意义那大大的!

当然或许你关注的点并不是,这个叫棣莫弗的人,而是二项分布,正在脑海中苦苦搜寻什么是二项分布。想想那个无聊的投硬币游戏,想想那个一次两次的数数经历。对,就是这个n次重复投硬币游戏里面傻傻地数出现k次正面的,这个概率分布就是服从所谓的二项分布[2]。

当然这里还有有趣的二项式系数的,国人也叫杨辉三角的东西哦!

东西好像扯的有点远了,回来回来!回到正题,这个所谓的二项分布跟正态分布有什么关系呢?这就是棣莫弗这人的主要成就之一啦,他1734年发表的一篇关于二项分布文章中提出的,当二项随机变数的位置参数n很大及形状参数p为1/2时,则所推导出二项分布的近似分布函数就是正态分布。当然这个其实就是个极限问题,有兴趣之后我们可以具体讨论。但是这个结果确实是我们直观上可以相像的,当然你还是无法想像,那我们来看看这个计算机的模拟试验。

clc
clear
close allR3 = binornd(100,0.5,100,1); #第一二个参数是二项分布的参数,用抛硬币来理解,第一个参数是抛硬币
#的次数,第二个参数是概率,第三个和第四个参数是代表样本的维度,每个样本都是基于二项分布产生的,##
#共产生了100*1个样本。即重复100次相同实验,而每次实验是将硬币丢100次,样本值是1出现的次数;即总
#共仍了100*100次硬币
R4 = binornd(1000,0.5,1000,1);
R5 = binornd(10000,0.5,10000,1);figure
subplot(1,3,1)
histfit(R3)
title('N = 100')
subplot(1,3,2)
histfit(R4)
title('N = 1000')
subplot(1,3,3)
histfit(R5)
title('N = 10000')

我们的R3,R4,R5分别是从N=100,1000,10000次二项分布中生成的,清晰的看到随着N的增加,这个分布越来越接近我们这个具有代表性的的这个正态分布了。

事实上,这个东西的严格的讲还有特别厉害的名字,中心极限定理, wiki上有一段有趣的历史。Tijms (2004, p.169) 写到:

中心极限定理有着有趣的历史。这个定理的第一版被法国数学家棣莫弗发现,他在1733年发表的卓越论文中使用正态分布去估计大量抛掷硬币出现正面次数的分布。这个超越时代的成果险些被历史遗忘,所幸著名法国数学家拉普拉斯在1812年发表的巨著 Théorie Analytique des Probabilités中拯救了这个默默无名的理论。

拉普拉斯扩展了棣莫弗的理论,指出二项分布可用正态分布逼近。但同棣莫弗一样,拉普拉斯的发现在当时并未引起很大反响。直到十九世纪末中心极限定理的重要性才被世人所知。1901年,俄国数学家里雅普诺夫用更普通的随机变量定义中心极限定理并在数学上进行了精确的证明。如今,中心极限定理被认为是(非正式地)概率论中的首席定理。

然而,正态分布真正走入人们视线的并不是由这个无聊的投硬币试验所得的二项分布的逼近,而是实实在在的工程误差分析中应用。据说wiki说,拉普拉斯在误差分析试验中使用了正态分布。勒让德于1805年引入最小二乘法这一重要方法;而高斯则宣称他早在1794年就使用了该方法,并通过假设误差服从正态分布给出了严格的证明。(看来大牛们为了版权也是的撕厉害,不过事实似乎表明,最后还是高斯赢了,毕竟现在也叫高斯分布)

第一张图是据说被误用了200多年的勒让德的肖像,而第二张图才是真身,哎,满满的怒气,似乎在嘲笑也在责怪世人的愚昧,不光研究结果被抢先一步,连肖像也能用错,这能不愤怒吗?至于,第三张毫无疑问就是大名鼎鼎的数学王子高斯啦!

之前我们说到高斯对测量误差研究中发现了正态分布,并且这项研究也成为了当代统计学的中重要的思想--最大似然发的源头。下面我们来仔细看看,他是如何导出这个完美的分布的。

首先我们要解释几个概念,第一个是似然(Likelihood)。什么是似然,简单通俗的来讲就是,一系列的概率密度函数的乘积,说白了也就是还是一种特别的复合的“概率”。比如对于正态分布,如果有独立同分布的观察值,则其的似然为:

从高斯分布的导出讲起——为什么概率密度函数长成这个样子?相关推荐

  1. mysql 密度函数,高斯分布(Gaussian Distribution)的概率密度函数(probability density function)...

    高斯分布(Gaussian Distribution)的概率密度函数(probability density function) 对应于numpy中: numpy.random.normal(loc= ...

  2. 【数据挖掘】高斯混合模型 ( 模型简介 | 软聚类 | 概率作用 | 高斯分布 | 概率密度函数 | 高斯混合模型参数 | 概率密度函数 )

    文章目录 I . 高斯混合模型方法 ( GMM ) II . 硬聚类 与 软聚类 III . GMM 聚类结果概率的作用 IV . 高斯混合分布 V . 概率密度函数 VI . 高斯分布 曲线 ( 仅 ...

  3. 为什么高斯分布概率密度函数的积分等于1

    一维高斯分布的概率密度如下: N(x∣μ,σ2)=1(2πσ2)1/2exp{−12σ2(x−μ)2}(1)N(x \mid\mu ,\sigma^2)=\frac{1}{(2\pi\sigma^2) ...

  4. 高斯分布概率密度函数(PDF)和累积分布函数(CDF)

    正态分布(Normal distribution)又名高斯分布(Gaussian distribution),是一个在数学.物理及工程等领域都非常重要的概率分布,在统计学的许多方面有着重大的影响力. ...

  5. 【机器学习】【ICA-1】概率统计/代数知识详解:高斯分布、概率密度函数、累积分布函数、联合分布函数、复合函数的概率密度函数、行列式求导等

    要容易理解ICA,就需要先好好理解透彻下面这些概率统计和线性代数的知识点:高斯分布.概率密度函数.累积分布函数.复合函数的概率密度函数.行列式.代数余子式.矩阵微积分等.下面一一简单记录和复习下这些概 ...

  6. 概率密度函数、概率分布函数、常见概率分布

    1. 概率函数 概率函数,就是用函数的形式来表达概率. pi=P(X=ai)(i=1,2,3,4,5,6)p_i=P(X=a_i)(i=1,2,3,4,5,6)pi​=P(X=ai​)(i=1,2,3 ...

  7. 二维均匀分布的边缘密度函数_理解概率密度函数

    原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的. 其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明 ...

  8. 【生成模型】简述概率密度函数可处理流模型

    本期将介绍第二种非常优雅的生成模型-流模型,它也是一种概率密度函数可处理的生成模型.本文将对其原理进行介绍,并对nice模型的源码进行讲解. 作者&编辑 | 小米粥 1 流模型 这是一种想法比 ...

  9. 简单理解正态分布(概率密度函数)和68-95-99.7法则

    正太分布和概率密度函数,期望值,方差 正态分布(Normal distribution),又名高斯分布(Gaussian distribution)是一个非常常见的连续概率分布.正态分布在统计学上十分 ...

最新文章

  1. JavaScript初学者编程题(6)
  2. centos 部署spring boot应用
  3. oracle实例文件,ORACLE实例管理之参数文件
  4. C#PDF转Word
  5. Gitlab的CI/CD初尝试
  6. 判断应用程序是否是当前激活程序(获得焦点的程序)
  7. 备战520|Python花式表白的几种姿势
  8. 视觉SLAM笔记(30) 特征点法
  9. STL源码学习之空间配置
  10. mysql主库从库在同一台服务器_mysql数据库从一台服务器迁移到另一台服务器上...
  11. 如何设置ubuntu的PATH环境变量
  12. 2022考研-高等数学教程
  13. Linux 天翼3G上网
  14. 记账一定要读财务专业吗
  15. mkv格式提取文件方法
  16. 没想到印度年轻人这么惨!我们知足吧!
  17. IOS Websocket (一) Starscream实现Websocket通讯
  18. 致远互联发布A6+在打什么牌?
  19. 怎样才能让青少年培养起阅读习惯?听听猿辅导这四位嘉宾怎么说
  20. DIL中基本数据类型

热门文章

  1. python if条件判断和while循环 练习题
  2. Python: 复数的数学运算
  3. 24有几种封装尺寸_Y6T16 光模块尺寸演进
  4. 利用最小二乘法,用直线拟合点时,为什么计算竖直距离而非垂直距离?为什么在线性回归分析中,求的是距离平方和最小,而不是距离之和最小?
  5. Brainburn movies
  6. opencv 图像分割 阈值分割 图像二值化 灰度图
  7. 自动驾驶小车循迹 图像二值化方法
  8. Nginx:proxy_pass、root、rewrite、alias 的使用详解
  9. Json数组列表中的数据分组排序、组内排序
  10. html获取鼠标按键数,鼠标在IE、Firefox和Opera点击键所对应的数字代码