统计学里面,正态分布(normal distribution)最常见。男女身高、寿命、血压、考试成绩、测量误差等等,都属于正态分布。

>>>>

作者: 阮一峰

以前,我认为中间状态是事物的常态,过高和过低都属于少数,这导致了正态分布的普遍性。最近,读到了 John D. Cook 的文章,才知道我的这种想法是错的。

正态分布为什么常见?真正原因是中心极限定理(central limit theorem)。

"多个独立统计量的和的平均值,符合正态分布。"

上图中,随着统计量个数的增加,它们和的平均值越来越符合正态分布。

根据中心极限定理,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。

举例来说,人的身高既有先天因素(基因),也有后天因素(营养)。每一种因素对身高的影响都是一个统计量,不管这些统计量本身是什么分布,它们和的平均值符合正态分布。(注意:男性身高和女性身高都是正态分布,但男女混合人群的身高不是正态分布。)

许多事物都受到多种因素的影响,这导致了正态分布的常见。

读到这里,读者可能马上就会提出一个问题:正态分布是对称的(高个子与矮个子的比例相同),但是很多真实世界的分布是不对称的。

比如,财富的分布就是不对称的,富人的有钱程度(可能比平均值高出上万倍),远远超出穷人的贫穷程度(平均值的十分之一就是赤贫了),即财富分布曲线有右侧的长尾。相比来说,身高的差异就小得多,最高和最矮的人与平均身高的差距,都在30%多。

这是为什么呢,财富明明也受到多种因素的影响,怎么就不是正态分布呢?

原来,正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布了。一个人是否能够挣大钱,由多种因素决定:

          家庭

          教育

          运气

          工作

           ...

这些因素都不是独立的,会彼此加强。如果出生在上层家庭,那么你就有更大的机会接受良好的教育、找到高薪的工作、遇见好机会,反之亦然。也就是说,这不是 1 + 1 = 2 的效果,而是 1 + 1 > 2。

统计学家发现,如果各种因素对结果的影响不是相加,而是相乘,那么最终结果不是正态分布,而是对数正态分布(log normal distribution),即x的对数值log(x)满足正态分布。

这就是说,财富的对数值满足正态分布。如果平均财富是10,000元,那么1000元~10,000元之间的穷人(比平均值低一个数量级,宽度为9000)与10,000元~100,000元之间的富人(比平均值高一个数量级,宽度为90,000)人数一样多。因此,财富曲线左侧的范围比较窄,右侧出现长尾。

参考链接:Why isn't everything normally distributed?,by John D. Cook

(https://www.johndcook.com/blog/2015/03/09/why-isnt-everything-normally-distributed/)

Achievement is not normal,by John D. Cook

(https://www.johndcook.com/blog/2015/03/09/why-isnt-everything-normally-distributed/)

来源:阮一峰的日志

正态分布为什么常见?相关推荐

  1. 为什么正态分布如此常见?

    自然界中存在大量的正态分布,比如女性的身高: 图片出自这里. 正态分布的英文名为:Normal Distribution,台湾翻译为常态分布,可见一斑.可是为什么这么常见呢? 每个人都相信它(正态分布 ...

  2. 正态分布的前世今生(3)

    更多正态分布的介绍,参见 正态分布的前世今生(1) 正态分布的前世今生(2) >>>> 六.开疆扩土,正态分布的进一步发展 19世纪初,随着拉普拉斯中心极限定理的建立与高斯正态 ...

  3. 正态分布的前世今生:正态分布的进一步发展

    转载自:http://www.itongji.cn/article/111313462012.html [编者注]几乎所有的经济模型都有假设前提,学过计量经济学的同学都知道古典假设,而正态分布又在假设 ...

  4. 正态分布的前世今生(靳志辉“Ÿ)

    神说,要有正态分布,就有了正态分布. 神看正态分布是好的,就让随机误差服从了正态分布. 创世纪-数理统计 1. 正态分布,熟悉的陌生人 学过基础统计学的同学大都对正态分布非常熟悉.这个钟形的分布曲线不 ...

  5. php 分数大于80 小于90优,“ 90 分改成 80 分”学生期末成绩须“正态分布”?不必搞一刀切...

    在学校教学管理要求和教师自主教学的平衡上," 正态分布 " 可以作为一个原则性要求,但不能作为刚性要求. 全文 1366 字,阅读约需 2 分钟 文 / 熊丙奇(教育学者) 编辑 ...

  6. 大数据分析工具作业task01:np.random总结及几种常见概率分布图形的绘制

    numpy.random在生成大型样本时比纯python方式快了一个数量级 写这篇文章的原因是小米菲一直对于numpy中的伪随机数们傻傻分不清楚,再加上我的大数据分析工具老师让我们画出六种分布的图形( ...

  7. 统计学习 | 正态分布 Normal Distribution

    参考资料 统计学-1:判断数据是否满足正态分布 - 知乎 (zhihu.com) 正态分布!你真的了解么?_检验 (sohu.com) 正态检验 (Normality Test)--常见方法汇总与简述 ...

  8. 算法与实战 - 常见的数据处理技巧

    文章目录 1. 缺失值与异常值 1.1 缺失值处理 1.2 异常值处理 2. 数据转换 2.1 衍生变量 2.2 改变变量分布 2.3 分箱转换 2.4 数据归一化 3. 共线性问题 3.1 识别共线 ...

  9. 正态分布的前世今生(贰)

    统计之都 中国统计学门户网站,免费统计学服务平台 Search Main menu Skip to primary content Skip to secondary content 主页 论坛 图书 ...

最新文章

  1. 直播|人大高瓴周骁:时空大数据与智慧城市前沿
  2. 测试在强电磁场下基于HALL的电流传感器 ACS712-5A是否会有到影响?
  3. [ASP.NET] Session 详解
  4. 从N个数中等概率打印M个数
  5. 8 分钟了解 Kubernetes
  6. Android系统匿名共享内存Ashmem(Anonymous Shared Memory)简要介绍和学习计划
  7. CentOS 7 换yum源
  8. 程序员建议(忘记从哪里转的了,反正是csdn上的一个兄弟)
  9. opencv:灰色和彩色图像的像素直方图及直方图均值化的实现与展示
  10. Cisco PT模拟实验(8) 三层交换机的基本配置
  11. 95-855-040-源码-调度-Flink Schedule Mode 调度模式
  12. 状态模式(Unity中使用)
  13. Machine Learning、Date Mining、IRNLP 会议期刊论文推荐
  14. linux c++ 实现http请求
  15. Angular JS
  16. CNN推理哪家强?英伟达/英特尔/骁龙/麒麟/ActionSemi大测评
  17. 高级 Vue 组件模式 (6)
  18. paip.log4j 日志系统 参数以及最佳实践
  19. 【安装sql 2008步骤】
  20. AMEsim2019.2的安装和matlab2019的联合仿真

热门文章

  1. 【A】兼容Core3.0后 Natasha 的隔离域与热编译操作。
  2. .NetCore 2.1以后的HttpClient最佳实践
  3. 知乎个人精选 | 绝版的专业书到哪里找最快最高效?
  4. RabbitMQ一个简单可靠的方案(.Net Core实现)
  5. C#最佳工具集合:IDE、分析、自动化工具等
  6. DDD理论学习系列(11)-- 工厂
  7. [转]ES7、ES8、ES9、ES10新特性大盘点
  8. 【小程序】刘一哥课堂随机点名提问神器V1.0(附源程序)
  9. C语言试题十七之用来求数组的最大元素在数组中的下标并存放在k所指的储存单元中
  10. LeetCode之First Unique Character in a String