正态分布为什么常见?
统计学里面,正态分布(normal distribution)最常见。男女身高、寿命、血压、考试成绩、测量误差等等,都属于正态分布。
>>>>
作者: 阮一峰
以前,我认为中间状态是事物的常态,过高和过低都属于少数,这导致了正态分布的普遍性。最近,读到了 John D. Cook 的文章,才知道我的这种想法是错的。
正态分布为什么常见?真正原因是中心极限定理(central limit theorem)。
"多个独立统计量的和的平均值,符合正态分布。"
上图中,随着统计量个数的增加,它们和的平均值越来越符合正态分布。
根据中心极限定理,如果一个事物受到多种因素的影响,不管每个因素本身是什么分布,它们加总后,结果的平均值就是正态分布。
举例来说,人的身高既有先天因素(基因),也有后天因素(营养)。每一种因素对身高的影响都是一个统计量,不管这些统计量本身是什么分布,它们和的平均值符合正态分布。(注意:男性身高和女性身高都是正态分布,但男女混合人群的身高不是正态分布。)
许多事物都受到多种因素的影响,这导致了正态分布的常见。
读到这里,读者可能马上就会提出一个问题:正态分布是对称的(高个子与矮个子的比例相同),但是很多真实世界的分布是不对称的。
比如,财富的分布就是不对称的,富人的有钱程度(可能比平均值高出上万倍),远远超出穷人的贫穷程度(平均值的十分之一就是赤贫了),即财富分布曲线有右侧的长尾。相比来说,身高的差异就小得多,最高和最矮的人与平均身高的差距,都在30%多。
这是为什么呢,财富明明也受到多种因素的影响,怎么就不是正态分布呢?
原来,正态分布只适合各种因素累加的情况,如果这些因素不是彼此独立的,会互相加强影响,那么就不是正态分布了。一个人是否能够挣大钱,由多种因素决定:
家庭
教育
运气
工作
...
这些因素都不是独立的,会彼此加强。如果出生在上层家庭,那么你就有更大的机会接受良好的教育、找到高薪的工作、遇见好机会,反之亦然。也就是说,这不是 1 + 1 = 2 的效果,而是 1 + 1 > 2。
统计学家发现,如果各种因素对结果的影响不是相加,而是相乘,那么最终结果不是正态分布,而是对数正态分布(log normal distribution),即x的对数值log(x)满足正态分布。
这就是说,财富的对数值满足正态分布。如果平均财富是10,000元,那么1000元~10,000元之间的穷人(比平均值低一个数量级,宽度为9000)与10,000元~100,000元之间的富人(比平均值高一个数量级,宽度为90,000)人数一样多。因此,财富曲线左侧的范围比较窄,右侧出现长尾。
参考链接:Why isn't everything normally distributed?,by John D. Cook
(https://www.johndcook.com/blog/2015/03/09/why-isnt-everything-normally-distributed/)
Achievement is not normal,by John D. Cook
(https://www.johndcook.com/blog/2015/03/09/why-isnt-everything-normally-distributed/)
来源:阮一峰的日志
正态分布为什么常见?相关推荐
- 为什么正态分布如此常见?
自然界中存在大量的正态分布,比如女性的身高: 图片出自这里. 正态分布的英文名为:Normal Distribution,台湾翻译为常态分布,可见一斑.可是为什么这么常见呢? 每个人都相信它(正态分布 ...
- 正态分布的前世今生(3)
更多正态分布的介绍,参见 正态分布的前世今生(1) 正态分布的前世今生(2) >>>> 六.开疆扩土,正态分布的进一步发展 19世纪初,随着拉普拉斯中心极限定理的建立与高斯正态 ...
- 正态分布的前世今生:正态分布的进一步发展
转载自:http://www.itongji.cn/article/111313462012.html [编者注]几乎所有的经济模型都有假设前提,学过计量经济学的同学都知道古典假设,而正态分布又在假设 ...
- 正态分布的前世今生(靳志辉)
神说,要有正态分布,就有了正态分布. 神看正态分布是好的,就让随机误差服从了正态分布. 创世纪-数理统计 1. 正态分布,熟悉的陌生人 学过基础统计学的同学大都对正态分布非常熟悉.这个钟形的分布曲线不 ...
- php 分数大于80 小于90优,“ 90 分改成 80 分”学生期末成绩须“正态分布”?不必搞一刀切...
在学校教学管理要求和教师自主教学的平衡上," 正态分布 " 可以作为一个原则性要求,但不能作为刚性要求. 全文 1366 字,阅读约需 2 分钟 文 / 熊丙奇(教育学者) 编辑 ...
- 大数据分析工具作业task01:np.random总结及几种常见概率分布图形的绘制
numpy.random在生成大型样本时比纯python方式快了一个数量级 写这篇文章的原因是小米菲一直对于numpy中的伪随机数们傻傻分不清楚,再加上我的大数据分析工具老师让我们画出六种分布的图形( ...
- 统计学习 | 正态分布 Normal Distribution
参考资料 统计学-1:判断数据是否满足正态分布 - 知乎 (zhihu.com) 正态分布!你真的了解么?_检验 (sohu.com) 正态检验 (Normality Test)--常见方法汇总与简述 ...
- 算法与实战 - 常见的数据处理技巧
文章目录 1. 缺失值与异常值 1.1 缺失值处理 1.2 异常值处理 2. 数据转换 2.1 衍生变量 2.2 改变变量分布 2.3 分箱转换 2.4 数据归一化 3. 共线性问题 3.1 识别共线 ...
- 正态分布的前世今生(贰)
统计之都 中国统计学门户网站,免费统计学服务平台 Search Main menu Skip to primary content Skip to secondary content 主页 论坛 图书 ...
最新文章
- 直播|人大高瓴周骁:时空大数据与智慧城市前沿
- 测试在强电磁场下基于HALL的电流传感器 ACS712-5A是否会有到影响?
- [ASP.NET] Session 详解
- 从N个数中等概率打印M个数
- 8 分钟了解 Kubernetes
- Android系统匿名共享内存Ashmem(Anonymous Shared Memory)简要介绍和学习计划
- CentOS 7 换yum源
- 程序员建议(忘记从哪里转的了,反正是csdn上的一个兄弟)
- opencv:灰色和彩色图像的像素直方图及直方图均值化的实现与展示
- Cisco PT模拟实验(8) 三层交换机的基本配置
- 95-855-040-源码-调度-Flink Schedule Mode 调度模式
- 状态模式(Unity中使用)
- Machine Learning、Date Mining、IRNLP 会议期刊论文推荐
- linux c++ 实现http请求
- Angular JS
- CNN推理哪家强?英伟达/英特尔/骁龙/麒麟/ActionSemi大测评
- 高级 Vue 组件模式 (6)
- paip.log4j 日志系统 参数以及最佳实践
- 【安装sql 2008步骤】
- AMEsim2019.2的安装和matlab2019的联合仿真
热门文章
- 【A】兼容Core3.0后 Natasha 的隔离域与热编译操作。
- .NetCore 2.1以后的HttpClient最佳实践
- 知乎个人精选 | 绝版的专业书到哪里找最快最高效?
- RabbitMQ一个简单可靠的方案(.Net Core实现)
- C#最佳工具集合:IDE、分析、自动化工具等
- DDD理论学习系列(11)-- 工厂
- [转]ES7、ES8、ES9、ES10新特性大盘点
- 【小程序】刘一哥课堂随机点名提问神器V1.0(附源程序)
- C语言试题十七之用来求数组的最大元素在数组中的下标并存放在k所指的储存单元中
- LeetCode之First Unique Character in a String