对数正态分布_正态分布与幂律分布
1.正态分布
英国生物统计学家法兰西斯·高尔顿做了一个实验。他在一块木板上画了一块等腰三角形,并在三角形区域内钉上n+1层钉子。第1层钉2个钉子,第2层钉3个钉子,下面每一层都比上一层增加一个钉子,上一层的每个钉子都在下一层两个钉子的中间位置。之后,在第n+1层的下面,放入n+2个球槽。
建成后,高尔顿从顶端逐个扔下小球,这些小球在下落过程中与众多钉子发生碰撞,每次碰撞都会使得小球随机向左或向右下落。随着小球个数的增加,掉入各个球槽内的小球的个数会越来越多,堆积的高度也会不断增加。最终,如下图所示,各球槽将呈现出“中间高,两边低”的分布,与我们的身高数据分布非常相似。
并且,如果进一步增加钉子的层数和小球个数,球槽中小球分布形成的曲线就会越来越光滑,最终趋向于下图“中间高,两边低”的“钟型”曲线,我们将这条曲线称为正态分布密度曲线,简称正态曲线。
在生活中,餐馆开业稳定后的顾客流量,就符合正态分布。
假设你的餐馆平均每天有 100 个顾客,比较好的时候能到 115 人,比较差的时候也有 85 人,那么画出图来,就是下面这样的一条钟形曲线 ——
曲线的横坐标代表每天来的人数,纵坐标代表在比如说一个季度之中,来这么多人的时候有多少天。
图中标记了正态分布的两个重要概念:平均值(μ),和标准差(σ)。
对你这个餐馆来说,μ = 100,σ = 15,这意味着在 68%的日子里,你的顾客人数会在 85 和 115 之间 —— 这叫“一个标准差之内”。
横轴上距离平均值越远的地方越是极端事件,而那些事件的纵坐标大小则代表它们发生的概率。
只要你知道餐馆人数符合正态分布,平均值和标准差就都可以用平时的流量数据统计出来。
有了平均值和标准差你就可以大致估算各种事件发生的概率:95%的事情都发生在两个标准差之内,99.7% 的事情发生在三个标准差之内。
为什么餐馆人数满足正态分布?
并不是所有随机事件都满足正态分布。中心极限定理说,如果一个事件满足下面这些条件,它的分布就是正态分布 ——
第一,它是由多个(至少 20 个) 随机变量“相加”的结果;
第二,这众多的随机变量是互相“独立”的;
第三,每个随机变量的方差都只有有限大;
第四,每个随机变量对结果都要有一定的贡献,否则如果只是其中几个起到决定性的作用,那也不能算“多”。
简单地说,关键要求有两个:“相加”和“独立” —— 凡是多个独立随机变量相加的事件,结果就会是正态分布。
你的餐馆顾客满足这些条件。每个顾客来不来吃饭都是他自己的决定,是独立的;而你计算的是今天总共来了多少人,是这些人的和。
生物学家认为人的身高是由至少 180 个基因共同决定的。有的决定你的小腿有多长,有的决定你的脖子有多长 —— 而你的身高,是所有这些因素相加之和。作为一个很好的近似,决定身高的各个基因是比较互相独立的。所以身高满足正态分布。
2.对数正态分布
如果一个事件的结果不是由独立随机事件相加、而是由相乘决定的,它的分布将是“对数正态分布”。这个分布的形状就不是对称的钟形了,而是像下面这样 ——
它有一个比较长的尾巴。这意味着其中发生极端事件的可能性比正态分布高很多。
比如说涨工资吧。有个公司,本来员工之间工资相差不大。有一天老板宣布了一个涨工资计划,说以后每年业绩突出的员工,工资会增加 10%。你猜这个政策意味着什么?
意味着员工之间的工资差距将会变得越来越大。可能老王工资本来就比小李高,这次业绩又比小李好,那么老王涨 10%,小李没有,所以两人的差距将会变大。
换一种情况,老王表现没有小李好,那么小李涨 10%,两人差距会缩小。但是,请注意,因为老王工资高,所以第一种情况导致的工资差距拉大,会超过第二种情况导致的工资差距缩小 —— 所以总体看来,全体员工的收入差距必然拉大。
这就是因为你使用了相乘的方法。换个方案,如果规定业绩好的员工,不论之前的工资是多少,一律涨一万块钱,那么员工之间的工资差距就不会拉大。
请注意,对数正态分布仍然假设每个随机变量的作用是互相独立的 —— 这意味着哪个员工今年能做出更好的业绩,跟他去年的工资没关系。而如果你认为员工工资代表了能力,那么工资越高的人就越有可能做出好业绩,那结果就不会是对数正态分布了,而是比这还要容易出极端事件的“幂律分布”。
3.幂律分布
幂律分布的“长尾”,比对数正态分布更长 ——
这意味着幂律分布中会有大量的极端事件。
幂律分布是“不独立”的随机变量作用的结果。
第一个模型是“马太效应”。比如你去书店买书,那么多本书选哪本呢?你会优先关注那些上了排行榜的“畅销书”。这等于说越畅销的书就会越容易被关注,而越容易被关注就让它进一步更畅销。幂律分布使得图书市场中会出现少量特别畅销的书,而绝大多数书的销售成绩都很差。
而这一切都是因为你做决定的时候是在模仿别人。你看到别人都买这本书,所以你才关注它。你的买书行为不是独立的。
另一种幂律分布模型来自于复杂系统的“自组织”现象。一个系统在变大、变复杂的过程中,它的各个部分互相依赖的程度将会增加。到了一个临界点,因为互相关联实在太紧密了,一部分出个小问题就会导致整个系统出大问题,那就是雪崩式的灾难。
核电站的安全性、地震、森林大火,这些事情中包含自组织,各个部分之间会有复杂的联动。所谓蝴蝶效应,罪过不在蝴蝶,恰恰就是因为系统中的复杂联动。这些系统可能平时什么事都没有,但是其中蕴含着大灾难的可能性。
本文部分摘选自得到课程:万维钢精英日课3,模型思考者。
对数正态分布_正态分布与幂律分布相关推荐
- 逆幂律模型_思维模型18 - 幂律分布是什么?
上篇关于正态分布的内容中提到了自然界中许多事物的概率分布都近似的符合正态分布,后来我们拿大多数人最关心的财富来举例,但它符合正态分布符合对数正态分布,这是以人数做统计,但如果按照各个资产量统计人数的话 ...
- 数理统计10.15 | 幂律分布
数理统计10.15 | 幂律分布 定义 示例 幂律与"长尾" 克莱伯定律(Kleiber's Law) Zipf定律:书籍中单词频率的分布 Pareto定律(帕累托定律) 性质 标 ...
- excel中读取数据拟合幂律分布
首先要做的是绘制CDF或者PDF,概率密度分布图和概率分布图,cdf其实就是pdf求导后的结果.有了概率分布图对x和y同时取对数,就知道是不是幂律分布了. 我的数据只有一列,用pandas读进来就行了 ...
- 关于幂律分布的一个笔记_哈克_新浪博客
关于幂律分布的一个笔记_哈克_新浪博客 关于幂律分布的一个笔记 (2011-03-02 18:12:27) 转载▼ 标签: 幂律 二八法则 杂谈 ...
- 逆幂律模型_为“成功”建模:幂律分布
我是你的专属评论员,"每年读300本书.读书不挑食"的轩辕. 今天我们继续来评论<模型思维>这本书. 昨天和前天,我们分别为"人脉"和"股 ...
- tensorflow如何做幂律分布_离散概率分布与连续概率分布
随机变量:随机变量(random variable)表示随机试验各种结果的实值单值函数.随机事件不论与数量是否直接有关,都可以数量化,即都能用数量化的方式表 概率:,它反映随机事件出现的可能性(lik ...
- Python数据可视化:幂律分布
1.公式推导 对幂律分布公式: 对公式两边同时取以10为底的对数: 令,且为常数,所以公式变为: 所以对于幂律公式,对X,Y取对数后,在坐标轴上为线性方程. 2.可视化 从图形上来说 ...
- 幂律分布图matlab代码,关于幂律分布,你还应该知道如何用代码实现!| 集智百科...
今天我们继续学习幂律分布的基本概念--幂律概率分布,以及如何用代码实现幂律分布.内容来自集智百科,集智百科是复杂系统领域的百科全书,涵盖复杂系统领域的基本概念(持续完善中). 我们正在组织撰写翻译相应 ...
- 用幂律分布研究工资收入
本文系即将出版的<机器学习数学基础>中的"第5章概率"的"5.3.3 连续型随机分布"一节中"幂律分布"节选.本书将由电子工业出 ...
最新文章
- c#.net调用pdf2swf.exe将pdf文件转换为swf,vs中运行正常,布署IIS服务器部署转换后文字部分为空白...
- 设置VSS2005使支持通过Internet访问(转)
- Xcode clang-omp openmp开发
- Android keystore/Keymaster的代码导读
- poj/OpenJ_Bailian - 2528 离散化+线段树
- 工程师最重要的能力是什么
- java让日志生成日期文件夹_SpringBoot按日期和文件大小生成日志文件到对应日期文件夹...
- Meteor 加入账户系统
- ios html异步加载图片,iOS 异步加载本地图片
- mac Zip 常用命令
- 桌面计算机怎么覆盖文件,恢复被覆盖的文件_恢复被覆盖的桌面文件
- 08返回一个整数数组中最大子数组的和
- android RN开发环境搭建
- 树莓派制作游戏机教程
- RFC 协议下载方法
- windbg抓一个windows蓝屏分析
- 三个限免网站,助你白嫖正版付费软件/游戏
- 如何使用pyinstaller将Python的代码打包
- Java编程语言-介绍
- Android APP切换系统语言
热门文章
- 从 Elasticsearch 来看分布式系统架构设计
- 云图说|分布式事务管理DTM:“买买买”背后的小帮手
- 带你掌握二进制SCA检测工具的短板及应对措施
- 你一定要知道的敏捷规划工具:影响地图
- 数仓业务容错利器:物理细粒度备份恢复技术
- 【华为云技术分享】弹性负载均衡服务助力企业应对高并发流量冲击
- 野生前端的数据结构练习(1)——栈
- KubeCon直击 | 华为云以技术布道“云边端芯”
- Android动态日志,一个简单的Android日志类
- 【李宏毅机器学习】Why Deep Learning(p15) 学习笔记