终于有人把正态分布和二八法则讲明白了
导读:在现实生活中,绝大多数的随机不是均匀分布的。
作者:徐晟
来源:大数据DT(ID:hzdashuju)
如果你是一位程序员,编程时就一定用过随机(random)函数。它的功能是在特定取值范围内随机生成一些数。这个函数在很多编程语言中是预置的,可以直接调用。
例如,要从1到100之间随机生成一个整数,写程序时就要事先定义一个1到100的取值范围,然后调用随机函数,得到一个该取值范围内等概率的随机数,就是说这100个数中出现任何数字的概率都是1/100。
用惯了随机函数的程序员会误以为“随机”就代表了均匀分布的数据,即等概率事件。这是一个误区。在现实生活中,绝大多数的随机不是均匀分布的。
举个例子,我们知道抛硬币正反两面朝上的概率各有一半,但如果你真的抛上10次硬币,就会发现硬币正好有5次正面朝上的概率既不是50%,也不是10%,而是在25%左右。因为在自然界中,最普遍的“随机”是正态分布(也称为高斯分布),其分布曲线呈“钟形”,如图1-1所示。
▲图1-1 正态分布数学函数图
正态分布是一组数据在正常状态下的概率分布。描述这种分布只需要两个参数:一是这组数据的平均值,通常用希腊字母μ来表示,它位于函数图像正中间的坐标位置。二是标准差,通常用希腊字母σ来表示,它代表了这组数据的离散程度。标准差越小,数据就越集中,反之说明数据越分散。
假如一组数据服从正态分布,根据分布特性,其中有68%的数会集中在平均值正负1个标准差区间内,有95%的数会集中在平均值正负2个标准差区间内,有99.7%的数会集中在平均值正负3个标准差区间内。由于3个标准差的区间几乎涵盖了大部分数据,因此它在数学中有着非常广泛的运用,适用于很多场景下的推导和估计。
概括地讲,正态分布说明了“一般的很多,极端的很少”的现象。这种现象生活中很常见。比如,大部分人的身高都在一个区间范围内,太高或太矮的人不多。仔细观察身边的人,可以发现非常聪明或者非常愚笨的人很少。统计全社会范围内的收入,中档次收入的人比较多,特别贫穷和特别富裕的人较少。
人们常说的二八法则(也称帕累托法则),只是换种方式来描述正态分布现象。二八法则告诉我们,20%的富人拥有世界上80%的财富;只要掌握字典中20%的文字就能理解文章80%的内容;20%的超大城市中居住了80%的人口,等等。
正态分布的特性还有其他广泛应用。我们知道,利用多次抽样可以从相对较少的数据中得出令人信服的总体结论。比如只要调研100个人,就能大致了解人类普遍的心理认知。只要抽查100件商品,就能得出这批次商品的质量结论。
这些民意调查、商品抽样,都在运用抽样样本对总体进行估计,其背后的数学原理是中心极限定理。中心极限定理从理论上证明了,无论随机变量总体呈现什么分布,只要抽样次数足够大,样本的平均值将近似服从正态分布。
也就是说,虽然每个人或者每件商品都会受到大量随机因素的影响,这些因素会对最终状态产生一定影响,但我们不必关心这些因素的细节,而只要把人或商品看成一个整体。该整体的统计规律服从正态分布。
而上述这些情况,才是真实世界中的“随机”。
关于作者:徐晟,某商业银行IT技术主管,毕业于上海交通大学,从事IT技术领域工作十余年,对科技发展、人工智能有自己独到的见解,专注于智能运维(AIOps)、数据可视化、容量管理等方面工作。
本文摘编自《大话机器智能:一书看透AI的底层运行逻辑》,经出版方授权发布。(ISBN:9787111696193)
《大话机器智能:一书看透AI的底层运行逻辑》
点击上图了解及购买
转载请联系微信:DoctorData
推荐语:AI是什么?机器如何拥有“智能”?“智能”如何起作用?本书以通俗易懂的方式,勾勒人工智能的全貌,展现AI的底层运行逻辑,即AI是如何工作的。
划重点
今天跟大家讲讲云计算.大数据和人工智能.为什么讲这三个东西呢?因为这三个东西现在非常火,并且它们之间好像互相有关系:一般谈云计算的时候会提到大数据.谈人工智能的时候会提大数据.谈人工智能的时候会提云计 ... 01 人工智能.机器学习和深度学习的关系 在智能科学领域,有一个初学者很爱问的问题:人工智能.机器学习和深度学习三者有什么联系和区别? 这个是既简单又复杂的问题.这个问题是有标准答案的.答:三者是包含 ... 什么是正态分布?二八法则又是什么? 如果你是一位程序员,编程时应该用过随机(random)函数.它的功能是在特定取值范围内随机生成一些数.这个函数在很多编程语言中是预置的,可以直接调用. 例如,要从1 ... 原标题:干货 | 终于有人能把TCP/IP 协议讲明白了! 如果你还对各类协议归属.作用也都傻傻分不清,那么你有必要详尽了解下 TCP/IP协议了. 一图看完本文 一. 计算机网络体系结构分层 计算机 ... Telnet程序的目的是通过网络提供远程登录或虚拟终端能力.换句话说,计算机A的用户可以与网络中任意计算机B联机操作,对该用户而言,就像坐在计算机B面前一样.Telnet是通过TCP端口号23提供服务 ... 10年来,随着网络技术的发展.计算机应用的深入.分布式系统构建技术的日益成熟,分布式系统逐渐深入到人们的日常活动,并渗透到社会.经济.文化生活的各个方面.现今,分布式系统作为主流的软件系统,已成为人们 ... 导读:"机器学习"一词往往被与"人工智能""深度学习"混用,也常与"大数据"一词一同出现.下面首先简要介绍它们的关系,然 ... Spring框架的介绍 Spring框架是由于软件开发的复杂性而创建的.Spring使用的是基本的JavaBean来完成以前只可能由EJB完成的事情.然而,Spring的用途不仅仅限于服务器端的开发. ... 导读:本文将详细科普云计算的概念.云服务的发展现状,并逐一介绍各种云服务模式(IaaS.PaaS.SaaS.DaaS),建议收藏! 01 云计算的概念 云是一种服务,可以像使用水.电.煤那样按需使用. ...终于有人把正态分布和二八法则讲明白了相关推荐
最新文章
热门文章