导读:在现实生活中,绝大多数的随机不是均匀分布的。

作者:徐晟

来源:大数据DT(ID:hzdashuju)

如果你是一位程序员,编程时就一定用过随机(random)函数。它的功能是在特定取值范围内随机生成一些数。这个函数在很多编程语言中是预置的,可以直接调用。

例如,要从1到100之间随机生成一个整数,写程序时就要事先定义一个1到100的取值范围,然后调用随机函数,得到一个该取值范围内等概率的随机数,就是说这100个数中出现任何数字的概率都是1/100。

用惯了随机函数的程序员会误以为“随机”就代表了均匀分布的数据,即等概率事件。这是一个误区。在现实生活中,绝大多数的随机不是均匀分布的。

举个例子,我们知道抛硬币正反两面朝上的概率各有一半,但如果你真的抛上10次硬币,就会发现硬币正好有5次正面朝上的概率既不是50%,也不是10%,而是在25%左右。因为在自然界中,最普遍的“随机”是正态分布(也称为高斯分布),其分布曲线呈“钟形”,如图1-1所示。

▲图1-1 正态分布数学函数图

正态分布是一组数据在正常状态下的概率分布。描述这种分布只需要两个参数:一是这组数据的平均值,通常用希腊字母μ来表示,它位于函数图像正中间的坐标位置。二是标准差,通常用希腊字母σ来表示,它代表了这组数据的离散程度。标准差越小,数据就越集中,反之说明数据越分散。

假如一组数据服从正态分布,根据分布特性,其中有68%的数会集中在平均值正负1个标准差区间内,有95%的数会集中在平均值正负2个标准差区间内,有99.7%的数会集中在平均值正负3个标准差区间内。由于3个标准差的区间几乎涵盖了大部分数据,因此它在数学中有着非常广泛的运用,适用于很多场景下的推导和估计。

概括地讲,正态分布说明了“一般的很多,极端的很少”的现象。这种现象生活中很常见。比如,大部分人的身高都在一个区间范围内,太高或太矮的人不多。仔细观察身边的人,可以发现非常聪明或者非常愚笨的人很少。统计全社会范围内的收入,中档次收入的人比较多,特别贫穷和特别富裕的人较少。

人们常说的二八法则(也称帕累托法则),只是换种方式来描述正态分布现象。二八法则告诉我们,20%的富人拥有世界上80%的财富;只要掌握字典中20%的文字就能理解文章80%的内容;20%的超大城市中居住了80%的人口,等等。

正态分布的特性还有其他广泛应用。我们知道,利用多次抽样可以从相对较少的数据中得出令人信服的总体结论。比如只要调研100个人,就能大致了解人类普遍的心理认知。只要抽查100件商品,就能得出这批次商品的质量结论。

这些民意调查、商品抽样,都在运用抽样样本对总体进行估计,其背后的数学原理是中心极限定理。中心极限定理从理论上证明了,无论随机变量总体呈现什么分布,只要抽样次数足够大,样本的平均值将近似服从正态分布。

也就是说,虽然每个人或者每件商品都会受到大量随机因素的影响,这些因素会对最终状态产生一定影响,但我们不必关心这些因素的细节,而只要把人或商品看成一个整体。该整体的统计规律服从正态分布。

而上述这些情况,才是真实世界中的“随机”。

关于作者:徐晟,某商业银行IT技术主管,毕业于上海交通大学,从事IT技术领域工作十余年,对科技发展、人工智能有自己独到的见解,专注于智能运维(AIOps)、数据可视化、容量管理等方面工作。

本文摘编自《大话机器智能:一书看透AI的底层运行逻辑》,经出版方授权发布。(ISBN:9787111696193)

《大话机器智能:一书看透AI的底层运行逻辑》

点击上图了解及购买

转载请联系微信:DoctorData

推荐语:AI是什么?机器如何拥有“智能”?“智能”如何起作用?本书以通俗易懂的方式,勾勒人工智能的全貌,展现AI的底层运行逻辑,即AI是如何工作的。

划重点

终于有人把正态分布和二八法则讲明白了相关推荐

  1. hahabet05-com:终于有人把云计算,大数据,人工智能讲明白了--哈哈电竞

    今天跟大家讲讲云计算.大数据和人工智能.为什么讲这三个东西呢?因为这三个东西现在非常火,并且它们之间好像互相有关系:一般谈云计算的时候会提到大数据.谈人工智能的时候会提大数据.谈人工智能的时候会提云计 ...

  2. 终于有人把人工智能和深度学习讲明白了

    01 人工智能.机器学习和深度学习的关系 在智能科学领域,有一个初学者很爱问的问题:人工智能.机器学习和深度学习三者有什么联系和区别? 这个是既简单又复杂的问题.这个问题是有标准答案的.答:三者是包含 ...

  3. 什么是正态分布?二八法则又是什么?

    什么是正态分布?二八法则又是什么? 如果你是一位程序员,编程时应该用过随机(random)函数.它的功能是在特定取值范围内随机生成一些数.这个函数在很多编程语言中是预置的,可以直接调用. 例如,要从1 ...

  4. 有jar包直接加密tcp请求报文_干货 | 终于有人能把TCP/IP 协议讲明白了!

    原标题:干货 | 终于有人能把TCP/IP 协议讲明白了! 如果你还对各类协议归属.作用也都傻傻分不清,那么你有必要详尽了解下 TCP/IP协议了. 一图看完本文 一. 计算机网络体系结构分层 计算机 ...

  5. 终于有人能把Telnet跟SNMP讲明白了

    Telnet程序的目的是通过网络提供远程登录或虚拟终端能力.换句话说,计算机A的用户可以与网络中任意计算机B联机操作,对该用户而言,就像坐在计算机B面前一样.Telnet是通过TCP端口号23提供服务 ...

  6. 分布式系统原理_终于有架构大牛把分布式系统概念讲明白了,竟然用了足足800页...

    10年来,随着网络技术的发展.计算机应用的深入.分布式系统构建技术的日益成熟,分布式系统逐渐深入到人们的日常活动,并渗透到社会.经济.文化生活的各个方面.现今,分布式系统作为主流的软件系统,已成为人们 ...

  7. 机器学习与人工智能、深度学习有什么关系?终于有人讲明白了

    导读:"机器学习"一词往往被与"人工智能""深度学习"混用,也常与"大数据"一词一同出现.下面首先简要介绍它们的关系,然 ...

  8. spring怎么解耦_终于有人把Spring和SpringMvc讲透了!

    Spring框架的介绍 Spring框架是由于软件开发的复杂性而创建的.Spring使用的是基本的JavaBean来完成以前只可能由EJB完成的事情.然而,Spring的用途不仅仅限于服务器端的开发. ...

  9. rds基于什么开发_IaaS、PaaS、SaaS、DaaS都是什么?现在怎么样了?终于有人讲明白了...

    导读:本文将详细科普云计算的概念.云服务的发展现状,并逐一介绍各种云服务模式(IaaS.PaaS.SaaS.DaaS),建议收藏! 01 云计算的概念 云是一种服务,可以像使用水.电.煤那样按需使用. ...

最新文章

  1. 02_Nginx基本配置与参数说明 + 辅助命令
  2. php伪静态后无法获得url中参数_php runtime、http web中rewrite浅解和方案
  3. java采集温湿度水浸_机房水浸传感器:智能生活不可或缺的漏水传感器
  4. 拿破仑时代的炮兵究竟数学要多好?
  5. 类成员的访问修饰符和可访问性
  6. 知识蒸馏 | 综述: 网络结构搜索应用
  7. mysql 10658_数据库mysql语句 - pymysql,sqlite3,MySQLdb,mysql.connector 第三方库常用sql语句...
  8. 反编译class文件并重新编译的方法
  9. 最好用的免费搜题软件,一键聚合搜题!中小学、大学都支持
  10. python源码保护pyinstaller 打包exe运行成功 pytorch环境
  11. grpc-go源码剖析七十四之什么情况下服务器端通知客户端,双方关闭链接?(goAway帧处理逻辑)
  12. android 覆盖虚拟按键,解决Android 虚拟按键遮住了页面内容的问题
  13. ⑮霍兰德EA*型如何选专业?高考志愿填报选专业
  14. “FCK编辑器”版本识别及信息收集技术
  15. 计算机类哪些专业是学硬件的,计算机硬件工程师主要学习什么内容
  16. NY8A053E 例程 之 PWM Ouput
  17. 用计算机计算的教案,计算器优质课教案
  18. 一个简单的canvas射击小游戏
  19. airflow error Flask-Appbuilder setp command
  20. 张陈丞:第四范式智能风控中台架构设计及应用

热门文章

  1. canvas笔记-canvas加载图片及放缩及加水印(两canvas同时使用)
  2. Qt修改QSS中的qlineargradient属性,实现颜色渐变
  3. Qt工作笔记-代理及自定义委托,实现开关功能
  4. 机器手六维坐标怎么定义_机器人学——2.4-坐标系的旋转和运动增量
  5. 不适合学计算机的理由,哪些人不适合学计算机 原因是什么
  6. java calendar 转换_[java]转:String Date Calendar之间的转换
  7. java xml dom4j 解析_Java使用DOM4J解析XML
  8. 西安后宰门小学_重磅!西安市教育局召开发布会,将有大动作!
  9. 收银机服务器操作系统,第二章 超市收银机操作系统最终版.doc
  10. 【C语言笔记初级篇】第六章:指针入门