什么是正态分布?为何如此重要?终于有人讲明白了
导读:为什么正态分布如此特殊?为什么大量数据科学和机器学习的文章都围绕正态分布进行讨论?我决定写一篇文章,用一种简单易懂的方式来介绍正态分布。
在机器学习的世界中,以概率分布为核心的研究大都聚焦于正态分布。本文将阐述正态分布的概率,并解释它的应用为何如此的广泛,尤其是在数据科学和机器学习领域,它几乎无处不在。
我将会从基础概念出发,解释有关正态分布的一切,并揭示它为何如此重要。
作者:Farhad Malik
译者:Monanfei
来源:AI科技大本营(ID: rgznai100)
▲1893年人类身高分布图,作者:Alphonse Bertillon
本文的主要内容如下:
概率分布是什么
正态分布意味着什么
正态分布的变量有哪些
如何使用 Python 来检验数据的分布
如何使用 Python 参数化生产一个正态分布
正态分布的问题
01 简短的背景介绍
首先,正态分布又名高斯分布
它以数学天才 Carl Friedrich Gauss 命名
正态分布又名高斯分布
越简单的模型越是常用,因为它们能够被很好的解释和理解。正态分布非常简单,这就是它是如此的常用的原因。
因此,理解正态分布非常有必要。
02 什么是概率分布?
首先介绍一下相关概念。
考虑一个预测模型,该模型可以是我们的数据科学研究中的一个组件。
如果我们想精确预测一个变量的值,那么我们首先要做的就是理解该变量的潜在特性。
首先我们要知道该变量的可能取值,还要知道这些值是连续的还是离散的。简单来讲,如果我们要预测一个骰子的取值,那么第一步就是明白它的取值是1 到 6(离散)。
第二步就是确定每个可能取值(事件)发生的概率。如果某个取值永远都不会出现,那么该值的概率就是 0 。
事件的概率越大,该事件越容易出现。
在实际操作中,我们可以大量重复进行某个实验,并记录该实验对应的输出变量的结果。
我们可以将这些取值分为不同的集合类,在每一类中,我们记录属于该类结果的次数。例如,我们可以投10000次骰子,每次都有6种可能的取值,我们可以将类别数设为6,然后我们就可以开始对每一类出现的次数进行计数了。
我们可以画出上述结果的曲线,该曲线就是概率分布曲线。目标变量每个取值的可能性就由其概率分布决定。
一旦我们知道了变量的概率分布,我们就可以开始估计事件出现的概率了,我们甚至可以使用一些概率公式。至此,我们就可更好的理解变量的特性了。概率分布取决于样本的一些特征,例如平均值,标准偏差,偏度和峰度。
如果将所有概率值求和,那么求和结果将会是100%
世界上存在着很多不同的概率分布,而最广泛使用的就是正态分布了。
03 初遇正态分布
我们可以画出正态分布的概率分布曲线,可以看到该曲线是一个钟型的曲线。如果变量的均值,模和中值相等,那么该变量就呈现正态分布。
如下图所示,为正态分布的概率分布曲线:
理解和估计变量的概率分布非常重要。
下面列出的变量的分布都比较接近正态分布:
人群的身高
成年人的血压
传播中的粒子的位置
测量误差
回归中的残差
人群的鞋码
一天中雇员回家的总耗时
教育指标
此外,生活中有大量的变量都是具有 x % 置信度的正态变量,其中,x<100。
04 什么是正态分布?
正态分布只依赖于数据集的两个特征:样本的均值和方差。
均值——样本所有取值的平均
方差——该指标衡量了样本总体偏离均值的程度
正态分布的这种统计特性使得问题变得异常简单,任何具有正态分布的变量,都可以进行高精度分预测。
值得注意的是,大自然中发现的变量,大多近似服从正态分布。
正态分布很容易解释,这是因为:
正态分布的均值,模和中位数是相等的。
我们只需要用均值和标准差就能解释整个分布。
正态分布是我们熟悉的正常行为。
05 为何如此多的变量都大致服从正态分布?
这个现象可以由如下定理解释:当在大量随机变量上重复很多次实验时,它们的分布总和将非常接近正态分布。
由于人的身高是一个随机变量,并且基于其他随机变量,例如一个人消耗的营养量,他们所处的环境,他们的遗传等等,这些变量的分布总和最终是非常接近正态的。
这就是中心极限定理。
本文的核心:
我们从上文的分析得出,正态分布是许多随机分布的总和。如果我们绘制正态分布密度函数,那么它的曲线将具有以下特征:
如上图所示,该钟形曲线有均值为 100,标准差为1:
均值是曲线的中心。这是曲线的最高点,因为大多数点都是均值。
曲线两侧的点数相等。曲线的中心具有最多的点数。
曲线下的总面积是变量所有取值的总概率。
因此总曲线面积为 100%
更进一步,如上图所示:
约 68.2% 的点在 -1 到 1 个标准偏差范围内。
约 95.5% 的点在 -2 到 2 个标准偏差范围内。
约 99.7% 的点在 -3 至 3 个标准偏差范围内。
这使我们可以轻松估计变量的变化性,并给出相应置信水平,它的可能取值是多少。例如,在上面的灰色钟形曲线中,变量值在 99-101 之间的可能性为 68.2%。
06 正态概率分布函数
正态概率分布函数的形式如下:
概率密度函数基本上可以看作是连续随机变量取值的概率。
正态分布是钟形曲线,其中mean = mode = median。
如果使用概率密度函数绘制变量的概率分布曲线,则给定范围的曲线下的面积,表示目标变量在该范围内取值的概率。
概率分布曲线基于概率分布函数,而概率分布函数本身是根据诸如平均值或标准差等多个参数计算的。
我们可以使用概率分布函数来查找随机变量取值范围内的值的相对概率。例如,我们可以记录股票的每日收益,将它们分组到适当的集合类中,然后计算股票在未来获得20-40%收益的概率。
标准差越大,样品中的变化性越大。
07 如何使用 Python 探索变量的概率分布
最简单的方法是加载 data frame 中的所有特征,然后运行以下脚本(使用pandas 库):
DataFrame.hist(bins=10)#Make a histogram of the DataFrame.#Make a histogram of the DataFrame.
该函数向我们展示了所有变量的概率分布。
08 变量服从正态分布意味着什么?
如果我们将大量具有不同分布的随机变量加起来,所得到的新变量将最终具有正态分布。这就是前文所述的中心极限定理。
服从正态分布的变量总是服从正态分布。例如,假设 A 和 B 是两个具有正态分布的变量,那么:
A x B 是正态分布
A + B 是正态分布
因此,使用正态分布,预测变量并在一定范围内找到它的概率会变得非常简单。
09 样本不服从正态分布怎么办?
我们可以将变量的分布转换为正态分布。
我们有多种方法将非正态分布转化为正态分布:
1. 线性变换
一旦我们收集到变量的样本数据,我们就可以对样本进行线性变化,并计算Z得分:
计算平均值
计算标准偏差
对于每个 x,使用以下方法计算 Z:
2. 使用 Boxcox 变换
我们可以使用 SciPy 包将数据转换为正态分布:
scipy.stats.boxcox(x, lmbda=None, alpha=None)None)
3. 使用 Yeo-Johnson 变换
另外,我们可以使用 yeo-johnson 变换。Python 的 sci-kit learn 库提供了相应的功能:
sklearn.preprocessing.PowerTransformer(method=’yeojohnson’,standardize=True, copy=True)True)
10 正态分布的问题
由于正态分布简单且易于理解,因此它也在预测研究中被过度使用。假设变量服从正态分布会有一些显而易见的缺陷。例如,我们不能假设股票价格服从正态分布,因为价格不能为负。因此,我们可以假设股票价格服从对数正态分布,以确保它永远不会低于零。
我们知道股票收益可能是负数,因此收益可以假设服从正态分布。
假设变量服从正态分布而不进行任何分析是愚蠢的。
变量可以服从Poisson,Student-t 或 Binomial 分布,盲目地假设变量服从正态分布可能导致不准确的结果。
11 总结
本文阐述了正态分布的概念和性质,以及它如此重要的原因。
希望能帮助到你。
原文链接:http://bit.ly/2NyetFz
有话要说?
Q: 这么神奇的正态分布,你玩转了吗?
欢迎留言与大家分享
猜你想看?
一文看懂数据清洗:缺失值、异常值和重复值的处理
2019上半年,457635位大数据用户最喜爱的10本书
发际线预警!10本程序员必读烧脑经典,你敢挑战一本吗?
手把手教你实现共享单车数据分析及需求预测
更多精彩?
在公众号对话框输入以下关键词
查看更多优质内容!
PPT | 报告 | 读书 | 书单 | 干货
大数据 | 揭秘 | Python | 可视化
AI | 人工智能 | 5G | 区块链
机器学习 | 深度学习 | 神经网络
1024 | 段子 | 数学 | 高考
据统计,99%的大咖都完成了这个神操作
?
觉得不错,请把这篇文章分享给你的朋友
转载 / 投稿请联系:baiyu@hzbook.com
更多精彩,请在后台点击“历史文章”查看
什么是正态分布?为何如此重要?终于有人讲明白了相关推荐
- rds基于什么开发_IaaS、PaaS、SaaS、DaaS都是什么?现在怎么样了?终于有人讲明白了...
导读:本文将详细科普云计算的概念.云服务的发展现状,并逐一介绍各种云服务模式(IaaS.PaaS.SaaS.DaaS),建议收藏! 01 云计算的概念 云是一种服务,可以像使用水.电.煤那样按需使用. ...
- 贯穿计算机系统所有方面的重要概念,终于有人讲明白了
导读:我们在此强调几个贯穿计算机系统所有方面的重要概念.我们会在本文多处讨论这些概念的重要性. 作者:Randal E. Bryant,David R. O'Hallaron 来源:华章计算机(hzb ...
- 什么是HBase?它是怎样工作的?终于有人讲明白了
导读:HBase是一个构建在HDFS之上的.分布式的.支持多版本的NoSQL数据库,它的出现补齐了大数据场景下快速查询数据能力的短板.它非常适用于对平台中的热数据进行存储并提供查询功能. 作者:朱凯 ...
- 什么是机器学习?有哪些分类?怎样上手开发?终于有人讲明白了
导读:本文首先介绍何谓机器学习,以及与机器学习相关的基本概念,这是学习和理解机器学习的基础.按照学习方式的不同,机器学习可以分为不同类型,如监督学习.无监督学习.强化学习等,本文会详细介绍它们各自的特 ...
- 什么是机器学习?有哪些应用?终于有人讲明白了
导读:人工智能的快速发展,带动了相关技术的繁荣.近些年,国内外的科技公司对机器学习人才都有大量需求.怎样入行机器学习?本文带你从0开始学起. 作者:星环科技人工智能平台团队 来源:大数据DT(ID:h ...
- 机器学习与人工智能、深度学习有什么关系?终于有人讲明白了
导读:"机器学习"一词往往被与"人工智能""深度学习"混用,也常与"大数据"一词一同出现.下面首先简要介绍它们的关系,然 ...
- 什么是云原生,跟云计算有什么关系?终于有人讲明白了
导读:云原生到底是什么? 作者:阿里集团 阿里云智能事业群 云原生应用平台 来源:大数据DT(ID:hzdashuju) 云原生(Cloud Native)的概念,最早是由Pivotal于2015年提 ...
- Netflix正在搞的混沌工程到底是什么?终于有人讲明白了
导读:与任何新概念一样,混沌工程时常被误解.本文会探讨混沌工程是什么以及不是什么. 作者:Casey Rosenthal, Nora Jones 来源:大数据DT(ID:hzdashuju) 在Net ...
- 什么是架构?网络架构中都有什么?终于有人讲明白了
导读:理解架构这个词的意思是十分重要的.它可能被过度使用,并且使用在各种环境中.如果缺少一致的理解,将会有交流失败的风险.那么架构这个词到底是什么意思呢? 作者:大卫·D.克拉克(David D. C ...
- 什么是扩展现实(XR)?云XR系统怎样实现?终于有人讲明白了
导读:5G大潮下的VR/XR/AR云化探索. 作者:林瑞杰 冯林 温向东 陈乐 等 来源:大数据DT(ID:hzdashuju) 我国政府正在积极推动虚拟现实技术的全面发展.虚拟现实(含增强现实)已被 ...
最新文章
- java反码补码原码作用_java原码补码反码关系解析
- field list什么意思_从源码中学Vue(六)「解密」为什么操作数组的方法也会触发视图更新...
- ubuntu date -R查看时区
- 春天重新审视战略模式
- C#中使用正则表达式验证电话号码、手机号、身份证号、数字和邮编
- Microsoft Softwares
- wmf和emf格式的图片有什么区别? JPG图片如何转换WMF文件?
- 计算机打不开网络邻居,打不开网上邻居的电脑是怎么回事
- python中的snip用法_腾讯mac截图软件Snip使用教程
- 数美科技:全栈防御体系怎么样护航游戏ROI增长
- ubuntu 20 安装手册
- Mac下的平铺式桌面 - Yabai
- 关于“ VMware Workstation 16 此平台不支持虚拟化的Intel VT-x/EPT. 不使用虚拟化的Intel VT-x/EPT,是否继续?”的有关问题的总结解答
- 以太坊 day (6) 简单众筹项目的演示
- 网页怎么算切屏_电脑怎么切屏
- 离线安装VS2019教程
- 微信小程序——条件渲染
- iOS 13 适配,关闭黑暗模式(夜间模式)
- 华为云数据库 GaussDB(for MySQL),让企业无忧数据恢复
- 访问学者进入美国哪些东西不能带?
热门文章
- [ZT]“你可以安全关机”解决方案
- 世界道路协会PIARC五个在线技术手册
- 【电子刊物制作软件】名编辑电子杂志大师教程 | 字体设置
- 不爱你的人只会跟你在优衣库试衣间,爱你的人跟你用WSTMall建站
- C++:上机练习(C++实现)
- 解决The package java.awt is not accessible或者javax.swing is not accessible的问题
- AdminEAP框架-基于AdminLTE的权限管理
- 黑莓8800装不上软件的问题
- 太赫兹通信芯片关键技术与系统发展浅析
- 用Labelmx可变数据生成软件打印条码流水号