正态分布最通俗的解释---今天你正太分布了吗?

  • 生活中的正态分布现象
  • 正太分布名字的由来
  • 为什么机器学习中要经常用到正态分布

正态分布这一现象有多重要?可以说我们的生活中随处都可遇见,只是没有被人留意。但是当你接触机器学习的时候,正态分布是你无法避开的话题。既然这么重要,我决定写一篇文章介绍一下正太分布,当然里面整理了一些网上的说法,后面我会标识出来。

本文我会遵照以下思路展开:
1,生活中正态分布的现象;
2,正态分布名字的由来;
3,为什么机器学习中要经常用到正态分布?
let’s go!

生活中的正态分布现象

现象一:
记得我在上高中的时候,成绩大概是班级15名附近。每次考试结束的时候都会和同桌讨论答案。情况如下图所示:

大家看,这个情况是不是很熟悉,每次考试,不管你对完答案心情如何,结果都差不多,成绩并没有大幅度变化。(当然会有个别猛人逆袭,不过逆袭的都是个别人,这也符合正太分布的规律。正太分布什么规律?别急,后面会跟大家介绍)

现象二:
我家住在城西,我在城东上班。我每天预留50分钟的上班世间,有时候我20分钟就到单位了,有时候会用到接近50分钟。但是平均下来大概是30分钟,且大多数时候都在25-35分钟之间。这个规律也符合正太分布

现象三:

还记得我们上学拍合照吗?去掉几个特别高的和几个特别矮的,大部分人的身高是差不多的。不是吗?这也符合正太分布的规律。

正太分布名字的由来

关于正太分布的小实验
正太分布这个现象可以说历史悠久,但是人们研究这个现象却是有迹可循的。

考虑一个预测模型,该模型可以是我们的数据科学研究中的一个组件。

如果我们想精确预测一个变量的值,那么我们首先要做的就是理解该变量的潜在特性。

首先我们要知道该变量的可能取值,还要知道这些值是连续的还是离散的。简单来讲,如果我们要预测一个骰子的取值,那么第一步就是明白它的取值是1 到 6(离散)。第二步就是确定每个可能取值(事件)发生的概率。如果某个取值永远都不会出现,那么该值的概率就是 0 。

事件的概率越大,该事件越容易发生。

在实际操作中,我们可以大量重复进行某个实验,并记录该实验对应的输出变量的结果。

我们可以将这些取值分为不同的集合类,在每一类中,我们记录属于该类结果的次数。例如,我们可以投10000次骰子,每次都有6种可能的取值,我们可以将类别数设为6,然后我们就可以开始对每一类出现的次数进行计数了。

我们可以画出上述结果的曲线,该曲线就是概率分布曲线。目标变量每个取值的可能性就由其概率分布决定。

一旦我们知道了变量的概率分布,我们就可以开始估计事件出现的概率了,我们甚至可以使用一些概率公式。至此,我们就可更好的理解变量的特性了。概率分布取决于样本的一些特征,例如平均值,标准偏差,偏度和峰度。

如果将所有概率值求和,那么求和结果将会是100%。

世界上存在着很多不同的概率分布,而最广泛使用的就是正态分布了。

正太分布名字的由来

这要从发明这个东东的人说起。

维多利亚时期的学者Francis Galton对数据分布很着迷,他制造了一台可以产生‘数据分布’的装置。他发现这种装置适用于很多数据,他将其命名为‘正态分布’(The Normal Distribution)。
该装置名称为高尔顿钉板,如下图所示:

为什么机器学习中要经常用到正态分布

正太分布的含义
我们先来看一张经典的数据分布图像

上图代表的是正太分布的数据,数值分布的形式。
其中 N N N是这一组数据的平均值, ± σ ±σ ±σ代表这组数据的分布范围。这个图的意思是说,有接近68%的数据分布在 N ± σ N±σ N±σ之间,有95.4%的数据分布在 N ± 2 σ N±2σ N±2σ之间,有99.7%的数据分布在 N ± 3 σ N±3σ N±3σ之间。我们可以认为几乎所有数据都分布在 N ± 3 σ N±3σ N±3σ之间。

这一点很重要,这样我们可以很容易锁定数据的取值区间。

机器学习用正态分布的意义
实际上存在很多不同的分布形式,但是如果我们将大量具有不同分布的随机变量加起来,所得到的新变量将最终具有正态分布。

服从正态分布的变量总是服从正态分布。 例如,假设 A 和 B 是两个具有正态分布的变量,那么:
A x B 是正态分布
A + B 是正态分布
因此,使用正态分布,预测变量并在一定范围内找到它的概率会变得非常简单.

部分内容参考自博客
机器学习中,正态分布为何如此重要?

正态分布最通俗的解释---今天你正太分布了吗?相关推荐

  1. c java python html_如何通俗地解释 C、C++、C#、Java、JavaScript、HTML、Python的用处

    世界上本来没有计算机,工程师创造了它. 为了让告诉计算机需要做什么事情,工程师发明了程序设计语言. 简单粗暴的编程: C语言:用来学编程: C++语言:用来使劲儿学编程: C#:用来在windows操 ...

  2. 如何通俗地解释 C、C++、C#、Java、JavaScript、HTML、Python的用处

    世界上本来没有计算机,工程师创造了它. 为了让告诉计算机需要做什么事情,工程师发明了程序设计语言. 简单粗暴的编程: C语言:用来学编程: C++语言:用来使劲儿学编程: C#:用来在windows操 ...

  3. php引用计数器,PHP 引用计数器 通俗版解释_PHP教程

    PHP 引用计数器 通俗版解释 概述 最近看PHP中的引用计数器部分,首先被各种绕晕,然后通过看博客和分析后,总结了一个比较通俗的解释,能帮助自己很好地记忆,也希望能帮助到各位读者.这里分享一遍博文, ...

  4. 通俗地解释下密码学中的归约证明

    本文首发于本人的:能否通俗地解释下密码学中的归约证明? - ChainingBlocks的回答 - 知乎 https://www.zhihu.com/question/49441102/answer/ ...

  5. Java 之 Serializable 序列化和反序列化的概念,作用的通俗的解释

    1.序列化和反序列化的疑问 遇到这个 Java Serializable 序列化这个接口,我们可能会有如下的问题 a,什么叫序列化和反序列化 b,作用.为啥要实现这个 Serializable 接口, ...

  6. 如何通俗地解释欧拉公式(e^πi+1=0)

    如何通俗地解释欧拉公式(e^πi+1=0)? 原文:https://www.matongxue.com/madocs/8.html 欧拉公式将指数函数的定义域扩大到了复数域,建立和三角函数和指数函数的 ...

  7. 通俗的解释卡尔曼滤波(Kalman Filter)以及其Python的实现

    卡尔曼滤波 风力发电机中的风速估计,转速估计甚至扭矩估计都设计到卡尔曼滤波,如果只是单一传感变量的平滑处理也能用到卡尔曼滤波. 振动信号中的滤波大多采用低通去除高频噪音,而卡尔曼滤波则是通过不确定度把 ...

  8. 如何通俗地解释梯度下降法

    如何通俗地解释梯度下降法 同学们大家好,今天我们来学习梯度下降法 1 简单印象 用一句话解释,梯度下降法就是快速找到最低点的一个方法.比如在山上有一个球,经过几次运动后,就会来到谷底附近. 要完成这个 ...

  9. 正则化-最通俗的解释

    正则化-最通俗的解释 一.正则化-大白话解释 一.正则化-大白话解释 "正则化"是机器学习中的一个术语,那么在解释正则化之前,不得不解释与之非常非常关系密切的另一个机器学习的术语& ...

最新文章

  1. faster rcnn源码解读(六)之minibatch
  2. liblbfgs简介
  3. 一文弄懂各种loss function
  4. sed 学习笔记(未完成)
  5. Visual Studio Code 1.44 发布
  6. Shell 特殊字符大全
  7. Oracle备份还原实践
  8. 电容元器件外观视觉检测系统方案设计-东莞康耐德
  9. 海康nvr sdk java调用,海康SDK开发NVR拍照功能
  10. 侯捷C++八部曲笔记(三、设计模式)
  11. unreal engine各个版本网盘离线下载
  12. 通过Mixamo生成人物动画并导入Unity实现资源可用的方法
  13. Mac设置顶部菜单栏技巧?
  14. 华为设备DNS配置命令
  15. Xcode 真机调试失败:Errors were encountered while preparing your device for development
  16. 当AI走进工厂,“小轴承”也可以转动“大产业”
  17. WebView实现改变选中区域颜色以及添加下划线
  18. 移动端开发vue使用Barcode实现二维码、条形码扫码
  19. 算法训练 笨笨的机器人(20分)c++实现
  20. Pytorch学习笔记——LeNet模型

热门文章

  1. JVM内存模型-回忆学习总结
  2. HTML5与CSS3及Less
  3. net.sf.json.JSONException: Unterminated string at character 1801
  4. 网络分层的真实含义是什么
  5. SAP QM 检验批里某检验特性的取样数量跟检验计划设置不符?
  6. mysql isnum()_mysql 一些基础的语法和命令
  7. 南邮计算机实验报告合集【非常全】
  8. 移动端html网页真机调试,Mac端调试iphone移动端网页
  9. DirectoryInfo(查询)---遍历指定文件夹下所有文件及文件夹
  10. 第一次冲刺--查看活动详情用户场景分析