目录

  • 1. 从名字说起
  • 2. 连续型随机变量研究区间概率
  • 3. 概率密度函数
  • 4. 均值 μ\muμ 和标准差 σ\sigmaσ
  • 5.标准化与查表求概率(举例)


正态分布,这个我们从中学就学过的内容,真有这么重要吗?

真正学懂统计的人对这一点是不会质疑的,彻底弄懂正态分布是灵活运用统计学中各种假设检验方法、看懂p值,理解均数置信区间的前提

1. 从名字说起

为什么叫“正态分布”,也有地方叫“常态分布”,这两个名字都不太直观,但如果我们各取一字变为“正常分布”,就很白话了,而这正是“正态分布”的本质含义,Normal Distribution

它太常见了,基本上能描述所有常见的事物和现象:正常人群的身高、体重、考试成绩、家庭收入等等。这里的描述是什么意思呢?就是说这些指标背后的数据都会呈现一种中间密集、两边稀疏的特征。以身高为例,服从正态分布意味着大部分人的身高都会在人群的平均身高上下波动,特别矮和特别高的都比较少见。

你可能不禁要问,这是为什么?因为我们研究的对象具有同质性(比如都是成年的中国男子),所以其特征往往是趋同的,即存在一个基准;但由于个体变异的存在(当然变异不会太大),这些特征又不是完全一致,所以会以一定的幅度在基准的上下波动,从而形成了中间密集,两侧稀疏的特征。

2. 连续型随机变量研究区间概率

了解了正态分布的基本思想,我们来看看实际应用中我们需要掌握的要点。

首先,正态分布属于“连续型随机变量分布”的一类。我们知道,对于连续型随机变量,我们不关注“点概率”,只关注 “区间概率” ,这是什么意思?

我们看这个例子:假定随机变量 X 指是“北京市成年男子的身高”,理论上它可以取任意正数,所以我们把它当做一个连续型随机变量(连续型变量,就是指可以取某一区间或整个实数轴上的任意一个值的变量)来看待。

这里,我们先想一想如何计算P(X =1.87)? 即身高恰好完全exactly等于1.87的概率是多少,这就是所谓的“点概率”。

更极端一点,让随机变量Y是 [0,1] 这个区间上的任意一点,那么Y的取值有多少个呢?无数多个,我们数不清楚,所以Y 取某一个具体的值的概率是1除以无数,即可以看做是0。

于是,这里透露一个很重要的结论:连续型随机变量取任意某个确定的值的概率均为0。因此,对于连续型随机变量,我们通常不研究它取某个特定值的概率,而研究它在某一段区间上的取值,比如身高在1.70~1.80的概率。

3. 概率密度函数

对于初学者来讲,“概率密度”可能是最不友好的一个概念,直接谈概率不行吗,好好的为什么要生出一个“密度”?

虽然文字和数学公式上你可能感觉很陌生,但我们特别熟知的那条中间高、两边低的“钟形曲线”恰恰就是正态分布的概率密度曲线。

前面我们讲了区间概率,这里你就可以通过区间的角度来理解概率密度曲线:曲线越高,也就代表着这个区别的概率越密集,简单理解成在同样大小的房子里,这个房间的人数更多、更挤。

除此之外,另一个关于概率密度函数的重要知识点是,积分(面积)等于概率。随机变量 X 在某个区间比如(a,b)即 a<X<b 的概率,就是概率密度曲线在这个区间下的面积,数学上的表达就是密度函数在区间(a, b)上的积分。所以,概率的大小就是“概率密度函数曲线下的面积”的大小,这个不太起眼的概念实际上就决定了你日后是否能理解假设假设中所谓的“拒绝域”。

概率密度函数,在离散型随机变量中可以理解成,随机变量 X 的任意一点 x0,求该点出现的概率 f(x0),由于连续性随机变量是分区间的,比如 (a, b) 范围内,有无数个点,求这个区间的概率的话,需要把这个区间所有变量 x 对应的概率 f(x) 累加(积分)。

下图中的三条曲线f (x),就是概率密度函数,各种形式的概率就是相对应的曲线下面积。这里,数学基础不太好的同学不用特别深挖积分的计算过程,但对这三张图与对应的概率表达形式,同学们要熟知。

4. 均值 μ\muμ 和标准差 σ\sigmaσ

前面说过,正态分布的概率密度函数以及积分不用特别关注,那真正需要关注的是什么呢?

是均数和标准差。一旦谈及正态分布,首先要想到它的两个参数:均数是多少和标准差是几。每次一遇到正态分布就迅速找这两个概念,因为这两个数才是我们日后运用正态分布解决实际问题的“利器”。

正态分布均数和标准差的性质

1)概率密度曲线在均值 μ\muμ 处达到最大,并且对称;
2)一旦均值 μ\muμ 和标准差 σ\sigmaσ 确定,正态分布曲线也就确定;
3)当 X 的取值向横轴左右两个方向无限延伸时,曲线的两个尾端也无限渐近横轴,理论上永远不会与之相交;
4)正态随机变量在特定区间上的取值概率由正态曲线下的面积给出,而且其曲线下的总面积等于1 ;
5)均值 μ\muμ 可取实数轴上的任意数值,决定正态曲线的具体位置;
6)标准差 σ\sigmaσ 决定曲线的“陡峭”或“扁平”程度:标准差 σ\sigmaσ 越大,正态曲线越扁平;标准差 σ\sigmaσ 越小,正态曲线越陡峭。

这是因为

标准差越小,意味着大多数变量值离均数的距离越短,因此大多数值都紧密地聚集在均数周围,图形所能覆盖的变量值就少些(比如1±0.1涵盖[0.9,1.1]),于是都挤在一块,图形上呈现瘦高型。

相反,标准差越大,数据跨度就比较大,分散程度大,所覆盖的变量值就越多(比如1±0.5涵盖[0.5,1.5]),图形呈现“矮胖型”。

如下图,黄线为 A,蓝线为B,紫红线为 C。可以看到均值 μ\muμ 的大小决定了曲线的位置,标准差的大小决定了曲线的胖瘦。A和B的均值 μ\muμ 一样,但标准差 σ\sigmaσ 不同,所以形状不同,根据我们的描述,图形越瘦高,标准差 σ\sigmaσ 越小,图形越扁平,标准差 σ\sigmaσ 越大。确实如此,图中B的标准差是 1/2,小于 A 的标准差 1。

5.标准化与查表求概率(举例)

如何通过查表法计算正态分布变量在某个区间的概率?

看这个问题,首先,说小明每天上学的通勤时间是一个随机变量 XXX,这个变量服从正态分布。统计他过去 20 天的通勤时间(单位:分钟):26、33、65、28、34、55、25、44、50、36、26、37、43、62、35、38、45、32、28、34。现在我们想知道他上学花 30~45 分钟的概率。

首先,求均值 μ\muμ 和标准差 σ\sigmaσ ——将问题转化为数学表达式,要算他上学花30~45分钟的概率,就是求P(30 < X < 45)。之前我们一直强调,一个变量服从正态分布,就要立马考虑到它的均数 μ\muμ 和标准差 σ\sigmaσ 是多少。这里简化一下,用他过去20天的样本数据来代替。所以,我们首先计算这20天通勤时间的样本均数 μ\muμ 及标准差 σ\sigmaσ ,分别为38.8(分钟)和11.4(分钟)。

然后,进行标准化,这一步很重要,也称z变换。通过标准化,所有服从一般正态分布的随机变量都变成了服从均数为 0,标准差为 1 的标准正态分布{\color{Teal} 标准正态分布}标准正态分布。对于服从标准正态分布的随机变量,专门用 zzz 表示。因此,求P(30<X<45)P(30 < X < 45)P(30<X<45),就转换成了求 P(−0.77<Z<0.54)P(-0.77 < Z < 0.54)P(−0.77<Z<0.54),标准化的具体计算为:

  1. 30→(30−38.8)/11.4=−0.7730 → (30-38.8)/ 11.4 = - 0.7730→(30−38.8)/11.4=−0.77
  2. 45→(45−38.8)/11.4=0.5445 → (45-38.8)/ 11.4 = 0.5445→(45−38.8)/11.4=0.54
  3. X→ZX → ZX→Z
  4. P(30≤X≤45)=P(−0.77≤Z≤0.54)P(30 ≤ X ≤ 45)= P (-0.77 ≤ Z ≤ 0.54)P(30≤X≤45)=P(−0.77≤Z≤0.54)

提醒一下,经过标准化后,原来的曲线的形状不会变化,即不会改变胖瘦,只是位置发生平移,如下图,经过标准化实际上只是均数 μ\muμ 从 1010 移到了 0。

完成 zzz 变换,我们就通过可以利用 zzz 值表找到对应的概率值。下图就是z值表,一般的统计教科书后面都有,也可以在网上查到。

参考链接:
[1] 一文搞懂“正态分布”所有需要的知识点 2020.4.23
[2] 第三讲 统计学核心思维与统计描述 2020.6
[3] 标准正态分布和正态分布的区别 2019.2.21

正态分布定义解释及案例介绍相关推荐

  1. matlab做贝塔分布的例子,关于正态分布和贝塔分布的案例介绍

    本文通过案例介绍了正态分布和贝塔分布的概念. 正态分布 正态分布,是一种非常常见的连续概率分布,其也叫做常态分布(normaldistribution),或者根据其前期的研究贡献者之一高斯的名字来称呼 ...

  2. Spark Streaming 图片处理案例介绍

    Spark Streaming 图片处理案例介绍 本文首先介绍了流式处理框架的设计原理.Spark Streaming 的工作原理,然后通过一个基于 Spark Streaming 编写的读取.分析. ...

  3. DL之BP:神经网络算法简介之BP算法简介(链式法则/计算图解释)、案例应用之详细攻略

    DL之BP:神经网络算法简介之BP算法简介(链式法则/计算图解释).案例应用之详细攻略 相关文章:DL之DNN之BP:神经网络算法简介之BP算法/GD算法之不需要额外任何文字,只需要八张图讲清楚BP类 ...

  4. 基于CSMA -CA协议的无线星型网络的应用案例介绍

    1.CSMA/CA特点 在无线网络通信中,一种被称为CSMA/CA的协议解决了上诉数据冲突问题,CSMA(Carrier Sense Multiple Access),中文为冲突避免的载波侦听多路访问 ...

  5. 备份数据库的expdp语句_Oracle数据库备份恢复Data Pump Expdp/Impdp参数详解与案例介绍...

    oracle数据库备份恢复Data Pump Expdp/Impdp参数详解与案例介绍 目 录 1 Oracle数据泵的介绍 3 2 Oracle expdp/impdp参数使用介绍 3 2.1 Or ...

  6. php curl_setopt抓取内容,PHP的CURL方法curl_setopt()函数案例介绍(抓取网页,POST数据)

    通过curl_setopt()函数可以方便快捷的抓取网页(采集很方便),curl_setopt 是php的一个扩展库 使用条件:需要在php.ini 中配置开启.(PHP 4 >= 4.0.2) ...

  7. bboss quartz定时任务使用案例介绍

    bboss quartz定时任务使用案例介绍 本文demo gradle工程源码地址: [url]https://github.com/bbossgroups/quartzdemo[/url] [si ...

  8. 【自然语言处理与文本分析】用两个项目案例介绍文本挖掘方法论。

    文本挖掘概要 文本挖掘的应用:(有实际案例) 运用文本挖掘进行公司治理(台湾证券交易所的案例) 证券交易所的功能就是监管上市公司的问题(财务不实,内部被掏空的问题).但是会出现一个盲点 比如一家公司宣 ...

  9. 静态代理和动态代理案例介绍

    静态代理和动态代理案例介绍 1.代理模式概念 2.代理模式分类 3.静态代理(1) [1]目标 [2]实现 [2.1]创建项目 [2.2]定义HouseAgencyCompany [2.3]定义Hou ...

  10. 机器学习算法——KD树算法介绍以及案例介绍

    系列文章目录 机器学习的一些常见算法介绍[线性回归,岭回归,套索回归,弹性网络] 文章目录 一.KD算法简介 1.1.kd树简介 1.2.怎样将一个K维数据划分到左子树或右子树? 1.3.在哪个维度上 ...

最新文章

  1. GCC生成的汇编代码
  2. android Tabhost部件
  3. Java中数组的length属性
  4. 陕西小学三年级计算机下册教案,小学三三年级信息技术下册教学计划
  5. windows下使用svn命令行
  6. 怎么查看java的引用类_一段代码看 Java 引用类型
  7. 如何在SharePoint2010中实现多语言化-正确部署语言包
  8. 朝鲜红星操作系统落后当今水准约10年
  9. FreeSql实体映射成数据库,数据库映射成实体类,指定表生成实体
  10. 通过 MySQL 二进制日志恢复删除的记录
  11. 数据结构C#版笔记--啥夫曼树(Huffman Tree)与啥夫曼编码(Huffman Encoding)
  12. 小甲鱼python课后题答案_小甲鱼python课后习题总结
  13. 基于精确背景补偿的动态目标检测算法
  14. c# 语音卡控制--语音卡实现电话录音
  15. FinalShell更换背景颜色
  16. MySQL 中 declare 声明的局部变量和 @var 会话变量的使用介绍
  17. cad计算机配置要求,CAD对电脑硬件的配置要求
  18. 2013年第三季度总结报告
  19. 小程序RSA加密 - 公钥加密
  20. 段码液晶屏驱动芯片如何选择

热门文章

  1. java实现生成pdf_Java 生成 PDF 文档
  2. Failed to read artifact descriptor for com.google.errorprone:javac:jar:9+181-r4173-1
  3. 《人类的演化》读书笔记
  4. java 图片 文字_java实现 给图片加上文字
  5. C#获取单个字符的拼音声母
  6. spss变量视图转数据视图_教大家SPSS如何导入数据进行分析
  7. html背景颜色代码格式,html常用背景颜色代码.docx
  8. c语言的运算符有那哪些,c语言逻辑运算符有哪些
  9. Python:井字棋游戏
  10. 计算机c盘能格式化吗,c盘可以直接格式化吗?C盘怎么格式化?