如果一个随机变量具有概率密度函数

f(x)=12πσe−(x−μ)22σ2,−∞<x<∞\begin{aligned} f(x)=\frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}}, \quad -\infty < x < \infty \end{aligned}f(x)=2π​σ1​e−2σ2(x−μ)2​,−∞<x<∞​

则称X为正态随机变量并记为X∼N(μ,σ2)X \sim N(\mu, \sigma^2)X∼N(μ,σ2).这里N 为"Normal"
一词的首字母.μ,σ\mu, \sigmaμ,σ 都是常数,μ\muμ 为均值,可以取任何实数值,
而0<σ2<∞0 < \sigma^2 < \infty0<σ2<∞ 为方差,σ\sigmaσ
称为标准差。这种分布我们称之为正态分布,德国数学家Gauss率先将其应用于天文学研究,故正态分布又叫高斯分布

下面是μ=1,σ=1\mu=1, \sigma=1μ=1,σ=1 和 μ=1,σ=12\mu=1,\sigma=\frac{1}{2}μ=1,σ=21​
的正态分布概率密度函数图像:

我们知道 x=μx=\mux=μ 均值时,概率密度值最大,比如当标准差 σ=1\sigma=1σ=1
时的概率密度值为 f(μ)=12πσ=0.3989f(\mu) = \frac{1}{\sqrt{2\pi} \sigma} = 0.3989f(μ)=2π​σ1​=0.3989

问题1: t个标准差范围内的概率 P(u−tσ≤x≤u+tσ)P(u-t\sigma \le x \le u+t\sigma)P(u−tσ≤x≤u+tσ)
是一个定值吗?和参数u,σu, \sigmau,σ 有没有关系?
其中 t 为大于0的实数。

下图在很多关于概率的书本中都可以找到,它形象的展示了正态分布下,值离均值的距离为-1个标准差到1个标准差的概率约为68%(即曲线从-1到1围成的面积),-2个标准差时概率约为95%,-3个标准差时概率约为99.7%
。但是大部分教材没有告诉我们为什么就是一个定值,这个值是怎么计算出来的?

其实我们做下下面的变换,就可以断定:不论是什么参数下的正态分布,t个标准差范围内的概率P(u−tσ≤x≤u+tσ)P(u-t\sigma \le x \le u+t\sigma)P(u−tσ≤x≤u+tσ)都是一个定值,和参数u,σu, \sigmau,σ
无关,这真是一件神奇的事情。

P(u−tσ≤x≤u+tσ)=∫u−tσu+tσ12πσe−(x−μ)22σ2dx=12πσ∫u−tσu+tσe−(x−μ2σ)2dx=2σ2πσ∫u−tσu+tσe−(x−μ2σ)2dx−μ2σ=2π∫0t2e−y2dy(1)\begin{aligned} &P(u-t\sigma \le x \le u+t\sigma) \\ &= \int_{u-t\sigma}^{u+t\sigma} \frac{1}{\sqrt{2\pi} \sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} dx \\ &= \frac{1}{\sqrt{2\pi} \sigma} \int_{u-t\sigma}^{u+t\sigma} e^{-(\frac{x-\mu}{\sqrt{2}\sigma})^2} dx \\ &=\frac{\sqrt{2}\sigma}{\sqrt{2\pi} \sigma} \int_{u-t\sigma}^{u+t\sigma} e^{-(\frac{x-\mu}{\sqrt{2}\sigma})^2} d\frac{x-\mu}{\sqrt{2}\sigma} \\ &=\frac{2}{\sqrt{\pi}} \int_{0}^{\frac{t}{\sqrt{2}}} e^{-y^2} d y \qquad (1) \end{aligned}​P(u−tσ≤x≤u+tσ)=∫u−tσu+tσ​2π​σ1​e−2σ2(x−μ)2​dx=2π​σ1​∫u−tσu+tσ​e−(2​σx−μ​)2dx=2π​σ2​σ​∫u−tσu+tσ​e−(2​σx−μ​)2d2​σx−μ​=π​2​∫02​t​​e−y2dy(1)​

问题2:如何计算(1)式 ?

如果我们直接去求不定积分 ∫e−x2dx\int e^{-x^2} dx∫e−x2dx
的初等函数表达式,那我们就会掉进坑里。因为e−x2e^{-x^2}e−x2这个函数的原函数不是初等函数!

为了解决上面的问题,这里先介绍下e−x2−y2e^{-x^2-y^2}e−x2−y2函数的二重积分,转成极坐标的形式计算。下面面积D是一个半径ρ=a\rho=aρ=a的圆。

∫∫De−x2−y2dxdy=∫02π∫0ae−ρ2ρdρdθ=∫02π−12e−ρ2∣0adθ=∫02π−12(e−a2−1)dθ=12(1−e−a2)θ∣02π=π(1−e−a2)(2)\begin{aligned} \int\int_D e^{-x^2-y^2} dx dy &= \int_0^{2\pi} \int_0^a e^{-\rho^2} \rho d\rho d\theta \\ &= \int_0^{2\pi} -\frac{1}{2}e^{-\rho^2}\Big|_0^a d\theta \\ &= \int_0^{2\pi} -\frac{1}{2}(e^{-a^2} -1) d\theta \\ &= \frac{1}{2}(1-e^{-a^2})\theta \Big|_0^{2\pi}\\ &= \pi(1-e^{-a^2}) \qquad (2) \end{aligned}∫∫D​e−x2−y2dxdy​=∫02π​∫0a​e−ρ2ρdρdθ=∫02π​−21​e−ρ2∣∣∣​0a​dθ=∫02π​−21​(e−a2−1)dθ=21​(1−e−a2)θ∣∣∣​02π​=π(1−e−a2)(2)​

不难想象这个函数的图形,首先考虑一元函数 e−xe^{-x}e−x 的图形,然后注意到
−(x2+y2)≤0-(x^2+y^2) \le 0−(x2+y2)≤0, 即e−(x2+y2)e^{-(x^2+y^2)}e−(x2+y2)的最大值为e0=1e^0=1e0=1, 其次 x2+y2x^2+y^2x2+y2
可以看成半径从 0 到 +∞+\infty+∞ 变化的圆, 半径越大 e−(x2+y2)e^{-(x^2+y^2)}e−(x2+y2)
越小,所以它的图像应该长下面的样子:

那么如何建立起 ∫0+∞e−x2dx\int_0^{+\infty} e^{-x^2} dx∫0+∞​e−x2dx 和
∫∫De−x2−y2dxdy\int\int_D e^{-x^2-y^2} dx dy∫∫D​e−x2−y2dxdy 的关系?不难想到
∫0+∞e−y2dy=∫0+∞e−x2dx\int_0^{+\infty} e^{-y^2} dy = \int_0^{+\infty} e^{-x^2} dx∫0+∞​e−y2dy=∫0+∞​e−x2dx

那么

(∫0+∞e−x2dx)2=∫0+∞e−x2dx∫0+∞e−y2dy=∫0+∞∫0+∞e−x2−y2dxdy=14∫−∞+∞∫−∞+∞e−x2−y2dxdy=14lim⁡a→∞π(1−e−a2)=π4\begin{aligned} (\int_0^{+\infty} e^{-x^2} dx )^2 &= \int_0^{+\infty} e^{-x^2} dx \int_0^{+\infty} e^{-y^2} dy \\ &= \int_0^{+\infty} \int_0^{+\infty} e^{-x^2-y^2} dx dy \\ &= \frac{1}{4} \int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} e^{-x^2-y^2} dx dy \\ &=\frac{1}{4}\lim_{a \to \infty} \pi(1-e^{-a^2}) \\ &=\frac{\pi}{4} \end{aligned}(∫0+∞​e−x2dx)2​=∫0+∞​e−x2dx∫0+∞​e−y2dy=∫0+∞​∫0+∞​e−x2−y2dxdy=41​∫−∞+∞​∫−∞+∞​e−x2−y2dxdy=41​a→∞lim​π(1−e−a2)=4π​​

于是得到
∫0+∞e−x2dx=π2(3)\int_0^{+\infty} e^{-x^2} dx = \frac{\sqrt{\pi}}{2} \qquad (3)∫0+∞​e−x2dx=2π​​(3)

但是上面计算的是0到无穷的积分,(1)式中我们要计算的是0到某个固定值的积分。具体的讲,我们要求的积分区域如下图,正方形
S 是 ∫0R∫0Re−x2−y2dydx\int_0^{R} \int_0^{R} e^{-x^2-y^2} dy dx∫0R​∫0R​e−x2−y2dydx 的积分区域,
∫∫De−x2−y2dxdy=π(1−e−a2)\int\int_D e^{-x^2-y^2} dx dy = \pi(1-e^{-a^2})∫∫D​e−x2−y2dxdy=π(1−e−a2) 中的 D
是由中心在原点、半径为 a 的圆周所围成的闭区域, 下图中 D1,D2D_1,D_2D1​,D2​ 是
a=R,a=2Ra=R, a=\sqrt{2}Ra=R,a=2​R 时相应 D 区域的 14\frac{1}{4}41​。

因此

∫∫D1e−x2−y2dxdy<∫∫Se−x2−y2dxdy<∫∫D2e−x2−y2dxdy\begin{aligned} \int\int_{D_1} e^{-x^2-y^2} dx dy < \int\int_S e^{-x^2-y^2} dx dy < \int\int_{D_2} e^{-x^2-y^2} dx dy \end{aligned}∫∫D1​​e−x2−y2dxdy<∫∫S​e−x2−y2dxdy<∫∫D2​​e−x2−y2dxdy​

于是上面的不等式可以写成
π4(1−e−R2)<(∫0Re−x2dx)2<π4(1−e−2R2)(4)\frac{\pi}{4}(1-e^{-R^2}) < (\int_0^R e^{-x^2} dx)^2 < \frac{\pi}{4}(1-e^{-2R^2}) \qquad (4)4π​(1−e−R2)<(∫0R​e−x2dx)2<4π​(1−e−2R2)(4)
但是上面这个不等式比较粗糙,我们可以构造更加精确的上下界

对于上界,我们可以找到1/4圆面积恰好等于正方形R2R^2R2的面积,如下图

此时圆的半径r1r_1r1​为
πr124=R2⇒r12=4R2π\frac{\pi r_1^2}{4} = R^2 \Rightarrow r_1^2 = \frac{4R^2}{\pi}4πr12​​=R2⇒r12​=π4R2​
由于e−x2−y2e^{-x^2-y^2}e−x2−y2是单调递减函数,因此必定有此上界:
(∫0Re−x2dx)2<π4(1−e−4R2/π)(5)(\int_0^R e^{-x^2} dx)^2 < \frac{\pi}{4}(1-e^{-4R^2/\pi}) \qquad (5)(∫0R​e−x2dx)2<4π​(1−e−4R2/π)(5)

对于下界,如下图,我们可以找到
r2到2R的阴影面积S1=正方形面积S−D1r_2 \text{到} \sqrt{2}R \text{的阴影面积}S_1 = \text{正方形面积} S-D_1r2​到2​R的阴影面积S1​=正方形面积S−D1​

由于e−x2−y2e^{-x^2-y^2}e−x2−y2是单调递减函数,因此有
(∫0Re−x2dx)2>∫D1+S1e−x2−y2dxdy(\int_0^R e^{-x^2} dx)^2 > \int_{D_1+S_1} e^{-x^2-y^2} dx dy(∫0R​e−x2dx)2>∫D1​+S1​​e−x2−y2dxdy
此时圆的半径r2r_2r2​为

R2−πR24=2πR24−πr224⇒r22=3R2−4πR2\begin{aligned} &R^2-\frac{\pi R^2}{4} = \frac{2\pi R^2}{4} - \frac{\pi r_2^2}{4} \\ \Rightarrow &r_2^2 = 3R^2 - \frac{4}{\pi}R^2 \end{aligned}⇒​R2−4πR2​=42πR2​−4πr22​​r22​=3R2−π4​R2​

因此必定有此下界:

(∫0Re−x2dx)2>π4(1−e−R2)+π4(1−e−2R2)−π4(1−e−3R2+4πR2)>π4(1−e−R2−e−2R2+e−3R2+4πR2)(6)\begin{aligned} (\int_0^R e^{-x^2} dx)^2 &> \frac{\pi}{4}(1-e^{-R^2}) + \frac{\pi}{4}(1-e^{-2R^2}) - \frac{\pi}{4}(1 - e^{-3R^2 + \frac{4}{\pi}R^2}) \\ &> \frac{\pi}{4}(1-e^{-R^2} - e^{-2R^2} + e^{-3R^2 + \frac{4}{\pi}R^2}) \qquad (6) \end{aligned}(∫0R​e−x2dx)2​>4π​(1−e−R2)+4π​(1−e−2R2)−4π​(1−e−3R2+π4​R2)>4π​(1−e−R2−e−2R2+e−3R2+π4​R2)(6)​

合并(5)(6)式,得到了比(4)式更加精确的不等式(7)

π4(1−e−R2−e−2R2+e−3R2+4πR2)<(∫0Re−x2dx)2<π4(1−e−4R2/π)(7)π2(1−e−R2−e−2R2+e−3R2+4πR2)<∫0Re−x2dx<π21−e−4R2/π(8)\begin{aligned} \frac{\pi}{4}(1-e^{-R^2} - e^{-2R^2} + e^{-3R^2 + \frac{4}{\pi}R^2}) <& (\int_0^R e^{-x^2} dx)^2 < \frac{\pi}{4}(1-e^{-4R^2/\pi}) \qquad (7)\\ \frac{\sqrt{\pi}}{2}\sqrt{(1-e^{-R^2} - e^{-2R^2} + e^{-3R^2 + \frac{4}{\pi}R^2})} <& \int_0^R e^{-x^2} dx < \frac{\sqrt{\pi}}{2}\sqrt{1-e^{-4R^2/\pi}} \qquad (8) \end{aligned}4π​(1−e−R2−e−2R2+e−3R2+π4​R2)<2π​​(1−e−R2−e−2R2+e−3R2+π4​R2)​<​(∫0R​e−x2dx)2<4π​(1−e−4R2/π)(7)∫0R​e−x2dx<2π​​1−e−4R2/π​(8)​

回到(1)式

P(u−tσ≤x≤u+tσ)=2π∫0t2e−x2dx\begin{aligned} P(u-t\sigma \le x \le u+t\sigma) =\frac{2}{\sqrt{\pi}} \int_{0}^{\frac{t}{\sqrt{2}}} e^{-x^2} d x \end{aligned}P(u−tσ≤x≤u+tσ)=π​2​∫02​t​​e−x2dx​

在不等式(8)中,取 R=t2R=\frac{t}{\sqrt{2}}R=2​t​ , 得

1−e−t2/2−e−t2+e−3t2/2+2t2/π<P(u−tσ≤x≤u+tσ)<1−e−2t2/π(9)\begin{aligned} \sqrt{1-e^{-t^2/2} - e^{-t^2} + e^{-3t^2/2 + 2t^2/\pi}} < P(u-t\sigma \le x \le u+t\sigma) < \sqrt{1-e^{-2t^2/\pi}} \qquad (9) \end{aligned}1−e−t2/2−e−t2+e−3t2/2+2t2/π​<P(u−tσ≤x≤u+tσ)<1−e−2t2/π​(9)​

于是写个python程序计算下

def normal_prop_lowerbound(t):return math.sqrt(1-math.exp(-t*t/2)-math.exp(-t*t)+math.exp(-1.5*t*t+2/math.pi * t*t))def normal_prop_upperbound(t):return math.sqrt(1-math.exp(-2*t*t/math.pi))if __name__ == '__main__':print(normal_prop_lowerbound(1), "< 均值为中心1个标准差范围内的概率 <", normal_prop_upperbound(1))print(normal_prop_lowerbound(2), "< 均值为中心2个标准差范围内的概率 <", normal_prop_upperbound(2))print(normal_prop_lowerbound(3), "< 均值为中心3个标准差范围内的概率 <", normal_prop_upperbound(3))

程序输出:

0.6688228555159094 < 均值为中心1个标准差范围内的概率 <
0.6862377078915619

0.9370075438591285 < 均值为中心2个标准差范围内的概率 <
0.9600223595773711

0.9945801268713956 < 均值为中心3个标准差范围内的概率 <
0.998374454827675

另外,注意到,在(9)不等式中,当我们令 R
趋于正无穷,上式两端同时趋于极限1,
从而我们也验证了正态分布的概率密度函数的积分即概率确实为1.

当然在比较粗糙的(4)不等式中,令 R
趋于正无穷,也可以验证了正态分布的概率密度函数的积分即概率确实为1.

应用场景一:
有一堆数据我们想知道是否服从正态分布,我们可以通过统计1、2、3个标准差范围内的数据的概率是否大致符合0.68,0.95,0.997的概率来校验。如果不太符合这些概率,那么就不太可能是正态分布。

应用场景二:
有一堆数据假设服从正态分布,我们想知道那些数据是异常的,那么我们就可以设定t个标准差范围内的数据是正常的,即超过t个标准差的数据即∣x−u∣>tσ|x-u| > t\sigma∣x−u∣>tσ是异常的,取t为多少是合适的,就看我们的应用场景下的异常数据的概率有多大。

原文链接


欢迎关注我的微信公众号[数学345]:长按"识别图中二维码";或打开微信扫一扫。

正态分布t个标准差范围内的概率相关推荐

  1. 三个点在同一个半圆的概率_圆内任取三点/四点在同一半圆内的概率是多少?...

    大家的做法好像都有点麻烦--我用高中(有点竞赛?)的方法解答. 设四个点为 C₁ , C₂ , C₃ , C₄ 分别位于直径 A₁B₁ , A₂B₂ , A₃B₃ , A₄B₄ 上.不妨设四条直径各不 ...

  2. python 标准差内数据概率怎么求_Python-统计概率

    一.概率分布 1.1概率分布基础 1.1.1概率分布 : 每一个变量结果可能发生的概率 1.1.2随机变量 将随机事件出现的一个结果映射到一个数值的含义,通过数值量化随机事件,这就是随机变量的作用.( ...

  3. 正态分布,二维正态分布,卡方分布,学生t分布——概率分布学习 python

    目录 基本概念 概率密度函数(PDF: Probability Density Function) 累积分布函数(CDF: Cumulative Distribution Function) 核密度估 ...

  4. 计划评审技术(PERT)求工期、标准差、方差以及概率

    转自http://www.cnitpm.com/pm/5964.html 计划评审技术(PERT).PERT 使用 3 种估算值来界定活动持续时间的近似区间: 最可能时间(Tm).基于最可能获得的资源 ...

  5. 一道数学题引发的惨案!4只小鸭子在一个圆形的大水池中,分别随机的出现圆圈中任意一点。4只鸭子在同一半圆内的概率是多少?

    答案在文章结尾,不感兴趣的可以直接看答案 也就是昨天在渣男开车群中惊现一张照片.4只鸭子! 然后一群渣男开始了激烈的讨论,有说1/8的 有说3/4的 有说1/3的-反正说什么的都有 唉你说都是男的好好 ...

  6. 4只鸭子在同一个圆圈内游泳,问:4只鸭子出现在同一个半圆内的概率是多少?Python解答

    看到这个问题有些晚了,不过也挺感兴趣,索性花了5分钟写了个Python的.发现已经有许多其它博主使用了编程来进行解答,我看了个Java的,思路也是大同小异.在此之前我已在百度知道上进行了回答 问题: ...

  7. 4只鸭子在同一个圆圈内游泳,问:4只鸭子出现在同一个半圆内的概率是多少?Python模拟

    这是微博上看到的问题,c站上也有很多解答,我看了一圈发现计算都太复杂,我这里有个想法,可以简化计算. 将4只鸭子在一个半圆的问题等价为4只鸭子随机分布在周长上,一个半圆就是一个半周长,(根据圆的角度投 ...

  8. 宋浩 概率统计 笔记_推论统计分析学习笔记

    1.概率分布 随机变量 随机变量是一个量化随机事件的函数. 离散随机变量,可以一个一个列出来(如明天是否下雨?) 连续随机变量,无法完全列举出来(如明天的雨量的毫米数) 概率分布 随机变量与概率分布的 ...

  9. 实例讲解统计学基础知识(4):参数估计

    作者:xxw9485 时间:2018/3/20 来源:https://www.jianshu.com/p/7e556f17021a 参数估计 统计学有两大主要分支,分别是描述性统计学和推断统计学.描述 ...

  10. P M P 常用缩写及公式

    常用缩写 A AC:实际成本- Actual Cost : 在一个给定的时间段内,为完成进度活动或工作分解结构组成部分的工作,而实际发生并记录在案的总成本.实际成本有时仅为直接工时或直接成本,有时也为 ...

最新文章

  1. Java开发常用Linux命令
  2. 解决:Sublime Text3 packagecontrol.io 无法访问的问题
  3. 编程之美——4.11 扫雷游戏的概率
  4. Linux下的进程概论与编程二(进程控制)
  5. 河南云计算和大数据“十三五”发展规划发布
  6. PHP读取数据库并按照中文名称进行排序实现代码
  7. OpenCV深度学习人脸识别示例——看大佬如何秀恩爱
  8. 计算机电子电路技术 电路与模拟电子部分,[高等教育]计算机电子电路技术--电路与模拟电子部分直流电源.ppt...
  9. JAVA 列表输入学生的信息
  10. 【Atcoder】ARC082 E - ConvexScore
  11. 通达OA2015版与金蝶K3系统集成方案
  12. 实用的Chrome插件推荐
  13. 卡内基梅隆计算机专业,2019美国大学计算机科学专业排名TOP10一览 卡内基梅隆大学居...
  14. 其他——dhtmlxGantt甘特图API精华总结
  15. 在MDK 中忽略(suppress) 某一个警告
  16. 国家企业信用信息公示系统每年申报登录提示账号不存在【山东】
  17. ps cs6导出html,Photoshop CS6新功能:软件设置和预置迁移
  18. 微信公众平台订阅号如何升级转换为服务号?
  19. getMonth()函数的问题
  20. 网络安全学习2个月,感觉什么都不会?

热门文章

  1. 截止失真放大电路_一起学模电:6、放大电路静态与动态分析方法
  2. GitHub上14个屌炸天的Java进阶教程、面试真题项目,建议收藏!
  3. 2021-2027全球与中国陶瓷基板市场现状及未来发展趋势
  4. 远程协助计算机是灰色的,win10远程协助,win10远程协助灰色
  5. HCIA-AI 3.0题库
  6. VMware虚拟机的创建
  7. Python办公——根据Excel数据批量生成二维码
  8. 中职计算机教学随笔800字,职高教育工作随笔
  9. Colly 爬虫学习笔记(一)——爬虫框架,抓取中金公司行业市盈率数据
  10. Exploit开发系列教程-Windows基础shellcode