尽管统计学本身是门科学,我们也在纯数学的角度上研究了很多概率的性质。但是也不能否认统计学中依然有相当多经验总结。而且相当多的经验是行之有效的。在《概率论与数理统计》这本教材中,也列举了一些经验性的东西,因此我们也需要来学习一下。

文章目录

  • 切比雪夫不等式 (Chebyshev's Inequality)
  • 大数定理(Law of Large Numbers)
  • 中心极限定理
  • 二项分布中心极限定理
  • 做点题吧!

切比雪夫不等式 (Chebyshev’s Inequality)

我们来看一看切比雪夫不等式,有两个:

P{∣X−E(X)∣≤ε}≥1−D(X)ε2P \{ |X - E(X)| \leq \varepsilon \} \geq 1 - \frac{D(X)}{\varepsilon ^ 2}P{∣X−E(X)∣≤ε}≥1−ε2D(X)​

P{∣X−E(X)∣>ε}≤D(X)ε2P \{ |X - E(X)| > \varepsilon \} \leq \frac{D(X)}{\varepsilon ^ 2}P{∣X−E(X)∣>ε}≤ε2D(X)​

那么,它们表达什么含义呢?


对于随机事件,如果它服从一定的分布,就会发现随机事件会以极大的概率落入一个或者两个标准差之内。换言之,对于概率事件,如果取一个范围 [−ε,+ε][- \varepsilon, + \varepsilon][−ε,+ε],那么落入这个范围以内的概率为 1−D(X)ε21 - \frac{D(X)}{\varepsilon ^ 2}1−ε2D(X)​,超过这个范围的概率是 D(X)ε2\frac{D(X)}{\varepsilon ^ 2}ε2D(X)​。

大数定理(Law of Large Numbers)

从切比雪夫不等式出发,我们发现之所以切比雪夫不等式成立,其中一个很重要的原因就是因为同分布独立的概率事件,其期望值总是固定且相等。同样的,我们发现当对随机事件大量实验后,会发现随机事件A随着实验次数增大时总会呈现出某种稳定性,即朝着某个常数(通常即期望)收敛,而这就是所谓的大数定理。

上图清楚的表明,随着样本的增加,噪音逐渐减少,其样本值逐渐收敛到期望值。所以,从经验和大量的实验结果统计表明:

Xn‾=1n(X1+⋯+Xn)\overline{X_n} = \frac{1}{n}(X_1 + \cdots + X_n)Xn​​=n1​(X1​+⋯+Xn​)

当 n→∞n \rightarrow \inftyn→∞ 时,Xn‾→μ\overline{X_n} \rightarrow \muXn​​→μ。要满足这个结果的限制条件,就有如下几条:

  • XiX_iXi​ 彼此是独立、同分布的
  • E(Xi)≈μE(X_i) \approx \muE(Xi​)≈μ

那么关于如何描述大数定理,目前数学界主要给出了三种

弱大数定理(辛钦大数定理)

对于独立、同分布的随机序列 X1X_1X1​,X2X_2X2​ ⋯\cdots⋯ XnX_nXn​,只要总体均值 μ\muμ 存在,那么样本均值 X‾=1n∑Xi\overline{X} = \frac{1}{n}\sum X_iX=n1​∑Xi​ 会随着n增大而收敛到总体均值 μ\muμ。

强大数定理

对于独立、同分布的随机序列 X1X_1X1​,X2X_2X2​ ⋯\cdots⋯ XnX_nXn​,只要总体均值 μ\muμ 存在,那么样本均值 X‾=1n∑Xi\overline{X} = \frac{1}{n}\sum X_iX=n1​∑Xi​ 会随着n增大而处处收敛到 μ\muμ。

切比雪夫大数定理

连续随机变量XiX_iXi​两两独立,且存在期望E(X)=μE(X) = \muE(X)=μ,方差存在且有共同有界上限 D(X)=σ2<MD(X) = \sigma^2 < MD(X)=σ2<M,则存在ε>0\varepsilon > 0ε>0,令 limn→∞P{∣1n∑(Xi−μi)∣<ε}=1lim_{n \rightarrow \infty} P \{ |\frac{1}{n} \sum (X_i - \mu_i) | < \varepsilon \} = 1limn→∞​P{∣n1​∑(Xi​−μi​)∣<ε}=1。

说这么多,实际上记住三点就行了,首先

  • 事件两两独立→\rightarrow→确保前后之间没有因果关系
  • 相同的分布 →\rightarrow→ 确保有共同的期望
  • 方差有界→\rightarrow→ 确保数列一定会收敛

中心极限定理

想象一下,我们把随机序列一巴掌拍扁,把事件绘制在图表上会有什么效果。没错,基本上随机事件会呈现比较明显的正态分布的特点。

所以,对于独立、同分布的随机序列

X1+X2+X3+⋯+Xn=∑i=1nXiX_1 + X_2 + X_3 + \cdots + X_n = \sum_{i=1}^n X_iX1​+X2​+X3​+⋯+Xn​=i=1∑n​Xi​

其标准化变量:

Y=∑Xi−E(∑Xi)D(∑Xi)=∑Xi−nμnσY = \frac{\sum X_i - E(\sum X_i)}{\sqrt{D(\sum X_i)}} = \frac{\sum X_i - n\mu}{\sqrt{n} \sigma}Y=D(∑Xi​)​∑Xi​−E(∑Xi​)​=n​σ∑Xi​−nμ​

如果他们有相同的数学期望 E(Xi)=μE(X_i) = \muE(Xi​)=μ,方差有界,且σ2>0\sigma^2 > 0σ2>0。那么这样的数列近似服从正态分布:

∑i=1nXi−nμnσ∼N(nμ,nσ2)\frac{ \sum_{i=1}^n X_i - n\mu}{\sqrt{n} \sigma} \sim N(n \mu, n \sigma^2) n​σ∑i=1n​Xi​−nμ​∼N(nμ,nσ2)

如果对上式子上下同时 1n\frac{1}{n}n1​,就可以令

1n∑i=1nXi−μσ/n∼N(μ,σ2)\frac{ \frac{1}{n}\sum_{i=1}^n X_i - \mu}{\sigma / \sqrt{n}} \sim N( \mu, \sigma^2)σ/n​n1​∑i=1n​Xi​−μ​∼N(μ,σ2)

即:

lim⁡n→∞P{∑i=1nXi−nμnσ≤x}≈Φ(x)∼N(μ,σ2)\lim_{n \rightarrow \infty} P\{ \frac{ \sum_{i=1}^n X_i - n\mu}{\sqrt{n} \sigma} \leq x \} \approx \Phi(x) \sim N( \mu, \sigma^2)n→∞lim​P{n​σ∑i=1n​Xi​−nμ​≤x}≈Φ(x)∼N(μ,σ2)

使得上式近似的变成一个标准正态分布。即,当n充分大的时候,我们可以用标准正态分布给出其近似分布

另外,针对中心极限定理,一般通常情况下会问一个范围内是多少概率的问题,所以通常会把这类问题转换为标准正态分布来求解 N~(μ=0(\mu = 0(μ=0, σ=1)\sigma = 1)σ=1),正态分布的数学符号通常表示为 Φ\PhiΦ。

所以有:

P{a<∑i=1nXi<b}≈Φ(b−nμnσ)−Φ(a−nμnσ)P\{ a <\sum_{i=1}^n X_i < b \} \approx \Phi(\frac{b - n\mu}{\sqrt{n} \sigma}) - \Phi(\frac{a - n\mu}{\sqrt{n} \sigma})P{a<i=1∑n​Xi​<b}≈Φ(n​σb−nμ​)−Φ(n​σa−nμ​)

这里要强调的是,计算结果只能近似,而不是相等。因为以前的人没有计算机,无法准确的得出实验结果。所以当结果呈现正态分布的时候,就会习惯性的把它跟标准正态分布进行比对,计算出的结果是个接近的值。但如果你用计算机严格的做实验进行模拟的话,还是会发现最终结果跟笔算的结果差异还是挺大的。

从另外一方面来说,对于概率问题,通常我们更关心事件是大概率事件还是小概率事件,而不是关心概率事件的实际概率是多少。所以这也从另外一个角度,解释了为什么在数学中很多情况下(不止概率计算中),其实只需要计算一个估值就可以了。

二项分布中心极限定理

这也算是一个比较常见的中心极限,相关的知识点你参考着我上面写的就行了,解题过程和中心极限定理是差不多的。

若 X∼B(n,p)X \sim B(n, p)X∼B(n,p) 近似于 N(np,np(1−p))N(np, np(1-p))N(np,np(1−p))
P{a<X<b}=Φ(b−npnp(1−p))−Φ(a−npnp(1−p))P\{ a < X < b \} = \Phi(\frac{b - np}{\sqrt{np (1- p)}}) - \Phi(\frac{a - np}{\sqrt{np (1- p)}})P{a<X<b}=Φ(np(1−p)​b−np​)−Φ(np(1−p)​a−np​)

做点题吧!

生产线上组装每件成品的时间 X 服从指数分布,其数学期望为 1/5 ,假设各件产品的组 装 时 间 互 不 影 响 , 试 求 组 装 100 件 成 品 需 要 15 到 20 小 时 的 概 率 ,其中已知Φ(2.5)=0.9938\Phi(2.5) = 0.9938Φ(2.5)=0.9938 ,Φ(1.25)=0.8944\Phi(1.25)=0.8944Φ(1.25)=0.8944。

解:,因为是指数分布,且已知期望μ=1/5\mu = 1/5μ=1/5,则 σ=1/5\sigma = 1/5σ=1/5,且 n=100n=100n=100。然后带入公式:

P{15≤Y≤20}=Φ(20−nμnσ)−Φ(15−nμnσ)P\{ 15 \leq Y \leq 20 \} = \Phi(\frac{20 - n \mu}{\sqrt{n} \sigma}) - \Phi(\frac{15 - n \mu}{\sqrt{n} \sigma})P{15≤Y≤20}=Φ(n​σ20−nμ​)−Φ(n​σ15−nμ​)

然后我们把上述值代入公式中

=Φ(20−100∗1/5100∗1/5)−Φ(15−100∗1/5100∗1/5)=Φ(0)−Φ(−2.5)=\Phi(\frac{20 - 100 * 1/5}{\sqrt{100} * 1/5}) - \Phi(\frac{15 - 100 * 1/5}{\sqrt{100} * 1/5}) = \Phi(0) - \Phi(-2.5)=Φ(100​∗1/520−100∗1/5​)−Φ(100​∗1/515−100∗1/5​)=Φ(0)−Φ(−2.5)

因为正态分布关于X = 0 对称分布,所以有:

=Φ(0)−[1−Φ(2.5)]=Φ(0)+Φ(2.5)=0.5+0.9938−1=0.4938=\Phi(0) - [1 - \Phi(2.5)] = \Phi(0) + \Phi(2.5) = 0.5 + 0.9938 -1 = 0.4938=Φ(0)−[1−Φ(2.5)]=Φ(0)+Φ(2.5)=0.5+0.9938−1=0.4938

如果是用笔头计算正则分布的分布函数,通常是比较难求解的。一般来说题目会给出可能用到的Φ(Y)\Phi(Y)Φ(Y)值,不过如果是平时自己在做作业、或者工程中,可以用到《正则分布表》查表计算,有需要的话你可以去下载。

概率论基础 —— 10. 切比雪夫不等式、大数定理、中心极限定理相关推荐

  1. 切比雪夫不等式 大数定律 中心极限定理

    本篇为<深度学习>系列博客的第五篇,该系列博客主要记录深度学习相关知识的学习过程和自己的理解,方便以后查阅. 上篇博客说道"均值和期望的联系是大数定理联系起来的',这里这里看到一 ...

  2. 大数定理 中心极限定理_中心极限定理:直观的遍历

    大数定理 中心极限定理 One of the most beautiful concepts in statistics and probability is Central Limit Theore ...

  3. 机器学习数学笔记|大数定理中心极限定理矩估计

    机器学习数学笔记|大数定理中心极限定理矩估计 觉得有用的话,欢迎一起讨论相互学习~ 本博客为七月在线邹博老师机器学习数学课程学习笔记 为七月在线打call!! 课程传送门 概率密度/概率分布函数 概率 ...

  4. 通俗的角度理解遍历性定理 (从大数定理,中心极限定理再到遍历性定理)

    文章目录 遍历性定理 所以先理解什么是大数定律 顺便再看看中心极限定理 再看遍历性定理 今天开始学时间序列分析,老师讲了一个名词叫遍历性定理. 遍历性定理 百度百科上的定义: 遍历性定理类似于截面数据 ...

  5. 【概率论与数理统计】猴博士 笔记 p38-40 切比雪夫不等式、大数定律、中心极限定理

    文章目录 切比雪夫不等式 大数定律 中心极限定理 切比雪夫不等式 题干特征: 求的P里面有不等式 求的概率的事件是某个绝对值 求的P里面的不等式符号与外面的不等式符号相反 满足以上特征就要用到切比雪夫 ...

  6. 基本极限定理(切比雪夫不等式,大数定律,中心极限定理)

    人们在长期的实践中发现,虽然个别事件在某次试验中可能发生也可能不发生,但在大量重复实验中却呈现明显的规律性,即一个随机事件发生的频率在某个固定数的附近摇摆,这就是所谓"频率的稳定性" ...

  7. 概率论与数理统计系列笔记之第四章——大数定理与中心极限定理

    概率论与数理统计笔记(第四章 大数定理与中心极限定理) 对于统计专业来说,书本知识总有遗忘,翻看教材又太麻烦,于是打算记下笔记与自己的一些思考,主要参考用书是茆诗松老师编写的<概率论与数理统计教 ...

  8. [概统]本科二年级 概率论与数理统计 第八讲 大数定律与中心极限定理

    [概统]本科二年级 概率论与数理统计 第八讲 大数定律与中心极限定理 Chebyshev不等式 弱大数定律 中心极限定理 这一讲我们介绍大数定律与中心极限定理,这两个工具是我们在本科二年级阶段唯二需要 ...

  9. 中心极限定理,统计学的傅里叶变换

    人们在长期实践中认识到频率具有稳定性,即当实验次数不断增加时,频率稳定在一个数附近,这一事实显示了可以用一个数来表征事件发生的可能性大小,这使人们认识到概率的客观存在,进而由频率的性质的启发和抽象给出 ...

最新文章

  1. 实现隐藏窗体而非关闭的方法
  2. elif在python中啥意思_python中elif 结构语句怎么判断?
  3. C++ 名字重载、隐藏、覆盖
  4. C语言学习笔记(16)
  5. python web开发项目 源码_真零基础Python开发web
  6. C#工厂方法模式 -抽象工厂模式
  7. 超炫酷的枪械3D动图,喜欢的不得了!
  8. 问题 1072: 汽水瓶
  9. 2019年蓝桥杯第一题
  10. 【luogu4185】 [USACO18JAN]MooTube [并查集]
  11. 自动驾驶 9-6: EKF 的替代方案 - 无迹卡尔曼滤波器
  12. 系统集成项目管理工程师教程重点、笔记和试题大全
  13. 谭浩强c语言程序设计作业,谭浩强《C语言程序设计》第7章习题解答(13、14题)...
  14. 善用佳软:如何使用Beyond Compare比对class文件
  15. 教你同时分析DPD多个单号的物流信息
  16. python qt教程视频 下载_Qt基础课程视频教程 教学视频 百度网盘下载
  17. DGND PGND GND AGND 精密电阻与普通电阻
  18. 在python中调用java JPype
  19. 利用数据质量规则库推动数据质量管理
  20. 学前端,学线下班还是丁鹿学堂或者慕课网?

热门文章

  1. java计算机毕业设计民宿预订管理系统设计与实现源程序+mysql+系统+lw文档+远程调试
  2. 小程序尺寸单位 rpx 和 px 的换算
  3. 微信小程序-Flex布局的使用
  4. 网络安全工具websocket webshell内存马使用
  5. 知乎与腾讯联手整顿平台:如何净化社区生态圈
  6. topaz sharpen ai2直装版(图像锐化工具) v2.1.8
  7. ElasticSearch CPU100%
  8. 修改idea字体大小
  9. ENVI5.3安装教程(含软件,仅用于学习试用)
  10. 学计算机是就业班好还是升学班好,升学班和就业班应该怎么选择?