概率导论-极限理论笔记

  • 前言
  • 马尔可夫和切比雪夫不等式
    • 马尔可夫不等式
    • 切比雪夫不等式
  • 弱大数定律
    • 依概率收敛
  • 中心极限定理
    • 中心极限定理的内容
    • 近似计算
  • 强大数定律
    • 以概率1收敛

前言

讨论的是随机变量序列渐进(在 n → ∞ n\rightarrow \infty n→∞时的)性质.为使用有限样本进行统计推断提供了理论基础。
X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1​,X2​,...,Xn​是独立同分布的随机变量序列.均值均为 μ \mu μ,标准差 σ \sigma σ.定义序列 S n S_n Sn​:
S n = X 1 + X 2 + . . . + X n S_n=X_1+X_2+...+X_n Sn​=X1​+X2​+...+Xn​
基本性质:

  • v a r ( S n ) = n σ 2 var(S_n)=n\sigma ^2 var(Sn​)=nσ2,方差是发散的, S n S_n Sn​肯定不收敛(收敛时方差为0)。 E ( S n ) = n μ , S n E(S_n)=n\mu ,S_n E(Sn​)=nμ,Sn​发散。
  • 样本均值 M n = S n n M_n=\frac{S_n}{n} Mn​=nSn​​
  • E ( M n ) = μ , v a r ( M n ) = v a r ( S n ) n 2 = σ 2 n E(M_n)=\mu ,var(M_n)=\frac{var(S_n)}{n^2}=\frac{\sigma ^2}{n} E(Mn​)=μ,var(Mn​)=n2var(Sn​)​=nσ2​,样本均值的期望收敛于随机变量的期望,方差趋于0,说明样本均值趋近于随机变量的期望。(大数定律)
  • 构造随机变量序列 Z n = S n − n μ σ n Z_n=\frac{S_n-n\mu}{\sigma \sqrt n} Zn​=σn ​Sn​−nμ​,这个式子分子是 S n S_n Sn​对 E ( S n ) E(S_n) E(Sn​)的偏移,绝对偏移是不太好的,所以分母带上了 S n S_n Sn​的标准差。 E ( Z n ) = 0 , v a r ( Z n ) = 1 E(Z_n)=0,var(Z_n)=1 E(Zn​)=0,var(Zn​)=1,这说明 Z n Z_n Zn​既不发散也不收敛。(中心极限定理)

马尔可夫和切比雪夫不等式

这两个不等式的作用是利用均值和方差去分析事件的概率。随机变量的均值和方差易于计算,但分布不知道时有用。

马尔可夫不等式

马尔可夫不等式:随机变量 X ≥ 0 , ∀ a > 0 X\ge 0,\forall a>0 X≥0,∀a>0
P ( X ≥ a ) ≤ E ( X ) a P(X\ge a)\le \frac{E(X)}{a} P(X≥a)≤aE(X)​
P ( X ≥ a ) P(X\ge a) P(X≥a)可分解为 X ≥ a X\ge a X≥a每个点的概率之和。
a P ( X ≥ a ) = ∑ x ≥ a a [ p ( x 1 ) + p ( x 2 ) + . . . ) ] ≤ ∑ x ≥ a x [ p ( x 1 ) + p ( x 2 ) + . . . ) ] ≤ ∑ x [ p ( x 1 ) + p ( x 2 ) + . . . ) ] = E ( X ) aP(X\ge a)=\sum _{x\ge a}a[p(x_1)+p(x_2)+...)] \le \sum _{x\ge a}x[p(x_1)+p(x_2)+...)]\le \sum x[p(x_1)+p(x_2)+...)]=E(X) aP(X≥a)=∑x≥a​a[p(x1​)+p(x2​)+...)]≤∑x≥a​x[p(x1​)+p(x2​)+...)]≤∑x[p(x1​)+p(x2​)+...)]=E(X)
这个式子可以理解为将 X ≥ a X\ge a X≥a的质量缩到 X = a X=a X=a上,这是质量第一次缩小。然后将 X &lt; a X&lt;a X<a的去掉,这是质量第二次缩小。
马尔可夫不等式说明如果E(X)很小,那么X取大值的概率也很小。
马尔可夫不等式给出的是概率的一个上界,显然这个上界是有两次扩大处理的,所以和真实值一般相差很远。

切比雪夫不等式

设随机变量X的均值 μ \mu μ,方差 σ 2 \sigma^2 σ2,则 ∀ c &gt; 0 \forall c&gt;0 ∀c>0:
P ( ∣ X − μ ∣ ≥ c ) ≤ σ 2 c 2 P(|X-\mu|\ge c)\le \frac{\sigma ^2}{c^2} P(∣X−μ∣≥c)≤c2σ2​
注意没有要求 X ≥ 0 X\ge 0 X≥0
对随机变量 Y = ( X − μ ) 2 , a = c 2 Y=(X-\mu)^2,a=c^2 Y=(X−μ)2,a=c2使用马尔可夫不等式:
P ( Y ≥ c 2 ) ≤ E ( Y ) c 2 = σ 2 c 2 P(Y\ge c^2)\le \frac{E(Y)}{c^2}=\frac {\sigma ^2}{c^2} P(Y≥c2)≤c2E(Y)​=c2σ2​.
如果 c = k σ c=k\sigma c=kσ,则:
P ( ∣ X − μ ∣ ≥ k σ ) ≤ 1 k 2 P(|X-\mu|\ge k\sigma)\le \frac{1}{k^2} P(∣X−μ∣≥kσ)≤k21​
一个随机变量偏离其均值 k倍标准差 的概率最多是 1 k 2 \frac{1}{k^2} k21​
切比雪夫不等式比马尔可夫不等式更准确一点。因为切比雪夫不等式是利用的 Y = ( X − μ ) 2 Y=(X-\mu)^2 Y=(X−μ)2,相当于是二阶马尔可夫不等式。切比雪夫不等式也不是很精确,这是显然的,利用这么少的信息一般是不能得出多么精确的概率范围的。
设 X ∈ [ a , b ] , X\in [a,b], X∈[a,b],可以证明 σ 2 ≤ ( b − a ) 2 4 \sigma^2 \le \frac{(b-a)^2}{4} σ2≤4(b−a)2​

弱大数定律

设独立同分布序列: X 1 , X 2 , . . . , X n , ∀ ϵ &gt; 0 : X_1,X_2,...,X_n,\forall \epsilon&gt;0: X1​,X2​,...,Xn​,∀ϵ>0:
lim ⁡ n → ∞ P ( ∣ M n − μ ∣ ≥ ϵ ) = 0 \lim _{n\rightarrow \infty}{P(|M_n-\mu|\ge \epsilon)}=0 n→∞lim​P(∣Mn​−μ∣≥ϵ)=0
弱大数定律是(样本均值接近随机变量的均值)指对于充分大的 n n n, M n M_n Mn​的分布大部分集中在 μ \mu μ附近。设包含 μ \mu μ的区间 [ μ − ϵ , μ + ϵ ] [\mu-\epsilon,\mu+\epsilon] [μ−ϵ,μ+ϵ]内的概率非常大,当 ϵ \epsilon ϵ非常小时,则要求更多的样本数,即 n n n更大。
选举问题很经典,待补充。

依概率收敛

一般的数列收敛的定义:
lim ⁡ n → ∞ a n = a \lim _{n\rightarrow \infty}{a_n}=a n→∞lim​an​=a
对于随机变量序列,应当与一般数列有所不同,所以定义了依概率收敛:
设 Y 1 , Y 2 , . . . , Y n , . . . Y_1,Y_2,...,Y_n,... Y1​,Y2​,...,Yn​,...是随机变量序列(不必独立),实数 a a a, ∀ ϵ &gt; 0 \forall \epsilon &gt;0 ∀ϵ>0都有:
lim ⁡ n → ∞ P ( ∣ Y n − a ∣ ) ≥ ϵ = 0 \lim _{n\rightarrow \infty}{P(|Y_n-a|)\ge \epsilon }=0 n→∞lim​P(∣Yn​−a∣)≥ϵ=0
则称 Y n Y_n Yn​依概率收敛于 a a a.

“依概率收敛”是为了简化随机变量序列极限的式子创造的定义,它是不同于一般的数列序列的。一般的数列是收敛,不存在概率的问题,而随机变量收敛是以概率收敛,不同于收敛的地方是多了一个限定词:概率。这很符合随机变量的特征,当 n n n充分大时,数列 A n {A_n} An​收敛于a,可理解为 A n A_n An​必定在a邻域内.而随机变量序列 Y n Y_n Yn​可理解为绝大部分值在a上,换言之,允许有限次的序列值不在a的邻域内。

按照这个说法的弱大数定律:样本均值依概率收敛于真实值 μ \mu μ.

中心极限定理

据说是概率论中的“第一”定理。
首先构造随机变量。
独立同分布的随机变量 X 1 , X 2 , . . . . X_1,X_2,.... X1​,X2​,....,均值 μ \mu μ,方差 σ 2 \sigma^2 σ2,定义:
Z n = S n − n μ σ n Z_n=\frac{S_n-n\mu}{ \sigma \sqrt n} Zn​=σn ​Sn​−nμ​
S n S_n Sn​减去 n μ n\mu nμ是为了使期望存在,除以 n \sqrt n n ​是为了使方差存在。
E ( Z n ) = 0 , v a r ( Z n ) = 1. E(Z_n)=0,var(Z_n)=1. E(Zn​)=0,var(Zn​)=1.

中心极限定理的内容

lim ⁡ n → ∞ P ( Z n ≤ x ) = Φ ( x ) \lim _{n\rightarrow \infty}{P(Z_n\le x)}=\Phi (x) n→∞lim​P(Zn​≤x)=Φ(x)
其中 Φ ( x ) = ∫ − ∞ x f X ( z ) d z \Phi (x)=\int _{-\infty}^{x}f_X(z)dz Φ(x)=∫−∞x​fX​(z)dz,X是参数为(0,1)的正态分布。
定理的条件:1.独立同分布。2. μ , σ \mu ,\sigma μ,σ存在。

白噪声的分布是正态分布的理论来源。应用的角度看,不必知道具体的分布函数,而只需要知道方差和期望,就可以查阅正态分布表就可以进行具体的计算。

近似计算

正态分布的线性变换仍然是正态分布。因此 S n S_n Sn​也可以视作正态分布,参数为 ( n μ , n σ 2 ) (n\mu,n\sigma^2) (nμ,nσ2),当 n n n取具体数时,可以进行近似计算。

利用中心极限定理也可以研究选举问题。可以单独做一篇选举问题的文章。

现在考虑一个问题:这种近似计算的结果有多少可信度。目前没有简单的规则来判断。但有几条可以参考。可以考虑 X i X_i Xi​是否与正态分布接近。正态分布是对称的,所以 X i X_i Xi​如果对称,想必 S n S_n Sn​会与正态分布很接近。而如果不对称,例如 X i X_i Xi​是指数分布,那么 n n n必须很大时, S n S_n Sn​才与正态分布接近。
另外当 n n n取不同值时,维持了 Z n Z_n Zn​方差和均值不变,所以 Z n Z_n Zn​在均值附近应当较为准确,即对于 P ( S n ≤ c ) P(S_n\le c) P(Sn​≤c),c在 E ( S n ) = n μ E(S_n)=n\mu E(Sn​)=nμ附近时较为准确。

二项分布的DeMoivre-Laplace近似,就是利用正态分布去近似计算二项分布。对于离散的随机变量,计算要有个变换.如
P ( S n = k ) = P ( k − 1 / 2 ≤ S n ≤ k + 1 / 2 ) P(S_n=k)=P(k-1/2\le S_n \le k+1/2) P(Sn​=k)=P(k−1/2≤Sn​≤k+1/2). P ( k ≤ S n ≤ l ) = P ( k − 1 / 2 ≤ S n ≤ l + 1 / 2 ) ) P(k\leq S_n \le l)=P(k-1/2\le S_n \le l+1/2)) P(k≤Sn​≤l)=P(k−1/2≤Sn​≤l+1/2))

强大数定律

设 X 1 , X 2 , . . . , X n X_1,X_2,...,X_n X1​,X2​,...,Xn​是均值为 μ \mu μ的独立同分布的随机变量序列, M n = ( ∑ i = 1 n X i ) / n M_n=(\sum _{i=1}^{n}{X_i})/n Mn​=(∑i=1n​Xi​)/n.则:
P ( lim ⁡ n → ∞ M n = μ ) = 1 P(\lim _{n\rightarrow \infty}{M_n=\mu})=1 P(n→∞lim​Mn​=μ)=1

跟弱大数定律的比较:强大数定律也是指样本均值收敛于真实均值。但强大数定律的收敛级别更严格。因为极限符号是处于求概率符号P的内部,当事件发生时, M n M_n Mn​是严格收敛于 μ \mu μ。而弱大数定律只是 M n M_n Mn​在 μ \mu μ附近的概律收敛于1.这也是"依概率收敛"和"以概率1收敛"的区别。
收敛于1和等于1的区别应该可以体会到。
例如根据极限的定义,当 n &gt; N 0 n&gt;N_0 n>N0​时,弱大数定律的状况:一部分 M n M_n Mn​在 μ \mu μ上,可以有另一部分不在 μ \mu μ上,只需要保证 P ( M n P(M_n P(Mn​在 μ \mu μ邻域 ) ) )的概率是0或者很小的正数(趋势是往0靠拢)。当概率取正数时,显然随着 n n n的增大,不在 μ \mu μ上的 M i M_i Mi​也会增多,即其数量可以是无穷大(低阶无穷大/高阶无穷大趋近于0)
而 n &gt; N 0 n&gt;N_0 n>N0​时强大数定律的状况:事件 M n M_n Mn​全部在 μ \mu μ邻域(这是极限的定义),这个事件的概率为1.拥有随机性的地方是这个事件发生的概率,而对于事件本身的要求是明确的,不带随机性的。
这就引出了一个问题:强大数定律中这个概率的样本空间是什么呢?书上给出的样本空间的基础模型是: X 1 , X 2 , . . . X_1,X_2,... X1​,X2​,...的一个无穷试验序列 ( x 1 , x 2 , . . . ) (x_1,x_2,...) (x1​,x2​,...).而定义事件 A = { A=\{ A={无穷试验序列的均值极限为 μ \mu μ } \} }。强大数定律就是只有有限次的无穷试验序列的均值极限不为 μ \mu μ.
这又引出了一个问题:强大数定律中的(有限个)某一个试验序列,其均值的极限可以是任意值。
弱大数定律显著性偏离 μ \mu μ的(不在 μ \mu μ邻域内)次数是不确定的,而强大数定律可以保证这个次数是有限次。即到达某个 N 0 N_0 N0​以后,不存在显著性偏离 μ \mu μ了。

以概率1收敛

设 Y 1 , Y 2 , . . . Y_1,Y_2,... Y1​,Y2​,...是某个(不必独立)随机变量序列,实数 c c c,如果:
P ( lim ⁡ n → ∞ Y n = c ) = 1 P(\lim _{n\rightarrow \infty}{Y_n=c})=1 P(n→∞lim​Yn​=c)=1
则称 Y n Y_n Yn​以概率1(几乎处处)收敛于 c c c.
“以概率1收敛” 可以推出“依概率收敛”,反之则不行。注意"以"和“依”的区别。

概率导论(极限理论)相关推荐

  1. UA MATH564 概率论 QE练习题 概率极限理论

    UA MATH564 概率论 QE练习题 概率极限理论 2015/5/3 2016/1/3 这是2015年5月的3题.2016年1月的3题 2015/5/3 这个题干有点意思,有一列随机变量但并不是互 ...

  2. 极限理论总结01:随机变量的四种收敛、CMT及Slutsky定理

    文章目录 01.极限理论的意义 02.随机变量的收敛性 一些定义与记号 依概率收敛 几乎处处收敛 r阶矩收敛 依分布收敛 几种收敛间的关系 OOO 和ooo 连续映射定理 Slutsky定理 01.极 ...

  3. 概率导论(一)——样本空间与概率

    参考书:<概率导论>,作者:Dimitri P. Bertsekas,John N. Tsitsiklis. 本系列博客为自学<概率导论>笔记. 思维导图 集合 将一些研究对象 ...

  4. 概率论的基本公式(概率导论第一章)

    概率论的基本公式(概率导论第一章) 文章目录 概率论的基本公式(概率导论第一章) 1. 概率模型 1.1 概率模型的基本组成 1.2 概率公理 1.3 概率律的若干性质 2. 条件概率 2.1条件概率 ...

  5. 数学分析-第一章-极限理论

    第一章 极限理论1 1.1 数列的极限 1.1.1 数列极限的定义 定义(ϵ−N\epsilon-Nϵ−N) {xn}\{x_n\}{xn​}是已知数列,aaa为已知实数,如果对任给ϵ>0\ep ...

  6. 概率论总结(五):极限理论之大数定律、中心极限定理、概率收敛

    目录: 马尔可夫和切比雪夫不等式 弱大数定律 依概率收敛 中心极限定理 - 基于中心极限定理的近似 - 二项分布的棣莫弗-拉普拉斯近似 强大数定律 马尔可夫和切比雪夫不等式 马尔可夫不等式粗略地讲,该 ...

  7. 概率导论--一--样本空间与概率

    1.2 概率模型 概率模型 试验:概率模型都关联着一个试验,试验必产生一个结果 样本空间 Ω \Omega Ω: 试验的所有可能 事件A :样本空间的子集 概率:确定了任何结果或结果的集合(事件)的似 ...

  8. 数据库导论 关系数据库理论

    1. 数据库理论 数据库是 一系列有价值的信息组成的结构化的集合 (A structured collection of meaningful data). 我们称任何有价值的信息为 数据, (Dat ...

  9. 概率导论(Introduction to Probability, 2E)学习笔记 Part Ⅰ

    笔记内容基于Introduction to Probablity, Second Edition 因笔者为初学者,故内容不会面面俱到 若有表述错误还望直接指出 --2022.1 样本空间与概率 本书的 ...

最新文章

  1. 150亿参数,谷歌开源了史上最大视觉模型V-MoE的全部代码
  2. 微服务网关 Kong 快速上手攻略
  3. HDU 2993 MAX Average Problem(斜率优化DP)
  4. Vertx.vertx()初始框图和模块
  5. 合肥工业大学网络程序设计实验报告_杭州电子科技大学网络空间安全学院2020考研数据速览,专硕竟然有缺额!!!...
  6. input标签中使输入文本向右偏移像素解决方案(亲测有效)
  7. bzoj 4361: isn
  8. 用变量a给出下面的定义
  9. Netty之Pipeline总结
  10. 用HTML语言制作一个非常浪漫的生日祝福网,手把手教你制作炫酷生日祝福网页
  11. 睡眠监测中的一些术语和指标(AASM)
  12. Abp vNext swagger注释
  13. mathematica画图
  14. win10设置vmware 虚拟机开机自启动
  15. 如何在python上安装安装包(python 3.9 环境 PyCharm pillow安装包为例)
  16. python3大神器_Python三大神器之pip的安装
  17. Jsp+mysql在线考试系统论文
  18. 十三、Jmeter生成html报告
  19. ST-LINK 的SWD接线图
  20. The road to learning English-Writing

热门文章

  1. ubuntu16.04系统在登陆界面登陆后紫屏
  2. 首次授权中国区独立维修商,高冷的苹果也为“五斗米“折腰?
  3. 果农淘宝标错价,违约金700万:羊毛党怎么薅羊毛
  4. 博客项目学习笔记十二:登录注册功能(登录)
  5. 马尔可夫预测matlab编程,马尔科夫决策过程的matlab编程实现
  6. 企业官网小程序有什么作用
  7. linux 7 开启远程桌面,配置CentOS 7允许来自Windows的远程桌面访问
  8. PCM音频文件格式的头信息
  9. javascript中的:DOM对象
  10. 蓝桥杯单片机学习3——数码管静态显示