文章目录

  • 概率基础不等式
    • 切比雪夫不等式
      • 推导
  • 依概率收敛
    • 定义
      • 直观解释
      • 特点
    • 服从大数定律
  • 大数定律
    • chebyshev LLN
      • 应用
    • bernoulli LLN
      • 意义
    • Khinchin LLN
  • 总结

概率基础不等式

切比雪夫不等式

  • chebyshev’s inequality

    • ref:Chebychev’s inequality and weak law of large numbers (CS 2800, Spring 2017) (cornell.edu)
  • 通过方差来估计:随机变量的取值和期望之间的偏差大于某个正数的概率

  • chebyshev不等式给出了这个概率的上界

  • 设随机变量X的方差存在:(D(X)存在是chebyshev不等式作用的前提D(X)存在是chebyshev不等式作用的前提D(X)存在是chebyshev不等式作用的前提)

    • 根据概率的规范性,可写出chebyshev不等式的两种形式:

    • P(∣X−E(X)∣⩾ε)⩽D(X)ε2P(|X-E(X)|\geqslant\varepsilon) \leqslant\frac{D(X)}{\varepsilon^2} P(∣X−E(X)∣⩾ε)⩽ε2D(X)​

      • 其中,ε>0根据概率的规范性:P(∣X−E(X)∣<ε)=1−P(∣X−E(X)∣⩾ε,可以写出另一形式:其中,\varepsilon>0 \\根据概率的规范性:P(\sqrt{|X-E(X)|<\varepsilon})=1-P(\sqrt{|X-E(X)|\geqslant{\varepsilon}}, \\可以写出另一形式: 其中,ε>0根据概率的规范性:P(∣X−E(X)∣<ε​)=1−P(∣X−E(X)∣⩾ε​,可以写出另一形式:
  • P(∣X−E(X)∣<ε)⩾1−D(X)ε2P(\sqrt{|X-E(X)|}<\varepsilon)\geqslant{1-\frac{D(X)}{\varepsilon^2}} P(∣X−E(X)∣​<ε)⩾1−ε2D(X)​

推导

  • 推导(连续型情况)

    • chebyshev inequality的推导在于利用事件∣X−E(X)∣⩾ε>0|X-E(X)|\geqslant\varepsilon>0∣X−E(X)∣⩾ε>0

      • 从而:∣X−E(X)∣ε⩾1|X-E(X)|{\varepsilon}\geqslant{1}∣X−E(X)∣ε⩾1,利用这个不等式进行放缩被积函数

      • ∣X−E(X)∣ε⩾1⇒∣X−E(X)∣2ε2⩾1∣X−E(X)∣2ε2f(x)⩾f(x)将E(X)看作一个常数(D(X)=E(X2)−E2(X)相对于自变量x可以视为常数);(E(X)&D(X)与随机变量X是函数关系)积分变量设为x积分区间用不等式表示:∣x−E(X)∣>ε\frac{|X-E(X)|}{\varepsilon}\geqslant{1} \\\Rightarrow \frac{{|X-E(X)|^2}}{\varepsilon^2}\geqslant{1} \\ \\ \frac{|X-E(X)|^2}{\varepsilon^2}f(x) \geqslant{f(x)} \\ 将E(X)看作一个常数(D(X)=E(X^2)-E^2(X)相对于自变量x可以视为常数); \\(E(X)\&D(X)与随机变量X是函数关系) \\积分变量设为x \\积分区间用不等式表示:|x-E(X)|>\varepsilon ε∣X−E(X)∣​⩾1⇒ε2∣X−E(X)∣2​⩾1ε2∣X−E(X)∣2​f(x)⩾f(x)将E(X)看作一个常数(D(X)=E(X2)−E2(X)相对于自变量x可以视为常数);(E(X)&D(X)与随机变量X是函数关系)积分变量设为x积分区间用不等式表示:∣x−E(X)∣>ε

        P(∣X−E(X)∣⩾ε)=∫∣x−E(X)∣>εf(x)dx⩽∫∣x−E(X)∣>ε∣X−E(X)∣2ε2f(x)dx⩽∫x∈R(X−E(X))2ε2f(x)dxNote:(此处,∫x∈R⇔∫−∞+∞;∫x∈Rf(x)dx=1)=1ε2(X−E(X))2∫x∈Rf(x)dx=1ε2E(((X−E(X))2)∫x∈Rf(x)dx对常数(X−E(X))2(相对于自变量x而言是常数)求期望(X−E(X))2=E((X−E(X))2)=D(X)=1ε2D(X)∫x∈Rf(x)dx=1ε2D(X)P(\sqrt{|X-E(X)|}\geqslant\varepsilon) =\int\limits_{|x-E(X)|>\varepsilon} f(x)\mathrm{d}x \\\LARGE\leqslant{} \normalsize \int\limits_{|x-E(X)|>\varepsilon} \frac{{|X-E(X)|^2}}{\varepsilon^2}f(x)\mathrm{d}x \\\LARGE\leqslant{} \normalsize \int\limits_{x\in{R}} \frac{{(X-E(X))^2}}{\varepsilon^2}f(x)\mathrm{d}x \\Note:(此处,\int\limits_{x\in{R}}\Leftrightarrow \int_{-\infin}^{+\infin};\int\limits_{x\in{R}} f(x)\mathrm{d}x=1) \\=\frac{1}{\varepsilon^2}{(X-E(X))^2}\int\limits_{x\in{R}} f(x)\mathrm{d}x \\=\frac{1}{\varepsilon^2}{E(((X-E(X))^2)}\int\limits_{x\in{R}} f(x)\mathrm{d}x \\对常数(X-E(X))^2(相对于自变量x而言是常数) \\求期望(X-E(X))^2=E((X-E(X))^2)=D(X) \\=\frac{1}{\varepsilon^2}{D(X)}\int\limits_{x\in{R}} f(x)\mathrm{d}x \\=\frac{1}{\varepsilon^2}{D(X)} P(∣X−E(X)∣​⩾ε)=∣x−E(X)∣>ε∫​f(x)dx⩽∣x−E(X)∣>ε∫​ε2∣X−E(X)∣2​f(x)dx⩽x∈R∫​ε2(X−E(X))2​f(x)dxNote:(此处,x∈R∫​⇔∫−∞+∞​;x∈R∫​f(x)dx=1)=ε21​(X−E(X))2x∈R∫​f(x)dx=ε21​E(((X−E(X))2)x∈R∫​f(x)dx对常数(X−E(X))2(相对于自变量x而言是常数)求期望(X−E(X))2=E((X−E(X))2)=D(X)=ε21​D(X)x∈R∫​f(x)dx=ε21​D(X)

依概率收敛

定义

  • 随机变量序列{Xi},i=1,2,⋯随机变量序列\set{X_i},i=1,2,\cdots随机变量序列{Xi​},i=1,2,⋯

    • A是一个常数

    • ∀ϵ>0\forall{\epsilon}>0∀ϵ>0

    • lim⁡n→∞P(∣Xn−A∣<ϵ)=1或:lim⁡n→∞P(∣Xn−A∣⩾ϵ)=0则称{Xi}依赖概率收敛于常数A记为:Xn→PA或(Xn−A→P0)\lim\limits_{n\to{\infin}}P(|X_n-A|<\epsilon)=1 \\或:\lim\limits_{n\to{\infin}}P(|X_n-A|\geqslant\epsilon)=0 \\则称\set{X_i}依赖概率收敛于常数A \\记为:X_n{\xrightarrow{P}}{A} \\或(X_n-A{\xrightarrow{P}}{0}) n→∞lim​P(∣Xn​−A∣<ϵ)=1或:n→∞lim​P(∣Xn​−A∣⩾ϵ)=0则称{Xi​}依赖概率收敛于常数A记为:Xn​P​A或(Xn​−AP​0)

    • 特别的,当A=0的时候lim⁡n→∞P(∣Xn∣<ϵ)=1或lim⁡n→∞P(∣Xn∣⩾ϵ)=0则称{Xi}依赖概率收敛于0:Xn→P0特别的,当A=0的时候 \\\lim\limits_{n\to{\infin}}P(|X_n|<\epsilon)=1 或\\ \lim\limits_{n\to{\infin}}P(|X_n|\geqslant\epsilon)=0 则称\set{X_i}依赖概率收敛于0: \\X_n\xrightarrow{P}0 特别的,当A=0的时候n→∞lim​P(∣Xn​∣<ϵ)=1或n→∞lim​P(∣Xn​∣⩾ϵ)=0则称{Xi​}依赖概率收敛于0:Xn​P​0

      • 从极限的角度,也就是说符号→PA表示依概率收敛于A;P表示概率Probability\xrightarrow{P}{A}表示依概率收敛于A;P表示概率ProbabilityP​A表示依概率收敛于A;P表示概率Probability

直观解释

  • 以概率收敛的直观解释:

    • ∀ϵ>0,n充分大的时候,Xn与X的偏差小于ϵ\forall{\epsilon}>0,n充分大的时候,X_n与X的偏差小于\epsilon∀ϵ>0,n充分大的时候,Xn​与X的偏差小于ϵ
    • 描述的是在概率意义下的收敛性
      • 当n很大的时候,我们有很大的把握可以保证Xn与X很接近(要多接近有多接近)当n很大的时候,我们有很大的把握可以保证X_n与X很接近(要多接近有多接近)当n很大的时候,我们有很大的把握可以保证Xn​与X很接近(要多接近有多接近)

特点

  • 从形式上看,依概率收敛的定义中,被求极限的概率表达式部分:P(∣Xn−A∣⩾ϵ)P(|X_n-A|\geqslant\epsilon)P(∣Xn​−A∣⩾ϵ)很符合chebyshev不等式中的形式

    • P(∣X−E(X)∣⩾ε)⩽D(X)ε2lim⁡n→∞P(∣Xn−A∣⩾ϵ)=0P(|X-E(X)|\geqslant\varepsilon) \leqslant\frac{D(X)}{\varepsilon^2} \\ \lim\limits_{n\to{\infin}}P(|X_n-A|\geqslant\epsilon)=0 P(∣X−E(X)∣⩾ε)⩽ε2D(X)​n→∞lim​P(∣Xn​−A∣⩾ϵ)=0

服从大数定律

  • 如果{Xn∣n=1,2,⋯}是一列随机变量序列如果\set{X_n|n=1,2,\cdots}是一列随机变量序列如果{Xn​∣n=1,2,⋯}是一列随机变量序列

    • {an}是一列实数序列\set{a_n}是一列实数序列{an​}是一列实数序列

    • 如果存在某个{an},使得:如果存在某个\set{a_n},使得:如果存在某个{an​},使得:

      • S=S(n,{Xn})=1n(∑i=1nXi)−an→P0lim⁡n→∞P(S)=lim⁡n→∞P(∣(1n∑i=1nXi)−an∣⩾ϵ)=0S=S(n,\set{X_n})=\frac{1}{n}(\sum\limits_{i=1}^{n}X_i)-a_n \xrightarrow{P}0 \\ \lim\limits_{n\to{\infin}}P({S})=\lim\limits_{n\to{\infin}}P(|(\frac{1}{n}\sum\limits_{i=1}^{n}X_i)-a_n|\geqslant\epsilon)=0 S=S(n,{Xn​})=n1​(i=1∑n​Xi​)−an​P​0n→∞lim​P(S)=n→∞lim​P(∣(n1​i=1∑n​Xi​)−an​∣⩾ϵ)=0
    • 则称{Xn}\set{X_n}{Xn​}服从大数定律

大数定律

  • Law of large numbers(LLN)

  • 事件A发生的频率具有稳定性:

    • 当试验次数n增大,频率将稳定于某一个常数(这个常数就A发生的概率:P(A))

    • 例如:做测量的时候,重复测量n次,得到的数值分别记为X1,X2,⋯,XnX_1,X_2,\cdots,X_nX1​,X2​,⋯,Xn​

      • 可以将{Xi},i=1,2,⋯,n视为n个独立同分布的随机变量可以将\set{X_i},i=1,2,\cdots,n视为n个独立同分布的随机变量可以将{Xi​},i=1,2,⋯,n视为n个独立同分布的随机变量

        • 一般测量试验的随机变量服从正态分布:设为X∼N(μ,σ2)X\sim{N(\mu,\sigma^2)}X∼N(μ,σ2)
        • Xi之间的的数学期望和方差都是一致的,分别为μ,σX_i之间的的数学期望和方差都是一致的,分别为\mu,\sigmaXi​之间的的数学期望和方差都是一致的,分别为μ,σ
        • E(X‾)=E(Xi)=μE(\overline{X})=E(X_i)=\muE(X)=E(Xi​)=μ
        • D(X‾)=1nσ2D(\overline{X})=\frac{1}{n}\sigma^2D(X)=n1​σ2
          • 从这个角度上看,当n充分大的时候,方差趋近于0
          • 并且X‾会稳定于它的数学期望μ并且\overline{X}会稳定于它的数学期望\mu并且X会稳定于它的数学期望μ,体现的是大量试验中平均结果的稳定性
      • 下面是推导过程:

        • 将这n个随机变量的算数平均值记为X‾=1n∑i=1nXi将这n个随机变量的算数平均值记为\overline{X}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i将这n个随机变量的算数平均值记为X=n1​i=1∑n​Xi​

        • X‾也视为一个随机变量\overline{X}也视为一个随机变量X也视为一个随机变量

        • E(X‾)=1nE(∑i=1nXi)=1n∑i=1nE(Xi)=1nnμ=μD(X‾)=E(X‾2)−E2(X‾)=E((1n∑i=1nXi)2)−μ2=1n2E((∑i=1nXi)2)−μ2E(\overline{X}) =\frac{1}{n}E(\sum\limits_{i=1}^{n}X_i) =\frac{1}{n}\sum_{i=1}^{n}E(X_i)=\frac{1}{n}n\mu =\mu \\ D(\overline{X})=E(\overline{X}^2)-E^2(\overline{X}) \\=E((\frac{1}{n}\sum\limits_{i=1}^{n}X_i)^2)-\mu^2 \\=\frac{1}{n^2}E((\sum\limits_{i=1}^{n}X_i)^2)-\mu^2 E(X)=n1​E(i=1∑n​Xi​)=n1​i=1∑n​E(Xi​)=n1​nμ=μD(X)=E(X2)−E2(X)=E((n1​i=1∑n​Xi​)2)−μ2=n21​E((i=1∑n​Xi​)2)−μ2

        • (∑i=1nXi)2=∑i=1n∑j=1nXiXj=∑i=1n∑j=1j≠inXiXj+∑i=1nXi2(\sum\limits_{i=1}^{n}X_i)^2 =\sum\limits_{i=1}^{n}\sum\limits_{j=1}^{n}X_iX_j \\=\sum\limits_{i=1}^{n}\sum\limits_{ \begin{aligned} j=1 \\ j\neq{i} \end{aligned} }^{n}X_iX_j +\sum\limits_{i=1}^{n}X_i^2 (i=1∑n​Xi​)2=i=1∑n​j=1∑n​Xi​Xj​=i=1∑n​j=1j=i​∑n​Xi​Xj​+i=1∑n​Xi2​

          • D(Xi)=σ2=E(Xi2)−E2(Xi)=E(Xi2)−μ2E(Xi2)=σ2+μ2D(X_i)=\sigma^2=E(X_i^2)-E^2(X_i)=E(X_i^2)-\mu^2 \\E(X_i^2)=\sigma^2+\mu^2 D(Xi​)=σ2=E(Xi2​)−E2(Xi​)=E(Xi2​)−μ2E(Xi2​)=σ2+μ2

          • E(∑i=1n∑j=1j≠inXiXj+∑i=1nXi2)=∑i=1n∑j=1j≠inE(XiXj)+∑i=1nE(Xi2)=∑i=1n∑j=1j≠inE(Xi)E(Xj)+∑i=1nE(Xi2)=∑i=1n∑j=1j≠inμ2+n(μ2+σ2)=n2(μ2)+nσ2E(\sum\limits_{i=1}^{n}\sum\limits_{ \begin{aligned} j=1 \\ j\neq{i} \end{aligned} }^{n}X_iX_j +\sum\limits_{i=1}^{n}X_i^2) \\=\sum\limits_{i=1}^{n}\sum\limits_{ \begin{aligned} j=1 \\ j\neq{i} \end{aligned} }^{n}E(X_iX_j) +\sum\limits_{i=1}^{n}E(X_i^2) \\=\sum\limits_{i=1}^{n}\sum\limits_{ \begin{aligned} j=1 \\ j\neq{i} \end{aligned} }^{n}E(X_i)E(X_j) +\sum\limits_{i=1}^{n}E(X_i^2) \\=\sum\limits_{i=1}^{n}\sum\limits_{ \begin{aligned} j=1 \\ j\neq{i} \end{aligned} }^{n}\mu^2 +n(\mu^2+\sigma^2) \\=n^2(\mu^2)+n\sigma^2 E(i=1∑n​j=1j=i​∑n​Xi​Xj​+i=1∑n​Xi2​)=i=1∑n​j=1j=i​∑n​E(Xi​Xj​)+i=1∑n​E(Xi2​)=i=1∑n​j=1j=i​∑n​E(Xi​)E(Xj​)+i=1∑n​E(Xi2​)=i=1∑n​j=1j=i​∑n​μ2+n(μ2+σ2)=n2(μ2)+nσ2

        • E(X‾)=1n2E((∑i=1nXi)2)−μ2=1n2(n2μ2+nσ2)−μ2=μ2+1nσ−μ2=1nσ2E(\overline{X}) =\frac{1}{n^2}E((\sum\limits_{i=1}^{n}X_i)^2)-\mu^2 \\=\frac{1}{n^2}(n^2\mu^2+n\sigma^2)-\mu^2 \\=\mu^2+\frac{1}{n}\sigma-\mu^2 \\=\frac{1}{n}\sigma^2 E(X)=n21​E((i=1∑n​Xi​)2)−μ2=n21​(n2μ2+nσ2)−μ2=μ2+n1​σ−μ2=n1​σ2

    • 前面说到的大量试验中平均结果的稳定性,

      • 用大数定律,以严格的数学语言表达了随机现象在大量试验中所呈现出的统计规律性

        • 频率的稳定性
        • 平均结果的稳定性

chebyshev LLN

  • {Xn∣n=1,2,⋯},是一列相互独立‾的随机变量序列if ∃C>0,s.t.∀i,D(Xi)⩽C,⇒∀ϵ>0:记X‾=1n∑i=1nXi;E(X‾)=E(1n∑i=1nXi)=1nE(∑i=1nXi)=1n∑i=1nE(Xi)E(X)‾=1n∑i=1nE(Xi)E(X‾)=E(X)‾\set{X_n|n=1,2,\cdots},是一列\underline{相互独立}的随机变量序列 \\\text{if }\exist{C>0},\text{s.t.}\forall{i},D(X_i)\leqslant{C}, \\\Rightarrow\forall \epsilon>0: \\记\overline{X}=\frac{1}{n}\sum_{i=1}^{n}X_i; \\E(\overline{X})=E(\frac{1}{n}\sum_{i=1}^{n}X_i) =\frac{1}{n}E(\sum_{i=1}^{n}X_i)=\frac{1}{n}\sum_{i=1}^{n}E(X_i) \\ \overline{E(X)}=\frac{1}{n}\sum_{i=1}^{n}E(X_i) \\E(\overline{X})=\overline{E(X)} {Xn​∣n=1,2,⋯},是一列相互独立​的随机变量序列if ∃C>0,s.t.∀i,D(Xi​)⩽C,⇒∀ϵ>0:记X=n1​i=1∑n​Xi​;E(X)=E(n1​i=1∑n​Xi​)=n1​E(i=1∑n​Xi​)=n1​i=1∑n​E(Xi​)E(X)​=n1​i=1∑n​E(Xi​)E(X)=E(X)​

  • 则chebyshevLLN可以描述为:lim⁡n→∞P(∣X‾−E(X)‾∣⩾ϵ)=0即:X‾−E(X)‾=X‾−E(X‾)⩾ϵ→P0X‾→PE(X)‾\\则chebyshevLLN可以描述为: \\ \lim_{n\to{\infin}}P(|\overline{X}-\overline{E(X)}|\geqslant{\epsilon})=0 \\即:\overline{X}-\overline{E(X)} =\overline{X}-E(\overline{X}) \geqslant{\epsilon}\xrightarrow{P}{0} \\ \overline{X}\xrightarrow{P}\overline{E(X)} 则chebyshevLLN可以描述为:n→∞lim​P(∣X−E(X)​∣⩾ϵ)=0即:X−E(X)​=X−E(X)⩾ϵP​0XP​E(X)​

    • 推导:(可以由chebyshev不等式进行推导)

    • 由独立性可知:D(X‾)=1n2D(∑i=1nXi)=1n2∑i=1nD(Xi)⩽1n2nC=Cn由独立性可知: \\D(\overline{X})=\frac{1}{n^2}D(\sum_{i=1}^nX_i) =\frac{1}{n^2}\sum_{i=1}^nD(X_i) \leqslant{\frac{1}{n^2}nC=\frac{C}{n}} 由独立性可知:D(X)=n21​D(i=1∑n​Xi​)=n21​i=1∑n​D(Xi​)⩽n21​nC=nC​

    • 由chebyshev不等式:P(∣X−E(X)∣⩾ε)⩽D(X)ε2P(∣X‾−E(X‾)∣⩾ε)⩽D(X‾)ε2⩽1ϵ2Cn→n→∞0经过上面的放缩从而得到证明lim⁡n→∞P(∣X‾−E(X‾)∣⩾ε)=0由chebyshev不等式: \\P(|X-E(X)|\geqslant\varepsilon) \leqslant\frac{D(X)}{\varepsilon^2} \\P(|\overline{X}-E(\overline{X})|\geqslant\varepsilon) \leqslant\frac{D(\overline{X})}{\varepsilon^2} \leqslant\frac{1}{\epsilon^2}\frac{C}{n} \xrightarrow{n\to{\infin}}{0} \\经过上面的放缩从而得到证明 \\ \lim_{n\to{\infin}}P(|\overline{X}-E(\overline{X})|\geqslant\varepsilon) =0 由chebyshev不等式:P(∣X−E(X)∣⩾ε)⩽ε2D(X)​P(∣X−E(X)∣⩾ε)⩽ε2D(X)​⩽ϵ21​nC​n→∞​0经过上面的放缩从而得到证明n→∞lim​P(∣X−E(X)∣⩾ε)=0

应用

  • 回到前面提到的多次测量取平均值的期望和方差问题:

    • E(Xi)=μ;D(Xi)=σ2E(X)‾=1n∑i=1nE(Xi)=1nn(μ)=μE(X_i)=\mu;D(X_i)=\sigma^2 \\\overline{E(X)}=\frac{1}{n}\sum_{i=1}^{n}E(X_i)=\frac{1}{n}n(\mu)=\mu E(Xi​)=μ;D(Xi​)=σ2E(X)​=n1​i=1∑n​E(Xi​)=n1​n(μ)=μ

      • n个观察值的算数平均值:X‾=1n∑i=1nXiμ为被测物的指标真值n个观察值的算数平均值:\overline{X}=\frac{1}{n}\sum\limits_{i=1}^{n}X_i \\ \mu为被测物的指标真值 n个观察值的算数平均值:X=n1​i=1∑n​Xi​μ为被测物的指标真值
  • 当试验次数n趋于无穷大的时候,实际测量值的算数平均值依概率收敛于μ\muμ

    • 揭示了平均结果具有稳定性
    • 测量中,常用多次重复测量所得到的观测值的算数平均值作为被测量值的近似值

bernoulli LLN