漫步数理统计三十—

本篇博文我们将正式地陈述一系列随机变量靠近某个随机变量。

定义1： \textbf{定义1：} {Xn} \{X_n\}是一系列随机变量， X X是定义在样本空间上的随机变量。我们说XnX_n依概率收敛到 X X，如果对于ϵ>0\epsilon>0

limn→∞P[|Xn−X|≥ϵ]=0

\lim_{n\to\infty}P[|X_n-X|\geq\epsilon]=0

或者等价的

limn→∞P[|Xn−X|<ϵ]=1

\lim_{n\to\infty}P[|X_n-X|

如果成立，我们一般写成

Xn→PX

X_n\overset{P}\to X

如果 Xn→PX X_n\overset{P}\to X，我们常说 Xn−X X_n-X的差收敛到0。极限随机变量 X X经常是一个常数；例如XX是一个退化的随机变量。

说明依概率收敛的一种方法是用切比雪夫定理，具体会在下面的证明中给出，为了强调我们是一系列随机变量，我们在随机变量上给出下标，像 X¯ \bar{X}写成 X¯n \bar{X}_n。

定理1： \textbf{定理1：}(弱大数定理) {Xn} \{X_n\}是一系列独立同分布的随机变量，均值为 μ \mu，方差为 σ2<∞ \sigma^2， X¯n=n−1∑ni=1Xi \bar{X}_n=n^{-1}\sum_{i=1}^nX_i，那么

X¯n→Pμ

\bar{X}_n\overset{P}\to\mu

证明： \textbf{证明：}回忆一下 X¯n \bar{X}_n的均值与方差分别为 μ,σ2/n \mu,\sigma^2/n，因此根据切比雪夫定理，对于任意的 ϵ>0 \epsilon>0

P[|X¯−μ|≥ϵ]=P[|X¯−μ|]≥(ϵn‾‾√/σ)(σ/n‾‾√)≤σ2nϵ2→0

P[|\bar{X}-\mu|\geq\epsilon]=P[|\bar{X}-\mu|]\geq(\epsilon\sqrt{n}/\sigma)(\sigma/\sqrt{n})\leq\frac{\sigma^2}{n\epsilon^2}\to 0

|| ||

这个定理说明，当 n n取向∞\infty时， X¯ \bar{X}分布的所有质量收敛到 μ \mu。也就时候对于大的 n n，X¯\bar{X}接近 μ \mu，但是多接近呢？例如如果我们用 X¯n \bar{X}_n估计 μ \mu，那么估计误差是多少？这个问题留到下篇博文讲解。

还有一个强大数定理，它弱化了定理1的假设：随机变量 Xi X_i独立且都有有限的均值 μ \mu，因此强大数定理是一阶矩定理，而弱大数定理需要二阶矩存在。

还有些关于依概率收敛的定理，我们在后面会用到，首先是两个关于依概率收敛对线性封闭的定理。

定理2： \textbf{定理2：}假设 Xn→PX,Yn→PY X_n\overset{P}\to X,Y_n\overset{P}\to Y，那么 Xn+Yn→PX+Y X_n+Y_n\overset{P}\to X+Y。

证明： \textbf{证明：} ϵ>0 \epsilon>0已给定，利用三角不等式可得

|Xn−X|+|Yn−Y|≥|(Xn+Yn)−(X+Y)|≥ϵ

|X_n-X|+|Y_n-Y|\geq|(X_n+Y_n)-(X+Y)|\geq\epsilon

因为 P P是单调的，所以我们有

P[(Xn+Yn)−(X+Y)≥ϵ]≤P[|Xn−X|+|Yn−Y|≥ϵ]≤P[|Xn−X|≥ϵ/2]+P[|Yn−Y|≥ϵ/2]

\begin{align*} P[(X_n+Y_n)-(X+Y)\geq\epsilon] &\leq P[|X_n-X|+|Y_n-Y|\geq\epsilon]\\ &\leq P[|X_n-X|\geq\epsilon/2]+P[|Y_n-Y|\geq\epsilon/2] \end{align*}

根据定理的假设，后两项收敛到0，从而得证。 || ||

定理3： \textbf{定理3：}假设 Xn→PX X_n\overset{P}\to X且 a a是一个常数，那么aXn→PaXaX_n\overset{P}\to aX。

证明： \textbf{证明：}如果 a=0 a=0，结论明显成立。假设 a≠0 a\neq 0，令 ϵ>0 \epsilon>0，那么

P[|aXn−aX|≥ϵ]=P[|a||Xn−X|≥ϵ]=P[|Xn−X|≥ϵ/|a|]

P[|aX_n-aX|\geq\epsilon]=P[|a||X_n-X|\geq\epsilon]=P[|X_n-X|\geq\epsilon/|a|]

根据假设最后一项趋于0。 || ||

定理4： \textbf{定理4：}假设 Xn→Pa X_n\overset{P}\to a且函数 g g在aa点连续，那么 g(Xn)→Pg(a) g(X_n)\overset{P}\to g(a)。

证明： \textbf{证明：}令 ϵ>0 \epsilon>0，那么因为 g g在aa点连续，所以存在 δ>0 \delta>0使得如果 |x−a|<δ,|g(x)−g(a)|<ϵ |x-a|，所以

|g(x)−g(a)|≥ϵ⇒|x−a|≥δ

|g(x)-g(a)|\geq\epsilon\Rightarrow|x-a|\geq\delta

代入 Xn X_n可得

P[|g(Xn)−g(a)|≥ϵ]≤P[|Xn−a|≥δ]

P[|g(X_n)-g(a)|\geq\epsilon]\leq P[|X_n-a|\geq\delta]

根据假设，最后一项在 n→∞ n\to\infty时趋于0，得证。 || ||

这个定理给出了许多有用的结论。例如，如果 Xn→Pa X_n\overset{P}\to a，那么

X2n1/XnXn‾‾‾√→Pa2→P1/a,假设a≠0→Pa‾‾√,假设a≥0

\begin{align*} X_n^2&\overset{P}\to a^2\\ 1/X_n&\overset{P}\to 1/a,\textrm{假设}a\neq 0\\ \sqrt{X_n}&\overset{P}\to \sqrt{a},\textrm{假设}a\geq0 \end{align*}

实际上，如果 Xn→PX X_n\overset{P}\to X且 g g是连续函数，那么g(Xn)→Pg(X)g(X_n)\overset{P}\to g(X)，下面的定理就用了这个结论。

定理5： \textbf{定理5：}假设 Xn→PX,Yn→PY X_n\overset{P}\to X,Y_n\overset{P}\to Y，那么 XnYn→PXY X_nY_n\overset{P}\to XY。

证明： \textbf{证明：}利用上面的结论，我们有

XnYn=12X2n+12Y2n−12(Xn−Yn)2→P12X2+12Y2−12(X−Y)2=XY

\begin{align*} X_nY_n &=\frac{1}{2}X_n^2+\frac{1}{2}Y_n^2-\frac{1}{2}(X_n-Y_n)^2\\ &\overset{P}\to\frac{1}{2}X^2+\frac{1}{2}Y^2-\frac{1}{2}(X-Y)^2=XY \end{align*}

现在回到采样与统计的讨论，考虑这么一种情况，随机变量 X X的分布有未知参数θ∈Ω\theta\in\Omega，我们要基于样本找到一个统计量来估计 θ \theta，上篇博文我们介绍了无偏性，现在介绍一致性：
定义2： \textbf{定义2：} X X是cdf为F(x,θ),θ∈ΩF(x,\theta),\theta\in\Omega的随机变量， X1,…,Xn X_1,\ldots,X_n是 X X分布的样本且TnT_n表示一个统计量。我们说 Tn T_n是 θ \theta的一致估计，如果

Tn→Pθ

T_n\overset{P}\to\theta

如果 X1,…,Xn X_1,\ldots,X_n是有限均值 μ \mu和方差 σ2 \sigma^2分布的随机样本，那么根据弱大数定理，样本均值 X¯ \bar{X}是 μ \mu的一致估计。

例1： \textbf{例1：} X1,…,Xn X_1,\ldots,X_n表示均值为 μ \mu方差为 σ2 \sigma^2分布的随机样本，定理1说明 X¯→Pμ \bar{X}\overset{P}\to\mu。为了说明样本均值依概率收敛到 σ2 \sigma^2，假设 E[X41]<∞ E[X_1^4]，这样的话 var(S2)<∞ var(S^2)。根据前面的结论可得：

S2n=1n−1∑i=1n(Xi−X¯n)2=nn−1(1n∑i=1nX2i−X¯2n)→P1⋅[E(X21)−μ2]=σ2

\begin{align*} S_n^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-\bar{X}_n)^2 &=\frac{n}{n-1}\left(\frac{1}{n}\sum_{i=1}^nX_i^2-\bar{X}_n^2\right)\\ &\overset{P}\to1\cdot[E(X_1^2)-\mu^2]=\sigma^2 \end{align*}

因此样本方差是 σ2 \sigma^2的一致估计。

不像上面的例子，有时候我们可以用分布函数得出收敛，如下例所示：

例2： \textbf{例2：} X1,…,Xn X_1,\ldots,X_n是均匀分布 (0,θ) (0,\theta)的随机样本， Yn=max{X1,…,Xn} Y_n=\max\{X_1,\ldots,X_n\}，从 Yn Y_n的cdf中很容易看出 Yn→Pθ Y_n\overset{P}\to\theta且样本最大值是 θ \theta的一致估计。注意无偏估计 ((n+1)/n)Yn ((n+1)/n)Y_n也是一致的。

接下里扩展下例2，根据定理1可得 X¯n \bar{X}_n是 θ/2 \theta/2的一致估计，所以 2X¯n 2\bar{X}_n是 θ \theta的一致估计，注意 Yn,2X¯n Y_n,2\bar{X}_n依概率收敛到 θ \theta的区别。对 Yn Y_n而言我们用的是 Yn Y_n的cdf，但对 2X¯n 2\bar{X}_n而言，我们用的是弱大数定理。事实上 2X¯n 2\bar{X}_n的cdf非常复杂。在许多情况下，统计量的cdf无法得到但是我们可以用近似理论来建立结论。其实还有许多其他 θ \theta的估计量，那么哪个是最好的呢？后面的文章会继续介绍。

一致性是估计量非常重要的性质，当样本数量增大时差的估计量不可能靠近目标。注意这对无偏性是不成立的。例如我们不用样本方差来估计 σ2 \sigma^2，假设用 V=n−1∑ni=1(Xi−X¯)2 V=n^{-1}\sum_{i=1}^n(X_i-\bar{X})^2，那么 V V是σ2\sigma^2的一致估计，但是是有偏的，因为 E(V)=(n−1)σ2/n E(V)=(n-1)\sigma^2/n，所以 V V的偏置为σ2/n\sigma^2/n，当 n→∞ n\to\infty时该项消失。

漫步数理统计三十——依概率收敛相关推荐

漫步数理统计三十二——中心极限定理
如果X1,X2,-,XnX_1,X_2,\ldots,X_n是均值为μ\mu,方差为σ2\sigma^2正态分布的随机样本,那么对任意正整数nn,随机变量 ∑n1Xi−nμσn‾‾√=n‾‾√(X¯n ...
漫步数理统计二十五——正态分布
正态分布的动机源于中心极限定理(我们后面会介绍这个定理),这个定理说明正态分布为应用于统计推断提供了重要的一族分布,我们首先从标准正态分布开始. 考虑积分 I=∫∞−∞12π‾‾‾√exp(−z22) ...
漫步数理统计二十二——二项及相关分布
之前我们介绍了均匀分布与超几何分布,这篇文章我们讨论一些其他在统计中经常使用的分布,首先从二项与相关分布开始. 伯努利试验是一个随机试验,输出为两个相互独立且有穷中的一个,例如成功或失败(男或女,生或 ...
漫步数理统计二十——多元随机变量
两个随机变量的概念立即可以扩展到nn个随机变量,下面就是nn个随机变量空间的定义. 定义1:\textbf{定义1:}考虑一个随机试验,其样本空间为C\textbf{C},随机变量XiX_i给每个元素 ...
漫步微积分三十五——弧长
弧是介于曲线上两个特定点AA和点BB之间的一部分,如图1 左边所示.物理上,弧长是一个非常简单的概念.数学上,它是稍微有点复杂.从物理观点看,我们只是折弯了一根绳子来拟合从AA到BB的曲线,标记下对应 ...
漫步微积分三十——定积分的性质
代数和几何面积在前面的章节我们考虑了曲线y=f(x)y=f(x)下方和x=a,x−bx=a,x-b之间围成区域的面积,还有两个假设分别是(1)f(x)≥0;(2)a<b(1)f(x)\geq ...
漫步最优化三十九——Fletcher-Reeves法
你的目光像桥梁,\textbf{你的目光像桥梁,} 指引我通往你心路的捷径.\textbf{指引我通往你心路的捷径.} 你的魅力像磁铁,\textbf{你的魅力像磁铁,} 加快我靠向你身边的步伐.\t ...
漫步最优化三十八——非二次函数最小化
你独一无二的声音,\textbf{你独一无二的声音,} 穿越了繁杂喧嚣,\textbf{穿越了繁杂喧嚣,} 回荡在我的脑中.\textbf{回荡在我的脑中.} 你独一无二的声音,\textbf{你独一 ...
漫步最优化三十六——基本共轭方向法
用我的眼神,\textbf{用我的眼神,} 拍下你的睫毛,\textbf{拍下你的睫毛,} 你微笑的嘴角.\textbf{你微笑的嘴角.} 你的微笑像毒药,\textbf{你的微笑像毒药,} 却洋溢着 ...

漫步数理统计三十——依概率收敛

漫步数理统计三十——依概率收敛相关推荐

最新文章

热门文章