UA MATH563 概率论的数学基础中心极限定理8 弱大数定律 Bernstein多项式逼近

前七讲我们已经讨论清楚了独立性以及独立的随机变量序列，接下来我们想要建立关于样本均值的理论。考虑一个独立的随机变量序列{X1,X2,⋯,Xn}\{X_1,X_2,\cdots,X_n\}{X1,X2,⋯,Xn}，定义样本和为
Sn=∑i=1nXiS_n = \sum_{i=1}^n X_iSn=i=1∑nXi

定义样本均值为
Xˉ=Snn\bar X = \frac{S_n}{n}Xˉ=nSn

我们要试图回答的问题是Xˉ\bar XXˉ服从什么渐近分布？它在什么条件下会收敛到常数？

弱大数定律(weak law of large number, WLLN)
假设{Xn}n≥1\{X_n\}_{n \ge 1}{Xn}n≥1是不相关的随机变量，EXn=μ,Var(Xn)≤c,∀n≥1,∃c>0EX_n = \mu,Var(X_n) \le c,\forall n \ge 1,\exists c>0EXn=μ,Var(Xn)≤c,∀n≥1,∃c>0，则
Xˉ→L2μ\bar X \to_{L^2} \muXˉ→L2μ

说明
另外一个版本的弱大数定律的结论是Xˉ→pμ\bar X \to_p \muXˉ→pμ，但依概率收敛比均方收敛更弱，所以这里叙述的是均方收敛。

Lp收敛：Xn→LpXX_n \to_{L^p} XXn→LpX等价于
lim⁡n→∞E∣Xn−X∣p=0\lim_{n \to \infty}E|X_n-X|^p =0n→∞limE∣Xn−X∣p=0

这种收敛弱于几乎必然收敛但强于依概率收敛，当p=2p=2p=2时是L2L^2L2收敛，也叫均方收敛，于是Xˉ→L2μ\bar X \to_{L^2} \muXˉ→L2μ的含义是
E[Xˉ−μ]2→0E[\bar X-\mu]^2 \to 0E[Xˉ−μ]2→0

因为
EXˉ=E∑i=1nXin=1n∑i=1nμ=μE\bar X = E \sum_{i=1}^n\frac{X_i}{n}=\frac{1}{n}\sum_{i=1}^n \mu=\muEXˉ=Ei=1∑nnXi=n1i=1∑nμ=μ

所以E[Xˉ−μ]2=Var(Xˉ)E[\bar X-\mu]^2=Var(\bar X)E[Xˉ−μ]2=Var(Xˉ)，于是弱大数法则的含义是样本均值的方差趋近于0。

证明
根据Chebyshev不等式，∀ϵ>0\forall \epsilon>0∀ϵ>0，
P(∣Xˉ−μ∣>ϵ)≤E[Xˉ−μ]2ϵ2P(|\bar X - \mu|>\epsilon) \le \frac{E[\bar{X}-\mu]^2}{\epsilon^2}P(∣Xˉ−μ∣>ϵ)≤ϵ2E[Xˉ−μ]2

其中（在Var(Xˉ)Var(\bar X)Var(Xˉ)的计算中，我们需要不相关的假设）
E[Xˉ−μ]2=Var(Xˉ)=1n2∑i=1nVar(Xi)≤cn→0E[\bar X - \mu]^2 = Var(\bar X) = \frac{1}{n^2}\sum_{i=1}^n Var(X_i) \le \frac{c}{n} \to 0E[Xˉ−μ]2=Var(Xˉ)=n21i=1∑nVar(Xi)≤nc→0

于是P(∣Xˉ−μ∣>ϵ)→0P(|\bar X - \mu|>\epsilon) \to 0P(∣Xˉ−μ∣>ϵ)→0，所以Xˉ→pμ\bar X \to_p \muXˉ→pμ。

事实上，这个结果同样说明E[Xˉ−μ]=0,Var(Xˉ)→0E[\bar X - \mu] = 0,Var(\bar X) \to 0E[Xˉ−μ]=0,Var(Xˉ)→0于是均方收敛成立。

应用：Bernstein多项式近似

假设f:[0,1]→Rf:[0,1] \to \mathbb{R}f:[0,1]→R是一个连续函数，定义
fn(x)=∑k=0nCnkxk(1−x)n−kf(k/n)f_n(x) = \sum_{k=0}^n C_n^k x^k(1-x)^{n-k}f(k/n)fn(x)=k=0∑nCnkxk(1−x)n−kf(k/n)

称fnf_nfn是fff的nnn阶Bernstein多项式(Bernstein polynomial of degree n with respect to f)，我们可以证明
sup⁡x∈[0,1]∣fn(x)−f(x)∣→0,n→∞\sup_{x \in [0,1]}|f_n(x)-f(x)| \to 0,n \to \inftyx∈[0,1]sup∣fn(x)−f(x)∣→0,n→∞

先简单观察一下Bernstein多项式的构造，它非常像二项式定理的展开式，于是在概率论的语境下，我们应该把它联系到二项分布：

假设X1,⋯,Xn∼iidBer(p)X_1,\cdots,X_n \sim_{iid} Ber(p)X1,⋯,Xn∼iidBer(p)，即
P(Xi=1)=p,P(Xi=0)=1−pP(X_i=1)=p,P(X_i=0)=1-pP(Xi=1)=p,P(Xi=0)=1−p

并且
EXi=p,Var(Xi)=p(1−p)EX_i = p,Var(X_i) = p(1-p)EXi=p,Var(Xi)=p(1−p)

Bernoulli分布的样本和就是二项分布，
Sn=∑i=1nXi∼Binom(n,p)P(Sn=k)=Cnkpk(1−p)n−kS_n = \sum_{i=1}^n X_i \sim Binom(n,p) \\ P(S_n = k) = C_n^kp^k(1-p)^{n-k}Sn=i=1∑nXi∼Binom(n,p)P(Sn=k)=Cnkpk(1−p)n−k

接下来我们尝试把Bernstein不等式用期望表示出来，先做一下简单的辅助计算帮助理解，如果x=px=px=p，则
fn(p)=∑k=0nCnkpk(1−p)n−kf(k/n)=∑k=0nP(Sn=k)f(k/n)f_n(p) = \sum_{k=0}^n C_n^k p^k(1-p)^{n-k}f(k/n)=\sum_{k=0}^{n}P(S_n=k)f(k/n)fn(p)=k=0∑nCnkpk(1−p)n−kf(k/n)=k=0∑nP(Sn=k)f(k/n)

kkk就是SnS_nSn的取值，显然这个式子就是f(Sn/n)f(S_n/n)f(Sn/n)的期望。因为p∈[0,1]p \in [0,1]p∈[0,1]，于是我们要证明的可以是fn(p)→f(p)f_n(p) \to f(p)fn(p)→f(p)。

下面我们尝试用WLLN说明这个结论：

闭区间上的连续函数有界，于是
M=sup⁡x∈[0,1]∣f(x)∣<∞M = \sup_{x \in [0,1]}|f(x)|<\inftyM=x∈[0,1]sup∣f(x)∣<∞

闭区间上的连续函数一致连续，于是∀ϵ>0,∃δ>0\forall \epsilon>0,\exists \delta>0∀ϵ>0,∃δ>0, ∣x−y∣<δ|x-y|<\delta∣x−y∣<δ则∣f(x)−f(y)∣<ϵ|f(x)-f(y)|<\epsilon∣f(x)−f(y)∣<ϵ；

根据Chebyshev不等式
2MP(∣Sn/n−p∣>δ)≤2MVar(Sn/n)δ22MP(|S_n/n-p| > \delta) \le \frac{2MVar(S_n/n)}{\delta^2}2MP(∣Sn/n−p∣>δ)≤δ22MVar(Sn/n)

根据弱大数定律，不妨取Var(Sn/n)<δ2ϵ2MVar(S_n/n)<\frac{\delta^2 \epsilon}{2M}Var(Sn/n)<2Mδ2ϵ，
2MVar(Sn/n)δ2<ϵ\frac{2MVar(S_n/n)}{\delta^2}<\epsilonδ22MVar(Sn/n)<ϵ

如果不仅仅考虑收敛性，而是考虑近似误差的话，我们可以通过计算Var(Sn/n)Var(S_n/n)Var(Sn/n)得到2MP(∣Sn/n−p∣>δ)2MP(|S_n/n-p| > \delta)2MP(∣Sn/n−p∣>δ)的上界为
2Mn2δ2np(1−p)≤M2nδ2\frac{2M}{n^2\delta^2}np(1-p) \le \frac{M}{2n\delta^2}n2δ22Mnp(1−p)≤2nδ2M

于是
sup⁡p∈[0,1]∣fn(p)−f(p)∣≤ϵ+M2nδ2\sup_{p \in [0,1]}|f_n(p)-f(p)| \le \epsilon +\frac{M}{2n\delta^2}p∈[0,1]sup∣fn(p)−f(p)∣≤ϵ+2nδ2M