UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式

Hoeffding不等式
Chernoff不等式

MATH 564系列我们已经介绍了几个基本的概率不等式：Markov不等式、Chebyshev不等式、Chernoff不等式，这一类不等式有一个共同的名字，叫concentration inequalities，因为它们反映的是概率集中到分布的中心（比如均值）的程度，所以我觉得翻译成集中度不等式是还可以的，中文的wiki用的是集中不等式，我觉得含义也差不多。在概率不等式0中我们讨论了Chebyshev不等式，它在大样本时非常不sharp，所以这一讲的目标是基于Markov不等式推出更sharp一点的不等式，也就是Hoeffding不等式与Chernoff不等式。

Hoeffding不等式

假设Xi∈[mi,Mi],i=1,⋯,NX_i \in [m_i,M_i],i=1,\cdots,NXi∈[mi,Mi],i=1,⋯,N, ∀t>0\forall t>0∀t>0, 下面的不等式被称为Hoeffding不等式，
P(∑i=1N(Xi−EXi)≥t)≤exp⁡(−2t2∑i=1N(Mi−mi)2)P \left( \sum_{i=1}^N (X_i - EX_i)\ge t \right) \le \exp \left( -\frac{2t^2}{\sum_{i=1}^N (M_i - m_i)^2} \right)P(i=1∑N(Xi−EXi)≥t)≤exp(−∑i=1N(Mi−mi)22t2)

完整的证明可以参考Hoeffding (1963)的文章，这里证明一个特殊情况，Xi∼iidBer(1/2)X_i\sim_{iid}Ber(1/2)Xi∼iidBer(1/2) (对称Bernoulli分布)：
P(∑i=1NaiXi≥t)≤exp⁡(−t22∑i=1Nai2)P \left( \sum_{i=1}^N a_iX_i\ge t \right) \le \exp \left( -\frac{t^2}{2\sum_{i=1}^N a_i^2} \right)P(i=1∑NaiXi≥t)≤exp(−2∑i=1Nai2t2)

证明这个特例是因为接下来用到的证明方法是用来证明类似Hoeffding不等式的一般性思路。

证明
考虑函数g(t)=eλtg(t)=e^{\lambda t}g(t)=eλt，对随机变量∑i=1NaiXi\sum_{i=1}^N a_iX_i∑i=1NaiXi使用Markov不等式，
P(∑i=1NaiXi≥t)≤e−λtEexp⁡(λ∑i=1NaiXi)P \left( \sum_{i=1}^N a_iX_i\ge t \right) \le e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)P(i=1∑NaiXi≥t)≤e−λtEexp(λi=1∑NaiXi)

因为λ\lambdaλ的任意性，我们可以选择一个最小的上界：
min⁡λe−λtEexp⁡(λ∑i=1NaiXi)\min_{\lambda} e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)λmine−λtEexp(λi=1∑NaiXi)

接下来我们要做的就是找到这个最值，计算
e−λtEexp⁡(λ∑i=1NaiXi)=e−λt∏i=1NEeλaiXi=e−λt∏i=1Neλai+e−λai2≤e−λt∏i=1Neλ2ai2/2=exp⁡(−λt+λ22∑i=1Nai2)e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right) = e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda a_i X_i} \\ = e^{-\lambda t}\prod_{i=1}^N \frac{e^{\lambda a_i}+e^{-\lambda a_i}}{2} \le e^{-\lambda t}\prod_{i=1}^N e^{\lambda^2 a_i^2/2}\\=\exp \left( -\lambda t+\frac{\lambda^2}{2}\sum_{i=1}^N a_i^2 \right) e−λtEexp(λi=1∑NaiXi)=e−λti=1∏NEeλaiXi=e−λti=1∏N2eλai+e−λai≤e−λti=1∏Neλ2ai2/2=exp(−λt+2λ2i=1∑Nai2)

需要注意的是第二行我们把这个上界又放大了一点，主要的目的是找一个更容易计算最小值的形式：
min⁡exp⁡(−λt+λ22∑i=1Nai2)=e−λtEexp⁡(λ∑i=1NaiXi)\min \exp \left( -\lambda t+\frac{\lambda^2}{2}\sum_{i=1}^N a_i^2 \right) = e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)minexp(−λt+2λ2i=1∑Nai2)=e−λtEexp(λi=1∑NaiXi)

证毕

Hoeffding不等式在统计学习中具有广泛的应用，比如监督学习理论中Principle of empirical risk minimization的一致性推导，Boosting的运行次数估计等。

Chernoff不等式

在UA MATH564 概率论概率不等式中，我们介绍了Chernoff上界。给定具有某种特定分布形式的随机变量，我们可以用Legendre变换的思路计算出随机变量尾部概率的Chernoff上界。Chernoff不等式是Chernoff上界的一个特例，考虑互相独立的Bernoulli变量Xi∼Ber(pi)X_i \sim Ber(p_i)Xi∼Ber(pi)，定义SN=∑i=1NXiS_N = \sum_{i=1}^N X_iSN=∑i=1NXi，μ=ESN\mu = ES_Nμ=ESN，对于t>μt>\mut>μ，
P(SN≥t)≤e−μ(eμ/t)tP(S_N \ge t) \le e^{-\mu} (e\mu/t)^tP(SN≥t)≤e−μ(eμ/t)t对于t<μt<\mut<μ，
P(SN≤t)≤e−μ(eμ/t)tP(S_N\le t) \le e^{-\mu} (e\mu/t)^tP(SN≤t)≤e−μ(eμ/t)t

为了展示证明方法，这里给出上界的证明，当然也可以用564介绍的计算Chernoff bound的方法。

证明
根据Hoeffding不等式的证明过程，
P(SN≥t)≤e−λt∏i=1NEeλXiP(S_N\ge t) \le e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i}P(SN≥t)≤e−λti=1∏NEeλXi

下面计算：
∏i=1NEeλXi=∏i=1N[1+(eλ−1)pi]≤∏i=1Nexp⁡[(eλ−1)pi]=exp⁡[(eλ−1)μ]\prod_{i=1}^NEe^{\lambda X_i} =\prod_{i=1}^N[ 1+(e^{\lambda}-1)p_i] \le \prod_{i=1}^N \exp [(e^{\lambda}-1)p_i] = \exp[(e^{\lambda}-1)\mu]i=1∏NEeλXi=i=1∏N[1+(eλ−1)pi]≤i=1∏Nexp[(eλ−1)pi]=exp[(eλ−1)μ]

中间一步用了Bernoulli不等式。因此
P(SN≥t)≤e−λtexp⁡[(eλ−1)μ]P(S_N\ge t) \le e^{-\lambda t}\exp[(e^{\lambda}-1)\mu]P(SN≥t)≤e−λtexp[(eλ−1)μ]

这个上界在λ=ln⁡(t/μ)\lambda = \ln(t/\mu)λ=ln(t/μ)时取最小值，因此
P(SN≥t)≤e−λt∏i=1NEeλXiP(S_N\ge t) \le e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i}P(SN≥t)≤e−λti=1∏NEeλXi

证毕

Hoeffding不等式与Chernoff不等式它们的上界关于ttt都是指数级递减的，这种上界就比Chebyshev那种二次的递减更sharp。

UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式相关推荐

UA MATH567 高维统计I 概率不等式12 McDiarmid不等式
UA MATH567 高维统计I 概率不等式12 McDiarmid不等式这一讲我们介绍基于Lipschitz性导出概率不等式的思路,这个思路在下一讲正式进入随机向量之后应用非常广泛.但这一讲我们先 ...
UA MATH567 高维统计I 概率不等式11 Azuma不等式
UA MATH567 高维统计I 概率不等式11 Azuma不等式前十一讲介绍的不等式的理论基础都是Markov不等式,根据Markov不等式我们导出了Chebyshev不等式.Hoeffding不 ...
UA MATH567 高维统计I 概率不等式8 亚指数范数
UA MATH567 高维统计I 概率不等式8 亚指数范数类似亚高斯范数,我们也可以定义随机变量的亚指数范数(sub-exponential norm): ∥X∥ψ1=inf⁡{t>0:Ee∣ ...
UA MATH567 高维统计I 概率不等式7 亚指数性与亚指数分布
UA MATH567 高维统计I 概率不等式7 亚指数分布与亚指数范数第三讲到第六讲讨论了亚高斯分布,这类分布的尾部概率满足 P(∣X∣≥t)≲e−t2/2P(|X| \ge t) \lesssim ...
UA MATH567 高维统计I 概率不等式10 Bernstein不等式
UA MATH567 高维统计I 概率不等式10 Bernstein不等式我们在介绍亚高斯分布后介绍了适用于亚高斯分布的推广的Hoeffding不等式,对于亚指数分布,我们可以得到类似的不等式.因为 ...
UA MATH567 高维统计I 概率不等式9 亚高斯性的推广：Orlicz空间与Orlicz范数
UA MATH567 高维统计I 概率不等式9 亚高斯性的推广:Orlicz空间这一讲讨论亚高斯范数与亚指数范数的推广,用一个更广义的框架理解这两种范数,它们其实是Orlicz空间中的随机变量的Or ...
UA MATH567 高维统计I 概率不等式5 推广Hoeffding不等式与Khintchine不等式
UA MATH567 高维统计I 概率不等式5 推广Hoeffding不等式我们在第一讲时讨论了Hoeffding不等式,但那个版本时针对有界的随机变量的,我们希望通过亚高斯性推广Hoeffding ...
UA MATH567 高维统计I 概率不等式4 亚高斯分布
UA MATH567 高维统计I 概率不等式4 亚高斯分布上一讲我们介绍了Hoeffding不等式与Chernoff不等式,这两个不等式的共性是它们的上界关于ttt的递减阶数都是e−ct2e^{-c ...
UA MATH567 高维统计I 概率不等式3 亚高斯性与亚高斯范数
UA MATH567 高维统计I 概率不等式3 亚高斯性与亚高斯范数亚高斯性亚高斯范数概率不等式1中介绍了Hoeffding不等式与Chernoff不等式,这两个不等式的共性是它们的上界关于tt ...

UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式

UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式

Hoeffding不等式

Chernoff不等式

UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式相关推荐

最新文章

热门文章