UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式

  • Hoeffding不等式
  • Chernoff不等式

MATH 564系列我们已经介绍了几个基本的概率不等式:Markov不等式、Chebyshev不等式、Chernoff不等式,这一类不等式有一个共同的名字,叫concentration inequalities,因为它们反映的是概率集中到分布的中心(比如均值)的程度,所以我觉得翻译成集中度不等式是还可以的,中文的wiki用的是集中不等式,我觉得含义也差不多。在概率不等式0中我们讨论了Chebyshev不等式,它在大样本时非常不sharp,所以这一讲的目标是基于Markov不等式推出更sharp一点的不等式,也就是Hoeffding不等式与Chernoff不等式。

Hoeffding不等式

假设Xi∈[mi,Mi],i=1,⋯,NX_i \in [m_i,M_i],i=1,\cdots,NXi​∈[mi​,Mi​],i=1,⋯,N, ∀t>0\forall t>0∀t>0, 下面的不等式被称为Hoeffding不等式,
P(∑i=1N(Xi−EXi)≥t)≤exp⁡(−2t2∑i=1N(Mi−mi)2)P \left( \sum_{i=1}^N (X_i - EX_i)\ge t \right) \le \exp \left( -\frac{2t^2}{\sum_{i=1}^N (M_i - m_i)^2} \right)P(i=1∑N​(Xi​−EXi​)≥t)≤exp(−∑i=1N​(Mi​−mi​)22t2​)

完整的证明可以参考Hoeffding (1963)的文章,这里证明一个特殊情况,Xi∼iidBer(1/2)X_i\sim_{iid}Ber(1/2)Xi​∼iid​Ber(1/2) (对称Bernoulli分布):
P(∑i=1NaiXi≥t)≤exp⁡(−t22∑i=1Nai2)P \left( \sum_{i=1}^N a_iX_i\ge t \right) \le \exp \left( -\frac{t^2}{2\sum_{i=1}^N a_i^2} \right)P(i=1∑N​ai​Xi​≥t)≤exp(−2∑i=1N​ai2​t2​)

证明这个特例是因为接下来用到的证明方法是用来证明类似Hoeffding不等式的一般性思路。

证明
考虑函数g(t)=eλtg(t)=e^{\lambda t}g(t)=eλt,对随机变量∑i=1NaiXi\sum_{i=1}^N a_iX_i∑i=1N​ai​Xi​使用Markov不等式,
P(∑i=1NaiXi≥t)≤e−λtEexp⁡(λ∑i=1NaiXi)P \left( \sum_{i=1}^N a_iX_i\ge t \right) \le e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)P(i=1∑N​ai​Xi​≥t)≤e−λtEexp(λi=1∑N​ai​Xi​)

因为λ\lambdaλ的任意性,我们可以选择一个最小的上界:
min⁡λe−λtEexp⁡(λ∑i=1NaiXi)\min_{\lambda} e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)λmin​e−λtEexp(λi=1∑N​ai​Xi​)

接下来我们要做的就是找到这个最值,计算
e−λtEexp⁡(λ∑i=1NaiXi)=e−λt∏i=1NEeλaiXi=e−λt∏i=1Neλai+e−λai2≤e−λt∏i=1Neλ2ai2/2=exp⁡(−λt+λ22∑i=1Nai2)e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right) = e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda a_i X_i} \\ = e^{-\lambda t}\prod_{i=1}^N \frac{e^{\lambda a_i}+e^{-\lambda a_i}}{2} \le e^{-\lambda t}\prod_{i=1}^N e^{\lambda^2 a_i^2/2}\\=\exp \left( -\lambda t+\frac{\lambda^2}{2}\sum_{i=1}^N a_i^2 \right) e−λtEexp(λi=1∑N​ai​Xi​)=e−λti=1∏N​Eeλai​Xi​=e−λti=1∏N​2eλai​+e−λai​​≤e−λti=1∏N​eλ2ai2​/2=exp(−λt+2λ2​i=1∑N​ai2​)

需要注意的是第二行我们把这个上界又放大了一点,主要的目的是找一个更容易计算最小值的形式:
min⁡exp⁡(−λt+λ22∑i=1Nai2)=e−λtEexp⁡(λ∑i=1NaiXi)\min \exp \left( -\lambda t+\frac{\lambda^2}{2}\sum_{i=1}^N a_i^2 \right) = e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)minexp(−λt+2λ2​i=1∑N​ai2​)=e−λtEexp(λi=1∑N​ai​Xi​)

证毕

Hoeffding不等式在统计学习中具有广泛的应用,比如监督学习理论中Principle of empirical risk minimization的一致性推导,Boosting的运行次数估计等。

Chernoff不等式

在UA MATH564 概率论 概率不等式中,我们介绍了Chernoff上界。给定具有某种特定分布形式的随机变量,我们可以用Legendre变换的思路计算出随机变量尾部概率的Chernoff上界。Chernoff不等式是Chernoff上界的一个特例,考虑互相独立的Bernoulli变量Xi∼Ber(pi)X_i \sim Ber(p_i)Xi​∼Ber(pi​),定义SN=∑i=1NXiS_N = \sum_{i=1}^N X_iSN​=∑i=1N​Xi​,μ=ESN\mu = ES_Nμ=ESN​,对于t>μt>\mut>μ,
P(SN≥t)≤e−μ(eμ/t)tP(S_N \ge t) \le e^{-\mu} (e\mu/t)^tP(SN​≥t)≤e−μ(eμ/t)t对于t<μt<\mut<μ,
P(SN≤t)≤e−μ(eμ/t)tP(S_N\le t) \le e^{-\mu} (e\mu/t)^tP(SN​≤t)≤e−μ(eμ/t)t

为了展示证明方法,这里给出上界的证明,当然也可以用564介绍的计算Chernoff bound的方法。

证明
根据Hoeffding不等式的证明过程,
P(SN≥t)≤e−λt∏i=1NEeλXiP(S_N\ge t) \le e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i}P(SN​≥t)≤e−λti=1∏N​EeλXi​

下面计算:
∏i=1NEeλXi=∏i=1N[1+(eλ−1)pi]≤∏i=1Nexp⁡[(eλ−1)pi]=exp⁡[(eλ−1)μ]\prod_{i=1}^NEe^{\lambda X_i} =\prod_{i=1}^N[ 1+(e^{\lambda}-1)p_i] \le \prod_{i=1}^N \exp [(e^{\lambda}-1)p_i] = \exp[(e^{\lambda}-1)\mu]i=1∏N​EeλXi​=i=1∏N​[1+(eλ−1)pi​]≤i=1∏N​exp[(eλ−1)pi​]=exp[(eλ−1)μ]

中间一步用了Bernoulli不等式。因此
P(SN≥t)≤e−λtexp⁡[(eλ−1)μ]P(S_N\ge t) \le e^{-\lambda t}\exp[(e^{\lambda}-1)\mu]P(SN​≥t)≤e−λtexp[(eλ−1)μ]

这个上界在λ=ln⁡(t/μ)\lambda = \ln(t/\mu)λ=ln(t/μ)时取最小值,因此
P(SN≥t)≤e−λt∏i=1NEeλXiP(S_N\ge t) \le e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i}P(SN​≥t)≤e−λti=1∏N​EeλXi​

证毕

Hoeffding不等式与Chernoff不等式它们的上界关于ttt都是指数级递减的,这种上界就比Chebyshev那种二次的递减更sharp。

UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式相关推荐

  1. UA MATH567 高维统计I 概率不等式12 McDiarmid不等式

    UA MATH567 高维统计I 概率不等式12 McDiarmid不等式 这一讲我们介绍基于Lipschitz性导出概率不等式的思路,这个思路在下一讲正式进入随机向量之后应用非常广泛.但这一讲我们先 ...

  2. UA MATH567 高维统计I 概率不等式11 Azuma不等式

    UA MATH567 高维统计I 概率不等式11 Azuma不等式 前十一讲介绍的不等式的理论基础都是Markov不等式,根据Markov不等式我们导出了Chebyshev不等式.Hoeffding不 ...

  3. UA MATH567 高维统计I 概率不等式8 亚指数范数

    UA MATH567 高维统计I 概率不等式8 亚指数范数 类似亚高斯范数,我们也可以定义随机变量的亚指数范数(sub-exponential norm): ∥X∥ψ1=inf⁡{t>0:Ee∣ ...

  4. UA MATH567 高维统计I 概率不等式7 亚指数性与亚指数分布

    UA MATH567 高维统计I 概率不等式7 亚指数分布与亚指数范数 第三讲到第六讲讨论了亚高斯分布,这类分布的尾部概率满足 P(∣X∣≥t)≲e−t2/2P(|X| \ge t) \lesssim ...

  5. UA MATH567 高维统计I 概率不等式10 Bernstein不等式

    UA MATH567 高维统计I 概率不等式10 Bernstein不等式 我们在介绍亚高斯分布后介绍了适用于亚高斯分布的推广的Hoeffding不等式,对于亚指数分布,我们可以得到类似的不等式.因为 ...

  6. UA MATH567 高维统计I 概率不等式9 亚高斯性的推广:Orlicz空间与Orlicz范数

    UA MATH567 高维统计I 概率不等式9 亚高斯性的推广:Orlicz空间 这一讲讨论亚高斯范数与亚指数范数的推广,用一个更广义的框架理解这两种范数,它们其实是Orlicz空间中的随机变量的Or ...

  7. UA MATH567 高维统计I 概率不等式5 推广Hoeffding不等式与Khintchine不等式

    UA MATH567 高维统计I 概率不等式5 推广Hoeffding不等式 我们在第一讲时讨论了Hoeffding不等式,但那个版本时针对有界的随机变量的,我们希望通过亚高斯性推广Hoeffding ...

  8. UA MATH567 高维统计I 概率不等式4 亚高斯分布

    UA MATH567 高维统计I 概率不等式4 亚高斯分布 上一讲我们介绍了Hoeffding不等式与Chernoff不等式,这两个不等式的共性是它们的上界关于ttt的递减阶数都是e−ct2e^{-c ...

  9. UA MATH567 高维统计I 概率不等式3 亚高斯性与亚高斯范数

    UA MATH567 高维统计I 概率不等式3 亚高斯性与亚高斯范数 亚高斯性 亚高斯范数 概率不等式1中介绍了Hoeffding不等式与Chernoff不等式,这两个不等式的共性是它们的上界关于tt ...

最新文章

  1. Linux下通过进程名查看其占用端口
  2. Spring的事务传播性
  3. bzoj 1914: [Usaco2010 OPen]Triangle Counting 数三角形——极角排序
  4. 新建一个同名域能不能替换原域_能不能挣钱,从你最早设计猪场就已经决定了!...
  5. Alertmanager配置
  6. LeetCode-3Sum -三数求和-有序数组扫描
  7. Burpsuite工具使用
  8. Cocos2d-x精灵详解
  9. 软件工程第一次作业(第一次思考这些问题)
  10. 根据crash学习用户空间程序内存布局
  11. ydisk安卓版本_Y Disk HD
  12. 什么是索引?索引的作用是什么?Mysql目前主要的几种索引类型
  13. 【数据结构】AOE网——关键路径
  14. OFDM通信链路仿真加噪声方法总结
  15. Http Headers各属性简介及常见安全攻击
  16. ESP8266-Arduino编程实例-MLX90614红外测温传感器驱动
  17. C语言人五英尺七英寸,5尺7寸(5尺7寸是多高美国)
  18. Java开发工具-IDEA(更新中...)
  19. (一)JAVA基于OPENXML的word文档插入、合并、替换操作系列之基础篇
  20. 中国蔬菜种子行业竞争动态与营销趋势预测报告2022-2027年

热门文章

  1. 【数据平台】Eclipse+Scala开发环境(本机和集群两个运行模式)
  2. 作业——Windows核心编程学习手札系列之五
  3. Android中Activity总结
  4. Linux设置环境变量小结
  5. uni-app 修改富文本信息中的图片样式
  6. 高阶函数||编程范式: 命令式编程/声明式编程 || 编程范式: 面向对象编程(第一公民:对象)/函数式编程(第一公民:函数)
  7. PyQt5 技术篇-在clipboard.dataChanged.connect()里如何写入剪切板示例演示,pyqt5监听剪切板变动并写入剪切板内容
  8. LCD无字库--单片机字库存储
  9. Visual Studio 2022编译x86 或者 win32程序时的错误MSB6006
  10. 马科维茨的均值方差模型(MPT)粒子群优化--Python实现