UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式
UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式
- Hoeffding不等式
- Chernoff不等式
MATH 564系列我们已经介绍了几个基本的概率不等式:Markov不等式、Chebyshev不等式、Chernoff不等式,这一类不等式有一个共同的名字,叫concentration inequalities,因为它们反映的是概率集中到分布的中心(比如均值)的程度,所以我觉得翻译成集中度不等式是还可以的,中文的wiki用的是集中不等式,我觉得含义也差不多。在概率不等式0中我们讨论了Chebyshev不等式,它在大样本时非常不sharp,所以这一讲的目标是基于Markov不等式推出更sharp一点的不等式,也就是Hoeffding不等式与Chernoff不等式。
Hoeffding不等式
假设Xi∈[mi,Mi],i=1,⋯,NX_i \in [m_i,M_i],i=1,\cdots,NXi∈[mi,Mi],i=1,⋯,N, ∀t>0\forall t>0∀t>0, 下面的不等式被称为Hoeffding不等式,
P(∑i=1N(Xi−EXi)≥t)≤exp(−2t2∑i=1N(Mi−mi)2)P \left( \sum_{i=1}^N (X_i - EX_i)\ge t \right) \le \exp \left( -\frac{2t^2}{\sum_{i=1}^N (M_i - m_i)^2} \right)P(i=1∑N(Xi−EXi)≥t)≤exp(−∑i=1N(Mi−mi)22t2)
完整的证明可以参考Hoeffding (1963)的文章,这里证明一个特殊情况,Xi∼iidBer(1/2)X_i\sim_{iid}Ber(1/2)Xi∼iidBer(1/2) (对称Bernoulli分布):
P(∑i=1NaiXi≥t)≤exp(−t22∑i=1Nai2)P \left( \sum_{i=1}^N a_iX_i\ge t \right) \le \exp \left( -\frac{t^2}{2\sum_{i=1}^N a_i^2} \right)P(i=1∑NaiXi≥t)≤exp(−2∑i=1Nai2t2)
证明这个特例是因为接下来用到的证明方法是用来证明类似Hoeffding不等式的一般性思路。
证明
考虑函数g(t)=eλtg(t)=e^{\lambda t}g(t)=eλt,对随机变量∑i=1NaiXi\sum_{i=1}^N a_iX_i∑i=1NaiXi使用Markov不等式,
P(∑i=1NaiXi≥t)≤e−λtEexp(λ∑i=1NaiXi)P \left( \sum_{i=1}^N a_iX_i\ge t \right) \le e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)P(i=1∑NaiXi≥t)≤e−λtEexp(λi=1∑NaiXi)
因为λ\lambdaλ的任意性,我们可以选择一个最小的上界:
minλe−λtEexp(λ∑i=1NaiXi)\min_{\lambda} e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)λmine−λtEexp(λi=1∑NaiXi)
接下来我们要做的就是找到这个最值,计算
e−λtEexp(λ∑i=1NaiXi)=e−λt∏i=1NEeλaiXi=e−λt∏i=1Neλai+e−λai2≤e−λt∏i=1Neλ2ai2/2=exp(−λt+λ22∑i=1Nai2)e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right) = e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda a_i X_i} \\ = e^{-\lambda t}\prod_{i=1}^N \frac{e^{\lambda a_i}+e^{-\lambda a_i}}{2} \le e^{-\lambda t}\prod_{i=1}^N e^{\lambda^2 a_i^2/2}\\=\exp \left( -\lambda t+\frac{\lambda^2}{2}\sum_{i=1}^N a_i^2 \right) e−λtEexp(λi=1∑NaiXi)=e−λti=1∏NEeλaiXi=e−λti=1∏N2eλai+e−λai≤e−λti=1∏Neλ2ai2/2=exp(−λt+2λ2i=1∑Nai2)
需要注意的是第二行我们把这个上界又放大了一点,主要的目的是找一个更容易计算最小值的形式:
minexp(−λt+λ22∑i=1Nai2)=e−λtEexp(λ∑i=1NaiXi)\min \exp \left( -\lambda t+\frac{\lambda^2}{2}\sum_{i=1}^N a_i^2 \right) = e^{-\lambda t}E\exp \left( \lambda\sum_{i=1}^N a_iX_i \right)minexp(−λt+2λ2i=1∑Nai2)=e−λtEexp(λi=1∑NaiXi)
证毕
Hoeffding不等式在统计学习中具有广泛的应用,比如监督学习理论中Principle of empirical risk minimization的一致性推导,Boosting的运行次数估计等。
Chernoff不等式
在UA MATH564 概率论 概率不等式中,我们介绍了Chernoff上界。给定具有某种特定分布形式的随机变量,我们可以用Legendre变换的思路计算出随机变量尾部概率的Chernoff上界。Chernoff不等式是Chernoff上界的一个特例,考虑互相独立的Bernoulli变量Xi∼Ber(pi)X_i \sim Ber(p_i)Xi∼Ber(pi),定义SN=∑i=1NXiS_N = \sum_{i=1}^N X_iSN=∑i=1NXi,μ=ESN\mu = ES_Nμ=ESN,对于t>μt>\mut>μ,
P(SN≥t)≤e−μ(eμ/t)tP(S_N \ge t) \le e^{-\mu} (e\mu/t)^tP(SN≥t)≤e−μ(eμ/t)t对于t<μt<\mut<μ,
P(SN≤t)≤e−μ(eμ/t)tP(S_N\le t) \le e^{-\mu} (e\mu/t)^tP(SN≤t)≤e−μ(eμ/t)t
为了展示证明方法,这里给出上界的证明,当然也可以用564介绍的计算Chernoff bound的方法。
证明
根据Hoeffding不等式的证明过程,
P(SN≥t)≤e−λt∏i=1NEeλXiP(S_N\ge t) \le e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i}P(SN≥t)≤e−λti=1∏NEeλXi
下面计算:
∏i=1NEeλXi=∏i=1N[1+(eλ−1)pi]≤∏i=1Nexp[(eλ−1)pi]=exp[(eλ−1)μ]\prod_{i=1}^NEe^{\lambda X_i} =\prod_{i=1}^N[ 1+(e^{\lambda}-1)p_i] \le \prod_{i=1}^N \exp [(e^{\lambda}-1)p_i] = \exp[(e^{\lambda}-1)\mu]i=1∏NEeλXi=i=1∏N[1+(eλ−1)pi]≤i=1∏Nexp[(eλ−1)pi]=exp[(eλ−1)μ]
中间一步用了Bernoulli不等式。因此
P(SN≥t)≤e−λtexp[(eλ−1)μ]P(S_N\ge t) \le e^{-\lambda t}\exp[(e^{\lambda}-1)\mu]P(SN≥t)≤e−λtexp[(eλ−1)μ]
这个上界在λ=ln(t/μ)\lambda = \ln(t/\mu)λ=ln(t/μ)时取最小值,因此
P(SN≥t)≤e−λt∏i=1NEeλXiP(S_N\ge t) \le e^{-\lambda t}\prod_{i=1}^N Ee^{\lambda X_i}P(SN≥t)≤e−λti=1∏NEeλXi
证毕
Hoeffding不等式与Chernoff不等式它们的上界关于ttt都是指数级递减的,这种上界就比Chebyshev那种二次的递减更sharp。
UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式相关推荐
- UA MATH567 高维统计I 概率不等式12 McDiarmid不等式
UA MATH567 高维统计I 概率不等式12 McDiarmid不等式 这一讲我们介绍基于Lipschitz性导出概率不等式的思路,这个思路在下一讲正式进入随机向量之后应用非常广泛.但这一讲我们先 ...
- UA MATH567 高维统计I 概率不等式11 Azuma不等式
UA MATH567 高维统计I 概率不等式11 Azuma不等式 前十一讲介绍的不等式的理论基础都是Markov不等式,根据Markov不等式我们导出了Chebyshev不等式.Hoeffding不 ...
- UA MATH567 高维统计I 概率不等式8 亚指数范数
UA MATH567 高维统计I 概率不等式8 亚指数范数 类似亚高斯范数,我们也可以定义随机变量的亚指数范数(sub-exponential norm): ∥X∥ψ1=inf{t>0:Ee∣ ...
- UA MATH567 高维统计I 概率不等式7 亚指数性与亚指数分布
UA MATH567 高维统计I 概率不等式7 亚指数分布与亚指数范数 第三讲到第六讲讨论了亚高斯分布,这类分布的尾部概率满足 P(∣X∣≥t)≲e−t2/2P(|X| \ge t) \lesssim ...
- UA MATH567 高维统计I 概率不等式10 Bernstein不等式
UA MATH567 高维统计I 概率不等式10 Bernstein不等式 我们在介绍亚高斯分布后介绍了适用于亚高斯分布的推广的Hoeffding不等式,对于亚指数分布,我们可以得到类似的不等式.因为 ...
- UA MATH567 高维统计I 概率不等式9 亚高斯性的推广:Orlicz空间与Orlicz范数
UA MATH567 高维统计I 概率不等式9 亚高斯性的推广:Orlicz空间 这一讲讨论亚高斯范数与亚指数范数的推广,用一个更广义的框架理解这两种范数,它们其实是Orlicz空间中的随机变量的Or ...
- UA MATH567 高维统计I 概率不等式5 推广Hoeffding不等式与Khintchine不等式
UA MATH567 高维统计I 概率不等式5 推广Hoeffding不等式 我们在第一讲时讨论了Hoeffding不等式,但那个版本时针对有界的随机变量的,我们希望通过亚高斯性推广Hoeffding ...
- UA MATH567 高维统计I 概率不等式4 亚高斯分布
UA MATH567 高维统计I 概率不等式4 亚高斯分布 上一讲我们介绍了Hoeffding不等式与Chernoff不等式,这两个不等式的共性是它们的上界关于ttt的递减阶数都是e−ct2e^{-c ...
- UA MATH567 高维统计I 概率不等式3 亚高斯性与亚高斯范数
UA MATH567 高维统计I 概率不等式3 亚高斯性与亚高斯范数 亚高斯性 亚高斯范数 概率不等式1中介绍了Hoeffding不等式与Chernoff不等式,这两个不等式的共性是它们的上界关于tt ...
最新文章
- Linux下通过进程名查看其占用端口
- Spring的事务传播性
- bzoj 1914: [Usaco2010 OPen]Triangle Counting 数三角形——极角排序
- 新建一个同名域能不能替换原域_能不能挣钱,从你最早设计猪场就已经决定了!...
- Alertmanager配置
- LeetCode-3Sum -三数求和-有序数组扫描
- Burpsuite工具使用
- Cocos2d-x精灵详解
- 软件工程第一次作业(第一次思考这些问题)
- 根据crash学习用户空间程序内存布局
- ydisk安卓版本_Y Disk HD
- 什么是索引?索引的作用是什么?Mysql目前主要的几种索引类型
- 【数据结构】AOE网——关键路径
- OFDM通信链路仿真加噪声方法总结
- Http Headers各属性简介及常见安全攻击
- ESP8266-Arduino编程实例-MLX90614红外测温传感器驱动
- C语言人五英尺七英寸,5尺7寸(5尺7寸是多高美国)
- Java开发工具-IDEA(更新中...)
- (一)JAVA基于OPENXML的word文档插入、合并、替换操作系列之基础篇
- 中国蔬菜种子行业竞争动态与营销趋势预测报告2022-2027年
热门文章
- 【数据平台】Eclipse+Scala开发环境(本机和集群两个运行模式)
- 作业——Windows核心编程学习手札系列之五
- Android中Activity总结
- Linux设置环境变量小结
- uni-app 修改富文本信息中的图片样式
- 高阶函数||编程范式: 命令式编程/声明式编程 || 编程范式: 面向对象编程(第一公民:对象)/函数式编程(第一公民:函数)
- PyQt5 技术篇-在clipboard.dataChanged.connect()里如何写入剪切板示例演示,pyqt5监听剪切板变动并写入剪切板内容
- LCD无字库--单片机字库存储
- Visual Studio 2022编译x86 或者 win32程序时的错误MSB6006
- 马科维茨的均值方差模型(MPT)粒子群优化--Python实现