UA MATH567 高维统计I 概率不等式11 Azuma不等式

前十一讲介绍的不等式的理论基础都是Markov不等式,根据Markov不等式我们导出了Chebyshev不等式、Hoeffding不等式、Chernoff不等式、推广的Hoeffding不等式、Khintchine不等式与Bernstein不等式,并发展了用来表示一类具有相同concentration performance的分布族的方法:亚高斯分布、亚指数分布、以及更一般的Orlicz空间与Orlicz范数方法。

从这一讲开始,我们介绍另外两种导出概率不等式的方法:鞅差序列法、Lipschitz函数法,鞅差序列法可以放松独立性的假设,而Lipschitz函数法在后续介绍随机向量、随机矩阵等结构的时候具有非常重要的作用。这一讲我们先介绍用鞅差序列法+Markov不等式导出Azuma不等式。


Azuma不等式
假设(Xj,Fj)(X_j,\mathcal{F}_j)(Xj​,Fj​)是一个鞅差序列,即

  1. Xj∈FjX_j \in \mathcal{F}_jXj​∈Fj​
  2. Xj∈L1X_j \in L^1Xj​∈L1
  3. E[Xj+1∣Fj]=0E[X_{j+1}|\mathcal{F}_j]=0E[Xj+1​∣Fj​]=0

简单起见,我们定义Fj=σ({X1,⋯,Xj})\mathcal{F}_j = \sigma(\{X_1,\cdots,X_j\})Fj​=σ({X1​,⋯,Xj​})。假设∣Xj∣≤1,a.s.|X_j| \le 1,a.s.∣Xj​∣≤1,a.s.,则∀λ>0\forall \lambda>0∀λ>0,Sn=X1+⋯+XnS_n=X_1 + \cdots + X_nSn​=X1​+⋯+Xn​满足
P(∣Sn∣≥λn)≤Ce−cλ2P(|S_n| \ge \lambda \sqrt{n}) \le Ce^{-c\lambda^2}P(∣Sn​∣≥λn​)≤Ce−cλ2

其中C,cC,cC,c是两个正的常数。

说明
我们计算EetSnEe^{tS_n}EetSn​,其中Sn=Sn−1+XnS_n=S_{n-1}+X_nSn​=Sn−1​+Xn​,
EetSn=EetSn−1etXnEe^{tS_n}=Ee^{tS_{n-1}}e^{tX_n}EetSn​=EetSn−1​etXn​

需要注意的是Sn−1S_{n-1}Sn−1​与XnX_nXn​并不独立,所以不能把这个乘积的期望分开,但是我们可以用条件概率表示,记
Yn=E[etSn−1etXn∣Fn−1]Y_n=E[e^{tS_{n-1}}e^{tX_n}|\mathcal{F}_{n-1}]Yn​=E[etSn−1​etXn​∣Fn−1​]

则EetSn=E[Yn]Ee^{tS_n}=E[Y_n]EetSn​=E[Yn​]。因为
Yn=E[etSn−1etXn∣Fn−1]=etSn−1E[etXn∣Fn−1]EYn=EetSn−1E[etXn∣Fn−1]Y_n=E[e^{tS_{n-1}}e^{tX_n}|\mathcal{F}_{n-1}]=e^{tS_{n-1}}E[e^{tX_n}|\mathcal{F}_{n-1}] \\ EY_n = Ee^{tS_{n-1}}E[e^{tX_n}|\mathcal{F}_{n-1}]Yn​=E[etSn−1​etXn​∣Fn−1​]=etSn−1​E[etXn​∣Fn−1​]EYn​=EetSn−1​E[etXn​∣Fn−1​]

根据有界的随机变量的Chernoff不等式(∣Xn∣≤1,a.s.|X_n| \le 1,a.s.∣Xn​∣≤1,a.s.),
E[etXn∣Fn−1]≤ec1t2,∃c1>0E[e^{tX_n}|\mathcal{F}_{n-1}] \le e^{c_1t^2},\exists c_1>0E[etXn​∣Fn−1​]≤ec1​t2,∃c1​>0

所以
EYn≤ec1t2EetSn−1EY_n \le e^{c_1t^2}Ee^{tS_{n-1}}EYn​≤ec1​t2EetSn−1​

这样就得到了一个可以递归的不等式,于是
EYn≤e∑i=1ncint2,∃ci>0EY_n \le e^{\sum_{i=1}^n c_int^2},\exists c_i >0EYn​≤e∑i=1n​ci​nt2,∃ci​>0

记C=∑i=1nciC=\sum_{i=1}^n c_iC=∑i=1n​ci​,根据Markov不等式,
P(Sn≥λn)≤e−tλnEYn≤eCnt2−tλnP(S_n \ge \lambda \sqrt{n}) \le e^{-t\lambda \sqrt{n}}EY_n \le e^{Cnt^2-t\lambda \sqrt{n}}P(Sn​≥λn​)≤e−tλn​EYn​≤eCnt2−tλn​

我们可以选择一个ttt来最小化这个上界,考虑
t=λn2Cnt = \frac{\lambda \sqrt{n}}{2Cn}t=2Cnλn​​

则最小的上界为
Cnt2−tλn=Cnλ2n4C2n2−λ2n2Cn=e−λ24CCnt^2-t\lambda \sqrt{n}=Cn\frac{\lambda^2n}{4C^2n^2}-\frac{\lambda^2n}{2Cn}=e^{-\frac{\lambda^2}{4C}}Cnt2−tλn​=Cn4C2n2λ2n​−2Cnλ2n​=e−4Cλ2​

于是
P(Sn≥λn)≤e−λ24CP(S_n \ge \lambda \sqrt{n}) \le e^{-\frac{\lambda^2}{4C}}P(Sn​≥λn​)≤e−4Cλ2​

对于P(Sn≤−λn)=P(−Sn≥λn)P(S_n \le -\lambda \sqrt{n})=P(-S_n \ge \lambda \sqrt{n})P(Sn​≤−λn​)=P(−Sn​≥λn​)也可以做类似的讨论。

评注
Azuma不等式与Bernstein不等式相比,它不需要独立性的假设,取而代之的是鞅差序列的假设,鞅差序列是在研究非独立随机变量序列常用的假设,Azuma不等式的意义在于即使没有独立性的假设,对于几乎必然有界的随机变量,e−cλ2e^{-c\lambda^2}e−cλ2的尾部概率性质也是成立的。

UA MATH567 高维统计I 概率不等式11 Azuma不等式相关推荐

  1. UA MATH567 高维统计I 概率不等式4 亚高斯分布

    UA MATH567 高维统计I 概率不等式4 亚高斯分布 上一讲我们介绍了Hoeffding不等式与Chernoff不等式,这两个不等式的共性是它们的上界关于ttt的递减阶数都是e−ct2e^{-c ...

  2. UA MATH567 高维统计I 概率不等式12 McDiarmid不等式

    UA MATH567 高维统计I 概率不等式12 McDiarmid不等式 这一讲我们介绍基于Lipschitz性导出概率不等式的思路,这个思路在下一讲正式进入随机向量之后应用非常广泛.但这一讲我们先 ...

  3. UA MATH567 高维统计I 概率不等式8 亚指数范数

    UA MATH567 高维统计I 概率不等式8 亚指数范数 类似亚高斯范数,我们也可以定义随机变量的亚指数范数(sub-exponential norm): ∥X∥ψ1=inf⁡{t>0:Ee∣ ...

  4. UA MATH567 高维统计I 概率不等式7 亚指数性与亚指数分布

    UA MATH567 高维统计I 概率不等式7 亚指数分布与亚指数范数 第三讲到第六讲讨论了亚高斯分布,这类分布的尾部概率满足 P(∣X∣≥t)≲e−t2/2P(|X| \ge t) \lesssim ...

  5. UA MATH567 高维统计I 概率不等式10 Bernstein不等式

    UA MATH567 高维统计I 概率不等式10 Bernstein不等式 我们在介绍亚高斯分布后介绍了适用于亚高斯分布的推广的Hoeffding不等式,对于亚指数分布,我们可以得到类似的不等式.因为 ...

  6. UA MATH567 高维统计I 概率不等式9 亚高斯性的推广:Orlicz空间与Orlicz范数

    UA MATH567 高维统计I 概率不等式9 亚高斯性的推广:Orlicz空间 这一讲讨论亚高斯范数与亚指数范数的推广,用一个更广义的框架理解这两种范数,它们其实是Orlicz空间中的随机变量的Or ...

  7. UA MATH567 高维统计I 概率不等式5 推广Hoeffding不等式与Khintchine不等式

    UA MATH567 高维统计I 概率不等式5 推广Hoeffding不等式 我们在第一讲时讨论了Hoeffding不等式,但那个版本时针对有界的随机变量的,我们希望通过亚高斯性推广Hoeffding ...

  8. UA MATH567 高维统计I 概率不等式3 亚高斯性与亚高斯范数

    UA MATH567 高维统计I 概率不等式3 亚高斯性与亚高斯范数 亚高斯性 亚高斯范数 概率不等式1中介绍了Hoeffding不等式与Chernoff不等式,这两个不等式的共性是它们的上界关于tt ...

  9. UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式

    UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式 Hoeffding不等式 Chernoff不等式 MATH 564系列我们已经介绍了几个基本的概率不等 ...

最新文章

  1. php 生成器 教程,PHP扩展生成器_PHP教程
  2. android10如何设置打开方式,Android启动方式
  3. 大数据 -- kafka学习笔记:知识点整理(部分转载)
  4. 【MySQL】 如何在“海啸”下保命
  5. 【游戏开发】Excel表格批量转换成CSV的小工具
  6. 数据新闻周报:阿尔法狗将挑战德州扑克
  7. 深度精简版 Deepin XP Lite 完美精简版 5.2|5.3|5.4|5.5|5.6|5.7|5.8 迅雷下载
  8. 数据结构大作业-家庭记账系统
  9. 学习资料 AND ORR
  10. 服务器常见高可用方案
  11. Oracle数据库类毕业论文文献有哪些?
  12. hadoop初体验——WordCount实例
  13. ngx.var与ngx.ctx的区别
  14. Amplify Shader Editor 案例解析系列——(1)2Sided
  15. LVTTL、LVCOMS、SSTL和HSTL接口简单介绍
  16. android:数据持久化
  17. 我想请你,书写新世界!
  18. 西门子博图指令(定时器操作三)
  19. 全文索引JAVA_全文索引Sphinx和sphinx的中文分词
  20. 发票代码的含义(专,普)

热门文章

  1. 算法导论之单源最短路径
  2. 硬盘安装Windows 7和Ubuntu 10.04双系统
  3. Spring Boot的第一个入门程序 HelloWorld
  4. addActionListener(this)
  5. redis集群环境安装(参照redis中文官网,中间遇到了一些问题,so,记录一下)
  6. PyQt5 技术篇-如何彻底删除控件?布局移除控件方法。
  7. Python 技术篇-pip安装的python库缓存位置查看方法,如何查看python库源码
  8. jquery/css实现步骤条
  9. Java Web - 服务器中的过滤器和监听器
  10. 电磁场与电磁波第一章 矢量分析