UA MATH567 高维统计I 概率不等式4 亚高斯分布

上一讲我们介绍了Hoeffding不等式与Chernoff不等式,这两个不等式的共性是它们的上界关于ttt的递减阶数都是e−ct2e^{-ct^2}e−ct2,它们具有非常好的性质,这一讲我们试图将这种尾部概率性质的分布抽象化,并推导出一些更普遍的结果,我们称这些结果为亚高斯性 (sub-Gaussian property),K1,⋯,K5K_1,\cdots,K_5K1​,⋯,K5​指的是一些常数。

  1. 尾部概率条件:P(∣X∣≥t)≤2exp⁡(−t2/K12),∀t≥0P(|X|\ge t) \le 2\exp(-t^2/K_1^2),\forall t\ge 0P(∣X∣≥t)≤2exp(−t2/K12​),∀t≥0
  2. 矩条件: ∥X∥Lp≤K2p,∀p≥1\left\| X \right\|_{L^p} \le K_2\sqrt{p},\forall p \ge 1∥X∥Lp​≤K2​p​,∀p≥1
  3. 矩母函数条件: Eeλ2X2≤exp⁡(K32λ2),∀∣λ∣≤1/K3Ee^{\lambda^2 X^2} \le \exp(K_3^2\lambda^2),\forall |\lambda| \le 1/K_3Eeλ2X2≤exp(K32​λ2),∀∣λ∣≤1/K3​
  4. 矩母函数上界: EeX2/K42≤2Ee^{X^2/K_4^2} \le 2EeX2/K42​≤2
  5. 矩母函数又一个条件: EeλX≤exp⁡(K52λ2),∀λ∈R,EX=0Ee^{\lambda X} \le \exp(K_5^2 \lambda^2),\forall \lambda \in \mathbb{R}, EX=0EeλX≤exp(K52​λ2),∀λ∈R,EX=0

并且称满足这五个等价条件中任一条的分布为亚高斯分布 (sub-Gaussian distribution)。下面我们来简单证明一下它们的等价性。另外就是第一个和第四个中的2并不一定是非得是2,是任何一个大于1的常数就可以。


1推2
假设性质1成立,取K1=1K_1=1K1​=1(即使K1=≠1K_1 =\ne 1K1​=​=1,我们也可以考虑对X/K1X/K_1X/K1​进行分析),因为期望等于生存函数的积分,于是
E∣X∣p=∫0∞P(∣X∣p≥u)du=∫0∞P(∣X∣p≥tp)ptp−1dtE|X|^p = \int_0^{\infty}P(|X|^p \ge u)du = \int_0^{\infty}P(|X|^p \ge t^p)pt^{p-1}dtE∣X∣p=∫0∞​P(∣X∣p≥u)du=∫0∞​P(∣X∣p≥tp)ptp−1dt

第二个等号是用的积分换元,u=tpu=t^pu=tp,根据性质1,
P(∣X∣p≥tp)=P(∣X∣≥t)≤2exp⁡(−t2),∀t≥0P(|X|^p \ge t^p)=P(|X| \ge t) \le 2\exp(-t^2),\forall t \ge 0P(∣X∣p≥tp)=P(∣X∣≥t)≤2exp(−t2),∀t≥0

于是
∫0∞P(∣X∣p≥tp)ptp−1dt≤∫0∞2e−t2ptp−1dt\int_0^{\infty}P(|X|^p \ge t^p)pt^{p-1}dt \le \int_0^{\infty}2e^{-t^2}pt^{p-1}dt∫0∞​P(∣X∣p≥tp)ptp−1dt≤∫0∞​2e−t2ptp−1dt

右边这个积分可以通过凑Gamma函数积出来,
∫0∞2e−t2ptp−1dt=p∫(t2)p2−1e−t2dt2=pΓ(p/2)\int_0^{\infty}2e^{-t^2}pt^{p-1}dt=p\int (t^2)^{\frac{p}{2}-1}e^{-t^2}dt^2=p\Gamma(p/2)∫0∞​2e−t2ptp−1dt=p∫(t2)2p​−1e−t2dt2=pΓ(p/2)

根据Gamma函数的上界,当x≥1/2x \ge 1/2x≥1/2时,Γ(x)≤3xx\Gamma(x) \le 3x^xΓ(x)≤3xx,
Γ(p/2)≤3p(p/2)p/2\Gamma(p/2) \le 3p(p/2)^{p/2}Γ(p/2)≤3p(p/2)p/2

因此
∥X∥Lp=(E∣X∣p)1/p≤(3p)1/pp/2≤3p\left\| X \right\|_{L^p}=(E|X|^p)^{1/p} \le(3p)^{1/p}\sqrt{p/2} \le 3\sqrt{p}∥X∥Lp​=(E∣X∣p)1/p≤(3p)1/pp/2​≤3p​也就是比较合适的K2K_2K2​的取值是K2≤3K_2 \le 3K2​≤3。


2推3
假设性质2成立,不妨取K2=1K_2=1K2​=1,考虑Taylor展开,
Eexp⁡(λ2X2)=E[1+∑p=1∞(λ2X2)pp!]=1+∑p=1∞λ2pEX2pp!E\exp(\lambda^2X^2)=E \left[1+\sum_{p=1}^{\infty} \frac{(\lambda^2X^2)^p}{p!} \right] = 1+ \sum_{p=1}^{\infty} \frac{\lambda^{2p}EX^{2p}}{p!}Eexp(λ2X2)=E[1+p=1∑∞​p!(λ2X2)p​]=1+p=1∑∞​p!λ2pEX2p​

性质2说明
EX2p≤(2p)pEX^{2p} \le (2p)^pEX2p≤(2p)p

根据Stirling公式,
p!≥(p/e)pp! \ge (p/e)^pp!≥(p/e)p

所以
Eexp⁡(λ2X2)≤1+∑p=1∞(2λ2p)p(p/e)p=∑p=0∞(2eλ2)p=11−2eλ2E\exp(\lambda^2X^2) \le1+ \sum_{p=1}^{\infty} \frac{(2\lambda^2p)^p}{(p/e)^p}=\sum_{p=0}^{\infty}(2e\lambda^2)^p=\frac{1}{1-2e\lambda^2}Eexp(λ2X2)≤1+p=1∑∞​(p/e)p(2λ2p)p​=p=0∑∞​(2eλ2)p=1−2eλ21​

上式当且仅当2eλ2<12e\lambda^2<12eλ2<1时收敛。根据不等式
11−x≤e2x,∀x∈[0,1/2]\frac{1}{1-x} \le e^{2x},\forall x \in [0,1/2]1−x1​≤e2x,∀x∈[0,1/2]

我们可以进一步得到
Eexp⁡(λ2X2)≤e4eλ2,∀∣λ∣≤12eE\exp(\lambda^2X^2) \le e^{4e\lambda^2},\forall |\lambda| \le \frac{1}{2\sqrt{e}}Eexp(λ2X2)≤e4eλ2,∀∣λ∣≤2e​1​

也就是说性质3在K3=2eK_3 =2\sqrt{e}K3​=2e​时成立。


3推4
假设性质3成立,取K3=1K_3=1K3​=1,则
Eeλ2X2≤eλ2,∀∣λ∣≤1Ee^{\lambda^2X^2} \le e^{\lambda^2},\forall |\lambda| \le 1Eeλ2X2≤eλ2,∀∣λ∣≤1

取λ=1/2\lambda=1/\sqrt{2}λ=1/2​,则
EeX2/2≤e1/2<2Ee^{X^2/2} \le e^{1/2}<2EeX2/2≤e1/2<2

也就是说性质4对K4=2K_4=\sqrt{2}K4​=2​成立。


4推1
假设性质4成立,取K4=1K_4=1K4​=1,根据Markov不等式,
P(∣X∣≥t)=P(eX2≥et2)≤e−t2EeX2≤2e−t2P(|X|\ge t) = P(e^{X^2} \ge e^{t^2}) \le e^{-t^2}Ee^{X^2} \le 2e^{-t^2}P(∣X∣≥t)=P(eX2≥et2)≤e−t2EeX2≤2e−t2

因此K1=1K_1=1K1​=1性质1成立。


假设XXX零均值。

3推5
假设性质3成立,取K3=1K_3=1K3​=1,则
Eeλ2X2≤eλ2,∀∣λ∣≤1Ee^{\lambda^2X^2} \le e^{\lambda^2},\forall |\lambda| \le 1Eeλ2X2≤eλ2,∀∣λ∣≤1

因为性质5是对任意λ\lambdaλ都成立的,但性质3对λ\lambdaλ的取值有限制,于是我们做分类讨论。

Case 1: ∣λ∣≤1|\lambda| \le 1∣λ∣≤1,根据不等式
ex≤x+ex2,∀x∈Re^x \le x+e^{x^2},\forall x \in \mathbb{R}ex≤x+ex2,∀x∈R

我们可以估计
Eeλx≤E(λX+eλ2X2)=Eeλ2X2≤eλ2Ee^{\lambda x} \le E(\lambda X+e^{\lambda^2X^2})=Ee^{\lambda^2X^2} \le e^{\lambda^2}Eeλx≤E(λX+eλ2X2)=Eeλ2X2≤eλ2

Case 2: ∣λ∣>1|\lambda|>1∣λ∣>1,根据不等式
2λx≤λ2+x2,∀x∈R2\lambda x \le \lambda^2+x^2,\forall x \in \mathbb{R}2λx≤λ2+x2,∀x∈R

我们可以估计
Eeλx≤Eeλ2+X22=eλ22EeX22≤eλ22e12≤eλ22eλ22=eλ2Ee^{\lambda x} \le Ee^{\frac{\lambda^2+X^2}{2}}=e^{\frac{\lambda^2}{2}}Ee^{\frac{X^2}{2}}\le e^{\frac{\lambda^2}{2}}e^{\frac{1}{2}} \le e^{\frac{\lambda^2}{2}}e^{\frac{\lambda^2}{2}}=e^{\lambda^2}Eeλx≤Ee2λ2+X2​=e2λ2​Ee2X2​≤e2λ2​e21​≤e2λ2​e2λ2​=eλ2

综上,性质5对K5=1K_5=1K5​=1成立。


5推1
假设性质5成立,取K5=1K_5=1K5​=1,考虑
P(∣X∣≥t)=P(X≥t)+P(X≤−t)=P(eλX≥eλt)+P(e−λX≥eλt)P(|X| \ge t) = P(X \ge t)+P(X \le -t) \\ = P(e^{\lambda X} \ge e^{\lambda t})+P(e^{-\lambda X} \ge e^{\lambda t})P(∣X∣≥t)=P(X≥t)+P(X≤−t)=P(eλX≥eλt)+P(e−λX≥eλt)

先考虑前半个概率,根据Markov不等式,
P(eλX≥eλt)≤e−λtEeλX≤e−λteλ2=e−t2/4(λ=t/2)P(e^{\lambda X} \ge e^{\lambda t})\le e^{-\lambda t}Ee^{\lambda X} \le e^{-\lambda t}e^{\lambda^2} =e^{-t^2/4} (\lambda = t/2)P(eλX≥eλt)≤e−λtEeλX≤e−λteλ2=e−t2/4(λ=t/2)

然后考虑后半个概率,同样根据Markov不等式,我们可以得到
P(e−λX≥eλt)≤e−t2/4P(e^{-\lambda X} \ge e^{\lambda t}) \le e^{-t^2/4}P(e−λX≥eλt)≤e−t2/4

这样我们就说明了K1=2K_1=2K1​=2时性质1成立。


现在我们就完成了所有亚高斯性等价的证明,但大家应该也发现了,每一条亚高斯性都有一个常数,不同的常数可以有不同的取值,每次使用性质前还需要选取一下常数的值,于是我们不由得发问,有没有一种统一亚高斯性中常数的方法?

这就要回到上一讲的定义了,亚高斯范数(sub-Gaussian norm):
∥X∥ψ2=inf⁡{t>0:EeX2/t2≤2}\left\|X \right\|_{\psi_2} = \inf\{t>0:Ee^{X^2/t^2} \le 2\}∥X∥ψ2​​=inf{t>0:EeX2/t2≤2}就是能够统一亚高斯性中常数的结构,后续会介绍为什么要这样定义亚高斯范数,因为它的本质是一种Orlicz范数。我们已经证明了亚高斯范数的确是一个范数,下面我们用几个例子说明如何计算随机变量的亚高斯范数。

例 正态分布
假设X∼N(0,σ)X \sim N(0,\sigma)X∼N(0,σ),则∥X∥ψ2=83σ\left\|X \right\|_{\psi_2}=\sqrt{\frac{8}{3}}\sigma∥X∥ψ2​​=38​​σ
如果σ=1\sigma=1σ=1,我们直接计算
EeX2/t2=∫−∞∞ex2t212πe−x22dx=∫−∞∞12πex2t2−x22dxEe^{X^2/t^2} = \int_{-\infty}^{\infty} e^{\frac{x^2}{t^2}} \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx= \int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}}e^{\frac{x^2}{t^2}-\frac{x^2}{2}}dx EeX2/t2=∫−∞∞​et2x2​2π​1​e−2x2​dx=∫−∞∞​2π​1​et2x2​−2x2​dx

显然我们可以通过凑正态分布的概率密度的方法做积分,
ex2t2−x22=e−x22[t2/(t2−2)]e^{\frac{x^2}{t^2}-\frac{x^2}{2}}=e^{-\frac{x^2}{2[t^2/(t^2-2)]}}et2x2​−2x2​=e−2[t2/(t2−2)]x2​

这是正态分布N(0,t2t2−2)N(0,\sqrt{\frac{t^2}{t^2-2}})N(0,t2−2t2​​)的密度核,于是
∫−∞∞12πex2t2−x22dx=t2t2−2∫−∞∞12πt2t2−2ex2t2−x22dx=t2t2−2\int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}}e^{\frac{x^2}{t^2}-\frac{x^2}{2}}dx \\=\sqrt{\frac{t^2}{t^2-2}}\int_{-\infty}^{\infty} \frac{1}{\sqrt{2\pi}\sqrt{\frac{t^2}{t^2-2}}}e^{\frac{x^2}{t^2}-\frac{x^2}{2}}dx = \sqrt{\frac{t^2}{t^2-2}}∫−∞∞​2π​1​et2x2​−2x2​dx=t2−2t2​​∫−∞∞​2π​t2−2t2​​1​et2x2​−2x2​dx=t2−2t2​​

考虑
t2t2−2≤2⇒∣t∣≥83\sqrt{\frac{t^2}{t^2-2}} \le 2 \Rightarrow |t| \ge \sqrt{\frac{8}{3}}t2−2t2​​≤2⇒∣t∣≥38​​

因此∥X∥ψ2=83\left\|X \right\|_{\psi_2}=\sqrt{\frac{8}{3}}∥X∥ψ2​​=38​​,如果σ≠1\sigma \ne 1σ​=1,操作方法与之类似。

例 对称Bernoulli分布
假设XXX服从对称Bernoulli分布,P(X=1)=1/2,P(X=−1)=1/2P(X=1)=1/2,P(X=-1)=1/2P(X=1)=1/2,P(X=−1)=1/2,则
EeX2/t2=12e1/t2+12e1/t2=e1/t2≤2⇒∣t∣≥1/ln⁡2Ee^{X^2/t^2}=\frac{1}{2}e^{1/t^2}+\frac{1}{2}e^{1/t^2} = e^{1/t^2} \le 2 \Rightarrow |t| \ge 1/\sqrt{\ln 2}EeX2/t2=21​e1/t2+21​e1/t2=e1/t2≤2⇒∣t∣≥1/ln2​

于是∥X∥ψ2=1/ln⁡2\left\| X \right\|_{\psi_2}=1/\sqrt{\ln 2}∥X∥ψ2​​=1/ln2​

例 有界的分布
假设X2≤∥X∥∞2=(max⁡X)2,a.s.X^2 \le \left\| X \right\|_{\infty}^2 = (\max X)^2,a.s.X2≤∥X∥∞2​=(maxX)2,a.s.,则
EeX2/t2≤Ee∥X∥∞2/t2≤2⇒∣t∣≥∥X∥∞/ln⁡2Ee^{X^2/t^2} \le Ee^{\left\| X \right\|_{\infty}^2/t^2} \le 2 \Rightarrow |t| \ge \left\| X \right\|_{\infty}/\sqrt{\ln 2}EeX2/t2≤Ee∥X∥∞2​/t2≤2⇒∣t∣≥∥X∥∞​/ln2​

于是∥X∥ψ2=∥X∥∞/ln⁡2\left\| X \right\|_{\psi_2}=\left\| X \right\|_{\infty}/\sqrt{\ln 2}∥X∥ψ2​​=∥X∥∞​/ln2​。

前两个例子介绍了准确计算亚高斯范数的方法,如果EeX2/t2Ee^{X^2/t^2}EeX2/t2关于ttt的表达式可以明确写出来,我们就可以通过最小化ttt计算亚高斯范数;第三个例子介绍了当EeX2/t2Ee^{X^2/t^2}EeX2/t2的表达式无法求出来的时候,可以通过找EeX2/t2Ee^{X^2/t^2}EeX2/t2的上界来估计亚高斯范数。

UA MATH567 高维统计I 概率不等式4 亚高斯分布相关推荐

  1. UA MATH567 高维统计I 概率不等式8 亚指数范数

    UA MATH567 高维统计I 概率不等式8 亚指数范数 类似亚高斯范数,我们也可以定义随机变量的亚指数范数(sub-exponential norm): ∥X∥ψ1=inf⁡{t>0:Ee∣ ...

  2. UA MATH567 高维统计I 概率不等式7 亚指数性与亚指数分布

    UA MATH567 高维统计I 概率不等式7 亚指数分布与亚指数范数 第三讲到第六讲讨论了亚高斯分布,这类分布的尾部概率满足 P(∣X∣≥t)≲e−t2/2P(|X| \ge t) \lesssim ...

  3. UA MATH567 高维统计I 概率不等式9 亚高斯性的推广:Orlicz空间与Orlicz范数

    UA MATH567 高维统计I 概率不等式9 亚高斯性的推广:Orlicz空间 这一讲讨论亚高斯范数与亚指数范数的推广,用一个更广义的框架理解这两种范数,它们其实是Orlicz空间中的随机变量的Or ...

  4. UA MATH567 高维统计I 概率不等式3 亚高斯性与亚高斯范数

    UA MATH567 高维统计I 概率不等式3 亚高斯性与亚高斯范数 亚高斯性 亚高斯范数 概率不等式1中介绍了Hoeffding不等式与Chernoff不等式,这两个不等式的共性是它们的上界关于tt ...

  5. UA MATH567 高维统计I 概率不等式12 McDiarmid不等式

    UA MATH567 高维统计I 概率不等式12 McDiarmid不等式 这一讲我们介绍基于Lipschitz性导出概率不等式的思路,这个思路在下一讲正式进入随机向量之后应用非常广泛.但这一讲我们先 ...

  6. UA MATH567 高维统计I 概率不等式11 Azuma不等式

    UA MATH567 高维统计I 概率不等式11 Azuma不等式 前十一讲介绍的不等式的理论基础都是Markov不等式,根据Markov不等式我们导出了Chebyshev不等式.Hoeffding不 ...

  7. UA MATH567 高维统计I 概率不等式10 Bernstein不等式

    UA MATH567 高维统计I 概率不等式10 Bernstein不等式 我们在介绍亚高斯分布后介绍了适用于亚高斯分布的推广的Hoeffding不等式,对于亚指数分布,我们可以得到类似的不等式.因为 ...

  8. UA MATH567 高维统计I 概率不等式5 推广Hoeffding不等式与Khintchine不等式

    UA MATH567 高维统计I 概率不等式5 推广Hoeffding不等式 我们在第一讲时讨论了Hoeffding不等式,但那个版本时针对有界的随机变量的,我们希望通过亚高斯性推广Hoeffding ...

  9. UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式

    UA MATH567 高维统计I 概率不等式1 Hoeffding不等式与Chernoff不等式 Hoeffding不等式 Chernoff不等式 MATH 564系列我们已经介绍了几个基本的概率不等 ...

最新文章

  1. java写微信小程序答辩问题_微信小程序毕业设计选题和毕业论文怎么写,答辩流程是怎样的?...
  2. 看一遍那些网络上晦涩的名词都弄明白了!
  3. H2O —— 宣称性能是 Nginx 2 倍的 HTTP 服务器
  4. vs2010 出错:error LNK1123: 转换到 COFF 期间失败: 文件无效或损坏
  5. javaI/O流小结
  6. 进程间同步的几种方法
  7. nginx开机启动脚本
  8. 在Sql Server 2008上安装SDE 9.3
  9. 阿里云服务器如何进行网站域名解析?
  10. linux进程作业号,Linux系统进程管理及作业操作
  11. 2019年2月CNNIC第43次《中国互联网络发展状况统计报告》
  12. uniapp uni-swipe-action 滑动删除
  13. SWIFT电文类型及格式
  14. 这个年代,你还不知道的小白用卡攻略!!!
  15. hbase基于solr配置二级索引
  16. 802.11 wireless 详解
  17. UTXO:未使用的交易输出
  18. 工业级光纤收发器的芯片介绍
  19. UBNT RdgeRouter-X ipv6相关设置
  20. ActionScript中的关键词

热门文章

  1. 【正一专栏】从人民的名义看失败的婚姻关系
  2. (转载)Android性能优化典范
  3. 浅析IPDCC的地理信息识别和服务
  4. 只能在微信浏览器打开的链接,如何查看源码
  5. 【Linux】FrameBuffer操作入门
  6. js 获取地址栏参数
  7. PyQt5 技术篇-如何彻底删除控件?布局移除控件方法。
  8. CodeBlacks16\17\20版本下载
  9. markdown数学公式写法和数学符号
  10. CTFshow php特性 web144