漫步数理统计十四——重要的不等式

本篇博文给出涉及期望的三个不等式的证明，之后我们会经常遇到这些不等式，首先介绍一个有用的结论。

定理1： \textbf{定理1：}令 X X表示随机变量，mm是一个正整数，假设 E[Xm] E[X^m]存在，如果 k k是一个正数且k≤mk\leq m，那么 E[Xk] E[X^k]存在。

证明： \textbf{证明：}我们证明连续情况；离散情况与之类似，只需要将积分符号换成求和符号即可，令 f(x) f(x)是 X X的pdf，那么

∫∞−∞|x|kf(x)dx=∫|x|≤1|x|kf(x)dx+∫|x|>1|x|kf(x)dx≤∫|x|≤1f(x)dx+∫|x|>1|x|mf(x)dx≤∫∞−∞f(x)dx+∫∞−∞|x|mf(x)dx≤1+E[|X|m]<∞

\begin{align*} \int_{-\infty}^{\infty}|x|^kf(x)dx &=\int_{|x|\leq 1}|x|^kf(x)dx+\int_{|x|>1}|x|^kf(x)dx\\ &\leq\int_{|x|\leq 1}f(x)dx+\int_{|x|>1}|x|^mf(x)dx\\ &\leq\int_{-\infty}^{\infty}f(x)dx+\int_{-\infty}^{\infty}|x|^mf(x)dx\\ &\leq1+E[|X|^m]

得证。

定理2： \textbf{定理2：}(马尔科夫不等式)令 u(X) u(X)是随机变量 X X的非负函数，如果E[u(X)]E[u(X)]存在，那么对于每个正常数 c c，

P[u(X)≥c]≤E[u(X)]c

P[u(X)\geq c]\leq\frac{E[u(X)]}{c}

证明： \textbf{证明：}这里给出连续情况的证明；对于离散情况，只需要将积分符号改成求和符号即可。令 A={x:u(x)≥c} A=\{x:u(x)\geq c\}， f(x) f(x)表示 X X的pdf，那么

E[u(X)]=∫∞−∞u(x)f(x)dx=∫Au(x)f(x)dx+∫Acu(x)f(x)dx

E[u(X)]=\int_{-\infty}^{\infty}u(x)f(x)dx=\int_{A}u(x)f(x)dx+\int_{A^c}u(x)f(x)dx

上式最右边的每个被积函数都是正的，所以左边大于或等于右边任何一项，特别地

E[u(X)]≥∫Au(x)f(x)dx

E[u(X)]\geq\int_{A}u(x)f(x)dx

然而，如果 x∈A x\in A，那么 u(x)≥c u(x)\geq c，所以我们用 c c代替上式右边u(x)u(x)的话，不等式不会增加，即

E[u(X)]≥c∫Af(x)dx

E[u(X)]\geq c\int_{A}f(x)dx

因为

∫Af(x)dx=P(X∈A)=P[u(X)≥c]

\int_Af(x)dx=P(X\in A)=P[u(X)\geq c]

从而得到

E[u(X)]≥cP[u(X)≥c]

E[u(X)]\geq cP[u(X)\geq c]

得证。

前面这个不等式是切比雪夫不等式的推广，具体如下定理所述。

定理3： \textbf{定理3：}(切比雪夫不等式) X X是一个随机变量且概率分布的方差sigma2sigma^2是有限的(根据定理1，这意味着均值 μ=E(X) \mu=E(X)存在)，那么对于任意 k>0 k>0，

P(|X−μ|≥kσ)≤1k2

P(|X-\mu|\geq k\sigma)\leq\frac{1}{k^2}

或者等价的

P(|X−μ|<kσ)≥1−1k2

P(|X-\mu|

证明： \textbf{证明：}利用定理2中取 u(X)=(X−μ)2,c=k2σ2 u(X)=(X-\mu)^2,c=k^2\sigma^2，那么我们有

P[(X−μ)2≥k2σ2]≤E[(X−μ)2]k2σ2

P[(X-\mu)^2\geq k^2\sigma^2]\leq\frac{E[(X-\mu)^2]}{k^2\sigma^2}

因为这个不等式右边的分子是 σ2 \sigma^2，所以可以写成

P(|X−μ|≥kσ)≤1k2

P(|X-\mu|\geq k\sigma)\leq\frac{1}{k^2}

得证。当然这里的 k k是大于1的整数。

切比雪夫不等式有一个简洁的形式，可以取kσ=ϵk\sigma=\epsilon，其中 ϵ>0 \epsilon>0，这是不等式就变成

P(|X−μ|≥ϵ)≤σ2ϵ2,for all ϵ>0

P(|X-\mu|\geq\epsilon)\leq\frac{\sigma^2}{\epsilon^2},for\ all\ \epsilon>0

因此 1/k2 1/k^2是概率 P(|X−μ|≥kσ) P(|X-\mu|\geq k\sigma)的上界，接下来我们给出一些实例中的上界与概率的准确值。

例1： \textbf{例1：}令 X X的pdf为

f(x)={123√0−3√<x<3√elsewhere

f(x)= \begin{cases} \frac{1}{2\sqrt{3}}&-\sqrt{3}

这里 μ=0,σ2=1 \mu=0,\sigma^2=1，如果 k=32 k=\frac{3}{2}，我们有准确的概率值

P(|X−μ|≥kσ)=P(|X|≥32)=1−∫3/2−3/2123√dx=1−3√2

P(|X-\mu|\geq k\sigma)=P(|X|\geq\frac{3}{2})=1-\int_{-3/2}^{3/2}\frac{1}{2\sqrt{3}}dx=1-\frac{\sqrt{3}}{2}

根据切比雪夫不等式，这个概率上界为 1/k2=49 1/k^2=\frac{4}{9}，因为近似 1−3√/2=0.134 1-\sqrt{3}/2=0.134，这是准确值远小于上界 4/9 4/9。如果取 k=2 k=2，我们得到的准确值是 P(|X−μ|≥2σ)=P(|X|≥2)=0 P(|X-\mu|\geq2\sigma)=P(|X|\geq 2)=0，依然远小于上界 1/k2=1/4 1/k^2=1/4。

在上面的例子中，概率 P(|X−μ|≥kσ) P(|X-\mu|\geq k\sigma)与上界 1/k2 1/k^2差别较大。然而，如果我们希望不等式对所有 k>0 k>0成立且对所有有有限方差的随机变量成立，那么就不可能再提高了，如下所示。

例2： \textbf{例2：} X X是离散型随机变量，在点x=−1,0,1x=-1,0,1处概率分别为 18,68,18 \frac{1}{8},\frac{6}{8},\frac{1}{8}。这里 μ=0,σ2=14 \mu=0,\sigma^2=\frac{1}{4}。如果 k=2 k=2，那么 1/k2=14,P(|X−μ|≥kσ)=P(|X|≥1) 1/k^2=\frac{1}{4},P(|X-\mu|\geq k\sigma)=P(|X|\geq 1)，即 P(|X−μ|≥kσ) P(|X-\mu|\geq k\sigma)等于上界 1/k2=1/4 1/k^2=1/4，因此在没有给出 X X分布的进一步假设的情况下，不等式无法提高了。

定义1：\textbf{定义1：}定义在区间 (a,b),−∞≤a<b≤∞ (a,b),-\infty\leq a上的函数 ϕ \phi，如果对于 (a,b) (a,b)上的所有 x,y x,y以及所有的 0<γ<1 0，不等式

ϕ[γx+(1−γ)y]≤γϕ(x)+(1−γ)ϕ(y)

\phi[\gamma x+(1-\gamma)y]\leq\gamma\phi(x)+(1-\gamma)\phi(y)

成立，那么函数 ϕ(x) \phi(x)称为凸函数，如果上面的不等式是严格的，那么称 ϕ \phi是严格凸函数。

在一阶与二阶导存在的情况下，下面的不等式成立。

定理4： \textbf{定理4：}如果 ϕ \phi在 (a,b) (a,b)上可微，那么

对于所有的 a<x<y<b a，当且仅当 ϕ′(x)≤ϕ′′(y) \phi^{'}(x)\leq\phi^{''}(y)时， ϕ \phi 是凸的。
对于所有的 a<x<y<b a，当且仅当 ϕ′(x)<ϕ′′(y) \phi^{'}(x)时， ϕ \phi是严格凸的。

如果 ϕ \phi在 (a,b) (a,b)上二阶可微，那么

对于所有的 a<x<y<b a，当且仅当 ϕ′′(x)≥0 \phi^{''}(x)\geq 0时， ϕ \phi 是凸的。
对于所有的 a<x<y<b a，当且仅当 ϕ′′(y)>0 \phi^{''}(y)>0时， ϕ \phi是严格凸的。

当然这个定理的第二部分可以从第一部分直接导出，而第一部分直观上也比较好理解，具体证明可以参考一些分析的书。下面给出一个非常有用的关于凸的不等式。

定理5： \textbf{定理5：}(詹森不等式)如果 ϕ \phi在开集 I I上是凸的，XX是随机变量，其支撑含于 I I中且有有限期望，那么

ϕ[E(X)]≤E[ϕ(X)]

\phi[E(X)]\leq E[\phi(X)]

如果 ϕ \phi严格凸，那么不等式是严格的，除非 X X是一个常随机变量。

证明：\textbf{证明：}假设 ϕ \phi有二阶导， ϕ(x) \phi(x)在 u=E[X] u=E[X]处进行泰勒级数展开：

ϕ(x)=ϕ(μ)+ϕ′(μ)(x−mu)+ϕ′′(zeta)(x−μ)22

\phi(x)=\phi(\mu)+\phi^{'}(\mu)(x-mu)+\frac{\phi^{''}(zeta)(x-\mu)^2}{2}

其中 ζ \zeta位于 x,μ x,\mu之间。因为上式的最后一项是正的，所以我们有

ϕ(x)≥ϕ(μ)+ϕ′(μ)(x−μ)

\phi(x)\geq\phi(\mu)+\phi^{'}(\mu)(x-\mu)

两边分别取期望即可得到所要的结论。假设 X X不是常量，那么如果对于所有的x∈(a,b),ϕ′′(x)>0x\in(a,b),\phi^{''}(x)>0，则不等式是严格凸的。

例3： \textbf{例3：} X X是非退化随机变量，均值为μ\mu且有有限的二阶矩，那么 μ<E(X2) \mu。这个结论可以利用詹森不等式得到，需要用到严格凸函数 ϕ(t)=t2 \phi(t)=t^2。

例4： \textbf{例4：}(调和与几何平均)令 {a1,…,an} \{a_1,\ldots,a_n\} 是正数集合，对每个数 a1,…,an a_1,\ldots,a_n分配权重 1/n 1/n就得到一个随机变量 X X的分布，那么XX的均值就是算数平均(AM)， E(X)=n−1Σni=1ai E(X)=n^{-1}\Sigma_{i=1}^na_i，又因为 −logx -\log x 是凸函数，所以利用詹森不等式可得

−log(1n∑i=1nai)≤E(−logX)=−1n∑i=1nlogai=−log(a1a2…an)1/n

-\log\left(\frac{1}{n}\sum_{i=1}^na_i\right)\leq E(-\log X)=-\frac{1}{n}\sum_{i=1}^n\log a_i=-\log(a_1a_2\ldots a_n)^{1/n}

或者等价的

log(1n∑i=1nai)≥log(a1a2…an)1/n

\log\left(\frac{1}{n}\sum_{i=1}^na_i\right)\geq \log(a_1a_2\ldots a_n)^{1/n}

因此

(a1a2…an)1/n≤1n∑i=1nai

(a_1a_2\ldots a_n)^{1/n}\leq \frac{1}{n}\sum_{i=1}^na_i

不等式左边称为几何平均(GM)，所有上面的不等式等价于对任意有限正数集， GM≤AM GM\leq AM。

现在用 1/ai 1/a_i代替 ai a_i，(也是正值)，那么我们就得到

1n∑i=1n1ai≥(1a11a2⋯1an)1/n

\frac{1}{n}\sum_{i=1}^n\frac{1}{a_i}\geq\left(\frac{1}{a_1}\frac{1}{a_2}\cdots\frac{1}{a_n}\right)^{1/n}

或者等价的

11nΣni=11ai≤(a1a2…an)1/n

\frac{1}{\frac{1}{n}\Sigma_{i=1}^n\frac{1}{a_i}}\leq(a_1a_2\ldots a_n)^{1/n}

不等式的左边称为调和级数(HM)，从而我们得出对任意正数集合

HM≤GM≤AM

HM\leq GM\leq AM

漫步数理统计十四——重要的不等式相关推荐

漫步数理统计十六——变换
(X1,X2)(X_1,X_2)是随机向量,假设我们知道(X1,X2)(X_1,X_2)的联合分布而我们想求(X1,X2)(X_1,X_2)变换的分布,假设为Y=g(X1,X2)Y=g(X_1,X_2 ...
漫步数理统计十二——随机变量的期望
本篇讲解期望运算,之后内容都会涉及到这种运算. 定义1:\textbf{定义1:}(期望)令XX表示一个随机变量,如果XX 是连续的随机变量,pdf为f(x)f(x)且 ∫∞−∞|x|f(x)dx&l ...
漫步数理统计十五——两个随机变量的分布
接下里我们讨论两个随机变量的例子.连续掷三次硬币并考虑有序数对(前两次HH的个数,三次中HH的个数),其中H,TH,T 分别表示正面与反面,那么样本空间是C={c:c=ci,i=1,2,-,8}\te ...
漫步数理统计十九——独立随机变量
令X,YX,Y表示连续型随机变量,其联合pdf为f(x1,x2)f(x_1,x_2),边缘概率密度分别为f1(x1),f2(x2)f_1(x_1),f_2(x_2),与条件pdff2|1(x2|x1) ...
漫步数理统计十八——相关系数
对于两个随机变量,我们这里用X,YX,Y而不是X1,X2X_1,X_2来表示结论,另外我们不在分开讨论连续与离散的情况,统一用连续符号,但是这些性质对离散情况也满足.令X,YX,Y的联合pdf为f(x ...
漫步数理统计十——连续随机变量(上)
上篇文章我们讨论了离散随机变量,在统计应用中还有一个非常重要的随机变量,那就是这里要讲的连续随机变量. 定义1:\textbf{定义1:}对于某个随机变量,如果它的累加分布函数FX(x)F_X(x)对 ...
漫步微积分十四——增、减函数和极大、极小值
本篇将会看到,我们学习到的计算导数的用武之地. 我们第一个应用是导数作为曲线切线斜率的解释.通过这个应用,我们可以快速发现函数最重要的特征并描绘出它的图像.在物理科学中画图是最基本的要求.在经济.生物 ...
“东湖”的艄公－－漫步绍兴（四）
"东湖"的艄公--漫步绍兴(四) 绍兴东湖留给我深刻印象的不是那里的美景,而是在湖上顶烈日冒风雨含辛茹苦的那些艄公. 绍兴东湖,实际上是个废弃在采石场. 落于绍兴城东箬篑山麓,因秦 ...
视觉SLAM总结——视觉SLAM十四讲笔记整理
视觉SLAM总结--视觉SLAM十四讲笔记整理说明基础知识点 1. 特征提取.特征匹配 (1)Harris (2)SIFT (3)SUFT (4)ORB (5)特征匹配 2. 2D-2D:对极约束 ...

漫步数理统计十四——重要的不等式

漫步数理统计十四——重要的不等式相关推荐

最新文章

热门文章