【机器学习】琴生不等式(Jensen's inequality)
【机器学习】琴生不等式(Jensen’s inequality):
凸/凹函数概述
“琴生不等式描述的是积分的凸/凹函数值和凸/凹函数的积分值间的关系。”
以上定义来自维基百科,虽然晦涩难懂,但是我们可以得出结论:在学习琴生不等式的时,必须要对与之相关凸/凹函数有一个大概的认识。
什么是凸/凹函数?
“凸函数是具有如下特性的一个定义在某个向量空间的凸子集CCC(区间)上的实值函数fff:对其定义域CCC上的任意两点x1x_1x1, x2x_2x2,总有f(x1+x22)≤f(x1)+f(x2)2f(\frac{x_1+x_2}{2})\leq\frac{f(x_1)+f(x_2)}{2}f(2x1+x2)≤2f(x1)+f(x2)。”
“凹函数是具有如下特性的一个定义在某个向量空间的凹子集CCC(区间)上的实值函数fff:对其定义域CCC上的任意两点x1x_1x1, x2x_2x2,总有f(x1+x22)≥f(x1)+f(x2)2f(\frac{x_1+x_2}{2})\geq\frac{f(x_1)+f(x_2)}{2}f(2x1+x2)≥2f(x1)+f(x2)。”
以上定义依然来自维基百科,依然晦涩难懂,重要的是了解以下结论。
结论一:凸/凹函数的二阶导数恒大于/小于零
结论二:一个凸/凹函数上任意两点所作割线一定在这两点之间的函数图像的上/下方
琴生不等式概述
1、若f(x)f(x)f(x)是区间(a,b)(a,b)(a,b)上的凸函数,则对任意的x1,x2,x3,......,xn∈(a,b)x_1,x_2,x_3,\ ......,x_n\in(a,b)x1,x2,x3, ......,xn∈(a,b),有不等式:
f(x1+x2+x3+......+xnn)≤f(x1)+f(x2)+f(x3)+......+f(xn)nf(\frac{x_1+x_2+x_3+......+x_n}{n})\leq\frac{f(x_1)+f(x_2)+f(x_3)+......+f(x_n)}{n}f(nx1+x2+x3+......+xn)≤nf(x1)+f(x2)+f(x3)+......+f(xn)
有当且仅当x1=x2=x3=......=xnx_1=x_2=x_3=......=x_nx1=x2=x3=......=xn时等号成立。
2、若f(x)f(x)f(x)是区间(a,b)(a,b)(a,b)上的凹函数,则对任意的x1,x2,x3,......,xn∈(a,b)x_1,x_2,x_{3,\ }......,x_n\in(a,b)x1,x2,x3, ......,xn∈(a,b),有不等式:
f(x1+x2+x3+......+xnn)≥f(x1)+f(x2)+f(x3)+......+f(xn)nf(\frac{x_1+x_2+x_3+......+x_n}{n})\geq\frac{f(x_1)+f(x_2)+f(x_3)+......+f(x_n)}{n}f(nx1+x2+x3+......+xn)≥nf(x1)+f(x2)+f(x3)+......+f(xn)
有当且仅当x1=x2=x3=......=xnx_1=x_2 =x_3=......=x_nx1=x2=x3=......=xn时等号成立。
3、若f(x)f(x)f(x)是区间(a,b)(a,b)(a,b)上的凸函数,则对任意的x1,x2,x3......,xn∈(a,b)x_1,x_2,x_3......,x_n \in(a,b)x1,x2,x3......,xn∈(a,b),∑i=1nan=1\sum_{i=1}^{n}a_n = 1∑i=1nan=1,a1,a2,a3......ana_1,a_2,a_3......a_na1,a2,a3......an为正数,则有:f(a1x1+a2x2+a3x3+......+anxn)≤f(a1x1)+f(a2x2)+f(a3x3)+......+f(anxn)(α){f(a}_1x_1+a_2x_2+a_3x_3+......+a_nx_n)\leq f(a_1x_1)+f(a_2x_2)+f(a_3x_3)+......+f(a_nx_n)\ \ \ \ \ \ \ \ \ \ (\alpha)f(a1x1+a2x2+a3x3+......+anxn)≤f(a1x1)+f(a2x2)+f(a3x3)+......+f(anxn) (α)
4、若f(x)f(x)f(x)是区间(a,b)(a,b)(a,b)上的凹函数,则对任意的x1,x2,x3......,xn∈(a,b)x_1,x_2,x_3......,x_n \in(a,b)x1,x2,x3......,xn∈(a,b),∑i=1nan=1\sum_{i=1}^{n}a_n = 1∑i=1nan=1,a1,a2,a3......ana_1,a_2,a_3......a_na1,a2,a3......an为正数,则有:f(a1x1+a2x2+a3x3+......+anxn)≥f(a1x1)+f(a2x2)+f(a3x3)+......+f(anxn)(β){f(a}_1x_1+a_2x_2+a_3x_3+......+a_nx_n)\geq f(a_1x_1)+f(a_2x_2)+f(a_3x_3)+......+f(a_nx_n)\ \ \ \ \ \ \ \ \ \ (\beta)f(a1x1+a2x2+a3x3+......+anxn)≥f(a1x1)+f(a2x2)+f(a3x3)+......+f(anxn) (β)
琴生不等式在概率学中的应用
通过观察(α)(\alpha)(α)式左式(a1x1+a2x2+a3x3+......+anxn){(a}_1x_1+a_2x_2+a_3x_3+......+a_nx_n)(a1x1+a2x2+a3x3+......+anxn),我们知道∑i=1nan=1\sum_{i=1}^{n}a_n = 1∑i=1nan=1。符合随机变量X的概率方程。因此该式所表达的正好是随机变量XXX的期望,E(X)E(X)E(X)。
我们重写(α)(\alpha)(α)式,其中ppp代表probability:
f(p1x1+p2x2+p3x3+......+pnxn)≤f(p1x1)+f(p2x2)+f(p3x3)+......+f(pnxn){f(p}_1x_1+p_2x_2+p_3x_3+......+p_nx_n)\le f(p_1x_1)+f(p_2x_2)+f(p_3x_3)+......+f(p_nx_n)f(p1x1+p2x2+p3x3+......+pnxn)≤f(p1x1)+f(p2x2)+f(p3x3)+......+f(pnxn)
左式=f(∑i=1npnxn)=f(E(X))=f(\sum_{i=1}^{n}p_nx_n)=f(E(X))=f(∑i=1npnxn)=f(E(X))
右式=∑i=1npnf(xi)=E(f(X))=\sum_{i=1}^{n}{p_nf(x_i})=E(f(X))=∑i=1npnf(xi)=E(f(X))
综上且同理(β)(\beta)(β),我们可以得出以下结论。
结论三:对于凸函数,随机变量X∈[x1,xn]X∈[x_1,x_n]X∈[x1,xn],则在[x1,xn][x_1,x_n][x1,xn]区间内任意一点,f(E(x))≤E(f(x))f(E(x))\leq E(f(x))f(E(x))≤E(f(x))
结论四:对于凹函数,随机变量X∈[x1,xn]X∈[x_1,x_n]X∈[x1,xn],则在[x1,xn][x_1,x_n][x1,xn]区间内任意一点,f(E(x))≥E(f(x))f(E(x))\geq E(f(x))f(E(x))≥E(f(x))
琴生不等式的证明
我们可以用以下一般式来表达琴生不等式(以凸函数为例):
f(θx1+(1−θ)x2)≤θf(x1)+(1−θ)f(x2);θ∈[0,1]f(\theta x_1+(1-\theta)x_2)\le\theta f(x_1)+(1-\theta)f(x_2);\theta∈[0,1]f(θx1+(1−θ)x2)≤θf(x1)+(1−θ)f(x2);θ∈[0,1]
则:
f(x2−θ(x2−x1))≤f(x2)−θ(f(x2)−f(x1));θ∈[0,1]f(x_2-\theta(x_2-x_1))\le f(x_2)-\theta(f(x_2)-f(x_1));\theta∈[0,1]f(x2−θ(x2−x1))≤f(x2)−θ(f(x2)−f(x1));θ∈[0,1]
等式两边都只与θ\thetaθ有关,并且变化比例相同(下面给出证明)。
设x∗=x2−θ(x2−x1),x∗∈[x1,x2]x^*=x_2-\theta\left(x_2-x_1\right), x^*∈[x_1,x_2]x∗=x2−θ(x2−x1),x∗∈[x1,x2]
设f(x)∗=f(x2)−θ(f(x2)−f(x1)),f(x)∗∈[f(x1),f(x2)]f(x)^*=f\left(x_2\right)-\theta(f\left(x_2\right)-f(x_1)), f(x)^*∈[f\left(x_1\right),f\left(x_2\right)]f(x)∗=f(x2)−θ(f(x2)−f(x1)),f(x)∗∈[f(x1),f(x2)]
只需证明在下图中,lqlp=lalb\frac{l_q}{l_p}=\frac{l_a}{l_b}lplq=lbla 即可。
lqlp=x2−[x2−θ(x2−x1)][x2−θ(x2−x1)]−x1)=θ1−θ\frac{l_q}{l_p}=\frac{x_2-[x_2-θ(x_2-x_1)]}{[x_2-θ(x_2-x_1)]-x_1)}=\frac{θ}{1-θ}lplq=[x2−θ(x2−x1)]−x1)x2−[x2−θ(x2−x1)]=1−θθ
lalb=f(x2)−[f(x2)−θ(f(x2)−f(x1))][f(x2)−θ(f(x2)−f(x1))]−f(x1)=θ1−θ\frac{l_a}{l_b}=\frac{f(x_2)-[f(x_2)-θ(f(x_2)-f(x_1))]}{[f(x_2)-θ(f(x_2)-f(x_1))]-f(x_1)}=\frac{θ}{1-θ}lbla=[f(x2)−θ(f(x2)−f(x1))]−f(x1)f(x2)−[f(x2)−θ(f(x2)−f(x1))]=1−θθ
证毕
上图所示,正是琴生不等式在凸函数上的证明:在随机变量x∗∈[x1,x2]x^*∈[x_1,x_2]x∗∈[x1,x2]的这个区间内任意一点向X轴引垂线,f(x∗)≤f(x)∗f\left(x^*\right)\ \le\ f(x)^*f(x∗) ≤ f(x)∗恒成立。
为什么非要强调是在同一条垂线上f(x∗)≤f(x)∗f\left(x_*\right)\ \le\ f(x)^*f(x∗) ≤ f(x)∗呢,因为如果无法证明是在同一垂线上满足f(x∗)≤f(x)∗f\left(x^*\right)\ \le\ f(x)^*f(x∗) ≤ f(x)∗, 那么琴生不等式的≤\le≤就不一定成立。
下面给出f(x∗)f\left(x^*\right)f(x∗)与f(x)∗\ f(x)^* f(x)∗在一条垂线上的证明,证明两点是在同一条垂线上(采用反证法):
首先,过f(x)∗f(x)^*f(x)∗某点做一条X轴的平行线,交MN于点C,则得到∆NCD∗≅∆NMF∆ NCD^*≅∆ NMF∆NCD∗≅∆NMF,根据相似三角形定义,可得ab=NCCM\frac{a}{b}=\frac{NC}{CM}ba=CMNC;
其次,过x∗x^*x∗向Y轴作平行线,交MN于点O,则得到∆MOE≅∆MNF∆ MOE≅∆ MNF∆MOE≅∆MNF,相似三角形, 可证得, qp=NOOM\frac{q}{p}=\frac{NO}{OM}pq=OMNO。
接下, 只需要证明lqlp=lalb\frac{l_q}{l_p}=\frac{l_a}{l_b}lplq=lbla即可, 在上一证明中,我们已经证得该结论,这里就不再做赘述。
综上所证: NCCM=NOOM\frac{NC}{CM}=\frac{NO}{OM}CMNC=OMNO,故点C于点O属于同一点。
注意 琴生不等式等号成立的条件:
只有当x1与x2x_1与x_2x1与x2重合,导致随机变量x∗x^*x∗变为一个定数,MN最终会成为凸函数上一个点,等号成立。
【机器学习】琴生不等式(Jensen's inequality)相关推荐
- 琴生不等式(Jensen Inequality)
目录 不同表述形式 有限形式 测度与概率形式 在概率论中的广义形式 不等式证明 有限形式 测度和概率形式 概率论中的广义形式 不等式应用 在概率密度函数中的形式 随机变量的偶次矩 其他有限形式 统计物 ...
- 琴生不等式一般形式_[学习笔记]常用不等式
1. 命题 左边等号成立当且仅当 ,右边等号成立当且仅当 . 2. 命题 等号成立当且仅当 . 3.命题 两边等号成立均当且仅当 . 4.命题 两边等号成立均当且仅当 . 推论 5. 命题 6. 不等 ...
- 【数学】凸函数与詹森不等式(琴生不等式)解析
[数学]凸函数与詹森不等式(琴生不等式) 文章目录 [数学]凸函数与詹森不等式(琴生不等式) 1 凸函数和凹函数 2 琴生不等式(詹森不等式) 1 凸函数和凹函数 下凸函数(凸函数),从几何意义上看, ...
- Jensen不等式(琴生不等式)
每次用的时候都得查,所以索性之际记录一下 注意凸函数的定义,上凸.下凸.凹.凸的含义是不同的 1.定义 Jensen不等式,又名琴森不等式或詹森不等式(均为音译).它是一个在描述积分的凸函数值和凸函数 ...
- 琴生不等式一般形式_001.二次函数、方程和不等式知识点
学法指导:本专题讲授不等式内容,这部分内容是学生的难点,为此有几点说明: 1.把握好学习的难度.按教材内不等式部分展现的内容看,它很简单,但学过的知道,这部分内容很难,直白的讲,它要多难就有多难,当然 ...
- 凸函数与简森不等式(Jensen's inequality)
0. 凸函数常见举例 负对数函数:−lnx-\ln x xlnxx\ln x(二阶导数为 1x\frac1x,恒为整数,因为定义域的关系) 1. 凸函数的判断准则 定义:f(λx+(1−λ)x2)≤λ ...
- Jensen‘s inequality
若 f ( x ) f(x) f(x) 为凸函数 (convex),则 1 N ∑ n = 1 N f ( x n ) ≥ f ( 1 N ∑ n = 1 N x n ) \frac{1}{N}\su ...
- 赫尔德氏不等式(Holder‘s inequality)和柯西-施瓦茨不等式(Cauchy-Schwarz inequality)的证明
摘抄自: Foundations of Machine Learning - second edition - Mehryar Mohri 等 - page 410.
- EM算法:从极大似然估计导出EM算法(还算通俗易懂)
之前看了<统计学习方法>,吴恩达老师的cs229讲义,一起看感觉很昏(如果要看建议选择其中一个,<统计学习方法>里面基本很少会写到 y i y_i yi而都是用 Y Y Y只 ...
- 机器学习中的数学(上)
上篇博文介绍了<机器学习之支持向量机>后发现利用到了梯度.凸优化.拉格朗日对偶性等数学问题.而且凸优化是本科非数学专业学不到的科目,所以这篇博文就要和大家分享一下机器学习中常用的数学概 ...
最新文章
- C#双面打印解决方法(打印word\excel\图片)
- ASP.NET 3.5揭秘-读书笔记1
- 2011年2月--2011年7月数据库性能优化过程
- Angular15 利用ng2-file-upload实现文件上传
- Griview中的删除按钮添加“确认提示”
- 系统学习机器学习之特征工程(二)--离散型特征编码方式:LabelEncoder、one-hot与哑变量*
- 魔方实时通信im组件
- 机器学习什么显卡_机器学习之多显卡加速运算(Pytorch版)
- PMP考试扫盲:超详细的PMP考试小白攻略,必看篇
- xshell5产品秘钥
- AMS分析 -- 启动过程
- 禅道怎样添加开发人员
- 02 | 给你一张知识地图,计算机组成原理应该这么学
- LOJ10102旅游航道
- Bayes‘ theorem贝叶斯定理(基础理论+心理学小例子)
- 【Python】将xls格式转换为xlsx格式
- CDC的DrawText
- 跟谁学 英语口语20090927疑问句
- Vue 2.0 升(cai)级(keng)之旅
- 微软技术大会-无人机为中国电信巡航基站