【机器学习】琴生不等式(Jensen’s inequality):

凸/凹函数概述

“琴生不等式描述的是积分的凸/凹函数值和凸/凹函数的积分值间的关系。”

以上定义来自维基百科,虽然晦涩难懂,但是我们可以得出结论:在学习琴生不等式的时,必须要对与之相关凸/凹函数有一个大概的认识。

什么是凸/凹函数?

“凸函数是具有如下特性的一个定义在某个向量空间的凸子集CCC(区间)上的实值函数fff:对其定义域CCC上的任意两点x1x_1x1​, x2x_2x2​,总有f(x1+x22)≤f(x1)+f(x2)2f(\frac{x_1+x_2}{2})\leq\frac{f(x_1)+f(x_2)}{2}f(2x1​+x2​​)≤2f(x1​)+f(x2​)​。”

“凹函数是具有如下特性的一个定义在某个向量空间的凹子集CCC(区间)上的实值函数fff:对其定义域CCC上的任意两点x1x_1x1​, x2x_2x2​,总有f(x1+x22)≥f(x1)+f(x2)2f(\frac{x_1+x_2}{2})\geq\frac{f(x_1)+f(x_2)}{2}f(2x1​+x2​​)≥2f(x1​)+f(x2​)​。”

以上定义依然来自维基百科,依然晦涩难懂,重要的是了解以下结论。

结论一:凸/凹函数的二阶导数恒大于/小于零

结论二:一个凸/凹函数上任意两点所作割线一定在这两点之间的函数图像的上/下方

琴生不等式概述

1、若f(x)f(x)f(x)是区间(a,b)(a,b)(a,b)上的凸函数,则对任意的x1,x2,x3,......,xn∈(a,b)x_1,x_2,x_3,\ ......,x_n\in(a,b)x1​,x2​,x3​, ......,xn​∈(a,b),有不等式:
f(x1+x2+x3+......+xnn)≤f(x1)+f(x2)+f(x3)+......+f(xn)nf(\frac{x_1+x_2+x_3+......+x_n}{n})\leq\frac{f(x_1)+f(x_2)+f(x_3)+......+f(x_n)}{n}f(nx1​+x2​+x3​+......+xn​​)≤nf(x1​)+f(x2​)+f(x3​)+......+f(xn​)​

有当且仅当x1=x2=x3=......=xnx_1=x_2=x_3=......=x_nx1​=x2​=x3​=......=xn​时等号成立。

2、若f(x)f(x)f(x)是区间(a,b)(a,b)(a,b)上的凹函数,则对任意的x1,x2,x3,......,xn∈(a,b)x_1,x_2,x_{3,\ }......,x_n\in(a,b)x1​,x2​,x3, ​......,xn​∈(a,b),有不等式:
f(x1+x2+x3+......+xnn)≥f(x1)+f(x2)+f(x3)+......+f(xn)nf(\frac{x_1+x_2+x_3+......+x_n}{n})\geq\frac{f(x_1)+f(x_2)+f(x_3)+......+f(x_n)}{n}f(nx1​+x2​+x3​+......+xn​​)≥nf(x1​)+f(x2​)+f(x3​)+......+f(xn​)​

有当且仅当x1=x2=x3=......=xnx_1=x_2 =x_3=......=x_nx1​=x2​=x3​=......=xn​时等号成立。

3、若f(x)f(x)f(x)是区间(a,b)(a,b)(a,b)上的凸函数,则对任意的x1,x2,x3......,xn∈(a,b)x_1,x_2,x_3......,x_n \in(a,b)x1​,x2​,x3​......,xn​∈(a,b),∑i=1nan=1\sum_{i=1}^{n}a_n = 1∑i=1n​an​=1,a1,a2,a3......ana_1,a_2,a_3......a_na1​,a2​,a3​......an​为正数,则有:f(a1x1+a2x2+a3x3+......+anxn)≤f(a1x1)+f(a2x2)+f(a3x3)+......+f(anxn)(α){f(a}_1x_1+a_2x_2+a_3x_3+......+a_nx_n)\leq f(a_1x_1)+f(a_2x_2)+f(a_3x_3)+......+f(a_nx_n)\ \ \ \ \ \ \ \ \ \ (\alpha)f(a1​x1​+a2​x2​+a3​x3​+......+an​xn​)≤f(a1​x1​)+f(a2​x2​)+f(a3​x3​)+......+f(an​xn​)          (α)

4、若f(x)f(x)f(x)是区间(a,b)(a,b)(a,b)上的凹函数,则对任意的x1,x2,x3......,xn∈(a,b)x_1,x_2,x_3......,x_n \in(a,b)x1​,x2​,x3​......,xn​∈(a,b),∑i=1nan=1\sum_{i=1}^{n}a_n = 1∑i=1n​an​=1,a1,a2,a3......ana_1,a_2,a_3......a_na1​,a2​,a3​......an​为正数,则有:f(a1x1+a2x2+a3x3+......+anxn)≥f(a1x1)+f(a2x2)+f(a3x3)+......+f(anxn)(β){f(a}_1x_1+a_2x_2+a_3x_3+......+a_nx_n)\geq f(a_1x_1)+f(a_2x_2)+f(a_3x_3)+......+f(a_nx_n)\ \ \ \ \ \ \ \ \ \ (\beta)f(a1​x1​+a2​x2​+a3​x3​+......+an​xn​)≥f(a1​x1​)+f(a2​x2​)+f(a3​x3​)+......+f(an​xn​)          (β)

琴生不等式在概率学中的应用

通过观察(α)(\alpha)(α)式左式(a1x1+a2x2+a3x3+......+anxn){(a}_1x_1+a_2x_2+a_3x_3+......+a_nx_n)(a1​x1​+a2​x2​+a3​x3​+......+an​xn​),我们知道∑i=1nan=1\sum_{i=1}^{n}a_n = 1∑i=1n​an​=1。符合随机变量X的概率方程。因此该式所表达的正好是随机变量XXX的期望,E(X)E(X)E(X)。
我们重写(α)(\alpha)(α)式,其中ppp代表probability:

f(p1x1+p2x2+p3x3+......+pnxn)≤f(p1x1)+f(p2x2)+f(p3x3)+......+f(pnxn){f(p}_1x_1+p_2x_2+p_3x_3+......+p_nx_n)\le f(p_1x_1)+f(p_2x_2)+f(p_3x_3)+......+f(p_nx_n)f(p1​x1​+p2​x2​+p3​x3​+......+pn​xn​)≤f(p1​x1​)+f(p2​x2​)+f(p3​x3​)+......+f(pn​xn​)

左式=f(∑i=1npnxn)=f(E(X))=f(\sum_{i=1}^{n}p_nx_n)=f(E(X))=f(∑i=1n​pn​xn​)=f(E(X))

右式=∑i=1npnf(xi)=E(f(X))=\sum_{i=1}^{n}{p_nf(x_i})=E(f(X))=∑i=1n​pn​f(xi​)=E(f(X))

综上且同理(β)(\beta)(β),我们可以得出以下结论。

结论三:对于凸函数,随机变量X∈[x1,xn]X∈[x_1,x_n]X∈[x1​,xn​],则在[x1,xn][x_1,x_n][x1​,xn​]区间内任意一点,f(E(x))≤E(f(x))f(E(x))\leq E(f(x))f(E(x))≤E(f(x))

结论四:对于凹函数,随机变量X∈[x1,xn]X∈[x_1,x_n]X∈[x1​,xn​],则在[x1,xn][x_1,x_n][x1​,xn​]区间内任意一点,f(E(x))≥E(f(x))f(E(x))\geq E(f(x))f(E(x))≥E(f(x))

琴生不等式的证明

我们可以用以下一般式来表达琴生不等式(以凸函数为例):

f(θx1+(1−θ)x2)≤θf(x1)+(1−θ)f(x2);θ∈[0,1]f(\theta x_1+(1-\theta)x_2)\le\theta f(x_1)+(1-\theta)f(x_2);\theta∈[0,1]f(θx1​+(1−θ)x2​)≤θf(x1​)+(1−θ)f(x2​);θ∈[0,1]

则:
f(x2−θ(x2−x1))≤f(x2)−θ(f(x2)−f(x1));θ∈[0,1]f(x_2-\theta(x_2-x_1))\le f(x_2)-\theta(f(x_2)-f(x_1));\theta∈[0,1]f(x2​−θ(x2​−x1​))≤f(x2​)−θ(f(x2​)−f(x1​));θ∈[0,1]
等式两边都只与θ\thetaθ有关,并且变化比例相同(下面给出证明)。

设x∗=x2−θ(x2−x1),x∗∈[x1,x2]x^*=x_2-\theta\left(x_2-x_1\right), x^*∈[x_1,x_2]x∗=x2​−θ(x2​−x1​),x∗∈[x1​,x2​]

设f(x)∗=f(x2)−θ(f(x2)−f(x1)),f(x)∗∈[f(x1),f(x2)]f(x)^*=f\left(x_2\right)-\theta(f\left(x_2\right)-f(x_1)), f(x)^*∈[f\left(x_1\right),f\left(x_2\right)]f(x)∗=f(x2​)−θ(f(x2​)−f(x1​)),f(x)∗∈[f(x1​),f(x2​)]

只需证明在下图中,lqlp=lalb\frac{l_q}{l_p}=\frac{l_a}{l_b}lp​lq​​=lb​la​​ 即可。
lqlp=x2−[x2−θ(x2−x1)][x2−θ(x2−x1)]−x1)=θ1−θ\frac{l_q}{l_p}=\frac{x_2-[x_2-θ(x_2-x_1)]}{[x_2-θ(x_2-x_1)]-x_1)}=\frac{θ}{1-θ}lp​lq​​=[x2​−θ(x2​−x1​)]−x1​)x2​−[x2​−θ(x2​−x1​)]​=1−θθ​
lalb=f(x2)−[f(x2)−θ(f(x2)−f(x1))][f(x2)−θ(f(x2)−f(x1))]−f(x1)=θ1−θ\frac{l_a}{l_b}=\frac{f(x_2)-[f(x_2)-θ(f(x_2)-f(x_1))]}{[f(x_2)-θ(f(x_2)-f(x_1))]-f(x_1)}=\frac{θ}{1-θ}lb​la​​=[f(x2​)−θ(f(x2​)−f(x1​))]−f(x1​)f(x2​)−[f(x2​)−θ(f(x2​)−f(x1​))]​=1−θθ​
证毕

上图所示,正是琴生不等式在凸函数上的证明:在随机变量x∗∈[x1,x2]x^*∈[x_1,x_2]x∗∈[x1​,x2​]的这个区间内任意一点向X轴引垂线,f(x∗)≤f(x)∗f\left(x^*\right)\ \le\ f(x)^*f(x∗) ≤ f(x)∗恒成立。

为什么非要强调是在同一条垂线上f(x∗)≤f(x)∗f\left(x_*\right)\ \le\ f(x)^*f(x∗​) ≤ f(x)∗呢,因为如果无法证明是在同一垂线上满足f(x∗)≤f(x)∗f\left(x^*\right)\ \le\ f(x)^*f(x∗) ≤ f(x)∗, 那么琴生不等式的≤\le≤就不一定成立。

下面给出f(x∗)f\left(x^*\right)f(x∗)与f(x)∗\ f(x)^* f(x)∗在一条垂线上的证明,证明两点是在同一条垂线上(采用反证法):
首先,过f(x)∗f(x)^*f(x)∗某点做一条X轴的平行线,交MN于点C,则得到∆NCD∗≅∆NMF∆ NCD^*≅∆ NMF∆NCD∗≅∆NMF,根据相似三角形定义,可得ab=NCCM\frac{a}{b}=\frac{NC}{CM}ba​=CMNC​;
其次,过x∗x^*x∗向Y轴作平行线,交MN于点O,则得到∆MOE≅∆MNF∆ MOE≅∆ MNF∆MOE≅∆MNF,相似三角形, 可证得, qp=NOOM\frac{q}{p}=\frac{NO}{OM}pq​=OMNO​。
接下, 只需要证明lqlp=lalb\frac{l_q}{l_p}=\frac{l_a}{l_b}lp​lq​​=lb​la​​即可, 在上一证明中,我们已经证得该结论,这里就不再做赘述。
综上所证: NCCM=NOOM\frac{NC}{CM}=\frac{NO}{OM}CMNC​=OMNO​,故点C于点O属于同一点。

注意 琴生不等式等号成立的条件:
只有当x1与x2x_1与x_2x1​与x2​重合,导致随机变量x∗x^*x∗变为一个定数,MN最终会成为凸函数上一个点,等号成立。

【机器学习】琴生不等式(Jensen's inequality)相关推荐

  1. 琴生不等式(Jensen Inequality)

    目录 不同表述形式 有限形式 测度与概率形式 在概率论中的广义形式 不等式证明 有限形式 测度和概率形式 概率论中的广义形式 不等式应用 在概率密度函数中的形式 随机变量的偶次矩 其他有限形式 统计物 ...

  2. 琴生不等式一般形式_[学习笔记]常用不等式

    1. 命题 左边等号成立当且仅当 ,右边等号成立当且仅当 . 2. 命题 等号成立当且仅当 . 3.命题 两边等号成立均当且仅当 . 4.命题 两边等号成立均当且仅当 . 推论 5. 命题 6. 不等 ...

  3. 【数学】凸函数与詹森不等式(琴生不等式)解析

    [数学]凸函数与詹森不等式(琴生不等式) 文章目录 [数学]凸函数与詹森不等式(琴生不等式) 1 凸函数和凹函数 2 琴生不等式(詹森不等式) 1 凸函数和凹函数 下凸函数(凸函数),从几何意义上看, ...

  4. Jensen不等式(琴生不等式)

    每次用的时候都得查,所以索性之际记录一下 注意凸函数的定义,上凸.下凸.凹.凸的含义是不同的 1.定义 Jensen不等式,又名琴森不等式或詹森不等式(均为音译).它是一个在描述积分的凸函数值和凸函数 ...

  5. 琴生不等式一般形式_001.二次函数、方程和不等式知识点

    学法指导:本专题讲授不等式内容,这部分内容是学生的难点,为此有几点说明: 1.把握好学习的难度.按教材内不等式部分展现的内容看,它很简单,但学过的知道,这部分内容很难,直白的讲,它要多难就有多难,当然 ...

  6. 凸函数与简森不等式(Jensen's inequality)

    0. 凸函数常见举例 负对数函数:−lnx-\ln x xlnxx\ln x(二阶导数为 1x\frac1x,恒为整数,因为定义域的关系) 1. 凸函数的判断准则 定义:f(λx+(1−λ)x2)≤λ ...

  7. Jensen‘s inequality

    若 f ( x ) f(x) f(x) 为凸函数 (convex),则 1 N ∑ n = 1 N f ( x n ) ≥ f ( 1 N ∑ n = 1 N x n ) \frac{1}{N}\su ...

  8. 赫尔德氏不等式(Holder‘s inequality)和柯西-施瓦茨不等式(Cauchy-Schwarz inequality)的证明

    摘抄自: Foundations of Machine Learning - second edition - Mehryar Mohri 等 -  page 410.

  9. EM算法:从极大似然估计导出EM算法(还算通俗易懂)

    之前看了<统计学习方法>,吴恩达老师的cs229讲义,一起看感觉很昏(如果要看建议选择其中一个,<统计学习方法>里面基本很少会写到 y i y_i yi​而都是用 Y Y Y只 ...

  10. 机器学习中的数学(上)

      上篇博文介绍了<机器学习之支持向量机>后发现利用到了梯度.凸优化.拉格朗日对偶性等数学问题.而且凸优化是本科非数学专业学不到的科目,所以这篇博文就要和大家分享一下机器学习中常用的数学概 ...

最新文章

  1. C#双面打印解决方法(打印word\excel\图片)
  2. ASP.NET 3.5揭秘-读书笔记1
  3. 2011年2月--2011年7月数据库性能优化过程
  4. Angular15 利用ng2-file-upload实现文件上传
  5. Griview中的删除按钮添加“确认提示”
  6. 系统学习机器学习之特征工程(二)--离散型特征编码方式:LabelEncoder、one-hot与哑变量*
  7. 魔方实时通信im组件
  8. 机器学习什么显卡_机器学习之多显卡加速运算(Pytorch版)
  9. PMP考试扫盲:超详细的PMP考试小白攻略,必看篇
  10. xshell5产品秘钥
  11. AMS分析 -- 启动过程
  12. 禅道怎样添加开发人员
  13. 02 | 给你一张知识地图,计算机组成原理应该这么学
  14. LOJ10102旅游航道
  15. Bayes‘ theorem贝叶斯定理(基础理论+心理学小例子)
  16. 【Python】将xls格式转换为xlsx格式
  17. CDC的DrawText
  18. 跟谁学 英语口语20090927疑问句
  19. Vue 2.0 升(cai)级(keng)之旅
  20. 微软技术大会-无人机为中国电信巡航基站

热门文章

  1. class文件加密和解密
  2. ios微信支付 内部服务器错误,iOS 微信支付报错 支付验证签名失败
  3. 你为什么需要认知升级?认知决定你的财富!
  4. 九步确定你的人生目标和制定达到目标的计划
  5. Local time zone must be set-see zic manual page
  6. java如何自定义注解
  7. 你不可不知的宇宙简史
  8. 怎么用微信打开链接才不会提示已停止访问网页
  9. 获取小程序码所携带的参数
  10. python项目实战:免费下载某平台任意付费音乐