Jensen不等式简介及推导
目录
- Jensen不等式
- Jensen的推导
Jensen不等式
Jensen不等式,又名琴森不等式或詹森不等式(均为音译)。它是一个在描述积分的凸函数值和凸函数的积分值间的关系的不等式。它的一般形态是:
1.当且仅当f(x)f(x)f(x)为下凸函数时有
f(∑i=1nλixi)≤∑i=1nλif(xi),∑i=1nλi=1,λi≥0f(\sum_{i=1}^{n}\lambda_{i}x_{i})\leq \sum_{i=1}^{n}\lambda_{i}f(x_{i}) \quad ,\sum_{i=1}^{n}\lambda_{i}=1,\lambda_{i}\geq0f(i=1∑nλixi)≤i=1∑nλif(xi),i=1∑nλi=1,λi≥0
2.当且仅当f(x)f(x)f(x)为上凸函数时有
f(∑i=1nλixi)≥∑i=1nλif(xi),∑i=1nλi=1,λi≥0f(\sum_{i=1}^{n}\lambda_{i}x_{i})\geq \sum_{i=1}^{n}\lambda_{i}f(x_{i}) \quad ,\sum_{i=1}^{n}\lambda_{i}=1,\lambda_{i}\geq0f(i=1∑nλixi)≥i=1∑nλif(xi),i=1∑nλi=1,λi≥0
它的最简单形态是:
1.当且仅当f(x)f(x)f(x)为下凸函数时有
f(x1+x22)≤12f(x1)+12f(x2)f( \frac{x_{1}+x_{2}}{2})\leq \frac{1}{2}f(x_{1})+\frac{1}{2}f(x_{2})f(2x1+x2)≤21f(x1)+21f(x2)
2.当且仅当f(x)f(x)f(x)为上凸函数时有
f(x1+x22)≥12f(x1)+12f(x2)f( \frac{x_{1}+x_{2}}{2})\geq \frac{1}{2}f(x_{1})+\frac{1}{2}f(x_{2})f(2x1+x2)≥21f(x1)+21f(x2)
Jensen的推导
一般采用数学归纳法进行Jensen不等式的推导和证明。
以下凸函数为例,先看n=2n=2n=2时的情形。
当n=2n=2n=2时,有
f(λ1x1+λ2x2)≤λ1f(x1)+λ2f(x2),λ1+λ2=1f(\lambda_{1}x_{1}+\lambda_{2}x_{2})\leq\lambda_{1}f(x_{1})+\lambda_{2}f(x_{2})\quad ,\lambda_{1}+\lambda_{2}=1f(λ1x1+λ2x2)≤λ1f(x1)+λ2f(x2),λ1+λ2=1(这个易证,在最后给出证明。)
假设在n−1n-1n−1时依然有f(∑i=1n−1λixi)≤∑i=1n−1λif(xi),∑i=1n−1λi=1,λi≥0f(\sum_{i=1}^{n-1}\lambda_{i}x_{i})\leq \sum_{i=1}^{n-1}\lambda_{i}f(x_{i}) \quad ,\sum_{i=1}^{n-1}\lambda_{i}=1,\lambda_{i}\geq0f(i=1∑n−1λixi)≤i=1∑n−1λif(xi),i=1∑n−1λi=1,λi≥0成立
在nnn时
f(∑i=1nλixi)=f(∑i=1n−1λixi+λnxn)=f[(1−λn)xN+λnxn]≤(1−λn)f(xN)+λnf(xn),∑i=1nλi=1f(\sum_{i=1}^{n}\lambda_{i}x_{i})=f(\sum_{i=1}^{n-1}\lambda_{i}x_{i}+\lambda_{n}x_{n})=f[(1-\lambda_{n})x_{N}+\lambda_{n}x_{n}]\leq(1-\lambda_{n})f(x_{N})+\lambda_{n}f(x_{n})\quad ,\sum_{i=1}^{n}\lambda_{i} =1 f(i=1∑nλixi)=f(i=1∑n−1λixi+λnxn)=f[(1−λn)xN+λnxn]≤(1−λn)f(xN)+λnf(xn),i=1∑nλi=1
其中,
xN=∑i=1n−1mixi,∑i=1n−1mi=1;x_{N} =\sum_{i=1}^{n-1}m_{i}x_{i} ,\sum_{i=1}^{n-1}m_{i} =1;xN=i=1∑n−1mixi,i=1∑n−1mi=1;
(1−λn)mi=λi,i=1,2,...,n−1;(1-\lambda_{n})m_{i} =\lambda_{i},i=1,2,...,n-1;(1−λn)mi=λi,i=1,2,...,n−1;
从而,
(1−λn)∑i=1n−1mixi=∑i=1n−1λixi;(1-\lambda_{n})\sum_{i=1}^{n-1}m_{i}x_{i}=\sum_{i=1}^{n-1}\lambda_{i}x_{i};(1−λn)i=1∑n−1mixi=i=1∑n−1λixi;
(1−λn)∑i=1n−1mif(xi)=∑i=1n−1λif(xi);(1-\lambda_{n})\sum_{i=1}^{n-1}m_{i}f(x_{i})=\sum_{i=1}^{n-1}\lambda_{i}f(x_{i}); (1−λn)i=1∑n−1mif(xi)=i=1∑n−1λif(xi);
继续,
(1−λn)f(xN)+λnf(xn)=(1−λn)f(∑i=1n−1mixi)+λnf(xn)≤(1−λn)∑i=1n−1mif(xi)+λnf(xn)=∑i=1n−1λif(xi)+λnf(xn)=∑i=1nλif(xi)(1-\lambda_{n})f(x_{N})+\lambda_{n}f(x_{n})=(1-\lambda_{n})f(\sum_{i=1}^{n-1}m_{i}x_{i})+\lambda_{n}f(x_{n})\\ \leq (1-\lambda_{n})\sum_{i=1}^{n-1}m_{i}f(x_{i}) +\lambda_{n}f(x_{n})=\sum_{i=1}^{n-1}\lambda_{i}f(x_{i}) +\lambda_{n}f(x_{n})=\sum_{i=1}^{n}\lambda_{i}f(x_{i})\qquad\qquad(1−λn)f(xN)+λnf(xn)=(1−λn)f(i=1∑n−1mixi)+λnf(xn)≤(1−λn)i=1∑n−1mif(xi)+λnf(xn)=i=1∑n−1λif(xi)+λnf(xn)=i=1∑nλif(xi)
从而得到,
当且仅当f(x)f(x)f(x)为下凸函数时有
f(∑i=1nλixi)≤∑i=1nλif(xi),∑i=1nλi=1,λi≥0f(\sum_{i=1}^{n}\lambda_{i}x_{i})\leq \sum_{i=1}^{n}\lambda_{i}f(x_{i}) \quad ,\sum_{i=1}^{n}\lambda_{i}=1,\lambda_{i}\geq0f(i=1∑nλixi)≤i=1∑nλif(xi),i=1∑nλi=1,λi≥0
这一切的一切必须要在最开始n=2n=2n=2成立才可以得到这种结论。
现在证明n=2n=2n=2时的一般情形。
令g(λ)=λf(x1)+(1−λ)f(x2)−f[λx1+(1−λ)x2],λ∈[0,1]g(\lambda)=\lambda f(x_{1})+(1-\lambda) f(x_{2})-f[\lambda x_{1}+(1-\lambda)x_{2}]\quad ,\lambda \in [0,1]g(λ)=λf(x1)+(1−λ)f(x2)−f[λx1+(1−λ)x2],λ∈[0,1]
要证f(λ1x1+λ2x2)≤λ1f(x1)+λ2f(x2),λ1+λ2=1f(\lambda_{1}x_{1}+\lambda_{2}x_{2})\leq\lambda_{1}f(x_{1})+\lambda_{2}f(x_{2})\quad ,\lambda_{1}+\lambda_{2}=1f(λ1x1+λ2x2)≤λ1f(x1)+λ2f(x2),λ1+λ2=1
只需证:g(λ)≥0g(\lambda)\geq0g(λ)≥0即可。(这里λ=λ1,1−λ=λ2\lambda=\lambda_{1},1-\lambda=\lambda_{2}λ=λ1,1−λ=λ2)
现在来研究一下这个g(λ)g(\lambda)g(λ)函数
g′(λ)=f(x1)−f(x2)−f′[λx1+(1−λ)x2](x1−x2)g'(\lambda)=f(x_{1})-f(x_{2})-f'[\lambda x_{1}+(1-\lambda)x_{2}](x_{1}-x_{2})g′(λ)=f(x1)−f(x2)−f′[λx1+(1−λ)x2](x1−x2)
如果令g′(λ0)=0,λ0∈[0,1]g'(\lambda_{0})=0,\lambda_{0} \in [0,1]g′(λ0)=0,λ0∈[0,1]
可以得到一个关系式f′[λ0x1+(1−λ0)x2]=f(x1)−f(x2)x1−x2f'[\lambda_{0} x_{1}+(1-\lambda_{0})x_{2}]=\frac{f(x_{1})-f(x_{2})}{x_{1}-x_{2}}f′[λ0x1+(1−λ0)x2]=x1−x2f(x1)−f(x2)
其实这个式子表述的意义就是拉格朗日中值定理
但还不够,再求一阶导试试。
g′′(λ)=−f′′[λx1+(1−λ)x2](x1−x2)2g''(\lambda)=-f''[\lambda x_{1}+(1-\lambda)x_{2}](x_{1}-x_{2})^{2}g′′(λ)=−f′′[λx1+(1−λ)x2](x1−x2)2
我们知道,f(x)f(x)f(x)在这里是下凸的,意味着它的二阶导数在它的定义域内有f′′(x)≥0f''(x)\geq 0f′′(x)≥0
从而可以知道g′′(λ)≤0g''(\lambda)\leq 0g′′(λ)≤0
这说明g′(λ)g'(\lambda)g′(λ)在它的定义域内是一个单调递减函数
详细一点,g′(λ)≥0,当且仅当λ∈[0,λ0]g′(λ)≤0,当且仅当λ∈[λ0,1]g'(\lambda)\geq0,当且仅当\lambda \in[0,\lambda_{0}] \\ g'(\lambda)\leq0,当且仅当\lambda \in[\lambda_{0},1]g′(λ)≥0,当且仅当λ∈[0,λ0]g′(λ)≤0,当且仅当λ∈[λ0,1]
那么说明λ0\lambda_{0}λ0是g(λ)g(\lambda)g(λ)的极大值点,并且仅有这一个极大值点
则,
g(λ0)≥g(λ)≥min{g(0),g(1)}=0,λ∈[0,1]g(\lambda_{0}) \geq g(\lambda)\geq min\{g(0),g(1)\}=0\quad ,\lambda \in[0,1]g(λ0)≥g(λ)≥min{g(0),g(1)}=0,λ∈[0,1]
到此证明完成。
Jensen不等式简介及推导相关推荐
- 最优化之凸集、凸函数、上确界、Jensen不等式、共轭函数、Fenchel不等式、拉格朗日乘子法、KKT条件
最优化之凸集.凸函数.上确界.Jensen不等式.共轭函数.Fenchel不等式.拉格朗日乘子法.KKT条件.拉格朗日对偶 1.直线的向量表达 1.1 共线定理 对于任意两个向量a⃗,b⃗\vec{a ...
- Lyapunov-Krasovskii泛函中Jensen不等式和倒凸组合引理的运用
Lyapunov-Krasovskii泛函中Jensen不等式和倒凸组合引理的运用 1 Lyapunov-Krasovskii泛函举例 2 Jensen不等式 3 倒凸组合引理 3.1 倒数凸组合定义 ...
- 深度学习/机器学习入门基础数学知识整理(五):Jensen不等式简单理解,共轭函数
Jensen不等式及其延伸 凸函数最基本的不等式性质,又称Jensen不等式[1] f(θx+(1−θ)y)≤θ f(x)+(1−θ) f(y)f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y) ...
- 微积分中几个重要的不等式:Jensen不等式、平均值不等式、Holder不等式、Schwarz不等式、Minkovski不等式 及其证明
目录 一:几个重要不等式的形式 1,Jensen不等式 2,平均值不等式 3,一个重要的不等式 4,Holder不等式 5,Schwarz不等式 和 Minkovski不等式 二:不等式的证明 1 ...
- Hoeffding不等式简介
1 Hoeffding不等式 Hoeffding不等式是非常有用的一个不等式,在机器学习.统计学等领域,都发挥着巨大的作用. 它的思想与Markov不等式有些类似,我们先给出它的形式: Hoeffdi ...
- 2022刘仲文程聪孙迎迎--用Jensen不等式证明相对熵的非负性
学习内容:利用Jensen不等式证明相对熵的非负性,即: 相对熵的定义 Jensen不等式的内容 第一次证明: 第一次证明是无效的,首先是因为Jensen不等式的公式构造有误,不等号右边应为,其次使用 ...
- EM算法-Jensen不等式
凸函数定义: 设是定义在区间 = [a, b]上的实值函数.如果对于任意的和,下列式子成立,则称是上的凸函数. 如果上述不等式为小于,则为严格凸. 图示: [定理]Jensen不等式 设是定义在区间 ...
- Jensen不等式(琴生不等式)
每次用的时候都得查,所以索性之际记录一下 注意凸函数的定义,上凸.下凸.凹.凸的含义是不同的 1.定义 Jensen不等式,又名琴森不等式或詹森不等式(均为音译).它是一个在描述积分的凸函数值和凸函数 ...
- Jensen不等式、数值积分的变分界、KL散度
Jensen不等式: Jensen's inequality 变分界:Variational bounding KL散度:KL-divergence Jesen不等式 如果fff是凸函数,则对于随机变 ...
- 数学基础-Jensen不等式
杰森不等式(Jensen不等式) 函数fff为凸函数,那么存在下列不等式: f(θx+(1−θ)y)≤θf(x)+(1−θ)f(y)f(\theta x+(1-\theta)y)\le\theta f ...
最新文章
- Image deformation of AffineSimilarityRigidProjective
- C/C++指针使用常见的坑
- 关于学习Python的一点学习总结(22->相关的迭代操作)
- 百度地图的简单使用 ——html js
- python解一元二次方程步骤-Python实现求解一元二次方程的方法示例
- [转载] 七龙珠第一部——第094话 太阳拳
- 功能自动化工具watiJ(转载)
- 8086汇编贪吃蛇(随机食物+速度递增)
- 实战使用Axure设计App,使用WebStorm开发(4) – 实现页面UI
- devexpress 高分辨率显示问题_144Hz高刷+曲屏超2k 蚂蚁电竞显示器ANT271QC 小白到专业电竞跳板...
- 光储充一体化充电站_忙时给车充电 闲时上网供电 多能电动车充电站在乐清投用...
- 【北京迅为】i.MX6ULL终结者RS232驱动测试RS485测试
- 程炳皓:我不恨陈一舟 开心网做不好是我自己的问题
- 中国 Google 面试 7 轮,结果...
- python算法(基础)----无序列表抽象数据类型
- CSS解决英文自动换行问题
- remote: Support for password authentication was removed on August 13, 2021
- 用Office2016部署工具实现只安装自己需要的Office2016组件的方法
- Java BufferedImage转换为MultipartFile
- Apache Pulsar的Function流式计算框架使用