从jensen不等式到相对熵的非负性性

 前言:在上上次博客我们证明观测到的归一化的频率就是最大似然估计的解时,我们用到了相对熵恒大于等于0的性质,那么本文就当是扩展一下知识,主要以证明和介绍为主。
  首先我们简要介绍一下熵的概念。“熵”这一概念并不仅仅存在于物理化学中,还应用于信息论中。熵是结果不确定度的一种度量。shannon熵定义为:
H(x)=−∑iP(xi)log⁡P(xi)H ( x ) = - \sum _ { i } P \left( x _ { i } \right) \log P \left( x _ { i } \right)H(x)=−∑i​P(xi​)logP(xi​)
其中X为随机变量,它在K个事件x1x_{1}x1​,x2x_{2}x2​,xkx_{k}xk​的离散集合上有概率P(xix_{i}xi​)
 ps:我们可以试着证明一下当其实均匀分布时,它的熵值最大。(思路提示:可以用用最小二乘法。具体详见下篇文章。)
  相对熵又称KL散度,信息散度,是两个概率分布间差异的非对称性度量。令P(X),Q(X)是随机变量X的概率分布,则在其实离散型随机变量的情况下,相对熵为:
H(P∥Q)=∑iP(xi)log⁡P(xi)Q(xi)H ( P \| Q ) = \sum _ { i } P \left( x _ { i } \right) \log \frac { P \left( x _ { i } \right) } { Q \left( x _ { i } \right) }H(P∥Q)=∑i​P(xi​)logQ(xi​)P(xi​)​
  故我们观察相对熵的形式可以发现,它可以看做是对数几率(计分矩阵中的分值)的期望,即将P(X)看做是在匹配模型M中的残基a,b的联配概率,而Q(X)看做是无关模型中的残基a,b的独立出现的概率。故相对熵可作为模型的期望分值。
  回归本文的主题,即证明相对熵的正定性。因为证明的过程中用到了jensen
不等式,所以我们先证明一下jensen不等式。
  jensen不等式在概率论、机器学习、测度论等有着广泛的应用。
 证明之前我们先了解凸函数的性质:
tf(x1)+(1−t)f(x2)≥f(tx1+(1−t)x2)t f \left( x _ { 1 } \right) + ( 1 - t ) f \left( x _ { 2 } \right) \geq f \left( t x _ { 1 } + ( 1 - t ) x _ { 2 } \right)tf(x1​)+(1−t)f(x2​)≥f(tx1​+(1−t)x2​)
x1x_{1}x1​,x2x_{2}x2​是凸函数上的任意两点,且t属于[0,1]

证明过程如下:
  若对于任意的点集{xix_{i}xi​},若λi\lambda_{i}λi​>0,且∑iλi=1\sum _ { i } \lambda _ { i } = 1∑i​λi​=1, 请证明凸函数f(x)满足:
f(∑i=1Mλixi)≤∑i=1Mλif(xi)f \left( \sum _ { i = 1 } ^ { M } \lambda _ { i } x _ { i } \right) \leq \sum _ { i = 1 } ^ { M } \lambda _ { i } f \left( x _ { i } \right)f(∑i=1M​λi​xi​)≤∑i=1M​λi​f(xi​)
数学归纳法进行证明:
当i=1或2时,由凸函数的性质一易知该不等式成立。
假设当i=M时,不等式成立。
现在证当i=M+1时,该不等式也成立。即证明: f(∑i=1M+1λixi)≤∑i=1M+1λif(xi)f \left( \sum _ { i = 1 } ^ { M+1 } \lambda _ { i } x _ { i } \right) \leq \sum _ { i = 1 } ^ { M+1 } \lambda _ { i } f \left( x _ { i } \right)f(∑i=1M+1​λi​xi​)≤∑i=1M+1​λi​f(xi​)  我们首先处理不等号左边的式子:
f(∑i=1M+1λixi)f \left( \sum _ { i = 1 } ^ { M+1} \lambda _ { i } x _ { i } \right)f(∑i=1M+1​λi​xi​) = f(∑i=1Mλixi+λM+1xM+1)f \left( \sum _ { i = 1 } ^ { M } \lambda _ { i } x _ { i } + \lambda _ { M + 1 } x _ { M+1 } \right)f(∑i=1M​λi​xi​+λM+1​xM+1​)
为了符合凸函数中t,(1-t)的形式,我们令ai=λi1−λM+1a _ { i } = \frac { \lambda _ { i } } { 1 - \lambda_{M+1}}ai​=1−λM+1​λi​​

故 f(∑i=1M+1λixi)f \left( \sum _ { i = 1 } ^ { M+1} \lambda _ { i } x _ { i } \right)f(∑i=1M+1​λi​xi​)=f(λM+1xM+1+(1−λM+1)∑i=1Maixi)f \left( \lambda _ { M + 1 } x _ { M + 1 } + \left( 1 - \lambda _ { M + 1 } \right) \sum _ { i = 1 } ^ { M } \ a _ { i } x _ { i } \right)f(λM+1​xM+1​+(1−λM+1​)∑i=1M​ ai​xi​)
所以根据凸函数的性质对等号右边的式子进一步处理可得:

f(∑i=1M+1λixi)≤λM+1f(xM+1)+(1−λM+1)f(∑i=1Maixi)f \left( \sum _ { i = 1 } ^ { M + 1 } \lambda _ { i } x _ { i } \right) \leq \lambda _ { M + 1 } f \left( x _ { M + 1 } \right) + \left( 1 - \lambda _ { M + 1 } \right) f \left( \sum _ { i = 1 } ^ { M } \ a _ { i } x _ { i } \right)f(∑i=1M+1​λi​xi​)≤λM+1​f(xM+1​)+(1−λM+1​)f(∑i=1M​ ai​xi​)
根据我们的假设当i=M,不等式成立得:
f(∑i=1maixi)⩽∑i=1Maif(xi)f \left( \sum _ { i = 1 } ^ { m } a _ { i } x _ { i } \right) \leqslant \sum _ { i = 1 } ^ { M } a _ { i } f \left( x _ { i } \right)f(∑i=1m​ai​xi​)⩽∑i=1M​ai​f(xi​)
所以将上一个式子带入上上个式子中得:
f(∑i=1M+1λixi)≤λM+1f(xM+1)+(1−λM+1)∑i=1Maif(xi)f \left( \sum _ { i = 1 } ^ { M + 1 } \lambda _ { i } x _ { i } \right) \leq \lambda _ { M + 1 } f \left( x _ { M + 1 } \right) + \left( 1 - \lambda _ { M + 1 } \right) \sum _ { i = 1 } ^ { M } a _ { i } f \left( x _ { i } \right)f(∑i=1M+1​λi​xi​)≤λM+1​f(xM+1​)+(1−λM+1​)∑i=1M​ai​f(xi​)

又因为ai=λi1−λM+1a _ { i } = \frac { \lambda _ { i } } { 1 - \lambda_{M+1}}ai​=1−λM+1​λi​​ 代入得:
f(∑i=1M+1λixi)⩽λM+1f(xM+1)+∑i=1Mλif(xi)f \left( \sum _ { i = 1 } ^ { M+1 } \lambda _ { i } x _ { i } \right) \leqslant \lambda _ { M + 1 } f \left( x _ { M+1 } \right) + \sum _ { i = 1 } ^ { M }\lambda_{i} f \left( x _ { i } \right)f(∑i=1M+1​λi​xi​)⩽λM+1​f(xM+1​)+∑i=1M​λi​f(xi​)=∑i=1M+1λif(xi)\sum _ { i = 1 } ^ { M+1 } \lambda _ { i } f \left( x _ { i } \right)∑i=1M+1​λi​f(xi​)
 因此当i=M+1时,jensen不等式亦成立。
综上,jensen不等式成立。同理可证,但函数为凹函数时,jensen不等式的符号相反。
 jensen不等式可以用来证明均值不等式、Holder不等式以及柯西不等式。同时jensen不等式可以用来证明相对熵的正定性。
All right, 我们已经证明了jensen不等式成立,可以放心的使用啦。
 相对熵的非负性性证明:
证明:H(P∥Q)=∑iP(xi)log⁡P(xi)Q(xi)H ( P \| Q ) = \sum _ { i } P \left( x _ { i } \right) \log \frac { P \left( x _ { i } \right) } { Q \left( x _ { i } \right) }H(P∥Q)=∑i​P(xi​)logQ(xi​)P(xi​)​ >=0
即证:-H(P∥Q)=∑iP(xi)log⁡P(xi)Q(xi)H ( P \| Q ) = \sum _ { i } P \left( x _ { i } \right) \log \frac { P \left( x _ { i } \right) } { Q \left( x _ { i } \right) }H(P∥Q)=∑i​P(xi​)logQ(xi​)P(xi​)​ <=0
即证: ∑iP(xi)log⁡Q(xi)+∑iP(xi)log⁡1P(xi)\sum _ { i } P \left( x _ { i } \right) \log Q \left( x _ { i } \right) + \sum _ { i } P \left( x _ { i } \right) \log \frac { 1 } { P \left( x _ { i } \right) }∑i​P(xi​)logQ(xi​)+∑i​P(xi​)logP(xi​)1​ <=0
因为将P(x)看做是自变量,故log⁡1P(xi)\log \frac { 1 } { P \left( x _ { i } \right) }logP(xi​)1​可看做是凹函数。
故在凹函数下,根据jensen不等式:
f(∑i=1Mλixi)⩽∑i=1Mλif(xi)f \left( \sum _ { i = 1 } ^ { M } \lambda _ { i } x _ { i } \right) \leqslant \sum _ { i = 1 } ^ { M } \lambda _ { i } f \left( x _ { i } \right)f(∑i=1M​λi​xi​)⩽∑i=1M​λi​f(xi​)
故:
∑iP(xi)log⁡1P(xi)\sum _ { i } P \left( x _ { i } \right) \log \frac { 1 } { P \left( x _ { i } \right) }∑i​P(xi​)logP(xi​)1​<=log⁡1\log1log1=0
即可证:
-H(P∥Q)=∑iP(xi)log⁡P(xi)Q(xi)H ( P \| Q ) = \sum _ { i } P \left( x _ { i } \right) \log \frac { P \left( x _ { i } \right) } { Q \left( x _ { i } \right) }H(P∥Q)=∑i​P(xi​)logQ(xi​)P(xi​)​ <=0
证得:
H(P∥Q)=∑iP(xi)log⁡P(xi)Q(xi)H ( P \| Q ) = \sum _ { i } P \left( x _ { i } \right) \log \frac { P \left( x _ { i } \right) } { Q \left( x _ { i } \right) }H(P∥Q)=∑i​P(xi​)logQ(xi​)P(xi​)​>=0

参考资料:刘勇. 关于詹森不等式证明不等式问题[J]. 科教文汇(29期):136-136.

从jensen不等式到相对熵的非负性性相关推荐

  1. 2022刘仲文程聪孙迎迎--用Jensen不等式证明相对熵的非负性

    学习内容:利用Jensen不等式证明相对熵的非负性,即: 相对熵的定义 Jensen不等式的内容 第一次证明: 第一次证明是无效的,首先是因为Jensen不等式的公式构造有误,不等号右边应为,其次使用 ...

  2. 最优化之凸集、凸函数、上确界、Jensen不等式、共轭函数、Fenchel不等式、拉格朗日乘子法、KKT条件

    最优化之凸集.凸函数.上确界.Jensen不等式.共轭函数.Fenchel不等式.拉格朗日乘子法.KKT条件.拉格朗日对偶 1.直线的向量表达 1.1 共线定理 对于任意两个向量a⃗,b⃗\vec{a ...

  3. Lyapunov-Krasovskii泛函中Jensen不等式和倒凸组合引理的运用

    Lyapunov-Krasovskii泛函中Jensen不等式和倒凸组合引理的运用 1 Lyapunov-Krasovskii泛函举例 2 Jensen不等式 3 倒凸组合引理 3.1 倒数凸组合定义 ...

  4. Jensen不等式、数值积分的变分界、KL散度

    Jensen不等式: Jensen's inequality 变分界:Variational bounding KL散度:KL-divergence Jesen不等式 如果fff是凸函数,则对于随机变 ...

  5. Jensen不等式(琴生不等式)

    每次用的时候都得查,所以索性之际记录一下 注意凸函数的定义,上凸.下凸.凹.凸的含义是不同的 1.定义 Jensen不等式,又名琴森不等式或詹森不等式(均为音译).它是一个在描述积分的凸函数值和凸函数 ...

  6. 正值实系数多项式函数所对应的导数累加和是否非负?

    简 介: 对于多项式导数累计的性质证明,告诉我们数学的证明与工程上的证明是多么大的区别.这道微积分的考试题目让我思考了一整天,只有看到网络上的证明才会有感到恍然大悟的感觉. 这个证明太绝妙了. 关键词 ...

  7. 图论(四)------非负权有向图的单源最短路径问题,Dijkstra算法

    Dijkstra算法解决了有向图G=(V,E)上带权的单源最短路径问题,但要求所有边的权值非负. Dijkstra算法是贪婪算法的一个很好的例子.设置一顶点集合S,从源点s到集合中的顶点的最终最短路径 ...

  8. 高精度加法(非负)和大数阶乘及和汽水问题

    高精度加法(非负)和大数阶乘 文章目录 高精度加法(非负)和大数阶乘 一.问题描述 二.代码 三.问题描述 四.代码 五.问题描述 六.代码 一.问题描述 二.代码 #define _CRT_SECU ...

  9. 17种常用的JS正则表达式 非负浮点数 非负正数

    <input type='text' id='SYS_PAGE_JumpPage' name='SYS_PAGE_JumpPage' size='3' maxlength='5' οnkeyup ...

  10. HDU 1422 重温世界杯 环形序列的最长非负连续子序列

    重温世界杯 Time Limit: 2000/1000 MS (Java/Others)    Memory Limit: 65536/32768 K (Java/Others) Total Subm ...

最新文章

  1. (深入理解)matplotlib的交互模式(block,interactive,ion,ioff,draw,show,plot等的区别)
  2. 解决python2和python3的pip冲突
  3. linux 软件安装 NOKEY问题
  4. 【python】nuitka封装python
  5. LeetCode Valid Sudoku
  6. 学习UpdatePanel控件
  7. 程序员不知道怎么和女生约会?进来看看这篇文章
  8. Android Intent组件使用
  9. python画图代码大全-Python科学画图代码分享
  10. pl/mysql安装_PL/SQL环境安装设置
  11. 蒙提霍尔问题(三门问题)的思考与贝叶斯分析
  12. linux系统服务器如何登陆,linux系统如何登录到远程linux服务器
  13. 基于PHP使用thinkphp开发的教学管理系统
  14. 洛马公司获得阿联酋“萨德”导弹防御系统支持合同-我爱无人机网
  15. 苹果电脑一直密码错误_您可能一直都在犯的安全和密码错误
  16. word2003流程图变成图片_Microsoft Office 2003(word2003)制作流程图的操作方法介绍
  17. html项目符号正方形,html 项目符号
  18. linux常用命令导图
  19. 国外的云服务器网站推荐哪一家(在国内可以直接上的那种)?
  20. SaaS 软件开发为企业数字化转型赋能

热门文章

  1. Matpower使用中问题
  2. Linux信号量以及互斥体
  3. eeglab绘制脑电头皮图、通道对应光谱图
  4. ZipArchive类操作
  5. php ziparchive 类不存在,php – 致命错误:类’ZipArchive’中找不到
  6. imewlconverter 制作Rime词库
  7. 腾讯浏览器(X5WebView的使用)
  8. Matlab和Fluent联合仿真实现涡激振动
  9. 基于预计算的全局光照技术
  10. 基于神经网络的PID控制,pid神经网络什么原理