香农辅助定理、KL散度和Jensen不等式
香农辅助定理、KL散度和Jensen不等式
- 香农辅助定理
- KL散度
- 琴生(Jensen)不等式
香农辅助定理
对于任意两个信息数相同的信源XXX和YYY。有
−∑i=1Np(xi)log2p(xi)≤−∑i=1Np(xi)log2p(yi)-\sum_{i=1}^N p(x_i)\log_2p(x_i) \leq -\sum_{i=1}^N p(x_i)\log_2p(y_i) −i=1∑Np(xi)log2p(xi)≤−i=1∑Np(xi)log2p(yi)
其中∑i=1Np(xi)=∑i+1Np(yi)=1\sum_{i=1}^N p(x_i)=\sum_{i+1}^N p(y_i)=1∑i=1Np(xi)=∑i+1Np(yi)=1
通俗的来说,任一概率分布对其他概率分布的自信息量取数学期望,必大于等于本身的熵,当且仅当XXX和YYY的概率分布完全相同时取等号。不等式的左边是XXX的信源熵,即无损压缩条件下的最短平均编码长度。不等式的右侧,以信源YYY的概率分布p(y)p(y)p(y)得到的最优编码,来为概率分布为p(x)p(x)p(x)的信源XXX的字符进行编码而计算得的平均码长。
KL散度
KL散度又称为相对熵,是用来体现两个概率分布之间差别的非对称性度量,即KL(P∣∣Q)≠KL(Q∣∣P)KL(P||Q)\neq KL(Q||P)KL(P∣∣Q)=KL(Q∣∣P)。相对熵可以作为一些优化算法的损失函数来度量模型概率分布和真实分布之间的差距。
设P(x)P(x)P(x)和Q(x)Q(x)Q(x)是随机变量XXX上的两个概率分布,则在离散和连续的情况下,KL散度的定义为:
KL(P∣∣Q)=∑P(x)lnP(x)Q(x)KL(P∣∣Q)=∫P(x)lnP(x)Q(x)dxKL(P||Q)=\sum P(x) \ln \frac{P(x)}{Q(x)}\\ KL(P||Q)=\int P(x)\ln\frac{P(x)}{Q(x)}dx KL(P∣∣Q)=∑P(x)lnQ(x)P(x)KL(P∣∣Q)=∫P(x)lnQ(x)P(x)dx
值得注意的是,香农辅助定理稍加变形就成为了KL散度的形式:
−∑i=1Np(xi)log2p(xi)≤−∑i=1Np(xi)log2p(yi)∑i=1Np(xi)log2p(xi)p(yi)≥01ln2×∑i=1Np(xi)lnp(xi)p(yi)≥0∑i=1Np(xi)lnp(xi)p(yi)≥0-\sum_{i=1}^{N} p(x_i)\log_2p(x_i) \leq -\sum_{i=1}^N p(x_i)\log_2p(y_i) \\ \sum_{i=1}^Np(x_i)\log_2\frac{p(x_i)}{p(y_i)} \geq 0\\ \frac{1}{\ln2} \times \sum_{i=1}^Np(x_i)\ln\frac{p(x_i)}{p(y_i)}\geq 0\\ \sum_{i=1}^Np(x_i)\ln\frac{p(x_i)}{p(y_i)}\geq 0 −i=1∑Np(xi)log2p(xi)≤−i=1∑Np(xi)log2p(yi)i=1∑Np(xi)log2p(yi)p(xi)≥0ln21×i=1∑Np(xi)lnp(yi)p(xi)≥0i=1∑Np(xi)lnp(yi)p(xi)≥0
所以,证明香农辅助定理等价于证明KL散度为正值。
琴生(Jensen)不等式
首先说明一点,本文所说的凸函数和凹函数采用的是国际上的习惯称呼。以一元函数为例,曲线往下凸的函数称为凸函数,曲线往上凸的称为凹函数。这与国内教材的习惯相反。
Jensen不等式是关于凸函数性质的不等式,也可以类推得到关于凹函数性质的不等式。对于凸函数曲线f(x)f(x)f(x)而言,有
tf(x1)+(1−t)f(x2)≥f(tx1+(1−t)x2)0≤t≤1tf(x_1)+(1-t)f(x_2) \geq f(tx_1+(1-t)x_2)\\ 0\leq t\leq1 tf(x1)+(1−t)f(x2)≥f(tx1+(1−t)x2)0≤t≤1
这是Jensen不等式的两点形式。
对于任意点集{xi}\{x_i\}{xi},若λi≥0,∑λi=1\lambda_i\geq0,\sum \lambda_i=1λi≥0,∑λi=1,f(x)f(x)f(x)是凸函数,有
f(∑λixi)≤∑λif(xi)f(\sum\lambda_ix_i)\leq\sum\lambda_if(x_i) f(∑λixi)≤∑λif(xi)
此结论是Jensen不等式两点形式的推广,可以由数学归纳法简单证明。当λi\lambda_iλi取p(xi)p(x_i)p(xi)时,上式变为:
f(E(x))≤E(f(x))f(E(x))\leq E(f(x)) f(E(x))≤E(f(x))
应用微分的思想,可以由离散形式的Jensen不等式转变为连续形式。若∫g(x)=1,g(x)≥0\int g(x)=1,g(x)\geq0∫g(x)=1,g(x)≥0且f(x)f(x)f(x)是凸函数。有
f(∫g(x)h(x)dx)≤∫g(x)f(h(x))dxf(\int g(x) h(x) dx)\leq\int g(x)f(h(x))dx f(∫g(x)h(x)dx)≤∫g(x)f(h(x))dx
这是Jensen不等式的一般形式,对于凹函数只需要变号即可。
应用Jensen不等式可以快速证明KL散度非负,即香农辅助定理成立,无需赘言。
香农辅助定理、KL散度和Jensen不等式相关推荐
- 香农采样定理和奈奎斯特采样定理
香农(Shannon)采样定理和奈奎斯特(Nyquist)采样定理是数字信号处理中两个重要的定理,它们都与信号的采样和重构有关. 香农采样定理(Shannon Sampling Theorem): 香 ...
- 浅谈 Nyquist–Shannon(奈奎斯特-香农)采样定理
Nyquist–Shannon sampling theorem 总结自:采样定理 Nyquist–Shannon(奈奎斯特-香农)采样定理是数字信号处理领域中的一个定理,它是连接连续时间信号和离散时 ...
- 图像处理中的香农采样定理
图像处理和信号处理中涉及到香农采样定理,为什么高于最高频率的二倍能够正确完整的复原图像或信号呢?这个定理要从两方面理解 第一,你所采样的信号能否变换成多个正余弦信号的叠加,有的同学说,再高的频率采集也 ...
- 香农采样定理及其证明
首先对采样最直观的理解就是,如果采样时间间隔过长那么采样得到的信号将不能重构出原信号.也就是说采样时间间隔越短越好,然而由于物理器件的性能,所以需要知道一个采样时间间隔的阈值.超过这个阈值原信号能够完 ...
- 关于傅里叶分析与香农采样定理
主要内容: 1.傅里叶分析 2.香农采样定理 一.傅里叶变换 参考: 傅里叶分析之掐死教程 http://zhuanlan.zhihu.com/wille/19763358 二.香农采样定理 香农采样 ...
- 奈奎斯特–香农采样定理
奈奎斯特–香农采样定理 --摘选自维基百科 在数字信号处理领域,采样定理是连续信号(通常称作"模拟信号")与离散信号(通常称作"数字信号")之间的一个基本桥梁. ...
- 对香农采样定理的理解
在学习课程<计算机控制技术>时,第二章讲到了香农采样定理.有一些疑惑:从公式的推导上易得一个非周期的信号经过一定频率的采样后,在频率上变成了一个周期的频谱信号,但是一直都不大清楚其具体的物 ...
- 傅里叶变换与香农采样定理学习笔记
1. 傅里叶变换入门 无公式,最直观了解什么是傅里叶变换? 傅里叶分析之掐死教程(完整版)更新于2014.06.06 数学公式基础推导出傅里叶变换与反变换 纯干货数学推导_傅里叶级数与傅里叶变换_Pa ...
- 信息论与编码_香农三大定理
离散平稳无记忆序列变长编码定理(无失真信源编码定理.香农第一定理): 香农第一定理是克劳德·香农在 1948 年提出的,它指出,对于任何一个给定的信息源,其信息熵(即信息的期望值)是有限的,并且信息熵 ...
- 奈奎斯特定理和香农第二定理
奈奎斯特定理:若信道带宽为W,则最大码元速率R=2W. 理想情况下,时域码元主瓣长度的倒数为W,频域基带带宽只需要W,而时域码元速率可以达到2W . 讲奈奎斯特定理,先讲一下门函数和Sa函数的傅里叶变 ...
最新文章
- cocos2d中CCAnimation的使用(cocos2d 1.0以上版本)
- 划时代的项目管理核心引擎——DynamicGantt 动态图甘特图
- 垃圾热解气化工艺的电气、仪表及控制系统设计
- 复旦大学吴立德《数值优化》、《深度学习》和
- SAP ABAP实用技巧介绍系列之 XSLT copy和copy-of
- csdn图片排版技巧
- 7-4 组从配置-操作
- linux的shell键盘输入,linux shell获取键盘输入
- Atitit 性能提升总结 流水线模式 FutureTask ForkJoinTask 1.1. 流水线工作方式pipeline	1 1.2. FutureTask模式使用异步 流水线 还有多
- Python matplotlip画多张图
- Word文档中统一字符串八大妙法(转)
- ssd测试软件和实际 速度,固态硬盘实际速度比拼_三星 300E5K-Y05_笔记本评测-中关村在线...
- 新仙剑奇侠传java,新仙剑奇侠传问题
- 【CISSP备考】第七章-安全运营
- 剧情/惊悚基因危机:天才科学家的五日
- sql 注入_商洛学院司徒荆_新浪博客
- Traffic Flow Forecasting with Spatial-Temporal Graph Diffusion Network
- SnowNLP实现情感分析(今日头条用户评论为数据源)
- jQuery速记Ajax方法简介
- get Windows主机号的方法~