作者简介： 本文作者系大学统计学专业教师，多年从事统计学的教学科研工作，在随机过程、统计推断、机器学习领域有深厚的理论积累与应用实践。个人主页

熵与最大熵

一个例子

首先，让我们从一个经典的例子说明什么是熵(entropy). 假设有NNN个球放在KKK个盒子里。记第iii个盒子放进nin_ini个球，这样，∑i=1Kni=N\sum\limits_{i=1}^K n_i=Ni=1∑Kni=N. 将NNN个球放进KKK个盒子，总计有Ω\OmegaΩ种放法，那么
Ω=N!n1!n2!…nK!≃eNH\Omega=\dfrac{N!}{n_1!n_2!\dots n_K!}\simeq e^{NH}Ω=n1!n2!…nK!N!≃eNH
其中，H=−∑i=1KniNlog⁡niN≥0H=-\sum\limits_{i=1}^K\dfrac{n_i}{N}\log\dfrac{n_i}{N}\ge0H=−i=1∑KNnilogNni≥0
称数量HHH是排列熵(entropy of the arrangement)
注意到，pi=niNp_i=\dfrac{n_i}{N}pi=Nni表示某球放进第iii个盒子的概率。
∑i=1Kpi=1\sum\limits_{i=1}^K p_i=1i=1∑Kpi=1. 因此，HHH是{pi,i=1,2,…,K}\{p_i, i=1,2,\dots,K\}{pi,i=1,2,…,K}的函数，即，
H=−∑i=1Kpilog⁡piH=-\sum\limits_{i=1}^K p_i\log p_iH=−i=1∑Kpilogpi
设想，如果球是被随机放入盒子里的，那么，结果排列{n1,n2,…,nK}\{n_1,n_2,\dots, n_K\}{n1,n2,…,nK}倾向有一个较大的熵HHH. 最可能的排列{n1∗,n2∗,…,nK∗}\{n_1^*,n_2^*,\dots, n_K^*\}{n1∗,n2∗,…,nK∗}, 或者，等价的，{p1∗,p2∗,…,pK∗}\{p_1^*, p_2^*, \dots, p_K^*\}{p1∗,p2∗,…,pK∗}对应最大的熵。
根据这个例子，我们总结最大熵原理：推断具有某些约束条件的概率分布，选择最大值HHH的分布{pi∗s}\{p_i^*s\}{pi∗s}. 在上个例子里，最大熵分布(MaxEnt distribution)是均匀分布，即，pi∗=1/K,i=1,2,…,Kp_i^*=1/K, i=1,2,\dots,Kpi∗=1/K,i=1,2,…,K

生物学应用：推断基因互作网络

我们接上一个例子，假设NNN个球表示NNN个细胞样本，每个样本有完整的RNA表达谱。而KKK个盒子表示所有可能的表达谱。用向量x={xi,i=1,2,…,R}\mathrm{x}=\{x_i, i=1,2,\dots,R\}x={xi,i=1,2,…,R}表示RRR个基因的表达谱。这样，向量x\mathrm{x}x所有可能取值数就是KKK. 给定数据，即，测量的表达谱，我们要推断一个概率分布p(x)p(\mathrm{x})p(x), 满足：
(i) 无信息的最小偏差；
(ii) 一致的经验约束。
根据最大熵原理，这样的p(x)p(\mathrm{x})p(x)最大化熵
H=−∑xp(x)log⁡p(x)H=-\sum\limits_{x}p(x)\log p(x)H=−x∑p(x)logp(x)
可以证明，最大熵的概率分布
p∗(x)=1Zexp⁡{∑i=1Rβixi+∑i≤jγijxixj}p^*(\mathrm{x})=\dfrac{1}{Z}\exp\{{\sum\limits_{i=1}^R\beta_i x_i}+\sum\limits_{i\le j}\gamma_{ij}x_i x_j\}p∗(x)=Z1exp{i=1∑Rβixi+i≤j∑γijxixj}

Maxent 流程图

完

【Maxent】最大熵的数学原理及其在推断问题中的应用相关推荐

MaxEnt: 最大熵模型(Maximum Entropy Models)
转自:http://www.zhizhihu.com/html/y2011/3489.html 刚看完HMM,因为有个ME-HMM方法,所以再看看最大熵模型,最后再把CRF模型看看,这一系列理论大体消 ...
只知道GAN你就OUT了——VAE背后的哲学思想及数学原理
短短三年时间,变分编码器VAE(Variational Auto-encoder)同GAN一样,成为无监督复杂概率分布学习的最流行的方法.VAE之所以流行,是因为它建立在标准函数逼近单元,即神经网络, ...
谈谈密码学的数学原理
由电视剧<暗算>所想到的 - 谈谈密码学的数学原理前一阵子看了电视剧<暗算>,蛮喜欢它的构思和里面的表演.其中有一个故事提到了密码学,故事本身不错,但是有点故弄玄虚.不过有一 ...
三维投影总结：数学原理、投影几何、OpenGL教程、我的方法
如果要得到pose视图,除非有精密的测量方法,否则进行大量的样本采集时很耗时耗力的.可以采取一些取巧的方法,正如A Survey on Partial of 3d shapes,描述的,可以利用已得到 ...
【图像处理中的数学修炼（第1版）】总纲：详解图像背后的数学原理
数字图像处理技术的研究与开发对数学基础的要求很高,一些不断涌现的新方法中,眼花缭乱的数学推导令很多期待深入研究的人望而却步.一个正规理工科学生大致已经具备了包括微积分.线性代数.概率论在内的数学基础. ...
数学之美11--拼音输入法的数学原理
第21章拼音输入法的数学原理 1.输入法与编码: a.对汉字的编码分为两个部分: i.对拼音的编码 ii.对消除歧义的编码 b.拼音输入法的优势: i.不需要专门的学习 ii.输入自然,不会中断思维 ...
深入卷积神经网络背后的数学原理 | 技术头条
参加「CTA 核心技术及应用峰会」,请扫码报名 ↑↑↑ 作者 | Piotr Skalski 译者 | Monanfei 编辑 | 十月Rachel.Jane 出品 | AI科技大本营(id:rgzn ...
解析深度神经网络背后的数学原理！
作者 | Piotr Skalski 译者 | 巧克力编辑 | Jane 出品 | AI科技大本营 [导读]为了更好地理解神经网络的运作,今天只为大家解读神经网络背后的数学原理.而作者写这篇文章的目 ...
技术干货 | 如何选择上班路线最省时间？从A/B测试数学原理说起
作者 | 陈运文当面对众多选择时,如何选才能最大化收益(或者说最小化我们的开销)?比如,怎么选择最优的上班的路线才能使途中花费的时间最少?假设每天上下班路线是确定的,我们便可以在账本中记下往返路线的 ...

【Maxent】最大熵的数学原理及其在推断问题中的应用

熵与最大熵

一个例子

生物学应用：推断基因互作网络

Maxent 流程图

【Maxent】最大熵的数学原理及其在推断问题中的应用相关推荐

最新文章

热门文章