【Maxent】最大熵的数学原理及其在推断问题中的应用
作者简介: 本文作者系大学统计学专业教师,多年从事统计学的教学科研工作,在随机过程、统计推 断、机器学习领域有深厚的理论积累与应用实践。个人主页
熵与最大熵
一个例子
首先,让我们从一个经典的例子说明什么是熵(entropy
). 假设有NNN个球放在KKK个盒子里。记第iii个盒子放进nin_ini个球,这样,∑i=1Kni=N\sum\limits_{i=1}^K n_i=Ni=1∑Kni=N. 将NNN个球放进KKK个盒子,总计有Ω\OmegaΩ种放法,那么
Ω=N!n1!n2!…nK!≃eNH\Omega=\dfrac{N!}{n_1!n_2!\dots n_K!}\simeq e^{NH}Ω=n1!n2!…nK!N!≃eNH
其中,H=−∑i=1KniNlogniN≥0H=-\sum\limits_{i=1}^K\dfrac{n_i}{N}\log\dfrac{n_i}{N}\ge0H=−i=1∑KNnilogNni≥0
称数量HHH是排列熵(entropy of the arrangement)
注意到,pi=niNp_i=\dfrac{n_i}{N}pi=Nni表示某球放进第iii个盒子的概率。
∑i=1Kpi=1\sum\limits_{i=1}^K p_i=1i=1∑Kpi=1. 因此,HHH是{pi,i=1,2,…,K}\{p_i, i=1,2,\dots,K\}{pi,i=1,2,…,K}的函数,即,
H=−∑i=1KpilogpiH=-\sum\limits_{i=1}^K p_i\log p_iH=−i=1∑Kpilogpi
设想,如果球是被随机放入盒子里的,那么,结果排列{n1,n2,…,nK}\{n_1,n_2,\dots, n_K\}{n1,n2,…,nK}倾向有一个较大的熵HHH. 最可能的排列{n1∗,n2∗,…,nK∗}\{n_1^*,n_2^*,\dots, n_K^*\}{n1∗,n2∗,…,nK∗}, 或者,等价的,{p1∗,p2∗,…,pK∗}\{p_1^*, p_2^*, \dots, p_K^*\}{p1∗,p2∗,…,pK∗}对应最大的熵。
根据这个例子,我们总结最大熵原理:推断具有某些约束条件的概率分布,选择最大值HHH的分布{pi∗s}\{p_i^*s\}{pi∗s}. 在上个例子里,最大熵分布(MaxEnt distribution
)是均匀分布,即,pi∗=1/K,i=1,2,…,Kp_i^*=1/K, i=1,2,\dots,Kpi∗=1/K,i=1,2,…,K
生物学应用:推断基因互作网络
我们接上一个例子,假设NNN个球表示NNN个细胞样本,每个样本有完整的RNA表达谱。而KKK个盒子表示所有可能的表达谱。用向量x={xi,i=1,2,…,R}\mathrm{x}=\{x_i, i=1,2,\dots,R\}x={xi,i=1,2,…,R}表示RRR个基因的表达谱。这样,向量x\mathrm{x}x所有可能取值数就是KKK. 给定数据,即,测量的表达谱,我们要推断一个概率分布p(x)p(\mathrm{x})p(x), 满足:
(i) 无信息的最小偏差;
(ii) 一致的经验约束。
根据最大熵原理,这样的p(x)p(\mathrm{x})p(x)最大化熵
H=−∑xp(x)logp(x)H=-\sum\limits_{x}p(x)\log p(x)H=−x∑p(x)logp(x)
可以证明,最大熵的概率分布
p∗(x)=1Zexp{∑i=1Rβixi+∑i≤jγijxixj}p^*(\mathrm{x})=\dfrac{1}{Z}\exp\{{\sum\limits_{i=1}^R\beta_i x_i}+\sum\limits_{i\le j}\gamma_{ij}x_i x_j\}p∗(x)=Z1exp{i=1∑Rβixi+i≤j∑γijxixj}
Maxent 流程图
完
【Maxent】最大熵的数学原理及其在推断问题中的应用相关推荐
- MaxEnt: 最大熵模型(Maximum Entropy Models)
转自:http://www.zhizhihu.com/html/y2011/3489.html 刚看完HMM,因为有个ME-HMM方法,所以再看看最大熵模型,最后再把CRF模型看看,这一系列理论大体消 ...
- 只知道GAN你就OUT了——VAE背后的哲学思想及数学原理
短短三年时间,变分编码器VAE(Variational Auto-encoder)同GAN一样,成为无监督复杂概率分布学习的最流行的方法.VAE之所以流行,是因为它建立在标准函数逼近单元,即神经网络, ...
- 谈谈密码学的数学原理
由电视剧<暗算>所想到的 - 谈谈密码学的数学原理 前一阵子看了电视剧<暗算>,蛮喜欢它的构思和里面的表演.其中有一个故事提到了密码学,故事本身不错,但是有点故弄玄虚.不过有一 ...
- 三维投影总结:数学原理、投影几何、OpenGL教程、我的方法
如果要得到pose视图,除非有精密的测量方法,否则进行大量的样本采集时很耗时耗力的.可以采取一些取巧的方法,正如A Survey on Partial of 3d shapes,描述的,可以利用已得到 ...
- 【图像处理中的数学修炼(第1版)】总纲:详解图像背后的数学原理
数字图像处理技术的研究与开发对数学基础的要求很高,一些不断涌现的新方法中,眼花缭乱的数学推导令很多期待深入研究的人望而却步.一个正规理工科学生大致已经具备了包括微积分.线性代数.概率论在内的数学基础. ...
- 数学之美11--拼音输入法的数学原理
第21章 拼音输入法的数学原理 1.输入法与编码: a.对汉字的编码分为两个部分: i.对拼音的编码 ii.对消除歧义的编码 b.拼音输入法的优势: i.不需要专门的学习 ii.输入自然,不会中断思维 ...
- 深入卷积神经网络背后的数学原理 | 技术头条
参加「CTA 核心技术及应用峰会」,请扫码报名 ↑↑↑ 作者 | Piotr Skalski 译者 | Monanfei 编辑 | 十月Rachel.Jane 出品 | AI科技大本营(id:rgzn ...
- 解析深度神经网络背后的数学原理!
作者 | Piotr Skalski 译者 | 巧克力 编辑 | Jane 出品 | AI科技大本营 [导读]为了更好地理解神经网络的运作,今天只为大家解读神经网络背后的数学原理.而作者写这篇文章的目 ...
- 技术干货 | 如何选择上班路线最省时间?从A/B测试数学原理说起
作者 | 陈运文 当面对众多选择时,如何选才能最大化收益(或者说最小化我们的开销)?比如,怎么选择最优的上班的路线才能使途中花费的时间最少?假设每天上下班路线是确定的,我们便可以在账本中记下往返路线的 ...
最新文章
- “12306” 是如何支撑百万 QPS 的?
- 不同测试阶段,不同测试类型的区别于联系
- wpf中把按钮变成圆角
- HDFS High Availability体系介绍(Using the Quorum Journal Manager)
- java微调器_java-更改微调器标题栏样式
- 检测是否安装了 .NET Framework 3.5
- 入选《PHP领域内容榜》,感谢CSDN,感谢各位浏览过我的朋友
- access建立er图_Visio绘制ER图教程
- 首月流水2.39亿美元,《原神》的发行策略是什么?
- 云平台与操作系统两种架构的分析
- 苹果手机怎么验证app_苹果序列号查询 未验证怎么办?
- linux从新建命令窗口快捷键,tmux 常用命令及快捷键
- arduino 矩阵肩膀_表情矩阵——卖萌无需多言(arduino)
- ts的.d.ts和declare究竟是干嘛用的
- 使用大白菜装win10系统的常见问题解决方案
- utf8汉字编码16进制对照
- hive安装mysql_Hive安装MySql
- 大学计算机基础感兴趣的知识点,大学计算机基础课程改革和实施.doc
- 误删桌面文件如何恢复?
- Android预装第三方app