机器之心转载

来源: 北京大学前沿计算研究中心

作者:许逸伦

本文是第八届国际表征学习会议 (ICLR 2020) 入选口头展示论文 (oral)《基于计算约束下的有用信息的信息论 (A Theory of Usable Information Under Computational Constraint)》的解读。该论文由北京大学 2016 级图灵班本科生许逸伦,斯坦福博士生 Shengjia Zhao, Jiaming Song, Russell Stewart,和斯坦福大学助理教授 Stefano Ermon 合作完成。在审稿阶段中,该论文获「满分」接收。

Arxiv Link: https://arxiv.org/abs/2002.10689

Openreview Link: https://openreview.net/forum?id=r1eBeyHFDH

背景

香农互信息(Mutual Information)是一套影响深远的理论,并且在机器学习中的表示学习(Representation Learning)、信息最大化(Informax)、对比预测性编码(Contrastive Predictive Coding)与特征性选择;和结构学习(Structure Learning)中的贝叶斯网络的构建,均有广泛应用。但香农信息论没有考虑很重要的计算约束方面的问题,并假设了我们有无穷的计算能力。为了突出这个问题,我们考虑以下这个密码学中的例子。

在我们的例子中,有一个带标注的明文数据集,同时有一个相对应的 RSA 加密后的秘文数据集。如果 RSA 的公钥已知,那么由于 RSA 是双射的,根据互信息在双射下的不变性,明文与秘文应该与其标注有着相同的互信息,如下图所示:

为了更直观地理解其中的不合理性,我们用相应的图片分别表示明文和秘文,如下图所示,加密后的图片看起来就像随机采样产生的噪声图片。

但是对于人类(或机器学习算法)来说,根据明文去预测标注显然比根据秘文去预测更容易。因此我们认为,在人类看来,明文与标注有着更大的互信息,但这与香农互信息矛盾。这个矛盾背后的原因正是因为香农互信息假设了观测者有无穷的计算能力,从而忽视了什么是对于观测者来说的有用信息。

另一个例子是,由香农互信息的数据处理不等式(data processing inequality)我们知道,神经网络的深层表示(CNN feature)与标注的互信息应少于原始输入与标注的互信息。但是在简单的分类器看来,深层表示与标注的互信息更大。

因此,香农互信息对无穷计算能力的假设与对基于观测者的有用信息的忽视带来了许多反直觉的例子。

除此之外,本文还证明了现有的对香农互信息的变分估计量(NWJ, MINE, CPC)或者有较大的方差,或者有较大的估计误差,比如 NJW 估计量的误差可以到互信息量的指数级别。

V-信息:一种新的信息论框架

基于以上提到的香农信息论的缺点,本文利用变分(variational)的思想提出了一种显示地考虑计算约束的信息量,并称之为 V(ariational)-information。

首先,我们定义一个大集合

这个集合包含所有把一个随机变量 X 的具体取值映射到另一个随机变量的取值域上的概率测度 P(Y)。

什么是计算约束呢?首先见下面我们对条件 V-熵(conditional V-entropy)的定义(其中我们省去了不重要的预测族(predictive family)的定义,它本质上是加了些正则条件,感兴趣的小伙伴可以看下原 paper):

定义(条件 V-熵):X, Y 是两个取值在 X, Y 的随机变量,V ⊆ Ω 是一个预测族,则条件 V-熵的定义为:

计算约束体现在观测者被限制为 V ⊆ Ω,即取全集 Ω 的一个子集合 V。由于 V ⊆ Ω,因此定义中的 f[x] 是一个概率测度,f[x](y) 是该概率测度(如概率密度函数)在 y 处的取值。

直观地来看,条件 V-熵是在观测到额外信息 X 的情况下,仅利用函数族 V 中的函数,去预测 Y 可以取到的期望下最小的负对数似然(negative log-likelihood)。同理定义 V-熵,也就是没有观测到额外信息(用 ∅ 表示)的情况下,利用 V 中的函数去预测 Y 可以取到的期望下最小的负对数似然。

下面我们展示,通过取不同的函数族 V,许多对不确定性的度量(如方差、平均绝对离差、熵)是 V-熵的特例:

接着类似于香农互信息的定义,我们利用 V-熵来定义 V-信息:

定义(V-信息):X, Y 是两个取值在 X, Y 的随机变量,V ⊆ Ω 是一个预测族,则 V-信息的定义为:

即从 X 到 Y 的 V-信息是 Y 的 V-熵在有考虑额外信息 X 的情况下的减少量。我们也证明了决定系数、香农互信息均为 V-信息在取不同函数族 V 下的特例。我们还证明了 V-信息的一些性质,比如单调性(取更大的函数族 V,V-信息也随之增大),非负性与独立性(X, Y 独立则 V-信息为 0)。

此外我们展示,通过显示地考虑计算约束,在 V-信息的框架下,计算可以增加 V-信息,即增加对观测者而言的有用信息:

同时,注意到 V-信息是非对称的,它可以很自然地用到一些因果发现或者密码学(如 one-way function)的场景中。

对 V-信息的估计

不同于香农互信息,在对函数族 V 的一些假设下,本文证明了 V-信息在有限样本上的估计误差是有 PAC 界的:

这个 PAC 界启发我们将 V-信息用于一些使用香农互信息的结构学习的算法中。我们发现这些之前在有限样本上没有保证的算法,迁移到 V-信息下就有了保证。比如 Chow-Liu 算法就是一例:

本文通过实验验证了新的基于 V-信息的算法构建 Chow-Liu Tree 的效果,优于利用现存最好的互信息估计量的 Chow-Liu 算法。

更多的实验

我们也将 V-信息用到了其他结构学习的任务中,如基因网络重建(下左图)和因果推断(下右图)。

注意到与一些非参数化的估计量(如 KSG, Partitioning 等)相比,我们的方法在低维基因网络的重建中取得了更好的效果。同时我们的方法在因果推断的实验中正确地重建了时序序列。在确定性的时序轨迹(deterministic dynamics)下,香农互信息是无法重建时序序列的。

最后,我们将 V-信息应用到公平表示(fairness)上。若 V_A, V_B 是两个不同的函数族,我们发现实现 V_A-信息最小化的公平表示不一定能泛化到 V_B-信息最小化。这一发现挑战了许多现有文献的结果。

总结

本文提出并探索了一种新的信息框架 V-信息。V-信息包含了许多现有的概念,并且有许多机器学习领域喜欢的性质,比如对信息处理不等式的违背与非对称性。V-信息可以被有保证地估计好,且在结构学习中有着优异的表现。

特别声明:以上文章内容仅代表作者本人观点,不代表新浪网观点或立场。如有关于作品内容、版权或其它问题请于作品发表后的30日内与新浪网联系。

非香农类信息不等式_ICLR2020|北大图灵班本科生满分论文:计算约束下有用信息的信息论...相关推荐

  1. 北大图灵班本科生获STOC最佳论文奖!这个对标清华姚班的人才计划,正在频频交出答卷...

    乾明 鱼羊 发自 凹非寺 量子位 报道 | 公众号 QbitAI ACM计算理论年会(STOC)正在线上举办中. 最新消息,一位江苏常州的小哥哥一口气中了2篇论文,还拿下了最佳论文奖. 而且他还是名本 ...

  2. 北大图灵班本科生带来动画CG福音,「最懂骨骼的卷积网络」,无需配对样本实现动作迁移 | SIGGRAPH...

    鱼羊 金磊 发自 凹非寺 量子位 报道 | 公众号 QbitAI 我有一个动画形象,我有一套人体动作,可想要把它们组合成真正的动画,可不是 1+1 这么简单. 别看这体型迥异的三位动作整齐划一,支撑动 ...

  3. 非香农类信息不等式_信息论——Kraft不等式以及变长编码定理

    上次介绍了香农无损编码定理以及一些不同类别的编码.这次介绍kraft不等式以及huffman编码,并且说明霍夫曼编码的最优性. Kraft不等式为前缀码约束条件.在前缀码中,显然不能使用所有的最短的码 ...

  4. 北大图灵班本科生吴克文获STOC 2020最佳论文奖

    来源|机器之心 今天,北京大学前沿计算研究中心官方公众号报道称,在全球计算机理论顶会 STOC 2020 上,北大本科生吴克文有两篇论文发表,其中一篇获得了最佳论文奖. 根据北京大学前沿计算研究中心官 ...

  5. 模拟水面表面张力,效果自然、真实,北大图灵班研究入选SIGGRAPH

    十分自然的表面张力模拟效果. 樱桃落在水面,你能分辨出这张图是真实还是模拟的吗? 因为表面张力的存在,落叶可浮于水面.水黾得以在水面爬行,这是十分自然的现象. 而计算机模拟表面张力,也可以达到十分真实 ...

  6. 姚班和北大计算机哪个更牛,北大图灵班与清华姚班到底选择哪一个?

    原标题:北大图灵班与清华姚班到底选择哪一个? 北京大学新开的"图灵班"!与清华大学"姚班"形成竞争之势.清北学堂信息学金牌教研团今天给您整理看看北大图灵班和清华 ...

  7. 3D人体模型自动生成算法,连肌肉颤动都清晰可见!一作来自北大图灵班

    子豪 发自 凹非寺 量子位 报道 | 公众号 QbitAI 我们在打游戏.看动漫的时候,遇到过不少这样的情况: 感觉哪里不太对-- 现在,这些3D人体模型可以得到改进了~体态更逼真.褶皱更自然.肌肉更 ...

  8. 北大图灵班对比清华计算机系,清华姚班闻名国内,却不知道北大有“图灵班”,实力不输清华...

    清华姚班闻名国内,却不知道北大有"图灵班",实力不输清华 自从计算机问世后,在世界各国发展中,这都是一项重要技术,在这个领域掌握了尖端技术,国家的发展将会很超前,科研是离不开计算机 ...

  9. 北大图灵班学子斩获全球竞赛本科生第一名,攻关EDA“卡脖子”技术难题

    近日,2022年度国际计算机学会(ACM)学生科研竞赛 (SRC) 全球总决赛获奖名单正式出炉!其中,来自北京大学图灵班的郭资政凭借其在芯片设计自动化(EDA)领域的贡献,斩获了本科生组全球第一名(F ...

最新文章

  1. FastCgi与PHP-fpm之间是个什么样的关系
  2. 【前端开发系列】—— 利用选择器添加内容
  3. 分布式之2PC与3PC提交协议
  4. 每天自动备份网站数据,发现问题一键恢复 ——阿里云虚拟主机推出网站数据自动备份功能...
  5. easyconnect获取服务端配置信息失败_图文解析 Nacos 配置中心的实现
  6. 21天jmeter打卡day6 配置元件之HTTP信息头+Cookie管理器
  7. ES6的开发环境搭建 1
  8. 动态IP或无公网IP时外网访问内网固定端口管家婆等应用
  9. 稳定的货源社区源码分享丨新版云乐购免费开源
  10. 完全卸载VS 2015各版本
  11. secureCRT 7.3.6 winxp版本
  12. 1.7 新概念 量词
  13. 电信猫大亚DB120-WG破解超级密码方法
  14. sigmod函数求导
  15. linux 内核调试 booting the kernel.,booting the kernel后无内核启动信息的调试方法
  16. U-Net: Convolutional Networks for Biomedical Image Segmentation论文翻译
  17. JQuery 添加元素(jquery对象),删除元素( .remove())
  18. css零到一基础教程009:CSS HSL 颜色
  19. 如何防止uniswap/pancakeswap被机器人夹
  20. [乐意黎原创] 2014年全国和云南省中级会计师成绩、分数段、过关率及年龄段统计分析

热门文章

  1. python使用openCV图像加载(转化为灰度图像)、使用filter2D函数对图像进行锐化(Sharpen Images)
  2. R语言配对图可视化:pivot_longer函数将宽格式的数据重塑为长格式并进行数据全连接和左连接(left join)、配对图可视化(根据分类变量的值为散点图上的数据点添加颜色)
  3. R语言ggplot2可视化移除多余的图例信息实战
  4. Python使用PIL将png图片转化为jpg图片
  5. python使用lassocv生成影像组学(radiomic)模型的系数表
  6. 偏依赖图(Partial Dependence Plots)是什么?排列重要性(Permutaion Importance)是什么?如何解读?有什么意义?
  7. 特征工程之统计变换:对数+百分位秩+取Rank+Tukey打分+BoxCox+Percentile Rank
  8. R语言 (温度 随时间变化)
  9. 战锤全面战争无法响应服务器,战锤:全面战争打不开 游戏无法启动解决办法...
  10. linux cuda 异常退出,cudaErrorCudartUnloading问题排查及建议方案