点击上方“AI遇见机器学习”,选择“星标”公众号
重磅干货,第一时间送达
来自:机器之心

这篇博士论文在 Tishby 的指导下完成,汇集了师徒二人及其他合著者在深度学习 + 信息论领域的研究成果,非常值得一读。

深度学习的黑箱属性一直为人所诟病,很多研究者都在努力解决这一问题。其中,用信息论来提高深度神经网络的可解释性是一个非常有趣的方向。

在这个方向上,「信息瓶颈」提出者、希伯来大学计算机科学教授 Naftali Tishby 及其学生的论文属于必读文献。

2015 年,Tishby 和他的学生 Noga Zaslavsky 发表了一篇论文,假设深度学习是一个信息瓶颈程序,尽可能地压缩数据噪声,保留数据想表达的信息。也就是说,神经网络就像把信息挤进瓶颈一样,只留下与一般概念最为相关的特征,去掉大量无关的噪音数据。

2017 年,Tishby 和他的另一个学生 Ravid Shwartz-Ziv 联合进行了一场引入注目的实验,揭示了发生在深度学习之中的挤压过程,表明深度神经网络在压缩状态中提高泛化能力,从而更加擅长标记测试数据。这篇论文就是大名鼎鼎的《 Opening the black box of Deep Neural Networks via Information 》。深度学习先驱 Geoffrey Hinton 在听了 Tishby 的报告之后给他发了邮件:「信息瓶颈极其有趣,我要再听一万遍才能真正理解它,当今能听到如此原创的想法非常难得,或许它就是解开谜题的那把钥匙。」纽约大学心理学和数据科学助理教授 Brenden Lake 也认为,Tishby 的研究成果是「打开神经网络黑箱的重要一步」。

在这篇论文之后,Tishby 及其学生继续在深度学习 + 信息论的方向上深入研究。但不幸的是,Tishby 于去年 8 月份离世,剩下的问题只能交给后人来探索。

在 Tishby 去世的这年,Ravid Shwartz-Ziv 完成了他的博士论文 ——《 Information Flow in Deep Neural Networks 》。

这篇论文在 Tishby 的指导下完成,汇集了师徒二人及其他合著者在深度学习 + 信息论领域的研究成果,非常值得一读。

最近,Ravid Shwartz-Ziv 表示,他已经将该论文上传到了 arXiv。

论文链接:https://arxiv.org/pdf/2202.06749.pdf

以下是论文的大致内容。

Ravid Shwartz-Ziv 的博士论文

尽管深度神经网络已经取得了巨大的成功,但我们还没有一个全面的理论来解释这些网络如何工作或如何构造。深度网络通常被视为黑盒,我们无法清楚地解释它们的预测结果或可靠性。如今,了解深度神经网络的突破性性能是科学界面临的最大挑战之一。为了更有效地使用这些算法并改进它们,我们需要了解它们的动态行为(dynamic behavior)以及它们学习新表示的能力。

在这篇博士论文中,作者应用了信息论中的原理和技术来解决上述问题,以提高我们的理论理解,并运用这一理解来设计更好的算法。

论文的主要成果和贡献可以分为三个部分,具体如下:

第二章和第三章介绍了作者针对深度学习模型提出的信息论方法

作为对深度学习系统的解释,作者提出使用信息瓶颈(IB)理论。这种分析网络的新范式揭示了它们的分层结构、泛化能力和学习动态。基于这一分析,作者发现深度网络优化了每一层关于输入和输出变量的互信息,导致每一层都要在压缩和预测之间做出权衡。作者对这些网络的分析和数值研究表明,随机梯度下降算法遵循 IB 权衡原则,分两个阶段工作:快速经验误差最小化阶段和慢速表示压缩阶段。这些阶段通过每层不同的信噪比(SNR)来区分。

此外,他们证明了 SGD 由于压缩阶段而达到了这个最优界限,并在表示压缩上导出了一个新的高斯界限,同时将其与压缩时间联系起来。他们的结果还表明,网络的层收敛到 IB 理论界限,导致编码器和解码器分布之间的自洽关系。

第四章讨论了将 IB 应用于深度神经网络时最困难的问题之一 —— 估计高维空间中的互信息

尽管互信息在数据科学中是一个重要的量,但它在计算方面一直很有挑战性。互信息的计算只适用于离散变量或已知概率分布的有限数量的问题。为了更好地估计信息论数量(information-theoretic quantities)并研究泛化信号,作者研究了几个框架,并利用了最近的理论研究成果,如神经正切核(NTK)框架。

在研究中,他们发现,对于无限宽的神经网络的无限集合,他们可以获得许多信息论数量及其边界的易处理的计算。许多量可以通过网络的核(kernel)以封闭形式的解来描述。通过分析这些内容,我们可以了解网络的重要信息论数量,以及压缩、泛化和样本大小之间的关系。

第五章介绍了一个新的信息论框架 —— 双重信息瓶颈(dualIB)

尽管 IB 框架有很多优点,但它也有几个缺点:IB 是完全非参数化的,并且只在概率空间上运行。此外,IB 公式不涉及预测未见模式的任务,并假定能够完全获取联合概率。因此,作者开发了 dualIB,它仅通过在失真函数中的项之间进行切换来解决 IB 的一些缺点。dualIB 可以解释数据的已知特征,并使用它们对未知的例子做出更好的预测。作者提供了 dualIB 自洽方程,该方程允许他们获得解析解。局部稳定性分析揭示了解的临界点的潜在结构,产生了最佳模式表示的完整分叉图。

他们发现了 dualIB 目标的几个有趣的性质。首先,当以参数化形式表达时,dualIB 保留其结构。它还优化了平均预测误差指数,从而提高了关于样本大小的预测精度。除了 dualIB 的解析解,他们还提供了一个变分 dualIB 框架,该框架使用深度神经网络来优化泛函。该框架实现了真实世界数据集的 dualIB 的实现。通过它,作者对其动态变化进行了实验评估,并验证了现代深度神经网络的理论预测。

总之,该论文提出了一个新的信息论视角来研究深度神经网络,它利用了深度学习和 IB 框架之间的对应关系。这一独特的视角可以提供许多好处,比如对深度神经网络有更深入的理解,解释它们的行为,并改善它们的性能。同时,他们的研究也开拓了新的理论和实践研究问题。

Ravid Shwartz-Ziv 简介

Ravid Shwartz-Ziv 是希伯来大学计算机科学与神经科学博士,读博期间专注于深度神经网络与信息论之间的联系,试图基于信息论对 DNN 进行更深入的理解,并将其应用于大规模的问题。2018 年,他拿到了谷歌博士生奖研金。

2021 年,Shwartz-Ziv 博士毕业并进入纽约大学数据科学中心担任 CDS Faculty Fellow,与 Andrew Gordon Wilson、Yann Lecun 等人一起研究贝叶斯深度网络、信息论和自监督学习。

Google Scholar 主页:https://scholar.google.co.il/citations?user=SqsLFwMAAAAJ&hl=en

技术交流群邀请函

△长按添加小助手

扫描二维码添加小助手微信

请备注:姓名-学校/公司-研究方向-城市

(如:小明-浙大-对话系统-北京)

即可申请加入AI算法干货/资源等交流群

欢迎关注我们,看通俗干货

信息瓶颈提出者Naftali Tishby生前指导,129页博士论文「神经网络中的信息流」公布...相关推荐

  1. 从信息瓶颈理论一瞥机器学习的“大一统理论”

    作者丨哈啾路亚 单位丨顺丰科技 研究方向丨NLP,神经网络 个人主页丨http://st-time.space 序言 所有机器学习的原理,本质上都是对同一段信息在不同空间内的转换.过滤.重新表征,最终 ...

  2. 前沿|揭开黑箱:希伯来大学计算机科学教授提出「信息瓶颈」

    来源:全球人工智能 概要:像大脑一样,深度神经网络也有很多层神经元.当神经元被激活时,它会发出信号,连接上面一层的神经元. 如今「深度神经网络」已经学会对话.驾驶汽车.打视频游戏.玩围棋.绘画并辅助科 ...

  3. AAAI 2021 | 上海交大提出基于有监督解耦的信息瓶颈算法

    作者|潘子琦 单位|上交BCMI实验室 来源|机器之心 现有的有监督解耦方法,比如把中间表征解耦成种类相关的表征和种类无关的表征,大多基于交换生成的经验性框架,缺乏理论指导,无法保证种类相关表征中不包 ...

  4. Deep Learning and the Information Bottleneck Principle 深度学习与信息瓶颈原理

    Deep Learning and the Information Bottleneck Principle 深度学习与信息瓶颈原理 摘要 从信息瓶颈(IB)原理的理论框架出发,对深度神经网络(DNN ...

  5. 什么是优秀的图表示?斯坦福提出首个信息论原则——图信息瓶颈

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来源:机器之心 对于图结构数据而言,什么是「优秀」的表示?斯坦福研究者对此进行了重新思 ...

  6. 从变分编码、信息瓶颈到正态分布:论遗忘的重要性

    作者丨苏剑林 单位丨广州火焰信息科技有限公司 研究方向丨NLP,神经网络 个人主页丨kexue.fm 这是一篇"散文",我们来谈一下有着千丝万缕联系的三个东西:变分自编码器.信息瓶 ...

  7. 干货!重新思考希尔伯特-施密特信息瓶颈在对抗性鲁棒性中的应用

    点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 本文首次提出将希尔伯特-施密特信息瓶颈(HSIC Information Bottleneck)用于神经网络优化目标中的正则项来提升模型 ...

  8. Information Bottleneck信息瓶颈理论

    可以理解为一个损失函数 信息瓶颈理论把神经网络理解为一个编码器和一个解码器,编码器将输入x编码成Z,解码器将Z解码成输出y 而信息瓶颈理论的目标则是 RIB(θ)R_{IB}(\theta)RIB​( ...

  9. 硬核!我的导师手写129页毕业论文,堪比打印!

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 本文来源:浙江大学.中国青年报 "闲来无事翻了一下导师的毕 ...

最新文章

  1. 《算法图解》第四章笔记与课后练习_快速排序算法
  2. 如何设计区块链项目的通证(token)模型
  3. OpenCV实现图像对齐ECC算法(附完整代码)
  4. sqlmap的二次开发
  5. uniapp返回上一页_uniapp怎么调用扫一扫功能?
  6. Java讲课笔记14:final关键字
  7. Criteo数据集探索
  8. android百度地图调用,Android 调用百度地图API
  9. 二、鼎捷T100总账管理之核算项管理篇
  10. CentOS 7 搭建DHCP中继服务
  11. 苹果手机显示已用短信服务器发送,iPhone手机一般发短信给对方,提示已送达和已读分别有什么不一样的意义。...
  12. php 监听条码枪输入,使用jQuery监听扫码枪输入并禁止手动输入的实现方法
  13. 3GPP TS 23501-g51 中英文对照 | 4.4.6 5G LAN-type Services
  14. 什么是云计算的?云计算的定义、特征、模型分别是什么?
  15. win7 系统更新服务器失败怎么办,Windows7 Update更新失败报错80070002和80070003怎么办?...
  16. 跟着黑马视频,Tomcat显示404的问题
  17. 一加手机怎么导出照片_换手机照片、通讯录备份太麻烦,一加手机轻松解决
  18. Dextran-Azide,Dextran-N3结构式;叠氮修饰的葡聚糖 科研用试剂说明
  19. Silex Insight 在 FPGA 中为 ChaCha20-Poly1305 IP 核实现了 100Gbps
  20. apache多站点解决方案(同端口不同IP,同IP不同端口,多域名)

热门文章

  1. 从放弃到入门-Yaf(框架生成)
  2. Atom介绍和安装步骤
  3. as3直接播放flv基本代码
  4. 给热爱学习的同学们推荐一些顶级的c# Blogs链接
  5. mysql int(40)_MySQL Integer类型与INT(11)
  6. Java中实现接口与继承的区别
  7. SourceChangeWarning:验证集上准确率很高,但是测试集上很低
  8. 关于python中的self,ins , cls的解释
  9. tensorflow.transpose的理解
  10. FileInputStream 之read(byte [] b)方法