谷歌和斯坦福最新合作综述报告,发表在物理学的顶级期刊“凝聚态物理年鉴”(Annual Review of Condensed Matter Physics)。作者Yasaman Bahri, Jonathan Kadmon, Jeffrey Pennington, Sam S. Schoenholz, Jascha Sohl-Dickstein, and Surya Ganguli

英文原报告“深度学习统计力学”

即使一个深层网络能够通过选择参数表达所需的函数,也不清楚什么时候可以通过(随机)梯度下降将公式(3)中的训练误差

下降来成功地找到这组参数。这种误差曲面的典型特征、它对训练样本数量和网络结构的依赖性,以及它对学习动力学的影响,成为人们非常感兴趣的问题。

在本节中,我们回顾从统计力学复杂能量曲面和神经网络误差曲面的各种类比中获得的见解,以及从神经网络误差曲面的受控数值探索中获得的见解。

1 随机高斯曲面和鞍点

在机器学习中,许多早期的工作都是由凸曲面上的优化所提供的强大理论保证所推动的,在凸曲面上的每一个局部最小值都是全局最小值[35]。相反,对非凸曲面的优化则持怀疑态度,因为传统的观点认为这种曲面可能会充满高误差的局部极小值,这可能会捕获梯度下降动力学并影响性能。尽管少数变量上的一般非凸函数可能确实具有高误差局部极小值,但在高维中通常不是这样。

统计物理中经典的光滑

维高斯曲面在
很大时的图形很不一样[36,37]。这种随机高斯函数
,在任意有限点集
上的函数值
是一个联合高斯分布,其均值为零,协方差矩阵为
。这里核函数
度量了标准化均方距离为
的点对函数值的相关性,其值随着
的增大而减小。因此,这个集合代表了高维空间上的一个零函数模型,除了邻近函数值相似的局部性概念外,没有任何假定的结构。

这个零系综的临界点的统计数据展示了一个有趣的典型结构,为高维空间上一般函数的形状提供了一个窗口[36]。具体地,任意梯度消失的临界点

(即所有
,
)可以用两个特征来刻画:
  • a)临界点的高度

    ;
  • b)函数曲面下降的方向指数或比例

其中比例

定义为Hessian矩阵
的负特征值的比例。

文献36发现了

之间的强相关性:临界点越高,负曲率方向的数目就越大。这意味着在高误差
下,相对于
非零的鞍点,
的局部极小值将是指数罕见的。直观地说,当
很大时,函数
在所有
维上弯曲的几率是以
指数级小的,除非你已经接近函数的底部。示意图如图2a所示。

图2 神经网络误差曲面的类比。(a) 平滑随机高斯曲面临界点典型结构示意图。更多负方向的临界点出现在较高的误差处。(b) 实践中神经网络误差临界点处,

在临界点之间有很强的相关性[38]。(c) 文献38中提出的一种特殊的无鞍牛顿(SFN)算法能在随机梯度下降变慢的情况下快速地逃离鞍点。(d) 处于零能量密度无约束状态的粒子。(e) 处于正能量密度阻塞状态的粒子。MSGD为动量随机梯度下降的缩写。

尽管

之间的相关性是专门针对随机高斯曲面计算的,但早期的工作[38]推测,这种相关性可能更普遍地适用于高维空间上的一般函数,包括神经网络的误差函数。通过使用牛顿方法搜索任何方向指数的鞍点,对该猜想进行了数值试验,证实了使用该方法发现的所有此类临界点的误差
和方向指数
之间的强相关性(图2b)。此外,研究人员[38]开发了一种算法,能在随机梯度下降动力学(SGD)表明可能陷入虚幻的局部极小值的情况下,快速逃离鞍点(图2c)。

这些基于物理的关于大型神经网络不存在高误差局部极小值的结论与更多的数学工作一致,证明了在更简单的情况下这种极小值是不存在的。文献39证明了具有一个隐含层的线性神经网络的误差曲面不存在非全局极小的局部极小,所有高误差临界点都是鞍点,文献40将这一结果推广到更深层的线性网络。

2 与自旋玻璃的类比

最近的工作[41]也显示了神经网络的误差曲面与统计物理中一个成熟的模型,即球形自旋玻璃的能量函数之间的联系。一般来说,神经网络的误差曲面是突触权重

的复杂函数,同时也依赖于训练数据
。对数据和误差函数对权重的依赖性的一系列近似和简化假设,我们会得到以下简单的神经网络示例模型的误差曲面:

这里,

是反映随机简化数据集
的随机数,
是神经网络
个突触权重向量的分量,
是网络的深度。除此以外,我们还假设权重满足球形约束
。这个误差函数对应于著名的

D-自旋球形自旋玻璃的能量函数[42,43]。文献41中从神经网络误差曲面到公式(6)所做简化和假设是很强的,在实践中不太可能成立。因此公式(6)确实应该只被看作是一个简单示例模型。不管怎样,人们可能希望这个示例模型的能量函数的典型特征类似于神经网络的误差曲面。

对公式(6)中误差函数形状的严格分析揭示了临界点的有趣结构[44,45]。事实上,

可以被认为是具有特定相关性核的球体上的随机高斯函数,因此其临界点的性质与图2a中的一样。

负曲率方向最有可能出现在误差水平的窄带内,随着带的高度随

的增加而增加。在文献41中得到了数字证实,文献41是在经过MNIST数字分类样本数据集上训练的深层神经网络。

最近的工作[46]对神经网络上的SGD动力学与D-自旋球形自旋玻璃能量函数进行了仔细的比较,发现了有趣的共性,但也有差异。在平均场玻色系统中,物理方法[47]和严格方法[48]都表明,梯度下降动力学在没有障碍交叉的情况下收敛到最宽和最高的极小值,尽管存在更深的局部和全局极小值。相比之下,文献46的工作在梯度下降动力学中发现了其他有趣的老化现象,这些现象表明当降低训练误差时,更平坦的方向普遍存在。

3 与干扰的类比

文献49和50通过考虑一个称为 Hinge 损失的特殊损失函数

,发现干扰[51]和深层神经网络的误差曲面之间有一个有趣的类比,建立在感知器之前的类似基础上[52]。Hinge损失通常用于分类问题,其中神经网络输出是一个实数,其符号表示两个类别中的一个。然后,Hinge 损失作为权重空间
的函数,将
个训练样本中的每一个区分为满足(即用具有阈值间隔的正确符号分类)或不满足。在
维网络参数空间中的每个点
都会产生一部分不满足的样本,理想的训练应该调整参数
来减少这个部分。

我们现在用一个平行符号来描述干扰问题,并与神经网络训练进行类比。干扰问题的一个简单版本考虑固定体积中的一组

个硬球(图2d,e)。向量
参数化所有
个球面位置的
维配置空间。与所有粒子位置相关联的
个自由度类似于与所有神经网络参数相关联的
个自由度。现在,粒子之间的
对距离中的每一个都为粒子配置贡献了能量,如果粒子对重叠,能量为正,否则为零。在与神经网络的类比中,每一对相互作用对应于一个单独的训练样本,而相互作用能量对应于该样本上的 Hinge 损失。零能量分离的粒子对对应于满足条件的样本,而正能量重叠的粒子对对应于正的Hinge损失的不满足条件的样本。粒子组态空间上的总能量对应于神经网络参数空间上的损失函数。最后,粒子密度对应于样本数量
与网络参数数量
的比值。

干扰场景展示了一种有趣的相位转换,即许多粒子可以自由移动的低密度相位(图2d)和大多数成对相互作用涉及粒子与正能量重叠的高密度干扰相位(图2e)。在神经网络类比中,低密度相对应于过度参数化的情形,较少的

个样本可以很容易地被较大的
个参数所满足。而高密度干扰相对应于参数不足的情形,较大的
个样本不能被较少的
个参数所满足。文献49、50和52更定量地探讨了干扰和神经网络之间的类比,发现了许多有趣的现象,包括干扰过度时训练误差中许多平坦方向的普遍性和雪崩式动力学,其中一组不满意的样本在训练时间内表现出快速的宏观重排。有意思的是,从这个类比中得到的直觉在多大程度上可以延伸到 Hinge 损失之外的其他损失函数。

4 实际神经网络曲面的探索

除了发展和比较示例理论模型的误差曲面,许多工作探索实际的神经网络曲面。最近的研究甚至对非常大的神经网络[55,56]的 Hessian 矩阵进行了数值探索[53,54]。有趣的是,经过训练后,曲面底部附近的 Hessian 呈现出一个重尾的体谱,加上一组与分类任务中的类标签数量一一对应的异常值。

文献57和58中给出了另一个有趣的误差曲面,其中含有罕见但较宽的梯度下降优先发现的极小值,这表明有可能出现有助于找到这些极小值[59]的新的熵算法。随着进一步的理论发展,需要获得一个统一的、高分辨率的神经网络误差曲面观形态。系列预告

数据科学人工智能:深度学习与统计力学(I) :深度学习中的基础理论问题​zhuanlan.zhihu.com

数据科学人工智能:深度学习与统计力学(II) :深度学习的表达能力​zhuanlan.zhihu.com

深度学习与统计力学(III) :神经网络的误差曲面
深度学习与统计力学(IV) :深层网络的信号传播和初始化
深度学习与统计力学(V) :深度学习的泛化能力
深度学习与统计力学(VI) :通过概率模型进行“深度想象”

为什么深层神经网络难以训练_深度学习与统计力学(III) :神经网络的误差曲面...相关推荐

  1. 华南理工深度学习与神经网络期末考试_深度学习基础:单层神经网络之线性回归...

    3.1 线性回归 线性回归输出是一个连续值,因此适用于回归问题.回归问题在实际中很常见,如预测房屋价格.气温.销售额等连续值的问题.与回归问题不同,分类问题中模型的最终输出是一个离散值.我们所说的图像 ...

  2. 为什么深层神经网络难以训练_“用魔法击败魔法”?一群计算神经学家正借神经网络解释大脑...

    原文:Deep Neural Networks Help to Explain Living Brains [1] 作者:Anil Ananthaswamy(科普作家) 译者:Yang 2011 年冬 ...

  3. 为什么深层神经网络难以训练_为什么神经网络难以理解生命游戏?

    导语 生命游戏是一种简单的符号表示模型,却可以产生复杂的结果.我们可以发现对生命游戏显然有效的,几组神经网络的初始参数解:但随机输入初始参数和选择样本的神经网络,却极难理解生命游戏,成功收敛到最优解需 ...

  4. 神经网络算法未来_“深度学习三巨头”来了俩,Hinton、LeCun预言深度学习的未来...

    当地时间 6 月 23 日,今年的 ACM 图灵奖得主."深度学习三巨头"中的 Geoffrey Hinton.Yann LeCun 在 ACM FCRC 2019上发表演讲,分享 ...

  5. bp 神经网络 优点 不足_深度学习之BP神经网络--Stata和R同步实现(附Stata数据和代码)

    说明:本文原发于"计量经济圈"公众号,在此仅展示Stata的部分.R部分请移步至本人主页的"R语言与机器学习--经济学视角"专栏,或点击下方链接卡跳转. 盲区行 ...

  6. 华南理工深度学习与神经网络期末考试_深度学习算法地图

    原创声明:本文为 SIGAI 原创文章,仅供个人学习使用,未经允许,不能用于商业目的. 其它机器学习.深度学习算法的全面系统讲解可以阅读<机器学习-原理.算法与应用>,清华大学出版社,雷明 ...

  7. 函数或变量 rtenslearn_c 无法识别_深度学习的数学-卷积神经网络的结构和变量关系...

    前言 本篇博客主要介绍卷积神经网络的组成部分,以及变量表示,最后附上卷积神经网络代价函数的计算 正文 前文中学到的神经网络都是全连接类型的,隐藏层对输入层有着各自固定的偏好模式,满足偏好模式(权重和偏 ...

  8. 神经网络 异或_深度学习入门笔记(2)线性神经网络

    在上一篇笔记中我们一起学习了单层感知器的原理,但针对于异或问题.我们的单层神经网络就束手无策了 *异或运算: 0 0 输出为0,0 1输出为1, 1 0输出为 1, 1 1输出为 0 即,针对以下四个 ...

  9. [人工智能-深度学习-33]:卷积神经网络CNN - 常见分类网络- LeNet网络结构分析与详解

    作者主页(文火冰糖的硅基工坊):文火冰糖(王文兵)的博客_文火冰糖的硅基工坊_CSDN博客 本文网址:https://blog.csdn.net/HiWangWenBing/article/detai ...

最新文章

  1. const引用和非const引用
  2. pdo_mysql 必须 ×未安装_php pdo_mysql未安装问题解决方法_PHP教程 | 蒲公英网
  3. python精要(66)—类(3)-文档字符串,注释文档
  4. 机器学习(李航统计学习方法)
  5. 58到家MySQL军规升级版(转:2018-03-30 58到家DBA 架构师之路)
  6. sass笔记-1|Sass是如何帮你又快又好地搞定CSS的
  7. window 安装python 环境
  8. NYOJ 44 子串和
  9. 查看新增登记记录及历史记录信息
  10. Caffe官方例程之 特征可视化python代码 (filter visualization notebook)
  11. 在firefox 2.0.0.3中使用onenote 2007收集资料
  12. 华硕主板固态硬盘不识别_华硕主板固态硬盘识别不出来怎么办
  13. 项目配置多Redis数据源(Redis分片)
  14. 51单片机控制双步进电机的魔法师思想
  15. c语言中字符后u代表什么意思,C语言中的0U或1U是什么意思?
  16. OpenCV + CPP 系列(卅三)图像特征提取(Harris角点检测、Shi-Tomasi角点检测、自定义角点检测)
  17. 说话人识别matlab实现
  18. 全球仅10%的开发者从不加班;淘宝回应用户账号被禁用 980 年;苹果宣布首次以官方形式参与天猫618折扣活动...
  19. Vue项目二 登录注册功能的实现
  20. 目标检测mAP计算详解

热门文章

  1. 数据库置疑的处理方法
  2. 【Pytorch Lighting】第 5 章:时间序列模型
  3. 局域网映射IPV6记录
  4. cadence 批量一次性修改title 页码标题等
  5. 玩客云 Armbian Linux
  6. 2023-02-11:给你两个整数 m 和 n 。构造一个 m x n 的网格,其中每个单元格最开始是白色, 请你用 红、绿、蓝 三种颜色为每个单元格涂色。所有单元格都需要被涂色, 涂色方案需要满足:
  7. IT行业的5个热门岗位,你了解吗?
  8. Git 之三 常用命令:仓库创建、提交、分支等
  9. vc sp6补丁下载地址及具体安装
  10. docker:IPv4 forwarding is disabled. Networking will not work. 解决方法