为什么深层神经网络难以训练_深度学习与统计力学(III) ：神经网络的误差曲面...

谷歌和斯坦福最新合作综述报告，发表在物理学的顶级期刊“凝聚态物理年鉴”（Annual Review of Condensed Matter Physics）。作者Yasaman Bahri, Jonathan Kadmon, Jeffrey Pennington, Sam S. Schoenholz, Jascha Sohl-Dickstein, and Surya Ganguli

英文原报告“深度学习统计力学”。

即使一个深层网络能够通过选择参数表达所需的函数，也不清楚什么时候可以通过（随机）梯度下降将公式(3)中的训练误差

下降来成功地找到这组参数。这种误差曲面的典型特征、它对训练样本数量和网络结构的依赖性，以及它对学习动力学的影响，成为人们非常感兴趣的问题。

在本节中，我们回顾从统计力学复杂能量曲面和神经网络误差曲面的各种类比中获得的见解，以及从神经网络误差曲面的受控数值探索中获得的见解。

1 随机高斯曲面和鞍点

在机器学习中，许多早期的工作都是由凸曲面上的优化所提供的强大理论保证所推动的，在凸曲面上的每一个局部最小值都是全局最小值[35]。相反，对非凸曲面的优化则持怀疑态度，因为传统的观点认为这种曲面可能会充满高误差的局部极小值，这可能会捕获梯度下降动力学并影响性能。尽管少数变量上的一般非凸函数可能确实具有高误差局部极小值，但在高维中通常不是这样。

统计物理中经典的光滑

维高斯曲面在

很大时的图形很不一样[36,37]。这种随机高斯函数

，

，在任意有限点集

，

上的函数值

是一个联合高斯分布，其均值为零，协方差矩阵为

。这里核函数

度量了标准化均方距离为

的点对函数值的相关性，其值随着

的增大而减小。因此，这个集合代表了高维空间上的一个零函数模型，除了邻近函数值相似的局部性概念外，没有任何假定的结构。

这个零系综的临界点的统计数据展示了一个有趣的典型结构，为高维空间上一般函数的形状提供了一个窗口[36]。具体地，任意梯度消失的临界点

（即所有

）可以用两个特征来刻画：

a）临界点的高度

;
b）函数曲面下降的方向指数或比例
。

其中比例

定义为Hessian矩阵

的负特征值的比例。

文献36发现了

和

之间的强相关性：临界点越高，负曲率方向的数目就越大。这意味着在高误差

下，相对于

非零的鞍点，

的局部极小值将是指数罕见的。直观地说，当

很大时，函数

在所有

维上弯曲的几率是以

指数级小的，除非你已经接近函数的底部。示意图如图2a所示。

图2 神经网络误差曲面的类比。（a）平滑随机高斯曲面临界点典型结构示意图。更多负方向的临界点出现在较高的误差处。（b）实践中神经网络误差临界点处，

和

在临界点之间有很强的相关性[38]。（c）文献38中提出的一种特殊的无鞍牛顿（SFN）算法能在随机梯度下降变慢的情况下快速地逃离鞍点。（d）处于零能量密度无约束状态的粒子。（e）处于正能量密度阻塞状态的粒子。MSGD为动量随机梯度下降的缩写。

尽管

和

之间的相关性是专门针对随机高斯曲面计算的，但早期的工作[38]推测，这种相关性可能更普遍地适用于高维空间上的一般函数，包括神经网络的误差函数。通过使用牛顿方法搜索任何方向指数的鞍点，对该猜想进行了数值试验，证实了使用该方法发现的所有此类临界点的误差

和方向指数

之间的强相关性（图2b）。此外，研究人员[38]开发了一种算法，能在随机梯度下降动力学（SGD）表明可能陷入虚幻的局部极小值的情况下，快速逃离鞍点（图2c）。

这些基于物理的关于大型神经网络不存在高误差局部极小值的结论与更多的数学工作一致，证明了在更简单的情况下这种极小值是不存在的。文献39证明了具有一个隐含层的线性神经网络的误差曲面不存在非全局极小的局部极小，所有高误差临界点都是鞍点，文献40将这一结果推广到更深层的线性网络。

2 与自旋玻璃的类比

最近的工作[41]也显示了神经网络的误差曲面与统计物理中一个成熟的模型，即球形自旋玻璃的能量函数之间的联系。一般来说，神经网络的误差曲面是突触权重

的复杂函数，同时也依赖于训练数据

。对数据和误差函数对权重的依赖性的一系列近似和简化假设，我们会得到以下简单的神经网络示例模型的误差曲面：

这里，

是反映随机简化数据集

的随机数，

是神经网络

个突触权重向量的分量，

是网络的深度。除此以外，我们还假设权重满足球形约束

。这个误差函数对应于著名的

D-自旋球形自旋玻璃的能量函数[42，43]。文献41中从神经网络误差曲面到公式(6)所做简化和假设是很强的，在实践中不太可能成立。因此公式(6)确实应该只被看作是一个简单示例模型。不管怎样，人们可能希望这个示例模型的能量函数的典型特征类似于神经网络的误差曲面。

对公式(6)中误差函数形状的严格分析揭示了临界点的有趣结构[44，45]。事实上，

可以被认为是具有特定相关性核的球体上的随机高斯函数，因此其临界点的性质与图2a中的一样。

负曲率方向最有可能出现在误差水平的窄带内，随着带的高度随

的增加而增加。在文献41中得到了数字证实，文献41是在经过MNIST数字分类样本数据集上训练的深层神经网络。

最近的工作[46]对神经网络上的SGD动力学与D-自旋球形自旋玻璃能量函数进行了仔细的比较，发现了有趣的共性，但也有差异。在平均场玻色系统中，物理方法[47]和严格方法[48]都表明，梯度下降动力学在没有障碍交叉的情况下收敛到最宽和最高的极小值，尽管存在更深的局部和全局极小值。相比之下，文献46的工作在梯度下降动力学中发现了其他有趣的老化现象，这些现象表明当降低训练误差时，更平坦的方向普遍存在。

3 与干扰的类比

文献49和50通过考虑一个称为 Hinge 损失的特殊损失函数

，发现干扰[51]和深层神经网络的误差曲面之间有一个有趣的类比，建立在感知器之前的类似基础上[52]。Hinge损失通常用于分类问题，其中神经网络输出是一个实数，其符号表示两个类别中的一个。然后，Hinge 损失作为权重空间

的函数，将

个训练样本中的每一个区分为满足（即用具有阈值间隔的正确符号分类）或不满足。在

维网络参数空间中的每个点

都会产生一部分不满足的样本，理想的训练应该调整参数

来减少这个部分。

我们现在用一个平行符号来描述干扰问题，并与神经网络训练进行类比。干扰问题的一个简单版本考虑固定体积中的一组

个硬球（图2d，e）。向量

参数化所有

个球面位置的

维配置空间。与所有粒子位置相关联的

个自由度类似于与所有神经网络参数相关联的

个自由度。现在，粒子之间的

对距离中的每一个都为粒子配置贡献了能量，如果粒子对重叠，能量为正，否则为零。在与神经网络的类比中，每一对相互作用对应于一个单独的训练样本，而相互作用能量对应于该样本上的 Hinge 损失。零能量分离的粒子对对应于满足条件的样本，而正能量重叠的粒子对对应于正的Hinge损失的不满足条件的样本。粒子组态空间上的总能量对应于神经网络参数空间上的损失函数。最后，粒子密度对应于样本数量

与网络参数数量

的比值。

干扰场景展示了一种有趣的相位转换，即许多粒子可以自由移动的低密度相位（图2d）和大多数成对相互作用涉及粒子与正能量重叠的高密度干扰相位（图2e）。在神经网络类比中，低密度相对应于过度参数化的情形，较少的

个样本可以很容易地被较大的

个参数所满足。而高密度干扰相对应于参数不足的情形，较大的

个样本不能被较少的

个参数所满足。文献49、50和52更定量地探讨了干扰和神经网络之间的类比，发现了许多有趣的现象，包括干扰过度时训练误差中许多平坦方向的普遍性和雪崩式动力学，其中一组不满意的样本在训练时间内表现出快速的宏观重排。有意思的是，从这个类比中得到的直觉在多大程度上可以延伸到 Hinge 损失之外的其他损失函数。

4 实际神经网络曲面的探索

除了发展和比较示例理论模型的误差曲面，许多工作探索实际的神经网络曲面。最近的研究甚至对非常大的神经网络[55，56]的 Hessian 矩阵进行了数值探索[53，54]。有趣的是，经过训练后，曲面底部附近的 Hessian 呈现出一个重尾的体谱，加上一组与分类任务中的类标签数量一一对应的异常值。

文献57和58中给出了另一个有趣的误差曲面，其中含有罕见但较宽的梯度下降优先发现的极小值，这表明有可能出现有助于找到这些极小值[59]的新的熵算法。随着进一步的理论发展，需要获得一个统一的、高分辨率的神经网络误差曲面观形态。系列预告

数据科学人工智能：深度学习与统计力学(I) ：深度学习中的基础理论问题zhuanlan.zhihu.com

数据科学人工智能：深度学习与统计力学(II) ：深度学习的表达能力zhuanlan.zhihu.com

深度学习与统计力学(III) ：神经网络的误差曲面
深度学习与统计力学(IV) ：深层网络的信号传播和初始化
深度学习与统计力学(V) ：深度学习的泛化能力
深度学习与统计力学(VI) ：通过概率模型进行“深度想象”