突破模糊定性分析，批归一化和权重衰减的球面优化机制

本文内容整理自 PaperWeekly 和 biendata 在 B 站组织的直播回顾，点击文末阅读原文即可跳转至 B 站收看本次分享完整视频录像，如需嘉宾课件，请在 PaperWeekly 公众号回复关键词课件下载获取下载链接。

作者简介：万若斯，现为旷视研究院基础模型组的算法研究员。在北京大学数学科学学院取得应用数学学士学位，并在北京大学前沿交叉学院获得数据科学硕士学位。主要研究方向是深度学习模型与训练方法的理论基础。

批归一化（Batch Normalization，BN）和权重衰减（weight decay，WD）以其出色稳定的表现成为了当今各种深度学习模型的标准配置，但它们的理论机制，一直以来仅有模糊的定性分析。

本文将主要介绍 BN 和 WD 对深度神经网络的训练过程的共同作用的球面优化机制（Spherical Motion Dynamics， SMD）。基于球面优化机制的定量理论结果，不受限于模型的结构、数据集或任务类型，可以在诸如 ImageNet，COCO 等基于真实数据的复杂计算机视觉任务上得到完美验证。

放缩不变性

首先回顾一下关于 batch normalization（以下简称 BN）的形式和性质。BN 是深度神经网络技术里面最常用的标准方法之一，除了比较特殊的一些情形以外，几乎所有的神经网络如果训练出现了问题，加个 BN 基本上都可以得到一些不错的结果。BN 的主要形式如下（训练阶段）：

如果一个网络带上 BN 会有什么样的性质？本文将重点探讨其中的一个性质，即 scale invariant property，中文翻译为放缩不变性。

它的具体含义是，一般构建一个神经网络，以经典网络 ResNet 为例，它组成元件顺序为，首先是 conv 层，接一个 BN 层，再经过一个 relu，下面又重复 conv、BN、relu，后面可能会接个 short cut。单就 conv 层本身的参数而言，由于它后面经过了一个 BN，所以它会有一个 scale invariant 性质。具体的数学定义如下：

给定任意一个正系数 K，如果其他的参数都不变，只对 conv 层的参数放大 K 倍，它的 loss 不会有任何变化。其实不只是 loss 不会有变化，如果做分类任务，分类的值相对大小也不会有任何变化。这个 scale invariant property 是由于 BN 在 conv 后面除以 variance 所导致的。

由于 scale invariant property 会有更进一步的性质，这里面以 lemma 1 的形式给出来了。主要有两个性质，第一个是正交性，如果我们把 Weight（以下简称 Wt）看成是一个向量，在 Wt 上的梯度也看成一个向量，它们内积为 0，就是严格正交。

第二个是所谓的反比例关系，就是如果把梯度乘上 K 倍，它所对应的 gradience 方向和原来保持一致，但是它 gradience 方向的模长会是原来的 1/k。

下面来探讨一下，这两个性质对优化造成的影响。如果只考虑 SGD 的更新或者 GD 的更新，不考虑 Weight Decay（以下简称 WD）的话，那么就会有影响。

第一个影响是 Wt 的模长始终在增加。原因是一般 gradience 是乘上一个 learning rate, 然后去更新 Wt，那么就会形成一个直角三角形。然后新的 Wt 的模长是这个直角三角形的斜边，它始终会大于原来的 Wt。而且每一次用 SGD 的更新，都会比原来的大，所以只要这个 gradience 不恰好等于 0，那么 Wt 的模长便单调递增。

但是这个单调递增会导致另外一个性质，即梯度的模长可能会因为 Wt 的增加而减少。梯度模长本身除了它自己的一些方向不变，然后得到的那个梯度以外，还跟这个 Wt 的模长成反比。

所以可以想象一下，假设初始化一个网络，它的 loss 可能很大，需要进行优化。经过传统的优化的理论，应该会找到一个 local minima，一般来说 local minima 是个 stationary point，它的 gradience 范数很小。

但是在带有 BN 的情况下，如果不改变 Wt 的方向，只是无限的增大这个 Wt 的范数长度，最后得到的这个 gradience 它的范数仍然很小，就不能确定它是否是一个 stationary point，但可以肯定它不是一个 local minimal。

此时就会出现一个问题，似乎传统的优化，在带 BN 的网络里面会出现一些奇怪的现象，而且也可以说明了一点，WD 是必要的。

再来探讨一下，如果加了 WD 又会发生什么样的事？假设 objective function 如下：

此时会有以下两个结论，第一个结论是，由于 W 的 scale environment 性质，所以 W 的范数大小是不会影响到 loss 的大小，但是它的范数大小会影响到 L2 recognize part 的大小。因此，如果对 W 乘上任意一个 0~1 之间的一个系数，都可以得到 objective function，它会严格的比原来小。

这样就有个直观的理解，对于一个带 BN 的网络，在它的定义上面（注意：定义域是不包含 0 的），任何一个点都不是它的 local minimal。它附近总有一些点，或者值会比它更小。

这样如果以收敛性的角度去看问题，或者说以 gradient flow，就是所谓的 learning rate 无穷小形成一个 gradient 流的情况去优化的状况，就会出现一个很自然的现象，即 Wt 会无限的趋近于 0。

但是 Wt 趋近于 0 又会出现另外一个问题。objective function 这个梯度在 0 附近，不是一个 lipschitz 的梯度。这个条件其实在很多非凸优化里面都是一个非常常用的必要条件。所以大家会默认符合这个条件。

但实际上在最常用的带 BN 和 WD 的网络，它很可能不符合这个要求。原因在于在带 BN 的网络中，V=0 这个位置是一个所谓的奇点。举例说明，lose function 的形式如下：

可以看到单就 loss 而言，它的 lipschitz 是非常规整的，它的最小解为 1。但是一旦加上了 BN 和 WD 之后，它的 lipschitz 是非常奇怪的。

直观来讲，这个收敛可能收敛到接近 0 的位置，但是这个 0 的位置又因为过于突兀的变化，有可能跑到其他的位置。所以这里面就展示了带 BN 和 WD 的网络，不能够直接单纯的把它作为 objective function 的一个部分，把它们 join 的去考虑怎么去对它们优化，形成了什么样的性质。

因为如果这样考虑，得到的很多最基本的 assumption 都可能是不满足的。我们实际中我们还是用 objective，不需要什么精心调参，也可以得到不错的结果，这是为什么呢？

单位梯度和角度更新量

在解释这个问题之前，首先介绍一些基本概念。第一个概念是单位梯度（Unit gradient），考虑到 WtWt 的 gradient 的范数大小会受到 Wt 范数本身大小的影响，所以定义单位梯度公式如下：

这样就可以把 Wt 的范数和 gradient 方向给它的影响各自区分开。

第二个概念是角度更新量（Angular update）, 这个词是来自于物理学中，球面运动的角速度的概念，就是圆周运动角速度概念。这里借用了这个概念，用它来衡量一次更新前后 Wt 和 Wt+1 之间的角度。具体数学公式如下：

这里均假设 Wt 为非 0，这样定义的原因是去掉 Wt 的范数的影响，因为一般情况下，只要 Wt 方向固定，它的范数完全不会影响到深度学习网络的性能表现。Angular update 是真正可以表示出单步更新内 weight 变化情况的量。

有了以上两个概念就可以理解球面优化动态过程了，为了说明方便，在这里只讨论了 SGD case，SGD 的一般更新法则如下图的公式所示，通过示意图可以看到，对于 wt 的范数的影响，如果借用物理学里圆周运动或球面运动概念的话，其实可以分为两个影响，第一个影响就是所谓的向心力，向心力实际上是完全由 WD 所提供的，它的大小就等于范数。

这个就意味着向心力是一个正比于球面半径的力；第二个影响力是离心力，离心力是由于 gradience 始终是垂直于 Wt 方向的。所以它总是会倾向于把 Wt 的 norm 变大，可以大致的推算出离心力的大小。可以看出离心力是一个反比例关系，它的反比例是关于 Wt 的三次方。

公式中的 unit gradient，刚才已经介绍了它是跟范数没有关系的量，故假设它约等于不变。直觉上来讲，这个向心力和离心力应该是会达到一个平衡的。因为向心力的大小是正比于这个球面半径的，离心率是反比关系的。这样的话如果球面半径过小，那么向心力就比较偏弱，离心力比偏强，所以球的半径就会偏大。

但球门半径大了以后，向心力又会变强，离心力会变弱。这样它就会有一个平稳状态，而当向心力和离心力已经达到平衡的时候，就应该满足下图中第一个等式关系。当这个等式关系成立以后，就可以去推导此时的 Angular update，推导公式如下图第二个公式，

所以这里可以得到一个结论，当达到平稳状态以后，角度更新量是约等于，其中是 wd 的系数，是 learning rate，而这两个都是人为手调的，跟网络本身的形状或者是它的 grandience 大小、数据集等都没有关系。

所以这里面就凸显一点，之前有很多文章讨论说，这个球面动态可以等效为一个 manifold organization，即在球面上优化。但根据上述的一些粗略的推导就可以看出，实际上它们是不是等价的。

因为 manifold 在一个单位球面上的优化，它的每一步的更新量是不定的，如果用 constant learning rate 的话，一方面它的 learning rate 是 constant，另一方面它的 gradience 是不可控的，它的更新量也是不可控的。而且理论上来说如果你这个 manifold loss 如果小的话，你的这个更新量会越来趋近于 0，它就意味着它收敛到一个 local minimal 或 stationary point。

其实在这之前已经有很多文章在做相关工作了，他们都是认为前文所说的平稳状态一定会出现，假设 Wt 的范数是 coverge 的情况下，得出相关的结果。如下图所示：

最早是于 2017 年 NeurIPS, 由 Twan van Laarhoven 提出了 efficient learningrate 的概念，就是上文所说的 scale invariant 性质，如何去真正衡量有效更新量？在他的那个论文里面倒是提到了这个应该对于 SGD/SGDM 的性质都是成立的。

2018 年的这篇 NeurIPS 作者的结论比其他的都薄弱，但是与众不同之处在于它假设没有 wt 的 converge，只是单纯的研究了 wt，wt+1 更新以后的结果，所以它的结果是非常的薄弱的，而且也只能适用于 SGD 形式。

2019 年的 NeurIPS，这篇文章实际上他本身做的是针对小 BN 提出了一个方法的文章，只不过他在讨论里面专门有一小节，提了一下关于 BN 的一些 efficient learning rate 的现象，得到了类似的结果，不过在他的那个描述里面，只是把 Wt 放在一维圆上面去讨论的，没有推广到高维上。

还有 2019 年的 ICLR 最新的一篇，这一篇它形式看上去比较的复杂一点，公式如上图所示，这个是在 SGDM 里面成立的，它直接讨论了 SGDM 的形式，同时包含了 SGD 的形式。当然其中是用了非常强的假设，关于他们的累计相对更新量的比值必须是各自为 converge 的情况下，才会有这样的结论。

所以这里面就出现两个问题，第一个问题如果 Wt 真的 converge 了吗？大家都之前的讨论的都是假设它 converge 了，但是它是否真的 converge 了？第二个问题是绝大多数情况下考虑的都是 SGD 形式，但是大家更多常用的是 SGDM 的形式，那么 SGD 它是否也有像 SGD 这样的平稳状态的情形。

主要定理

本文就是针对以上两个问题，给出相应的解答。下图是我们的主要定理，本文讨论的是最常用的 heavy ball method 的 SGDM 的形式。

SGDM 的公式如下，当 α=0 的时候，它恰好就是纯 SGD 形式。

下面是需要满足的两个 assumption 的情况。第一个 assumption 大致是在说 unit gradient，它平均表现会收敛到某一个值 L，但对 L 不做约束，它的相对误差会是一个比较小的值。第二个就是 WD 系数和 learning rate 的乘积远远要小于 1，就是一个比较小的数，这个一般来说常用的神经网络任务都是可以满足。

最后得到这个结果说明了 Wt 的平均值会 coverge 一个固定的值，而这个固定的值一方面依赖于这两个超参，另一方面依赖于 unit gradient 的一个大小。而 Angular update 就是角度更新量，则是会收敛到一个跟其他完全无关，只跟超参数 λ，η 有关的地方。

上图是 SGD 的情形，相对来说比较好做一些，比较难的就是 SGDM 形式，它需要依赖额外的两个 assumption，第一个 assumption 是 WD 的系数 λ 要小于某一个值，但一般来说 λ 本身就是特别小的。第二个 assumption 是关于第 T 次算出来的 gradience 和第 T 次的 momentum 的内积值要比较小，这是一个 technical 的一个 assumption，但是实际在实验中它基本上都是满足的，后面会展示到。

有了额外两个 assumption 就可以得到以下结论，在 moment 的情况下，weight 的范数也会收敛到一个值，只不过这个值相对于原来的话，它是乘上 2 (1-α)，然后角度更新量的值则会是除以 (1+α）再开方，这里面是说明了这个 Angular update 它本身还是一个只跟超参有关的东西。

下面来介绍一下，从主要定理的结构中可以得到一些 Insight。主要列出其中三条：

第一条 insight 是：它完全解释了为什么 scale-invariant 带了 WD 的情况下是完全不会遇到 vanishing 和 exploding gradients 的问题，因为一般说 vanishing gradient 时它的 gradients 太小，结果会导致 learning rate 几乎不更新，exploding gradients 的 gradients 太大，导致 learning rate 每次更新都过大，就跑偏了。

但是如果有了球面优化的性质的话，经过一段时间的迭代之后，它会自动的去调整自己的 gradients 和 weight 的相对大小。最后当它平稳之后就会自然的满足 Angular update 下的情形，而 Angular update 实际上代表了真正的更新量，而这个更新量完全由超参决定，所以只要 gradients 不等于 0，然后训练只要不会出现 NAN，这个球面优化总是可以让你的这个训练最后变得正常起来。

第二条 insight 是：有了 BN 和 WD,SGD 和 SGDM 是不可能被限制在一个 sharp local minimum 里面，这个就是现在常讨论关于神经网络的泛化问题时，总会提到一个 sharp/flap local minimum，原因在于这个神经网络的本身它是一个非凸优化，而且它有很多很多的 local minimum，广泛的认知是说比较 sharp 的，即窄而细长的 local minimum 一般来说是比较糟糕的。

然后 flap minimum，即相对来说地势比较宽的会好一点。有了球形优化后，Angular update 是定义在球面上的一个 local minimum，当达到平稳状态后 Angular update 始终是个 fix，同时它又是由超参决定的，所以它的更新量一般不会落入比它小的半径内。这是一个不太精确的东西，所以本文只是将其作为一个 insight 的给出。

但是它从某种上意义上说明了一个问题，因为过去人们认为正常 SGD 或者 SGDM 不会落到 sharp local minimum，把这全部归因为是随机的影响，认为说它可以 escape sharp local minimum ，但实际上由于 SD 和 SGD 它可能根本就不会落下去，或者说它落下去，可能一下就跑出来了，不是一个高概率 escape 的结论。

第三条 inside 是解释了为什么实际用 BN 和 WD 的时候，如果不做 learning rate decay，这个 loss 在下降到一定程度之后就不会再下降了。原因其实比较直观了，就是因为如果我们不 decay learning rate，同时不缩小 WD 的系数，也不碰这个 moment 系数的话，那么它的 Angular update 就始终是这个值，不会更小，那就意味着你不可能落到小于这个半径的坑里面。

这样会出现一个现象，找到一个 flap minimal，在这个地方来回震荡，一直落不下去。原因就是步子迈太大。而此时如果将 learning rate 减小，loss 便会收敛。