UNDERSTANDING STRAIGHT-THROUGH ESTIMATOR IN TRAINING ACTIVATION QUANTIZED NEURAL NETS

STE作为一种方法已经被提出很久了，也出现了很多它的变体。但它在本质上，是用了一个与当前函数无关的梯度来代替原有的梯度，为什么这个朝着这个替代品的梯度下降的方向优化网络有用？面对已经提出的许多STE的变体，我们应该如何选取？本文的主要内容就是解决以上两个问题。

首先，作者定义了一个简单的网络：

其中Z是一个取样自(0,1)高斯分布的输入数据，w和v是权重，σ是二元的的激活函数：

标签的定义如下：

损失函数的定义如下：

由于
，作者这里使||w*||等于1.于是优化目标变为：

使用传统的反向传播方式对参数进行求导的结果是：

但σ的导数几乎处处是零，这就导致网络无法训练，于是STE就提出了解决方案，使用一个可求导的μ函数的导数来代替它：

这样就可以进行训练了。

接着作者定义了真实参数和实际参数的夹角：

并依次改造了损失函数和损失对参数的梯度：

当w为零向量时，不管v是何值，(v,w)都不可能是极小值，模型可能的极小值点为：

其中第二种情况显然是全局最优点，而第一种情况，如果有的话，就是鞍点。

随后作者通过实验证明，使用STE方法时，即使假定输入数据满足不同的分布，损失始终是下降的，且损失的平滑程度随着数据量的提升而提升：

随后作者分别证明了vanilla ReLU和clipped ReLU(如下图所示)：分别与真实梯度呈非负相关\正相关，且最终会在鞍点或全局最小值处收敛，而传统的STE方法则不能在这里收敛。随后作者用实验证明了它的正确。

UNDERSTANDING STRAIGHT-THROUGH ESTIMATOR IN TRAINING ACTIVATION QUANTIZED NEURAL NETS相关推荐

Paper：Xavier参数初始化之《Understanding the difficulty of training deep feedforward neural networks》的翻译与解读
Paper:Xavier参数初始化之<Understanding the difficulty of training deep feedforward neural networks>的 ...
Paper之DL之BP：《Understanding the difficulty of training deep feedforward neural networks》
Paper之DL之BP:<Understanding the difficulty of training deep feedforward neural networks> 目录原文解 ...
经典DL论文研读(part1)--Understanding the difficulty of training deep feedforward neural networks
学习笔记,仅供参考,有错必纠文章目录 Understanding the difficulty of training deep feedforward neural networks Abstra ...
【Deep Learning】笔记：Understanding the difficulty of training deep feedforward neural networks
这几天读了这篇论文,在这里将大致内容写在这里. Abstract 介绍这篇论文的主要内容就是尝试更好的理解为什么使用"标准随机初始化"来计算使用标准梯度下降的网络效果通常来讲都不是 ...
《Understanding the Effective Receptive Field in Deep Convolutional Neural Networks》理解深卷积神经网络中的有效感受野
前言论文推荐来自B站UP-启释科技,该up对感受野和卷积有深刻的理解推荐感受野视频讲解: 深度理解感受野(一) 深度理解感受野(二) 深度理解感受野(三) 深度理解感受野(四) 深度理解感受野(五 ...
【阅读】A Comprehensive Survey on Distributed Training of Graph Neural Networks——翻译
转载请注明出处:小锋学长生活大爆炸[xfxuezhang.cn] (本文中,涉及到公式部分的翻译不准确,请看对应原文.) 另一篇:[阅读]Distributed Graph Neural Networ ...
二值网络训练--Training Competitive Binary Neural Networks from Scratch
Training Competitive Binary Neural Networks from Scratch https://github.com/hpi-xnor/BMXNet-v2 MXNet ...
有效感受野--Understanding the Effective Receptive Field in Deep Convolutional Neural Networks
Understanding the Effective Receptive Field in Deep Convolutional Neural Networks NIPS 2016 本文主要分析了 ...
论文笔记：Straight to the Tree: Constituency Parsing with Neural Syntactic Distance
论文笔记:Straight to the Tree: Constituency Parsing with Neural Syntactic Distance 目录论文笔记:Straight to t ...
Flexpoint: An Adaptive Numerical Format for Efficient Training of Deep Neural Networks:弯曲点：一种有效训练深度神
2017.:Flexpoint: An Adaptive Numerical Format for Efficient Training of Deep Neural Networks:弯曲点:一种有 ...

UNDERSTANDING STRAIGHT-THROUGH ESTIMATOR IN TRAINING ACTIVATION QUANTIZED NEURAL NETS

UNDERSTANDING STRAIGHT-THROUGH ESTIMATOR IN TRAINING ACTIVATION QUANTIZED NEURAL NETS相关推荐

最新文章

热门文章