概览

改变residual connection与layer normalization的位置可以缓解深层Transformer难以优化的问题。
作者比较了计算顺序（residual connection与layer normalization的位置）上的细微差别，并提出了一种参数初始化方法，该方法利用Lipschitz约束对Transformer的参数进行初始化。
即使不调整原来的计算顺序，应用Lipschitz约束进行参数初始化，也可以使得模型正常收敛。

1、引言

多层网络可以增强模型的容量，但同时会增加训练的难度。
即使应用残差网络和层正则化技术，深层的Transformer依然难以训练。（文中作者也提出了大量的解决的论文，比如：Transparent Attention、DLCL等等）

这篇论文的主要解决的问题如下：

从经验上证明，修改Transformer中的层正则化与残差连接的顺序，可以有效的改善模型优化。
深层的分析了计算顺序的不同是如何影响模型收敛的，并提出了一种基于Lipschitz约束的初始化方法。
相对于之前的研究，从经验上证明了正确的初始化可以帮助原来不调整计算顺序的深层网络收敛。
深层Decoder对于Transformer也是有效的。

2、不同计算顺序的收敛性

2.1 经验上的分析

offical implementation（V2）：

published（original paper V1）：

对于V1和V2的传递过程进行分析：

我们可以发现，V1相对于V2，在其残差网络的输出上多了一个权重 ω\omegaω/σ\sigmaσ。

而由试验结果可知，V2对于深层网络没有收敛问题。

2.2 理论分析

作者认为V1的收敛问题可能是由于紧跟在残差网络后的层正则化显著的减少了残差网络对后面的影响，
V1的输出受权重 ω\omegaω/σ\sigmaσ的影响，当其小于1时，深层的网络难以收敛。

3、Lipschitz约束初始化

问题：如果缩小残差网络的输出可能使深层的Transformer无法收敛，那么如果 ω\omegaω/σ\sigmaσ>1呢？
那么很自然的，如果ω\omegaω/被初始化为1，那么σ\sigmaσ应属于(0,1]，故

这样使得ω\omegaω/σ\sigmaσ至少等于1。

为实现这个目标，可以通过限制

在[a,b]之间即可，下面给出证明：

其中
即为P(x)的期望，故x-E(x)<b-a，所以：

可得只与区间长度相关，而与具体的分布无关。
则可利用Lipschitz条件，当K小于等于1时，|F(x)-F(y)| < k|x-y|，设F为参数在[a,b]上的分布函数，则|F(x)-F(y)| < k|b-a|

论文精读（1）-- Lipschitz constrained parameter initialization for deep transformers相关推荐

【论文精读 | 细节分析 | 代码实现】PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
文章目录声明引文 1.点云数据格式 2. 点云的特点 2.1.1 点云的置换不变性 2.1.2 点云的相互关系 2.1.3 点云的旋转不变性 3. 传统处理方式 Abstract 点云数据的特性补 ...
【论文精读】Image stitching method by multi-feature constrained alignment and colour adjustment
图像拼接系列相关论文精读 Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation A ...
李沐论文精读系列四：CLIP和改进工作串讲（LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso）
文章目录一.CLIP 1.1 简介 1.1.1 前言 1.1.2 模型结构 1.1.3 模型效果 1.1.3.1 对自然分布偏移的鲁棒性 1.1.3.2 StyleCLIP 1.1.3.3 CLIP ...
【推荐系统多任务学习 MTL】PLE论文精读笔记（含代码实现）
论文地址: Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized ...
【推荐系统论文精读系列】(二)--Factorization Machines
文章目录一.摘要二.介绍三.稀疏性下预测四.分解机(FM) A. Factorization Machine Model B. Factorization Machines as Predic ...
繁凡的对抗攻击论文精读（二）CVPR 2021 元学习训练模拟器进行超高效黑盒攻击（清华）
点我轻松弄懂深度学习所有基础和各大主流研究方向入门综述! <繁凡的深度学习笔记>,包含深度学习基础和 TensorFlow2.0,PyTorch 详解,以及 CNN,RNN,GNN,AE, ...
【nature论文精读】Impedance-based forecasting of lithium-ion battery performance amid uneven usage
[nature论文精读] Impedance-based forecasting of lithium-ion battery performance amid uneven usage 文章目录 [ ...
李沐论文精读： ResNet 《Deep Residual Learning for Image Recognition》 by Kaiming He
目录 1 摘要主要内容主要图表 2 导论 2.1为什么提出残差结构 2.2 实验验证 3 实验部分 3.1 不同配置的ResNet结构 3.2 残差结构效果对比 3.3 残差结构中,输入输出维度不 ...
论文精读——CenterNet :Objects as Points
论文精读--CenterNet :Objects as Points 论文地址:https://arxiv.org/pdf/1904.07850.pdf 机构:UT Austin,UC Berkele ...

论文精读（1）-- Lipschitz constrained parameter initialization for deep transformers

概览