论文精读(1)-- Lipschitz constrained parameter initialization for deep transformers
概览
- 改变residual connection与layer normalization的位置可以缓解深层Transformer难以优化的问题。
- 作者比较了计算顺序(residual connection与layer normalization的位置)上的细微差别,并提出了一种参数初始化方法,该方法利用Lipschitz约束对Transformer的参数进行初始化。
- 即使不调整原来的计算顺序,应用Lipschitz约束进行参数初始化,也可以使得模型正常收敛。
1、引言
- 多层网络可以增强模型的容量,但同时会增加训练的难度。
- 即使应用残差网络和层正则化技术,深层的Transformer依然难以训练。(文中作者也提出了大量的解决的论文,比如:Transparent Attention、DLCL等等)
这篇论文的主要解决的问题如下:
- 从经验上证明,修改Transformer中的层正则化与残差连接的顺序,可以有效的改善模型优化。
- 深层的分析了计算顺序的不同是如何影响模型收敛的,并提出了一种基于Lipschitz约束的初始化方法。
- 相对于之前的研究,从经验上证明了正确的初始化可以帮助原来不调整计算顺序的深层网络收敛。
- 深层Decoder对于Transformer也是有效的。
2、不同计算顺序的收敛性
2.1 经验上的分析
offical implementation(V2):
published(original paper V1):
对于V1和V2的传递过程进行分析:
我们可以发现,V1相对于V2,在其残差网络的输出上多了一个权重 ω\omegaω/σ\sigmaσ。
而由试验结果可知,V2对于深层网络没有收敛问题。
2.2 理论分析
作者认为V1的收敛问题可能是由于紧跟在残差网络后的层正则化显著的减少了残差网络对后面的影响,
V1的输出受权重 ω\omegaω/σ\sigmaσ的影响,当其小于1时,深层的网络难以收敛。
3、Lipschitz约束初始化
问题:如果缩小残差网络的输出可能使深层的Transformer无法收敛,那么如果 ω\omegaω/σ\sigmaσ>1呢?
那么很自然的,如果ω\omegaω/被初始化为1,那么σ\sigmaσ应属于(0,1],故
这样使得ω\omegaω/σ\sigmaσ至少等于1。
为实现这个目标,可以通过限制
在[a,b]之间即可,下面给出证明:
其中
即为P(x)的期望,故x-E(x)<b-a,所以:
可得只与区间长度相关,而与具体的分布无关。
则可利用Lipschitz条件,当K小于等于1时,|F(x)-F(y)| < k|x-y|,设F为参数在[a,b]上的分布函数,则|F(x)-F(y)| < k|b-a|
论文精读(1)-- Lipschitz constrained parameter initialization for deep transformers相关推荐
- 【论文精读 | 细节分析 | 代码实现】PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation
文章目录 声明 引文 1.点云数据格式 2. 点云的特点 2.1.1 点云的置换不变性 2.1.2 点云的相互关系 2.1.3 点云的旋转不变性 3. 传统处理方式 Abstract 点云数据的特性补 ...
- 【论文精读】Image stitching method by multi-feature constrained alignment and colour adjustment
图像拼接系列相关论文精读 Seam Carving for Content-Aware Image Resizing As-Rigid-As-Possible Shape Manipulation A ...
- 李沐论文精读系列四:CLIP和改进工作串讲(LSeg、GroupViT、VLiD、 GLIPv1、 GLIPv2、CLIPasso)
文章目录 一.CLIP 1.1 简介 1.1.1 前言 1.1.2 模型结构 1.1.3 模型效果 1.1.3.1 对自然分布偏移的鲁棒性 1.1.3.2 StyleCLIP 1.1.3.3 CLIP ...
- 【推荐系统多任务学习 MTL】PLE论文精读笔记(含代码实现)
论文地址: Progressive Layered Extraction (PLE): A Novel Multi-Task Learning (MTL) Model for Personalized ...
- 【推荐系统论文精读系列】(二)--Factorization Machines
文章目录 一.摘要 二.介绍 三.稀疏性下预测 四.分解机(FM) A. Factorization Machine Model B. Factorization Machines as Predic ...
- 繁凡的对抗攻击论文精读(二)CVPR 2021 元学习训练模拟器进行超高效黑盒攻击(清华)
点我轻松弄懂深度学习所有基础和各大主流研究方向入门综述! <繁凡的深度学习笔记>,包含深度学习基础和 TensorFlow2.0,PyTorch 详解,以及 CNN,RNN,GNN,AE, ...
- 【nature论文精读】Impedance-based forecasting of lithium-ion battery performance amid uneven usage
[nature论文精读] Impedance-based forecasting of lithium-ion battery performance amid uneven usage 文章目录 [ ...
- 李沐论文精读: ResNet 《Deep Residual Learning for Image Recognition》 by Kaiming He
目录 1 摘要 主要内容 主要图表 2 导论 2.1为什么提出残差结构 2.2 实验验证 3 实验部分 3.1 不同配置的ResNet结构 3.2 残差结构效果对比 3.3 残差结构中,输入输出维度不 ...
- 论文精读——CenterNet :Objects as Points
论文精读--CenterNet :Objects as Points 论文地址:https://arxiv.org/pdf/1904.07850.pdf 机构:UT Austin,UC Berkele ...
最新文章
- python 发邮件-带附件-文本-html
- fitnesse - 框架介绍
- 一文说通C#中的异步编程
- 【APICloud系列|37】 银联支付的实现
- oracle ins-30131错误
- TensorFlow 实例一:线性回归模型
- 社群商业模式设计方案
- Lady Gaga ft.Beyonce- Telephone
- Codeforces Round #532(Div. 2) B.Build a Contest
- html炫酷动态时钟代码,HTML5动态时钟代码
- 2022创业基础——李家华等章节测试答案以及期末考试答案
- 最简单的WIN7内核PE系统(U盘,硬盘,移动硬盘版支持原版WIN7安装
- 计算机网络技术——VLAN划分
- open-drain和push-pull的上拉速度
- java basic认证_HTTP Basic auth认证
- 51单片机驱动ds12887c语言,DS12887(时钟日历芯片) c语言驱动程序
- c语言求成绩中的最高分辨率大约是,一级msoffice全真机试试卷.docx
- PDF.js特殊字体、水印加载不出来问题解决
- [构造]Repetitions Decoding Codeforces1642D
- 光场相机重聚焦原理介绍及代码解析
热门文章
- 服务器raid5阵列修复,RAID5磁盘阵列的安装与故障修复
- 学习pathon的几大步骤
- 豆瓣top250-词云案例
- window.print()+layer.open()——实现打印A4纸张内容的功能——功能实现
- Python Pandas 行数据筛选方法汇总
- MOS管的工作原理以及设计理念
- Android开发之使用Web Service进行网络编程
- 年终盘点 | 用Python分析了上千个基金,终于发现了赚钱的秘密!
- android迅雷下载搭建开发环境
- 2022 CCF中国软件大会(CCF Chinasoft)“CCF-华为胡杨林基金-系统软件专项”论坛成功召开...