点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

本文转载自:集智书童

该文主要是分析和讨论了跳跃连接的一些局限,同时分析了BN的一些限制,提出了通过递归的Skip connection和layer normalization来自适应地调整输入scale的策略,可以很好的提升跳Skip connection的性能,该方法在CV和NLP领域均适用。

1简介

Skip connection是一种广泛应用于提高深度神经网络性能和收敛性的技术,它通过神经网络层传播的线性分量,缓解了非线性带来的优化困难。但是,从另一个角度来看,它也可以看作是输入和输出之间的调制机制,输入按预定义值1进行缩放。

在本文中,作者通过研究Skip connection的有效性和scale factors显示,一个微不足道的调整将导致spurious gradient爆炸或消失,这可以通过normalization来解决,特别是layer normalization。受此启发作者进一步提出通过递归的Skip connection和layer normalization来自适应地调整输入scale,这大大提高了性能,并且在包括机器翻译和图像分类数据集在内的各种任务中具有很好的泛化效果。

图1 常用skip connections

这项工作的特点:

  1. 主要关注LN和skip connection的结合;

  2. 重新思考了层归一化的作用,选择不进行缩放;

  3. 在具有代表性的计算机视觉和自然语言处理任务上进行实验;

  4. 摆脱了泛化了所有以前工作的残差块的一般形式,并提出了一种新的递归残差块结构,它具有层归一化,优于本工作中检查的所有一般形式的变体;

2方法

connection problem

在进行尺度scaling时,会出现梯度爆炸或消失的问题,阻碍了深度神经网络的高效优化。

optimization problem

由于早期的工作已经确定,将Skip connection直接结合到神经网络的前向传播中就足够了,不需要任何尺度,后续的优化问题研究大多遵循Skip connection结构。

架构说明

图2 常见LN与skip connections组合

Expanded Skip Connection (xSkip)

其中,和分别为残差块的输入和输出。为weighted neural network layer,为modulating scalar。

考虑到神经网络层可能具有不同的表示能力和优化难度,这种结构自然调整了跳跃的重要性。然而,需要注意的是,在这项工作中是固定的,目的是隔离缩放的影响。虽然学习过的可能更好地捕捉到这2个部分之间的平衡,但是学习变成了另一个变量。

Expanded Skip Connection with Layer Normalization (xSkip+LN)

在Transformer将跳跃连接与层规范化相结合的激励下,作者进一步研究了层规范化对扩展跳跃连接的影响:

实验表明层归一化有助于缓解调制因子在优化过程中引起的梯度畸变。不同于作用于“样本空间”的BN,LN则是作用于“特征空间”。同时在神经网络难以优化的情况下,LN仍然可以帮助学习shortcut,而BN可能会失败。

Recursive Skip Connection with Layer Normalization (rSkip+LN)

另一种稳定梯度的方法是每次保持=1,但重复添加带有LN的shortcut,这样更多的输入信息也被建模。它被递归定义为:

应该是一个不小于1的整数。例如,当=1时,上式便回归到Transformer中使用的block,并符合跳过不需要缩放的结果。

通过recursive skip connection with layer normalization,该模型鼓励多次使用层归一化来改进优化,通过跳跃连接可以包含更多的x信息。此外,与一次性简单地合并比例跳跃相比,该模型可能获得更强的表达能力,因为每一个递归步骤本质上构建了一个不同的特征分布,递归结构可以学习自适应的x与F(x,W)。

3实验

实验1:PreAct-ResNet-110 on cifar10

实验2:EN-VI machine translation

实验3:BN代替LN

可以看出,与LN结合跳跃连接相比,BN的效果较差。而本文所提出的递归策略可以帮助BN提升效果。

实验结论

作者通过对不同任务的实验(Transformer和ResNet),得出如下结论:

  • 没有经过任何归一化的expanded skip connection确实会造成梯度畸形,导致神经网络的学习效果不理想。层归一化在一定程度上有助于解决 expanded skip connection带来的优化问题。

  • 本文提出的带有LN的recursive skip connection,通过将expanded skip connection划分为多个阶段,以更好地融合转换输入的效果,进一步简化了优化过程。

  • 利用Transformer在WMT-2014 EN-DE机器翻译数据集上的实验结果进一步证明了递归架构的有效性和效率,模型性能甚至优于3倍大的模型。

4参考

[1].Rethinking Skip Connection with Layer Normalization in Transformers and ResNets

CVPR和Transformer资料下载
后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加小助手微信,进交流群▲点击上方卡片,关注CVer公众号
整理不易,请给CVer点赞和在看

重新思考:在ResNet与Transformer均适用的跳跃连接相关推荐

  1. Chem. Sci. | SyntaLinker: 基于Transformer神经网络的片段连接生成器

    作者 | 杨禹尧 今天给大家介绍的是生物岛实验室陈红明研究员的团队,联合中山大学药学院药物分子设计中心的徐峻教授,发表在英国皇家化学学会出版的化学核心期刊Chemical Science上的一篇论文. ...

  2. 李沐论文精读系列一: ResNet、Transformer、GAN、BERT

    文章目录 一. ResNet 1.0 摘要,论文导读 1.1 导论 1.1.1 为什么提出残差结构? 1.1.2 实验验证 1.2 相关工作 1.3 实验部分 1.3.1 不同配置的ResNet结构 ...

  3. keras cnn注意力机制_从发展历史视角解析Transformer:从全连接CNN到Transformer

    编译 | bluemin校对 | 陈彩娴Transformer架构在机器学习领域(尤其是NLP里)是一项热门研究,为我们带来了许多重要成果,比如:GPT-2.GPT-3等写稿机器人:第一代GPT及其性 ...

  4. transformer机制讲解_从发展历史视角解析Transformer:从全连接CNN到Transformer

    Transformer架构在机器学习领域(尤其是NLP里)是一项热门研究,为我们带来了许多重要成果,比如:GPT-2.GPT-3等写稿机器人:第一代GPT及其性能更优越的"继任者" ...

  5. 其实书童是一个集算法、实践、论文以及Transformer于一身的公号(往期索引大全)...

    今天给大家推荐一个好朋友ChaucerG,不仅有趣也具有非常强的执行力,独自创立和运营了[集智书童]公众号: [集智书童]从最开始的机器学习与深度学习基础开始记起,为刚刚入门人工智能的小伙伴提供理论基 ...

  6. 【深度学习】语义分割-综述(卷积)

    这里写目录标题 0.笔记参考 1. 目的 2. 困难点 3. 数据集及评价指标 3.1数据集 3.2评价指标 4.实现架构 5. 模型发展 5.1基于全卷积的对称语义分割模型 5.1.1FCN(201 ...

  7. ICLR 2021 | 美团AutoML论文:鲁棒的神经网络架构搜索 DARTS-

    高质量模型的设计和更新迭代是当前 AI 生产开发的痛点和难点,在这种背景下,自动化机器学习(AutoML)应运而生.2017年,谷歌正式提出神经网络架构搜索(Neural Architecture S ...

  8. 语义分割中的一些模型的分类汇总

    语义分割是深度学习中的一个重要应用领域.自Unet提出到现在已经过去了8年,期间有很多创新式的语义分割模型.简单的总结了Unet++.Unet3+.HRNet.LinkNet.PSPNet.DeepL ...

  9. tictoc正方形网络模型_Trick | 分类网络Trick大汇总

    本文介绍了训练分类网络的各个阶段可以用来提升性能的Trick,也就是俗称的调参术.结果顶级调参术的调教,ResNet- 50的top-1验证精度在ImageNet上从75.3%提高到79.29%.这个 ...

  10. 一文讲解自动机器学习(AutoML)!

    Datawhale 作者:瞿晓阳,AutoML书籍作者 寄语:让计算机自己去学习和训练规则,是否能达到更好的效果呢?自动机器学习就是答案,也就是所谓"AI的AI",让AI去学习AI ...

最新文章

  1. 网页(Webpage)粒度分析算法
  2. 命令 / GDB / 多进程调试 + 多线程调试
  3. kotlin集合操作符——顺序操作符
  4. 信息学奥赛一本通 2069:【例2.12】糖果游戏
  5. 使用NUget发布自己的dll(转)
  6. python经典书籍推荐:python编码规范
  7. Odoo10教程 -- 主题教程
  8. Linux ACL 权限
  9. Hadoop Trash回收站使用指南
  10. 故障恢复 stm32_77条STM32知识,千万不能错过!干货
  11. Python实现自己的分布式区块链视频教程-张敏-专题视频课程
  12. 前端如何学习,学习以后干什么?
  13. mysql中ddl是什么_mysql ddl什么意思
  14. vscode报错Failed to save ***,The content of the file is newer.
  15. 排序算法-归并排序详细图解
  16. Python爬虫实践-网易云音乐
  17. 『牛角书』基于JS实现的鸿蒙游戏——二十四点纸牌
  18. 赛效:WPS中绘制的表格如何添加边框?
  19. html css主题,HTML+CSS=无限可能——案例详解:我的POI主题作品
  20. 地方门户网站运营需要注意哪些地方?

热门文章

  1. 云计算实验(二)Hadoop 练习
  2. html中3d图片轮播图,js实现图片3D轮播效果
  3. 2022保研,我的心路历程(上科大上海交大华南理工)
  4. 老无所依nbsp;(聊后版)
  5. 创建型模式Creational Patterns之单例模式singleton
  6. Java并发25 ThreadFactory使用的必要性
  7. 【菜鸟收藏:全方位掌握Excel的ROUNDUP函数设置】
  8. 电子元器件3D模型免费下载资源
  9. Ubuntu 18.04安装全面战争三国游戏 (by quqi99)
  10. html阅读是什意思,HTML是什么意思?什么是HTML5?什么是H5? | 前端面试题