基于注意力的架构为什么那么有效?近期谷歌等一项研究认为注意力并没有那么有用,它会导致秩崩溃,而网络中的另两个组件则发挥了重要作用:「跳过连接」有效缓解秩崩溃,「多层感知器」能够降低收敛速度。此外,该研究还提出了一种理解自注意力网络的新方式——路径分解。

基于注意力的架构在机器学习领域已经非常普遍,但人们对其有效性原因的理解仍然有限。

最近,来自谷歌和瑞士洛桑联邦理工学院(EPFL)的研究者提出了一种理解自注意力网络的新方式:将网络输出分解为一组较小的项,每个项包括一系列注意力头的跨层操作。基于该分解,研究者证明自注意力具备强大的「token uniformity」归纳偏置。

也就是说,如果没有跳过连接(skip connection)或多层感知器(MLP),其输出将双指数级收敛至秩 1 矩阵。另外,跳过连接和 MLP 还可以阻止输出的衰退。该研究在不同 Transformer 变体上的实验证实了这一收敛现象。

  • 论文地址:https://arxiv.org/pdf/2103.03404v1.pdf

  • 项目地址:https://github.com/twistedcubic/attention-rank-collapse

纯注意力以双指数级速率丢失秩

注意力机制最初旨在更好地学习长程序列知识,在 Transformer 网络中得到了有效使用。之后,基于注意力的架构逐渐渗透到多个机器学习应用领域,如自然语言处理、语音识别和计算机视觉。因此,开发一些工具,来理解 Transformer 和注意力的内在工作机制是非常重要的,这既可以帮助理解现有的模型,又能为未来设计更高效的模型做准备。

该研究对此类网络的操作和归纳偏置提供了新的见解。研究者惊讶地发现纯自注意力网络(SAN)——即不具备跳过连接(skip connection)和多层感知器(MLP)的 Transformer,会损失一部分表达能力,其损失程度与网络深度成双指数级关联。具体而言,研究者证明网络输出以三次方收敛速度收敛至秩 1 矩阵。

研究者利用随机矩阵的特性部分地推导出收敛界限,但其结果超出了想象。利用特殊堆叠自注意力模块的级联效应,研究者发现这类网络的收敛速度比标准理论所描述的快指数级。

此外,尽管之前有研究考虑了单个自注意力矩阵的秩,但该研究认为其结果首次说明了整个网络收敛至秩 1 矩阵的条件。

注意力机制不给力,Transformer 凭什么那么有效呢?

问题来了:如果 Transformer 的自注意力机制不给力,又是什么赋予了它优秀的能力呢?

该研究分析了三个重要组件:跳过连接、MLP 和层归一化,结果表明,跳过连接能够有效地缓解秩崩溃(rank collapse),MLP 则通过增加利普希茨常数来降低收敛速度。

MLP 的作用。

研究者通过证明在类 Transformer 的 SAN 架构变体上的收敛行为的上下界,描述了这些反作用力。研究结果揭示了跳过连接此前不为人知的重要作用,它的作用可不只是促进优化和梯度流动。

跳过连接的下界。

路径分解

在分析过程中,研究者提出了一种新的路径分解方式来研究自注意力网络。他们将 SAN 分解为弱耦合路径的线性组合,每一条「路径」对应一个深度单头 SAN。

直观来看,我们可以将原始网络中每一层的自注意力头看作不同的 gateway,一条路径遵循一系列 gateway 选择,每层一个 gateway(参见图 1)。结合秩崩溃分析,该研究结果表明具备跳过连接的深度 SAN 类似于多个弱相依浅层网络的集成

该研究的主要贡献如下:

  1. 系统研究了 Transformer 的构造块,揭示自注意力与其反作用力(跳过连接和 MLP)之间的对抗影响。这揭示了跳过连接在促进优化之外的重要作用。

  2. 提出一种通过路径分解来分析 SAN 的新方法,发现 SAN 是多个浅层网络的集成。

  3. 在多个常见 Transformer 架构上进行实验,从而验证其理论。

实验

该研究首次在多个知名 Transformer 架构中测试了秩崩溃现象,用图示的方式表示一些 Transformer 变体的归纳偏置,并测试了路径有效性。

真实架构中的秩崩溃

为了验证其理论预测,研究者检查了三个知名 Transformer 架构的残差,分别是 BERT、Albert 和 XLNet。下图 2 绘制了网络训练前后每个层输出的相对残差:

该实验确认,移除跳过连接后,所有网络均出现快速秩崩溃。尽管 MLP 在缓解收敛方面似乎没太大帮助,但研究者注意到这一观察未必准确反映 Transformer 的运作原理:移除跳过连接会导致 MLP 输入出现极大的分布偏移。研究者希望网络重新训练会降低收敛速度。

可视化不同架构的偏差

为了实验验证 Transformer 架构不同组件的归纳偏置,研究者探索了循环使用单层 Transformer 来预测简单 2D 环状序列的行为。研究者训练网络直到它能够以接近 0 的损失记住环状轨迹上的下一步。下图 3 展示了模型在推断时预测的轨迹:

路径的有效性

SAN 可被视作多个不同长度(从 0 到 L)路径的集成,每一个路径包含不同的自注意力头序列。该研究对具备跳过连接的 SAN 进行的分析表明,路径有效性会随着路径长度的增加而降低,即使涉及的非线性运算数量增加了。为了验证这一假设,研究者将不同长度的路径分隔开,并评估其预测能力。

下图 4 展示了在序列记忆(Sequence memorization)、学习分类(Learning to sort)和凸包预测(Convex hull prediction)三项任务中的性能。研究者测试了不同的子集,并报告了五次重复试验的均值和标准差。至于推断,研究者还绘制了朴素分类器和整个训练模型(路径分解前)的准确率。

从上图中可以看到,短路径具备较强的预测能力,长度为 1 的路径在记忆、分类和凸包任务中分别获得了超过 0.8、0.6、0.65 的准确率。而较长路径的输出准确率并不比随机猜测好多少。由于凸包任务中存在类别不均衡现象,研究者使用多数类预测器来获取随机基线。尽管凸包任务中长短路径的准确率差异没那么大,但研究者观察到长路径的方差明显更大,这表明其比随机猜测好不了太多。长度为 0 的路径方差很小,但未获得和任务相关的有用信息(很可能是因为它们没有穷尽全局信息)。

欢迎添加群助手微信,邀请您加入大佬云集-计算机视觉交流群!

???? 长按识别添加,邀请您进群!

谷歌再一次打脸:纯注意力并没那么有用,Transformer组件很重要相关推荐

  1. 谷歌自锤Attention:纯注意力并没那么有用,Transformer组件很重要

    作者|魔王 来源|机器之心 基于注意力的架构为什么那么有效?近期谷歌等一项研究认为注意力并没有那么有用,它会导致秩崩溃,而网络中的另两个组件则发挥了重要作用:「跳过连接」有效缓解秩崩溃,「多层感知器」 ...

  2. 谷歌最新提出无需卷积、注意力 ,纯MLP构成的视觉架构

    11年it研发经验,从一个会计转行为算法工程师,学过C#,c++,java,android,php,go,js,python,CNN神经网络,四千多篇博文,三千多篇原创,只为与你分享,共同成长,一起进 ...

  3. 华为android系统最新版,谷歌再放大招截胡鸿蒙系统!发布最新版安卓系统:国产手机抢先升级...

    原标题:谷歌再放大招截胡鸿蒙系统!发布最新版安卓系统:国产手机抢先升级 [5月21日讯]相信大家都知道,随着华为鸿蒙OS 2.0正式版系统推出旗舰确认,也让华为鸿蒙OS系统在近期越来越火热,受到的关注 ...

  4. 谷歌再遭反垄断起诉:曾试图“扼杀”三星应用商店!

    整理 | 郑丽媛 出品 | CSDN(ID:CSDNnews) 这几个月对谷歌来说可谓是"多事之秋",一直深陷反垄断调查,并惹上了好几起反垄断官司: 2020 年 10 月,美国司 ...

  5. 李飞飞之后谷歌再失华裔高管,谷歌AI中国中心总裁李佳离职创业

    李根 边策 发自 亚龙湾  量子位 报道 | 公众号 QbitAI 李飞飞离职50天后,另一位知名的谷歌AI华裔高管,也辞别了这家美国科技巨头. 她就是李佳,谷歌云AI研发主管.谷歌AI中国中心总裁. ...

  6. 改进YOLOv5 | Stand-Alone Self-Attention | 针对视觉任务的独立自注意力层 | 搭建纯注意力FPN+PAN结构

    改进YOLOv5 | Stand-Alone Self-Attention | 搭建纯注意力Neck结构 论文地址:https://arxiv.org/abs/1906.05909 卷积是现代计算机视 ...

  7. 谷歌封禁鸿蒙,就在刚刚!谷歌再下狠手彻底封禁华为,禁止用户自主安装谷歌服务...

    原标题:就在刚刚!谷歌再下狠手彻底封禁华为,禁止用户自主安装谷歌服务 对于华为,大家可以说已经非常熟悉了,无论是从5G还是智能手机,华为都给我们国产厂商树立了很好的一个楷模.别的暂且不论,仅从坚持研发 ...

  8. 安卓受挫后,傲慢的谷歌再遭重击,苹果iPad和PC夹击ChromeOS

    业界都清楚安卓系统,不过谷歌其实在PC市场也布局有ChromeOS系统,此前ChromeOS曾占有不小的市场份额,不过近日有分析机构指出Chromebook却遭遇重击,出货量暴跌六成,显示出谷歌在PC ...

  9. 谷歌再失华裔高管,AI 中国中心总裁李佳离职;树莓派新品发布

    (给技术最前线加星标,每天看技术热点) 转自:开源中国.solidot.cnBeta.腾讯科技.快科技等 [技术资讯] 0.李飞飞之后谷歌再失华裔高管,谷歌 AI 中国中心总裁李佳离职创业 李飞飞离职 ...

最新文章

  1. 1077: 字符串加密
  2. Android应用安全与防范之签名校验
  3. .net上传,一个选择直接上传(ashx)和byteArray上传
  4. php接收dup,TCP与DUP简单对比
  5. C#实现数据回滚,A事件和B事件同时执行,其中任何一个事件执行失败,都会返回失败...
  6. PHP+MySql+PDO实现简单增加、删除、修改、查询
  7. (90)常见伪路径约束情景
  8. rocketmq 重复消费_消息队列 RocketMQ
  9. 重温WCF之数据契约和序列化(四)
  10. 使用Maven在jar中包含依赖项
  11. 大话css预编译处理(一)通读介绍篇
  12. SqlPlus中退格键和方向键的设置
  13. 百度关键词排名提升软件-免费百度关键词排名提升工具
  14. linux vi编译显示行号,Linux系统vi或者vim编辑器中如何显示行号
  15. 什么是pisa测试_PISA测试是什么?
  16. 什么样的台灯灯光是好的?推荐中性色温的护眼台灯
  17. 腾讯云学生服务器入口地址(腾讯云​学生机官网)
  18. 2021年中国信息安全产业发展现状分析:信息安全收入达1825亿元,同比增长21.81%[图]
  19. DOS bat批量处理 文本操作
  20. 23种设计模式——建造者模式

热门文章

  1. Python读写文件 - 转
  2. SQL CONVERT在日期转换中的使用示例
  3. 使用模板引擎Trimpath
  4. pads pcb导出pdf文件_干货 | 学会设计不规则形状PCB,看这一篇就够了
  5. MySQL存储引擎类别
  6. 【Python】将字典(dict)转化为Dataframe
  7. pandasDataFrame 的定位指定文件
  8. 运行NER/formal_bert_lstm_crf.py“ 报错ModuleNotFoundError: No module named ‘keras_contrib‘
  9. jadclipse设置,这个解决了问题
  10. mkdir命令使用详解