来自 Google Research 的研究人员探索了多个 transformer 变体,发现它们无法在多个实现和应用中实现很好地迁移,大多数架构更改无法有效提升性能。

Transformer 诞生短短三年,已然风头正劲,不仅成为自然语言处理领域的主流预训练模型,还越来越多地应用于计算机视觉等领域。Transformer 架构变体层出不穷,但并未有研究证明它们能够在不同实现及应用中实现轻松迁移,而这也限制了其被更广泛地使用。

为了理解为什么最广泛的 transformer 应用不采纳这些架构更改,一支来自 Google Research 的团队在相同的实验环境下对它们进行了综合评估。研究者惊讶地发现,大部分 transformer 架构更改无法有效提升在下游 NLP 任务上的性能。

论文链接:https://arxiv.org/pdf/2102.11972.pdf

研究者首先在最常应用 transformer 的任务上重新实现和评估多种 transformer 变体,并使用以下两种 transformer 模型作为基线:在自注意力和前馈模块前使用层归一化;使用具备共享偏见的相对注意力,而不是正弦位置嵌入。该研究调查的 transformer 架构更改包括:

  • 透明注意力:沿着编码器路径创建加权残差连接,以加速梯度流;

  • 进化 Transformer:通过基于进化的架构搜索来设计模型,其中初始群体的种子是原版 transformer;

  • 合成器变体:用「合成注意力」替代自注意力;

  • 漏斗 Transformer:渐进式地减少序列长度,以高效编码输入序列;

  • 稀疏专家 Transformer:用稀疏激活专家层替代前馈网络;

  • 通用 Transformer:对输入序列重复应用相同的 transformer「模块」。

研究者在两个实验设置下进行性能评估,分别是基于 T5 的迁移学习,和在 WMT’14 英德翻译任务上的监督式机器翻译。实验结果参见下图:

所有 transformer 变体的结果。基线模型是具备相对注意力的原版 Transformer。SGLUE 表示 SuperGLUE;WebQ 表示 WebQuestions 数据集。

如上结果表明,带来显著性能改进的架构更改往往具备以下特征之一:更改相对较小、依靠增加参数量或者模型速度较慢、基于 Mesh TensorFlow 代码库创建。很少有架构更改会带来性能提升,这一发现与提出这些变体的研究论文中的实验结果相悖。

谷歌研究者进一步研究了对此的合理解释,得出结论:这些模型变体无法在不同实现和应用中实现高效迁移。

最后,该团队对未来如何提升架构更改的鲁棒性提供了一些建议:在多个完全不同的代码库中对提出的架构更改进行测试;将架构更改应用到多个下游任务中;在评估性能时尽可能保持超参数不变;确保报告最佳实践的结果,包括多次试验的均值与标准差。

参考链接:https://syncedreview.com/2021/03/03/google-study-shows-transformer-modifications-fail-to-transfer-across-implementations-and-applications/

欢迎添加群助手微信,邀请您加入大佬云集-TransFormer&CV交流群!

???? 长按识别添加,邀请您进群!

Transformer变体为何无法应用于多种任务?谷歌:这些架构更改不能有效迁移相关推荐

  1. 在注意力中重新思考Softmax:分解非线性,这个线性transformer变体实现多项SOTA

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨机器之心 编辑丨极市平台 导读 来自商汤.上海人工智能实验室等 ...

  2. 加性注意力机制、训练推理效率优于其他Transformer变体,这个Fastformer的确够快...

    视学算法报道 机器之心编辑部 从训练与推理效率来看,清华和微软亚研提出的 Fastformer 无愧于「fast」. 在过去的几年里,Transformer 及其变体在很多领域取得了巨大成功,但由于其 ...

  3. Transformer变体层出不穷,它们都长什么样?

    ©PaperWeekly 原创 · 作者|上杉翔二 单位|悠闲会 研究方向|信息检索 不知不觉 Transformer 已经逐步渗透到了各个领域,就其本身也产生了相当多的变体,如上图.本篇文章想大致按 ...

  4. Fastformer:简单又好用的Transformer变体!清华MSRA开源线性复杂度的Fastformer!

    关注公众号,发现CV技术之美 0 写在前面 Transformer是一个强大的文本理解模型.然而,由于其对输入序列长度呈二次计算复杂度,Transformer是效率是比较低下的.虽然Transform ...

  5. Transformer又出新变体∞-former:无限长期记忆,任意长度上下文

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:机器之心 任意长度的上下文都能 hold 住?这里有一个名为∞-former 的 ...

  6. 【CS224n】(lecture9)Transformer的变体

    学习总结 Transformer 的进一步改进可能在于以下几个方向: 0.1 理论分析 Transformer 的架构已被证明能够支持具有足够参数的大规模训练数据集.许多工作表明,Transforme ...

  7. Transformer模型有多少种变体?复旦邱锡鹏教授团队做了全面综述

    视学算法报道 转载自:机器之心 编辑:Liyuan.杜伟 自提出至今,Transformer 模型已经在自然语言处理.计算机视觉以及其他更多领域「大展拳脚」,学界也提出了各种各样基于原始模型的变体.但 ...

  8. 如何用Transformer来做目标检测?一文简述DERT及其变体

    ©PaperWeekly 原创 · 作者|张一帆 学校|华南理工大学本科生 研究方向|CV,Causality DETR 在短短一年时间收获了 200+ 引用量,可谓是风靡一时,各种变体层出不穷,这篇 ...

  9. LSTM之父重提30年前的「快速权重存储系统」:线性Transformer只是它的一种变体...

    作者|陈萍.维度 来源|机器之心 来自瑞士人工智能实验室.亚琛工业大学的研究者建立了线性(核)注意力与快速权重存储系统之间的内在联系,并提出更新规则,在合成检索问题.机器翻译.语言模型等实验上性能优越 ...

最新文章

  1. Python--日志模块
  2. 乐在其中设计模式(C#) - 中介者模式(Mediator Pattern)
  3. stm32 USART接收总线空闲中断--USART_IT_IDLE
  4. MFC 常用系统函数
  5. php strstartwith,PHP8新增的三个字符串函数 str_contains, str_starts_with, str_ends_with
  6. CRM Fiori launchpad请求响应结果的字段分析
  7. 一次阿里巴巴面试……
  8. 各种浏览器css不兼容的写法
  9. sklearn K折(KFold)交叉验证案例,展开细节代码与cross_validate简写
  10. 浅谈java的静态代理模式
  11. bsvadvaanjalvsc
  12. 2017 ACM-ICPC Asia Shenyang (ICPC亚洲沈阳赛区)
  13. eeglab和matlab,EEGLAB for Matlab(一)--初识EEGLAB
  14. 图像的上采样、下采样
  15. 服务器机柜设备信息卡,信息机房标识标准V.doc
  16. 问题:计算给定年月日的日期是星期几(泽勒一致性)
  17. 论文笔记| 后门攻击|Composite Backdoor Attack for Deep Neural Network byMixing Existing Benign Features
  18. Google maps及51ditu的图片切割及存储方法2
  19. 渗透测试之通道构建Cheat Sheet
  20. [php]php设计模式 (总结)

热门文章

  1. 24 UsageEnvironment使用环境抽象基类——Live555源码阅读(三)UsageEnvironment
  2. nginx基于域名的日志切割脚本
  3. 动态数据交换(DDE, Dynamic Data Exchange)简介
  4. [Prism]Composite Application Guidance for WPF(8)——事件
  5. oracle erp 财务入门,Oracle ERP EBS 顾问财务模块基本业务操作专题
  6. Python正则表达式:match(),search(),findall()与finditer()的用法
  7. pd.read_csv读取txt时整型变成浮点型问题解决
  8. 前期优达无人驾驶对课程评价
  9. 《因果学习周刊》第9期:因果学习中的工具变量
  10. 开启注册丨全国社交媒体处理大会(SMP 2020)召开,98场报告日程全公开