Transformer变体为何无法应用于多种任务？谷歌：这些架构更改不能有效迁移

来自 Google Research 的研究人员探索了多个 transformer 变体，发现它们无法在多个实现和应用中实现很好地迁移，大多数架构更改无法有效提升性能。

Transformer 诞生短短三年，已然风头正劲，不仅成为自然语言处理领域的主流预训练模型，还越来越多地应用于计算机视觉等领域。Transformer 架构变体层出不穷，但并未有研究证明它们能够在不同实现及应用中实现轻松迁移，而这也限制了其被更广泛地使用。

为了理解为什么最广泛的 transformer 应用不采纳这些架构更改，一支来自 Google Research 的团队在相同的实验环境下对它们进行了综合评估。研究者惊讶地发现，大部分 transformer 架构更改无法有效提升在下游 NLP 任务上的性能。

论文链接：https://arxiv.org/pdf/2102.11972.pdf

研究者首先在最常应用 transformer 的任务上重新实现和评估多种 transformer 变体，并使用以下两种 transformer 模型作为基线：在自注意力和前馈模块前使用层归一化；使用具备共享偏见的相对注意力，而不是正弦位置嵌入。该研究调查的 transformer 架构更改包括：

透明注意力：沿着编码器路径创建加权残差连接，以加速梯度流；
进化 Transformer：通过基于进化的架构搜索来设计模型，其中初始群体的种子是原版 transformer；
合成器变体：用「合成注意力」替代自注意力；
漏斗 Transformer：渐进式地减少序列长度，以高效编码输入序列；
稀疏专家 Transformer：用稀疏激活专家层替代前馈网络；
通用 Transformer：对输入序列重复应用相同的 transformer「模块」。

研究者在两个实验设置下进行性能评估，分别是基于 T5 的迁移学习，和在 WMT’14 英德翻译任务上的监督式机器翻译。实验结果参见下图：

所有 transformer 变体的结果。基线模型是具备相对注意力的原版 Transformer。SGLUE 表示 SuperGLUE；WebQ 表示 WebQuestions 数据集。

如上结果表明，带来显著性能改进的架构更改往往具备以下特征之一：更改相对较小、依靠增加参数量或者模型速度较慢、基于 Mesh TensorFlow 代码库创建。很少有架构更改会带来性能提升，这一发现与提出这些变体的研究论文中的实验结果相悖。

谷歌研究者进一步研究了对此的合理解释，得出结论：这些模型变体无法在不同实现和应用中实现高效迁移。

最后，该团队对未来如何提升架构更改的鲁棒性提供了一些建议：在多个完全不同的代码库中对提出的架构更改进行测试；将架构更改应用到多个下游任务中；在评估性能时尽可能保持超参数不变；确保报告最佳实践的结果，包括多次试验的均值与标准差。

参考链接：https://syncedreview.com/2021/03/03/google-study-shows-transformer-modifications-fail-to-transfer-across-implementations-and-applications/

欢迎添加群助手微信，邀请您加入大佬云集-TransFormer&CV交流群！

???? 长按识别添加，邀请您进群！

Transformer变体为何无法应用于多种任务？谷歌：这些架构更改不能有效迁移相关推荐

在注意力中重新思考Softmax：分解非线性，这个线性transformer变体实现多项SOTA
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达来源丨机器之心编辑丨极市平台导读来自商汤.上海人工智能实验室等 ...
加性注意力机制、训练推理效率优于其他Transformer变体，这个Fastformer的确够快...
视学算法报道机器之心编辑部从训练与推理效率来看,清华和微软亚研提出的 Fastformer 无愧于「fast」. 在过去的几年里,Transformer 及其变体在很多领域取得了巨大成功,但由于其 ...
Transformer变体层出不穷，它们都长什么样？
©PaperWeekly 原创 · 作者|上杉翔二单位|悠闲会研究方向|信息检索不知不觉 Transformer 已经逐步渗透到了各个领域,就其本身也产生了相当多的变体,如上图.本篇文章想大致按 ...
Fastformer：简单又好用的Transformer变体！清华MSRA开源线性复杂度的Fastformer！
关注公众号,发现CV技术之美 0 写在前面 Transformer是一个强大的文本理解模型.然而,由于其对输入序列长度呈二次计算复杂度,Transformer是效率是比较低下的.虽然Transform ...
Transformer又出新变体∞-former：无限长期记忆，任意长度上下文
点击上方"AI遇见机器学习",选择"星标"公众号重磅干货,第一时间送达来自:机器之心任意长度的上下文都能 hold 住?这里有一个名为∞-former 的 ...
【CS224n】(lecture9)Transformer的变体
学习总结 Transformer 的进一步改进可能在于以下几个方向: 0.1 理论分析 Transformer 的架构已被证明能够支持具有足够参数的大规模训练数据集.许多工作表明,Transforme ...
Transformer模型有多少种变体？复旦邱锡鹏教授团队做了全面综述
视学算法报道转载自:机器之心编辑:Liyuan.杜伟自提出至今,Transformer 模型已经在自然语言处理.计算机视觉以及其他更多领域「大展拳脚」,学界也提出了各种各样基于原始模型的变体.但 ...
如何用Transformer来做目标检测？一文简述DERT及其变体
©PaperWeekly 原创 · 作者|张一帆学校|华南理工大学本科生研究方向|CV,Causality DETR 在短短一年时间收获了 200+ 引用量,可谓是风靡一时,各种变体层出不穷,这篇 ...
LSTM之父重提30年前的「快速权重存储系统」：线性Transformer只是它的一种变体...
作者|陈萍.维度来源|机器之心来自瑞士人工智能实验室.亚琛工业大学的研究者建立了线性(核)注意力与快速权重存储系统之间的内在联系,并提出更新规则,在合成检索问题.机器翻译.语言模型等实验上性能优越 ...

Transformer变体为何无法应用于多种任务？谷歌：这些架构更改不能有效迁移

Transformer变体为何无法应用于多种任务？谷歌：这些架构更改不能有效迁移相关推荐

最新文章

热门文章