https://www.toutiao.com/a6702613730661761548/

2019-06-15 12:44:29

【新智元导读】为了探索AutoML在序列域中的应用是否能够取得的成功，谷歌的研究团队在进行基于进化的神经架构搜索（NAS）之后，使用了翻译作为一般的序列任务的代理，并找到了Evolved Transformer这一新的Transformer架构。Evolved Transformer不仅实现了最先进的翻译结果，与原始的Transformer相比，它还展示了语言建模的改进性能。

自几年前推出以来，Google的Transformer架构已经应用于从制作奇幻小说到编写音乐和声的各种挑战。重要的是，Transformer的高性能已经证明，当应用于序列任务（例如语言建模和翻译）时，前馈神经网络可以与递归神经网络一样有效。虽然用于序列问题的Transformer和其他前馈模型越来越受欢迎，但它们的架构几乎完全是手动设计的，与计算机视觉领域形成鲜明对比。AutoML方法已经找到了最先进的模型，其性能优于手工设计的模型。当然，我们想知道AutoML在序列域中的应用是否同样成功。

在进行基于进化的神经架构搜索（NAS）之后，我们使用翻译作为一般的序列任务的代理，我们找到了Evolved Transformer，这是一种新的Transformer架构，它展示了对各种自然语言处理（NLP）任务的有希望的改进。Evolved Transformer不仅实现了最先进的翻译结果，而且与原始的Transformer相比，它还展示了语言建模的改进性能。我们是将此新模型作为Tensor2Tensor的部分发布，它可用于任何序列问题。

开发技术

要开始进化NAS，我们有必要开发新技术，因为用于评估每个架构的“适应性”的任务——WMT'14英语-德语翻译——计算量很大。这使得搜索比在视觉领域中执行的类似搜索更加昂贵，这可以利用较小的数据集，如CIFAR-10。

这些技术中的第一种是温启动——在初始进化种群中播种Transformer架构而不是随机模型。这有助于在我们熟悉的搜索空间区域中进行搜索，从而使其能够更快地找到更好的模型。

第二种技术是我们开发的一种称为渐进动态障碍（PDH）（Progressive Dynamic Hurdles ）的新方法，这种算法增强了进化搜索，以便为最强的候选者分配更多的资源，这与先前的工作相反，其中NAS的每个候选模型被分配相同的评估时的资源量。如果模型明显不好，PDH允许我们提前终止对模型的评估，从而使有前途的架构获得更多资源。

Evolved Transformer简介

使用这些方法，我们在翻译任务上进行了大规模的NAS，并发现了Evolved Transformer（ET）。与大多数序列到序列（seq2seq）神经网络体系结构一样，它有一个编码器，将输入序列编码为嵌入，解码器使用这些嵌入构造输出序列；在翻译的情况下，输入序列是要翻译的句子，输出序列是翻译。

演化变压器最有趣的特征是其编码器和解码器模块底部的卷积层，在两个地方都以类似的分支模式添加（即输入在加到一起之前通过两个单独的卷积层）。

Evolved Transformer与原始Transformer编码器架构的比较。注意模块底部的分支卷积结构，它独立地在编码器和解码器中形成。

这一点特别有趣，因为在NAS期间编码器和解码器架构不共享，因此独立发现该架构对编码器和解码器都很有用，这说明了该设计的优势。虽然最初的Transformer完全依赖于自我关注，但Evolved Transformer是一种混合体，利用了自我关注和广泛卷积的优势。

对Evolved Transformer的评估

为了测试这种新架构的有效性，我们首先将它与我们在搜索期间使用的英语-德语翻译任务的原始Transformer进行了比较。我们发现在所有参数尺寸下，Evolved Transformer具有更好的BLEU和 perplexity performance，拥有最大增益与移动设备兼容（约700万个参数），证明了参数的有效使用。在更大的尺寸上，Evolved Transformer在WMT'14 En-De上达到了最先进的性能，BLEU得分为29.8，SacreBLEU得分为29.2。

不同尺寸的WMT'14 En-De Evolved Transformer与原Transformer的比较。性能的最大提高发生在较小的尺寸上，而ET在较大的尺寸上也显示出强度，优于最大的Transformer，参数减少37.6%（要比较的模型用绿色圈出）。

为了测试普遍性，我们还在其他NLP任务上将ET与Transformer进行了比较。首先，我们研究了使用不同语言对的翻译，发现ET表现提升，其边缘与英语-德语相似; 再次，由于其有效使用参数，对于中型模型观察到了最大的提升。我们还比较了使用LM1B进行语言建模的两种模型的解码器，并且看到性能提升近2个perplexity。

未来工作

这些结果是探索体系结构搜索在前馈序列模型中应用的第一步。Evolved Transformer 作为Tensor2Tensor的一部分已开源，在那里它可以用于任何序列问题。为了提高可重复性，我们还开源了我们用于搜索的搜索空间，以及实施渐进动态障碍的Colab。我们期待着看到研究团体用新模型做了什么，并希望其他人能够利用这些新的搜索技术！

参考链接：

https://ai.googleblog.com/2019/06/applying-automl-to-transformer.html

论文地址：

https://arxiv.org/abs/1901.11117

谷歌将AutoML应用于Transformer架构，翻译结果飙升，已开源相关推荐

谷歌将AutoML应用于Transformer架构，翻译结果飙升，已开源！
来源:新智元本文约1600字,建议阅读8分钟. Evolved Transformer不仅实现了最先进的翻译结果,与原始的Transformer相比,它还展示了语言建模的改进性能. [ 导读 ]为了 ...
已开源！谷歌将AutoML应用到Transformer架构，实现机器翻译最佳性能
铜灵发自凹非寺量子位出品 | 公众号 QbitAI AutoML在NLP领域中的应用又多了新资源. 谷歌最新博客表示,此前在语言建模和翻译等序列任务中,Transformer架构已经展现出了极 ...
MS-TCT：InriaSBU提出用于动作检测的多尺度时间Transformer，效果SOTA！已开源！（CVPR2022）...
关注公众号,发现CV技术之美本篇分享 CVPR 2022 论文『MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection』, ...
谷歌研究院出品：高效 Transformer 模型最新综述
2021-01-02 15:23:28 编译 | Mr Bear 编辑 | 陈彩娴近年来,基于自注意力机制的 Transformer 模型在自然语言处理.计算机视觉.强化学习等领域的学术研究中取得了 ...
谷歌大改Transformer注意力，速度、内存利用率都提上去了-新的 Transformer 架构——Performer
原文地址:https://www.jiqizhixin.com/articles/2020-10-28-10 Transformer 有着巨大的内存和算力需求,因为它构造了一个注意力矩阵,需求与输入呈 ...
Transformer 架构逐层功能介绍和详细解释
来源:Deephub Imba 本文共2700字,建议阅读5分钟本文能让你对Transformer的整体架构有所了解. 多年来,深度学习一直在不断发展.深度学习实践高度强调使用大量参数来提取有关我们 ...
谷歌Cloud AutoML自动机器学习平台初步研究
一.AutoML背景机器学习(Machine Learning, ML)技术近年来已取得较大成功,越来越多行业领域依赖它.但目前成功的关键还需依赖人类机器学习工程师完成以下工作: 预处理数据选择适 ...
一文梳理视觉Transformer架构进展：与CNN相比，ViT赢在哪儿？
来源:机器之心 Transformer 近年来已成为视觉领域的新晋霸主,这个来自 NLP 领域的模型架构在 CV 领域有哪些具体应用?. Transformer 作为一种基于注意力的编码器 - 解码器 ...
微软分享史上最大基于Transformer架构的语言生成模型
导语:英伟达的"威震天"现在只能屈居第二了. 微软AI&Research今天分享了有史以来最大的基于Transformer架构的语言生成模型Turing NLG(下文简称为 ...

谷歌将AutoML应用于Transformer架构，翻译结果飙升，已开源

开发技术

Evolved Transformer简介

对Evolved Transformer的评估

未来工作

谷歌将AutoML应用于Transformer架构，翻译结果飙升，已开源相关推荐

最新文章

热门文章