https://www.toutiao.com/a6702613730661761548/

2019-06-15 12:44:29

【新智元导读】为了探索AutoML在序列域中的应用是否能够取得的成功,谷歌的研究团队在进行基于进化的神经架构搜索(NAS)之后,使用了翻译作为一般的序列任务的代理,并找到了Evolved Transformer这一新的Transformer架构。Evolved Transformer不仅实现了最先进的翻译结果,与原始的Transformer相比,它还展示了语言建模的改进性能。

自几年前推出以来,Google的Transformer架构已经应用于从制作奇幻小说到编写音乐和声的各种挑战。重要的是,Transformer的高性能已经证明,当应用于序列任务(例如语言建模和翻译)时,前馈神经网络可以与递归神经网络一样有效。虽然用于序列问题的Transformer和其他前馈模型越来越受欢迎,但它们的架构几乎完全是手动设计的,与计算机视觉领域形成鲜明对比。AutoML方法已经找到了最先进的模型,其性能优于手工设计的模型。当然,我们想知道AutoML在序列域中的应用是否同样成功。

在进行基于进化的神经架构搜索(NAS)之后,我们使用翻译作为一般的序列任务的代理,我们找到了Evolved Transformer,这是一种新的Transformer架构,它展示了对各种自然语言处理(NLP)任务的有希望的改进。Evolved Transformer不仅实现了最先进的翻译结果,而且与原始的Transformer相比,它还展示了语言建模的改进性能。我们是将此新模型作为Tensor2Tensor的部分发布,它可用于任何序列问题。

开发技术

要开始进化NAS,我们有必要开发新技术,因为用于评估每个架构的“适应性”的任务——WMT'14英语-德语翻译——计算量很大。这使得搜索比在视觉领域中执行的类似搜索更加昂贵,这可以利用较小的数据集,如CIFAR-10。

这些技术中的第一种是温启动——在初始进化种群中播种Transformer架构而不是随机模型。这有助于在我们熟悉的搜索空间区域中进行搜索,从而使其能够更快地找到更好的模型。

第二种技术是我们开发的一种称为渐进动态障碍(PDH)(Progressive Dynamic Hurdles )的新方法,这种算法增强了进化搜索,以便为最强的候选者分配更多的资源,这与先前的工作相反,其中NAS的每个候选模型被分配相同的评估时的资源量。如果模型明显不好,PDH允许我们提前终止对模型的评估,从而使有前途的架构获得更多资源。

Evolved Transformer简介

使用这些方法,我们在翻译任务上进行了大规模的NAS,并发现了Evolved Transformer(ET)。与大多数序列到序列(seq2seq)神经网络体系结构一样,它有一个编码器,将输入序列编码为嵌入,解码器使用这些嵌入构造输出序列;在翻译的情况下,输入序列是要翻译的句子,输出序列是翻译。

演化变压器最有趣的特征是其编码器和解码器模块底部的卷积层,在两个地方都以类似的分支模式添加(即输入在加到一起之前通过两个单独的卷积层)。

Evolved Transformer与原始Transformer编码器架构的比较。注意模块底部的分支卷积结构,它独立地在编码器和解码器中形成。

这一点特别有趣,因为在NAS期间编码器和解码器架构不共享,因此独立发现该架构对编码器和解码器都很有用,这说明了该设计的优势。虽然最初的Transformer完全依赖于自我关注,但Evolved Transformer是一种混合体,利用了自我关注和广泛卷积的优势。

对Evolved Transformer的评估

为了测试这种新架构的有效性,我们首先将它与我们在搜索期间使用的英语-德语翻译任务的原始Transformer进行了比较。我们发现在所有参数尺寸下,Evolved Transformer具有更好的BLEU和 perplexity performance,拥有最大增益与移动设备兼容(约700万个参数),证明了参数的有效使用。在更大的尺寸上,Evolved Transformer在WMT'14 En-De上达到了最先进的性能,BLEU得分为29.8,SacreBLEU得分为29.2。

不同尺寸的WMT'14 En-De Evolved Transformer与原Transformer的比较。性能的最大提高发生在较小的尺寸上,而ET在较大的尺寸上也显示出强度,优于最大的Transformer,参数减少37.6%(要比较的模型用绿色圈出)。

为了测试普遍性,我们还在其他NLP任务上将ET与Transformer进行了比较。首先,我们研究了使用不同语言对的翻译,发现ET表现提升,其边缘与英语-德语相似; 再次,由于其有效使用参数,对于中型模型观察到了最大的提升。我们还比较了使用LM1B进行语言建模的两种模型的解码器,并且看到性能提升近2个perplexity。

未来工作

这些结果是探索体系结构搜索在前馈序列模型中应用的第一步。Evolved Transformer 作为Tensor2Tensor的一部分已开源,在那里它可以用于任何序列问题。为了提高可重复性,我们还开源了我们用于搜索的搜索空间,以及实施渐进动态障碍的Colab。我们期待着看到研究团体用新模型做了什么,并希望其他人能够利用这些新的搜索技术!

参考链接:

https://ai.googleblog.com/2019/06/applying-automl-to-transformer.html

论文地址:

https://arxiv.org/abs/1901.11117

谷歌将AutoML应用于Transformer架构,翻译结果飙升,已开源相关推荐

  1. 谷歌将AutoML应用于Transformer架构,翻译结果飙升,已开源!

    来源:新智元 本文约1600字,建议阅读8分钟. Evolved Transformer不仅实现了最先进的翻译结果,与原始的Transformer相比,它还展示了语言建模的改进性能. [ 导读 ]为了 ...

  2. 已开源!谷歌将AutoML应用到Transformer架构,实现机器翻译最佳性能

    铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI AutoML在NLP领域中的应用又多了新资源. 谷歌最新博客表示,此前在语言建模和翻译等序列任务中,Transformer架构已经展现出了极 ...

  3. MS-TCT:InriaSBU提出用于动作检测的多尺度时间Transformer,效果SOTA!已开源!(CVPR2022)...

    关注公众号,发现CV技术之美 本篇分享 CVPR 2022 论文『MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection』, ...

  4. 谷歌研究院出品:高效 Transformer 模型最新综述

    2021-01-02 15:23:28 编译 | Mr Bear 编辑 | 陈彩娴 近年来,基于自注意力机制的 Transformer 模型在自然语言处理.计算机视觉.强化学习等领域的学术研究中取得了 ...

  5. 谷歌大改Transformer注意力,速度、内存利用率都提上去了-新的 Transformer 架构——Performer

    原文地址:https://www.jiqizhixin.com/articles/2020-10-28-10 Transformer 有着巨大的内存和算力需求,因为它构造了一个注意力矩阵,需求与输入呈 ...

  6. Transformer 架构逐层功能介绍和详细解释

    来源:Deephub Imba 本文共2700字,建议阅读5分钟 本文能让你对Transformer的整体架构有所了解. 多年来,深度学习一直在不断发展.深度学习实践高度强调使用大量参数来提取有关我们 ...

  7. 谷歌Cloud AutoML自动机器学习平台初步研究

    一.AutoML背景 机器学习(Machine Learning, ML)技术近年来已取得较大成功,越来越多行业领域依赖它.但目前成功的关键还需依赖人类机器学习工程师完成以下工作: 预处理数据 选择适 ...

  8. 一文梳理视觉Transformer架构进展:与CNN相比,ViT赢在哪儿?

    来源:机器之心 Transformer 近年来已成为视觉领域的新晋霸主,这个来自 NLP 领域的模型架构在 CV 领域有哪些具体应用?. Transformer 作为一种基于注意力的编码器 - 解码器 ...

  9. 微软分享史上最大基于Transformer架构的语言生成模型

    导语:英伟达的"威震天"现在只能屈居第二了. 微软AI&Research今天分享了有史以来最大的基于Transformer架构的语言生成模型Turing NLG(下文简称为 ...

最新文章

  1. mysql 存储过程逻辑表达 and_MySQL - 存储过程 (二)- 逻辑判断语句
  2. 终于找到程序员无休止加班的原因了
  3. 关于Platinum库的MediaRender具体C++代码实现探讨
  4. Android引领移动互联网革命的七大理由
  5. 国内机器人编程赛事大全介绍
  6. 汇编语言典型例子详解_25个经典汇编程序案例
  7. 【Python 多进制转换】——数值多进制转换bin、oct、int、hex(2进制、4进制、8进制、10进制、16进制、32进制)
  8. 旧文重发:IP 库的那些事儿之 2013 - 2014 流水帐版~
  9. uni-app图片上传(位置固定)
  10. 转载出不明了。太恐怖了!什么都能查!!(转)
  11. SX1278传输距离测试
  12. 光线追踪渲染实战(四):微平面理论与迪士尼 BRDF,严格遵循物理!
  13. 如何玩转信用卡 银行不会告诉你的十个秘密
  14. 北京计算机非全日制研究生哪个学校最好考,这所211,因校名被隐藏得很好,考上北京二环“有车有房”不是梦...
  15. 导入/导出dBase
  16. SQL Server 存储(3/8):理解GAM和SGAM页
  17. 前端Vue+ElementUI的Pagination分页组件实现分页展示 后端Spring Boot +Mybatis Plus实现分页接口
  18. VLAN的概念和作用
  19. CS中如何在没有机器人的地图里自己添加机器人
  20. openframeworks播放mp4,avi的视频格式

热门文章

  1. SVM讲的成体系的,自圆其说较好的一篇,上午没读完,KKT第二部分不等式有疑问没弄懂,复制后继续读完
  2. numpy.histogram
  3. java.lang.Instrument 动态修改替换类代码
  4. 《因果学习周刊》第7期:因果学习中的离线策略评估
  5. 传闻,Google曾用股票来换取他的数学研究
  6. 程序员们,不妨高调一点儿!2021,一起冲!
  7. 本科生新算法打败NeRF,不用神经网络照片也能动起来,提速100倍
  8. stylegan2 示例命令fused_bias_act.cu环境配置异常(无法打开包括文件: “tensorflow/core/framework/op.h”
  9. 独家 | ​PyMC3 介绍:用于概率编程的Python包
  10. 独家 | 教你使用torchlayers 来构建PyTorch 模型(附链接)