铜灵 发自 凹非寺
量子位 出品 | 公众号 QbitAI

AutoML在NLP领域中的应用又多了新资源。

谷歌最新博客表示,此前在语言建模和翻译等序列任务中,Transformer架构已经展现出了极大的优势,但这些架构几乎均为手动设计,与视觉领域差异巨大。

能不能用更自动的方式应用这一高效的架构?

谷歌研究人员就此一试,找到一种新的Transformer架构,代号Evolved Transformer(简称ET)来测试自动机器学习方法AutoML在Transformer架构中应用如何。

和以往其他Transformer不同,ET能够根据特定任务进行定制,在机器翻译领域得到了最先进的结果,并且对语言建模任务也进行了改进。

这条推特发出后收获了不少关注,目前有800多个点赞,近300人转发了这项研究。

网友对此表示认可,表示和人类教机器相比,机器教机器才是正解嘛!

目前,Evolved Transformer已开源,也是Google基于TensorFlow新架构Tensor2Tensor的一部分了,任何人都可以免费使用。

“混合体”架构

想要在翻译任务上进行大规模NAS(神经网络架构搜索),必须先要评估每个架构的适应性任务。在这个预热阶段,有两种方法。

一种是通过暖启动(warm starting)的方式,研究人员在初始种群中用Transformer进行播种,不采用随机模型,这有利于在搜索空间中的搜索。

第二种方法被称为Progressive Dynamic Hurdles (PDH),增强了进化搜索,将更多资源分配给更强健的候选者,若模型不好则PDH就会终止评估,重新分配资源。

利用这两种方法,研究人员在机器翻译上进行大规模NAS,找到了Evolved Transformer。

和大多数序列到序列的神经网络架构类似,Evolved Transformer的编码器能将输入序列作为嵌入,解码器能将嵌入输出序列。

Evolved Transformer还有一个有趣的特点,它的编码器和解码器模块底部的卷积层的添加模式很有意思,在两个地方都以类似的分支模式添加,即在合并到一起时,输入通过两个独立卷积层。

上图为Evolved Transformer(右)与最初Transformer编码器架构对比。

虽然最初的Transformer架构依赖于自注意,但Evolved Transformer为一个混合结构,利用了自注意和宽卷积。

SOTA结果

研究人员进行了不同类型的测试,证明Evolved Transformer是有效的。

先是用英语到德语的翻译任务,对Evolved Transformer和原始Transformer进行对比。

结果显示,在所有参数size下,Evolved Transformer的BLEU和perplexity performance的表现均超越原始Transformer。

此外,在WMT14 En-De英语-德语测试集上,Evolved Transformer实现了最佳性能,BLEU得分为29.8,SacreBLEU得分为29.2。

研究人员还在不同NLP任务上对比了这两种Transformer架构。

他们测试了用不同语言对的翻译任务,Evolved Transformer有所提升,其margin与英语-德语类似。因为新模型高效利用参数,因此对中型模型的提升较大。

在利用LM1B进行语言建模时,Evolved Transformer性能提升了将近两个perplexity。

传送门

Google官方博客:
https://ai.googleblog.com/2019/06/applying-automl-to-transformer.html

开源地址:https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/models/evolved_transformer.py

论文地址:
https://arxiv.org/abs/1901.11117

小程序|全类别AI学习教程

AI社群|与优秀的人交流

量子位 QbitAI · 头条号签约作者

վ'ᴗ' ի 追踪AI技术和产品新动态

喜欢就点「在看」吧 !

已开源!谷歌将AutoML应用到Transformer架构,实现机器翻译最佳性能相关推荐

  1. 谷歌将AutoML应用于Transformer架构,翻译结果飙升,已开源!

    来源:新智元 本文约1600字,建议阅读8分钟. Evolved Transformer不仅实现了最先进的翻译结果,与原始的Transformer相比,它还展示了语言建模的改进性能. [ 导读 ]为了 ...

  2. 谷歌将AutoML应用于Transformer架构,翻译结果飙升,已开源

    https://www.toutiao.com/a6702613730661761548/ 2019-06-15 12:44:29 [新智元导读]为了探索AutoML在序列域中的应用是否能够取得的成功 ...

  3. ICCV2021 视频领域的纯Transformer方案!谷歌提出ViViT,在多个视频分类基准上SOTA!代码已开源!...

    关注公众号,发现CV技术之美 ▊ 写在前面 在本文中,作者提出了纯基于Transformer的视频分类模型.本文的模型从输入视频中提取时空token,然后由一系列Transformer层进行编码.为了 ...

  4. MS-TCT:InriaSBU提出用于动作检测的多尺度时间Transformer,效果SOTA!已开源!(CVPR2022)...

    关注公众号,发现CV技术之美 本篇分享 CVPR 2022 论文『MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection』, ...

  5. ​东京大学商汤悉尼大学等提出融合了动态规划、分治算法的MIM,实现绿色高效层次Transformer!已开源!...

    关注公众号,发现CV技术之美 本文分享论文『Green Hierarchical Vision Transformer for Masked Image Modeling』,由东京大学&商汤& ...

  6. 北大FAIR自动化所快手提出基于动量对比学习的层次Transformer—HiT,用于视频文本检索!代码已开源!...

    关注公众号,发现CV技术之美 ▊ 写在前面 随着互联网上多媒体数据的增长,视频文本检索已经成为一个热门的研究课题.用于视频文本学习的Transformer因其良好的性能而受到越来越多的关注.然而,现有 ...

  7. ICLR 6-6-6!自注意力可以替代CNN,能表达任何卷积滤波层丨代码已开源

    鱼羊 十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 像素层面上,CNN能做的,自注意力(self-attention)也都能做. 统御NLP界的注意力机制,不仅被迁移到了计算机视觉中,最 ...

  8. java编程石头剪刀布图片_石头、剪刀、布!10分钟带你打开深度学习大门,代码已开源...

    原标题:石头.剪刀.布!10分钟带你打开深度学习大门,代码已开源 沉沉 发自 宇宙中心 量子位 出品 | 公众号 QbitAI 深度学习技术的不断普及,越来越多的语言可以用来进行深度学习项目的开发,即 ...

  9. 英伟达公开课 | 如何突破Decoder性能瓶颈?揭秘FasterTransformer2.0的原理与应用,已开源...

    位来 发自 凹非寺 量子位 报道 | 公众号 QbitAI 4月9日,英伟达x量子位分享了一期nlp线上课程,来自NVIDIA的GPU计算专家.FasterTransformer 2.0开发者之一的薛 ...

最新文章

  1. swift基础--变量
  2. SectionList的使用
  3. 【深度学习的数学】初始权重和偏置参数对模型训练非常重要!(预训练模型、预训练文件、初始权重)
  4. linux笔记之 raid
  5. 深度学习(30)随机梯度下降七: 多层感知机梯度(反向传播算法)
  6. Linux学习-Linux 主机上的用户讯息传递
  7. Python实现中文转化为对应的拼音以及拼音转化为相应的中文
  8. clion小白使用技巧(持续更新中)
  9. 计算机中word音乐符号在哪里找,word音乐符号怎么打出来|word音乐符号怎么打
  10. 【C++】单例模式代码实现
  11. 使用 Java 解逻辑题
  12. Excel常用技巧—数字和文本转换,三种方法任你选!!
  13. 微信分享网页时自定义标题、描述和图片
  14. 「面试必背」大数据面试题100道(收藏)
  15. MyBatis学习(二)--利用MyBatis实现CRUD操作
  16. Kalman滤波器从原理到实现
  17. 精确率(precision)、召回率(recall)、准确率(accuracy)
  18. NYOJ-506 洗澡
  19. 微软研究院洪小文:人工智能到底是个什么东西?我们应该怎样看待它?
  20. python3爬虫之二:爬取网页图片

热门文章

  1. Android开发学习笔记:对话框浅析
  2. 操作系统:ucore的部分Bug挑战练习
  3. 用缓动函数模拟物理动画
  4. Pgcli—自动完成和语法高亮的Postgres命令行工具
  5. shell mysql e_xshell怎么搭建mysql
  6. react-native bundle --platform android --dev false --entry-file index.android.js --bundle-output and
  7. Kali Linux 2020.1乱码问题
  8. 密码统计分析工具pipal
  9. 自主互助四环节之计算机教案,自主互助学习型课堂的实施方案
  10. linux 档案类型s,Linux学习(四)档案与目录管理