已开源!谷歌将AutoML应用到Transformer架构,实现机器翻译最佳性能
铜灵 发自 凹非寺
量子位 出品 | 公众号 QbitAI
AutoML在NLP领域中的应用又多了新资源。
谷歌最新博客表示,此前在语言建模和翻译等序列任务中,Transformer架构已经展现出了极大的优势,但这些架构几乎均为手动设计,与视觉领域差异巨大。
能不能用更自动的方式应用这一高效的架构?
谷歌研究人员就此一试,找到一种新的Transformer架构,代号Evolved Transformer(简称ET)来测试自动机器学习方法AutoML在Transformer架构中应用如何。
和以往其他Transformer不同,ET能够根据特定任务进行定制,在机器翻译领域得到了最先进的结果,并且对语言建模任务也进行了改进。
这条推特发出后收获了不少关注,目前有800多个点赞,近300人转发了这项研究。
网友对此表示认可,表示和人类教机器相比,机器教机器才是正解嘛!
目前,Evolved Transformer已开源,也是Google基于TensorFlow新架构Tensor2Tensor的一部分了,任何人都可以免费使用。
“混合体”架构
想要在翻译任务上进行大规模NAS(神经网络架构搜索),必须先要评估每个架构的适应性任务。在这个预热阶段,有两种方法。
一种是通过暖启动(warm starting)的方式,研究人员在初始种群中用Transformer进行播种,不采用随机模型,这有利于在搜索空间中的搜索。
第二种方法被称为Progressive Dynamic Hurdles (PDH),增强了进化搜索,将更多资源分配给更强健的候选者,若模型不好则PDH就会终止评估,重新分配资源。
利用这两种方法,研究人员在机器翻译上进行大规模NAS,找到了Evolved Transformer。
和大多数序列到序列的神经网络架构类似,Evolved Transformer的编码器能将输入序列作为嵌入,解码器能将嵌入输出序列。
Evolved Transformer还有一个有趣的特点,它的编码器和解码器模块底部的卷积层的添加模式很有意思,在两个地方都以类似的分支模式添加,即在合并到一起时,输入通过两个独立卷积层。
上图为Evolved Transformer(右)与最初Transformer编码器架构对比。
虽然最初的Transformer架构依赖于自注意,但Evolved Transformer为一个混合结构,利用了自注意和宽卷积。
SOTA结果
研究人员进行了不同类型的测试,证明Evolved Transformer是有效的。
先是用英语到德语的翻译任务,对Evolved Transformer和原始Transformer进行对比。
结果显示,在所有参数size下,Evolved Transformer的BLEU和perplexity performance的表现均超越原始Transformer。
此外,在WMT14 En-De英语-德语测试集上,Evolved Transformer实现了最佳性能,BLEU得分为29.8,SacreBLEU得分为29.2。
研究人员还在不同NLP任务上对比了这两种Transformer架构。
他们测试了用不同语言对的翻译任务,Evolved Transformer有所提升,其margin与英语-德语类似。因为新模型高效利用参数,因此对中型模型的提升较大。
在利用LM1B进行语言建模时,Evolved Transformer性能提升了将近两个perplexity。
传送门
Google官方博客:
https://ai.googleblog.com/2019/06/applying-automl-to-transformer.html
开源地址:https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/models/evolved_transformer.py
论文地址:
https://arxiv.org/abs/1901.11117
— 完 —
小程序|全类别AI学习教程
AI社群|与优秀的人交流
量子位 QbitAI · 头条号签约作者
վ'ᴗ' ի 追踪AI技术和产品新动态
喜欢就点「在看」吧 !
已开源!谷歌将AutoML应用到Transformer架构,实现机器翻译最佳性能相关推荐
- 谷歌将AutoML应用于Transformer架构,翻译结果飙升,已开源!
来源:新智元 本文约1600字,建议阅读8分钟. Evolved Transformer不仅实现了最先进的翻译结果,与原始的Transformer相比,它还展示了语言建模的改进性能. [ 导读 ]为了 ...
- 谷歌将AutoML应用于Transformer架构,翻译结果飙升,已开源
https://www.toutiao.com/a6702613730661761548/ 2019-06-15 12:44:29 [新智元导读]为了探索AutoML在序列域中的应用是否能够取得的成功 ...
- ICCV2021 视频领域的纯Transformer方案!谷歌提出ViViT,在多个视频分类基准上SOTA!代码已开源!...
关注公众号,发现CV技术之美 ▊ 写在前面 在本文中,作者提出了纯基于Transformer的视频分类模型.本文的模型从输入视频中提取时空token,然后由一系列Transformer层进行编码.为了 ...
- MS-TCT:InriaSBU提出用于动作检测的多尺度时间Transformer,效果SOTA!已开源!(CVPR2022)...
关注公众号,发现CV技术之美 本篇分享 CVPR 2022 论文『MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection』, ...
- 东京大学商汤悉尼大学等提出融合了动态规划、分治算法的MIM,实现绿色高效层次Transformer!已开源!...
关注公众号,发现CV技术之美 本文分享论文『Green Hierarchical Vision Transformer for Masked Image Modeling』,由东京大学&商汤& ...
- 北大FAIR自动化所快手提出基于动量对比学习的层次Transformer—HiT,用于视频文本检索!代码已开源!...
关注公众号,发现CV技术之美 ▊ 写在前面 随着互联网上多媒体数据的增长,视频文本检索已经成为一个热门的研究课题.用于视频文本学习的Transformer因其良好的性能而受到越来越多的关注.然而,现有 ...
- ICLR 6-6-6!自注意力可以替代CNN,能表达任何卷积滤波层丨代码已开源
鱼羊 十三 发自 凹非寺 量子位 报道 | 公众号 QbitAI 像素层面上,CNN能做的,自注意力(self-attention)也都能做. 统御NLP界的注意力机制,不仅被迁移到了计算机视觉中,最 ...
- java编程石头剪刀布图片_石头、剪刀、布!10分钟带你打开深度学习大门,代码已开源...
原标题:石头.剪刀.布!10分钟带你打开深度学习大门,代码已开源 沉沉 发自 宇宙中心 量子位 出品 | 公众号 QbitAI 深度学习技术的不断普及,越来越多的语言可以用来进行深度学习项目的开发,即 ...
- 英伟达公开课 | 如何突破Decoder性能瓶颈?揭秘FasterTransformer2.0的原理与应用,已开源...
位来 发自 凹非寺 量子位 报道 | 公众号 QbitAI 4月9日,英伟达x量子位分享了一期nlp线上课程,来自NVIDIA的GPU计算专家.FasterTransformer 2.0开发者之一的薛 ...
最新文章
- swift基础--变量
- SectionList的使用
- 【深度学习的数学】初始权重和偏置参数对模型训练非常重要!(预训练模型、预训练文件、初始权重)
- linux笔记之 raid
- 深度学习(30)随机梯度下降七: 多层感知机梯度(反向传播算法)
- Linux学习-Linux 主机上的用户讯息传递
- Python实现中文转化为对应的拼音以及拼音转化为相应的中文
- clion小白使用技巧(持续更新中)
- 计算机中word音乐符号在哪里找,word音乐符号怎么打出来|word音乐符号怎么打
- 【C++】单例模式代码实现
- 使用 Java 解逻辑题
- Excel常用技巧—数字和文本转换,三种方法任你选!!
- 微信分享网页时自定义标题、描述和图片
- 「面试必背」大数据面试题100道(收藏)
- MyBatis学习(二)--利用MyBatis实现CRUD操作
- Kalman滤波器从原理到实现
- 精确率(precision)、召回率(recall)、准确率(accuracy)
- NYOJ-506 洗澡
- 微软研究院洪小文:人工智能到底是个什么东西?我们应该怎样看待它?
- python3爬虫之二:爬取网页图片
热门文章
- Android开发学习笔记:对话框浅析
- 操作系统:ucore的部分Bug挑战练习
- 用缓动函数模拟物理动画
- Pgcli—自动完成和语法高亮的Postgres命令行工具
- shell mysql e_xshell怎么搭建mysql
- react-native bundle --platform android --dev false --entry-file index.android.js --bundle-output and
- Kali Linux 2020.1乱码问题
- 密码统计分析工具pipal
- 自主互助四环节之计算机教案,自主互助学习型课堂的实施方案
- linux 档案类型s,Linux学习(四)档案与目录管理