The evolved Transformer，进化的变换器

Search Space搜索空间：
一个模型包含encoder和decoder，各包含若干个单元，encoder的单元包含6个模块，解码器的单元包含8个模块。每个模块分左右两个分支，各自接受一个隐藏状态作为输入。按照层次从低到高分支搜索项分为：

input、

normalization、

layer、

output dimension和

activation。

左右分支通过combiner function合并为新的隐藏状态作为输出。

编码器的架构合成：每个块产生一个新的隐状态，该隐藏状态被添加到后续块可以选择作为分支输入的隐藏状态池中。每个编码器每个单元有 6 个唯一块，每个解码器每个单元有 8 个唯一块。每个单元格重复单元格次数。

Number of cells：纵向叠加的cell的数量，搜索范围是[1,6]

。
渐进式动态障碍（Progressive Dynamic Hurdle）：

y 轴代表架构适应度，x 轴代表创建候选模型的顺序。紫色和绿色实线分别代表第一个和第二个障碍的值。紫色和绿色虚线代表引入每个相应障碍的点。紫色虚线左侧的点是使用未更改的锦标赛选择生成的。在紫色和绿色虚线之间，fitness高于紫色实线的模型被授予额外的训练步数，形成更高的适应度集群。在绿色虚线的右侧，适合度大于绿色实线的模型被授予第二轮额外的训练步骤。

实验使用的训练集是WMT14英语到德语的机器翻译数据集，完整的训练和验证过程需要很长的时间，如果在所有的子模型上进行完整的训练和验证过程将会耗费很大的计算资源。因此论文中使用渐进式动态障碍的方法来提前停止一些没有前景的模型的训练，转而将更多的计算资源分配那些当前表现更好的子模型。具体来说就是让当前表现最好的一些模型多训练一些step。

假设当前种群经过一次锦标赛选择，生成了m个子模型并且加入到了种群中，这时候计算整个种群fitness的平均值h 0 h_0h
0

,下一次锦标赛选择将会以h 0 h_0h
0

作为对照，生成的另外m个fitness超过h 0 h_0h
0

的子模型可以继续训练s 1 s_1s
1

个step，接着进行种群中的所有的其他个体会继续训练s 1 s_1s
1

个step，然后在新的种群中生成h 1 h_1h
1

，以此类推知道种群中所有的个体的训练step都达到一个指定值。

如果一个子模型是由第i ii次锦标赛选择之后的亲本生成的，那么验证的过程将会进行i ii次。第一次为该模型分配s 0 s_0s
0

次的训练step并且在验证集上进行验证，若验证的fitness大于h 0 h_0h
0

则再分配s 1 s_1s
1

次训练step，再验证，再与h 1 h_1h
1

比较，只有子样本通过h 0 , h 1 , . . . , h i {h_0, h_1, ..., h_i}h
0

,h
1

,...,h
i

次比较才能作为新的个体加入到新的种群中。

The evolved Transformer，进化的变换器相关推荐

谷歌将AutoML应用于Transformer架构，翻译结果飙升，已开源！
来源:新智元本文约1600字,建议阅读8分钟. Evolved Transformer不仅实现了最先进的翻译结果,与原始的Transformer相比,它还展示了语言建模的改进性能. [ 导读 ]为了 ...
谷歌将AutoML应用于Transformer架构，翻译结果飙升，已开源
https://www.toutiao.com/a6702613730661761548/ 2019-06-15 12:44:29 [新智元导读]为了探索AutoML在序列域中的应用是否能够取得的成功 ...
已开源！谷歌将AutoML应用到Transformer架构，实现机器翻译最佳性能
铜灵发自凹非寺量子位出品 | 公众号 QbitAI AutoML在NLP领域中的应用又多了新资源. 谷歌最新博客表示,此前在语言建模和翻译等序列任务中,Transformer架构已经展现出了极 ...
浅谈BERT/Transformer模型的压缩与优化加速
©作者 | 姚益武单位 | 阿里巴巴集团研究方向 | AI算法与工程架构前言 BERT/Transformer 结构及其变体,已成为自然语言处理(NLP).语音识别 (ASR)等领域的主流序列建 ...
复旦大学邱锡鹏教授团队：Transformer最新综述
©PaperWeekly 原创 · 作者 | 王馨月学校 | 四川大学本科生研究方向 | 自然语言处理 Transformer 在自然语言处理.计算机视觉.音频处理等许多人工智能领域都取得了巨大的 ...
ACL 2020 | 基于不同硬件搜索更好的Transformer结构
论文标题: HAT: Hardware-Aware Transformers for Efficient Natural Language Processing 论文作者: Hanrui Wang ( ...
Bert/Transformer模型压缩与优化加速
前言 Bert/Transformer结构及其变体,已成为自然语言处理 (NLP).语音识别 (ASR)等领域的主流序列建模结构.并且,相比于卷积操作的局部特征提取能力.以及平移不变性,Self-At ...
模型压缩95%：Lite Transformer，MIT韩松等人
模型压缩95%:Lite Transformer,MIT韩松等人 Lite Transformer with Long-Short Range Attention Zhanghao Wu, Zhiji ...
模型压缩95%，MIT韩松等人提出新型Lite Transformer
2020-06-08 16:31:31 选自arXiv 作者:Zhanghao Wu等机器之心编译参与:小舟.魔王 Transformer 的高性能依赖于极高的算力,这让移动端 NLP 严重受限. ...
谁才是Transformer家族中的最强王者？谷歌告诉你答案
文 | Sherry 自从17年Attention is all you need发出,继而18年BERT刷新各大榜单,大型预训练Transformer似乎已经成为自然语言处理的标准基准模型,甚至进一 ...

The evolved Transformer，进化的变换器

The evolved Transformer，进化的变换器相关推荐

最新文章

热门文章