The evolved Transformer,进化的变换器
Search Space搜索空间:
一个模型包含encoder和decoder,各包含若干个单元,encoder的单元包含6个模块,解码器的单元包含8个模块。每个模块分左右两个分支,各自接受一个隐藏状态作为输入。按照层次从低到高分支搜索项分为:
input、
normalization、
layer、
output dimension和
activation。
左右分支通过combiner function合并为新的隐藏状态作为输出。
编码器的架构合成:每个块产生一个新的隐状态,该隐藏状态被添加到后续块可以选择作为分支输入的隐藏状态池中。 每个编码器每个单元有 6 个唯一块,每个解码器每个单元有 8 个唯一块。 每个单元格重复单元格次数。
- Number of cells:纵向叠加的cell的数量,搜索范围是[1,6]
。
渐进式动态障碍(Progressive Dynamic Hurdle):
y 轴代表架构适应度,x 轴代表创建候选模型的顺序。 紫色和绿色实线分别代表第一个和第二个障碍的值。 紫色和绿色虚线代表引入每个相应障碍的点。 紫色虚线左侧的点是使用未更改的锦标赛选择生成的。 在紫色和绿色虚线之间,fitness高于紫色实线的模型被授予额外的训练步数,形成更高的适应度集群。 在绿色虚线的右侧,适合度大于绿色实线的模型被授予第二轮额外的训练步骤。
实验使用的训练集是WMT14英语到德语的机器翻译数据集,完整的训练和验证过程需要很长的时间,如果在所有的子模型上进行完整的训练和验证过程将会耗费很大的计算资源。因此论文中使用渐进式动态障碍的方法来提前停止一些没有前景的模型的训练,转而将更多的计算资源分配那些当前表现更好的子模型。具体来说就是让当前表现最好的一些模型多训练一些step。
假设当前种群经过一次锦标赛选择,生成了m个子模型并且加入到了种群中,这时候计算整个种群fitness的平均值h 0 h_0h
0
,下一次锦标赛选择将会以h 0 h_0h
0
作为对照,生成的另外m个fitness超过h 0 h_0h
0
的子模型可以继续训练s 1 s_1s
1
个step,接着进行种群中的所有的其他个体会继续训练s 1 s_1s
1
个step,然后在新的种群中生成h 1 h_1h
1
,以此类推知道种群中所有的个体的训练step都达到一个指定值。
如果一个子模型是由第i ii次锦标赛选择之后的亲本生成的,那么验证的过程将会进行i ii次。第一次为该模型分配s 0 s_0s
0
次的训练step并且在验证集上进行验证,若验证的fitness大于h 0 h_0h
0
则再分配s 1 s_1s
1
次训练step,再验证,再与h 1 h_1h
1
比较,只有子样本通过h 0 , h 1 , . . . , h i {h_0, h_1, ..., h_i}h
0
,h
1
,...,h
i
次比较才能作为新的个体加入到新的种群中。
The evolved Transformer,进化的变换器相关推荐
- 谷歌将AutoML应用于Transformer架构,翻译结果飙升,已开源!
来源:新智元 本文约1600字,建议阅读8分钟. Evolved Transformer不仅实现了最先进的翻译结果,与原始的Transformer相比,它还展示了语言建模的改进性能. [ 导读 ]为了 ...
- 谷歌将AutoML应用于Transformer架构,翻译结果飙升,已开源
https://www.toutiao.com/a6702613730661761548/ 2019-06-15 12:44:29 [新智元导读]为了探索AutoML在序列域中的应用是否能够取得的成功 ...
- 已开源!谷歌将AutoML应用到Transformer架构,实现机器翻译最佳性能
铜灵 发自 凹非寺 量子位 出品 | 公众号 QbitAI AutoML在NLP领域中的应用又多了新资源. 谷歌最新博客表示,此前在语言建模和翻译等序列任务中,Transformer架构已经展现出了极 ...
- 浅谈BERT/Transformer模型的压缩与优化加速
©作者 | 姚益武 单位 | 阿里巴巴集团 研究方向 | AI算法与工程架构 前言 BERT/Transformer 结构及其变体,已成为自然语言处理(NLP).语音识别 (ASR)等领域的主流序列建 ...
- 复旦大学邱锡鹏教授团队:Transformer最新综述
©PaperWeekly 原创 · 作者 | 王馨月 学校 | 四川大学本科生 研究方向 | 自然语言处理 Transformer 在自然语言处理.计算机视觉.音频处理等许多人工智能领域都取得了巨大的 ...
- ACL 2020 | 基于不同硬件搜索更好的Transformer结构
论文标题: HAT: Hardware-Aware Transformers for Efficient Natural Language Processing 论文作者: Hanrui Wang ( ...
- Bert/Transformer模型压缩与优化加速
前言 Bert/Transformer结构及其变体,已成为自然语言处理 (NLP).语音识别 (ASR)等领域的主流序列建模结构.并且,相比于卷积操作的局部特征提取能力.以及平移不变性,Self-At ...
- 模型压缩95%:Lite Transformer,MIT韩松等人
模型压缩95%:Lite Transformer,MIT韩松等人 Lite Transformer with Long-Short Range Attention Zhanghao Wu, Zhiji ...
- 模型压缩95%,MIT韩松等人提出新型Lite Transformer
2020-06-08 16:31:31 选自arXiv 作者:Zhanghao Wu等 机器之心编译 参与:小舟.魔王 Transformer 的高性能依赖于极高的算力,这让移动端 NLP 严重受限. ...
- 谁才是Transformer家族中的最强王者?谷歌告诉你答案
文 | Sherry 自从17年Attention is all you need发出,继而18年BERT刷新各大榜单,大型预训练Transformer似乎已经成为自然语言处理的标准基准模型,甚至进一 ...
最新文章
- 原创 | 从智慧交通、智慧安防、智能电网三大应用场景看我国智慧城市建设现状...
- poi设置单元格格式为文本_身份证号乱码?日期显示不对?都是单元格格式的锅...
- C++中使用random头文件
- 【Servlet】Cookie应用:显示上次访问页面时间
- wxWidgets:wxMDIParentFrame类用法
- 线性代数导论3——乘法与逆矩阵
- Spring Boot 静态资源访问原理解析
- 批量下载baidu音乐主页的歌曲
- 2021年广西艺术高考成绩查询,2021年广西美术高考成绩查询网址:https://www.gxeea.cn/...
- 10 岁研究计算机,电脑神童“不务正业”的技术路
- 腾讯痛下杀手,是时候让区块链回归技术和应用的本质了!
- 使用jprobe建设镜面层叠的原则和见解
- a small test by windows live writer 2011
- SqlServer中使用游标遍历数据集合
- 【一个合法的身份证号码由17位地区、日期编号和顺序编号加1位校验码组成】
- 成形滤波器(利用FDATOOL设计成形滤波器)
- Blender学习入门(二)-通用模型技术总结
- 京东非自营下运费模式
- 腾讯乐固多渠道打包配置
- css3 flex 省略号,142.关于flex布局与省略号不显示的问题
热门文章
- 《iOS取证实战:调查、分析与移动安全》一3.6 iPhone操作系统
- 【 HDU1081 】 To The Max (最大子矩阵和)
- vs2010 “SetScrollSizes”: 找不到标识符
- maven项目对象模型(二)
- php 开源邮件系统,企业级开源邮件系统搭建的全过程
- 费马定理中值定理_长盛不衰的法国数学|费马
- oracle转类型sql,[转]SQL Server 和Oracle 数据类型对应
- 小米蓝牙耳机驱动_小米降噪项圈蓝牙耳机上手
- pytorch test单张图片_PyTorch的元学习库:Torchmeta
- unity 草 可以一棵棵种吗?_5种多肉叶插成活率超高,养一棵成活一大片,种都没地方种...