点击上方“视学算法”,选择加"星标"或“置顶

重磅干货,第一时间送达

来源丨新智元

编辑丨极市平台

导读

来自谷歌、OpenAI和华沙大学的一个团队提出了一种新的用于语言建模的高效Transformer架构Hourglass,在ImageNet32上达到新的SOTA,证明拥有一个明确的分层结构是Transformer能有效处理长序列的关键。Hourglass在给定相同计算量和存储量的情况下,可以产生比Transformer更好的结果。

Transformer模型在很多不同的领域都取得了SOTA,包括自然语言,对话,图像,甚至音乐。每个Transformer体系结构的核心模块是注意力模块,它为一个输入序列中的所有位置对计算相似度score。

Transformer示意图

然而,Transformer在输入序列的长度较长时效果不佳,因为它需要计算时间呈平方增长来产生所有相似性得分,以及存储空间的平方增长来构造一个矩阵存储这些score,因此将它们扩展到长序列(如长文档或高分辨率图像)是非常费时费内存的。

对于需要长距离注意力的应用,目前已经提出了几种快速且更节省空间的方法,如常见的稀疏注意力。

稀疏注意力机制通过从一个序列而不是所有可能的Pair中计算经过选择的相似性得分来减少注意机制的计算时间和内存需求,从而产生一个稀疏矩阵而不是一个完整的矩阵。

这些稀疏条目可以通过优化的方法找到、学习,甚至随机化,如Performer、Sparse Transformers、Longformers、RoutingTransformers、Reformers和BigBird。

Performer示意图

虽然,稀疏注意力引入了许多技术来修改注意机制,但是,整体Transformer的架构并没有改变。这些稀疏注意机制降低了自我注意的复杂性,但仍然迫使模型要处理与输入相同长度的序列。

为了缓解这些问题,来自谷歌、OpenAI和华沙大学的团队提出了一种新的用于语言建模的高效Transformer架构,称之为Hourglass。

论文地址:https://arxiv.org/pdf/2110.13711v1.pdf

Hourglass假设,拥有一个明确的层次结构是Transformer有效处理长序列的关键,

所以,Hourglass中对激活进行下采样和上采样的不同方法,以便使tokens分层。

Hourglass算法伪代码

Hourglass使用缩短操作将tokens合并,因此减少了总的序列长度,然后结合来自早期层的序列再次对它们进行上采样。

Hourglass架构概述

Hourglass的结构从基本层开始,基本层是在完全tokens序列上运行的一堆Transformer块。

在此之后,插入缩短层,其中k1是缩短因子参数。在缩短之前,序列被向右移动,以防止信息泄露。

缩短方法示意图

然后递归地插入另一个缩短块,以缩小k1k2倍的最小规模运行。

之后就要对经过处理的tokens进行上采样,上采样层将生成的激活信息恢复到原始tokens的分辨率。

上采样示意图

在上采样和残差连接后,生成的激活信息会由token级别的Transformer普通层处理。

研究人员将Hourglass应用于三个语言建模任务。为了展示Hourglass跨领域泛化能力,他们在一个与自然语言处理相关的数据集和两个来自计算机视觉领域的数据集上训练Hourglass模型。

结果表明,Hourglass在给定相同计算量和存储量的情况下,对Transformer基线进行了改进,可以产生比Transformer更好的结果。

Transformer-XL与Hourglass的训练所用存储的比较

特别是,Hourglass在广泛研究的enwik8基准上也提高了语言建模效率。

基线(红色)和分层Transformer(绿色)的每字符位数与计算成本的关系

Enwik8是一个字节级语言建模基准,包含1亿字节未处理的英文维基百科文本。

在测试集上评估Hourglass模型,将其拆分为序列长为6912,步长为128的重叠序列,并仅计算最后128个token的测试损失。使用(5@1,24@3,5@1)层次结构,最终得到0.997BPC。

Enwik8结果

Hourglass还在ImageNet32生成任务上实现自回归Transformer模型新的SOTA。

下采样图像的每维位数(BPD),自回归模型和非自回归模型用一条水平线分开

模型生成的例子,其中每个图像的下半部分由我们的模型生成,由上半部分提示

Hourglass在ImageNet32生成任务的自回归模型中获得最佳结果,在其他图像生成和语言建模任务中也获得极具竞争力的结果。

特别值得说明的是,Hourglass可以用于任何注意力类型,这为未来处理更长序列的Transformer的相关研究开辟了许多方向,提高了效率和准确性之间的权衡。

参考资料:

https://arxiv.org/pdf/2110.13711.pdf https://www.reddit.com/r/MachineLearning/comments/qmm9z7/r_hierarchical_transformers_are_more_efficient/

如果觉得有用,就请分享到朋友圈吧!

点个在看 paper不断!

Transformer大升级!谷歌、OpenAI联合推出分层模型,刷榜ImageNet32刷新SOTA相关推荐

  1. 跨模态学习能力再升级,EasyNLP电商文图检索效果刷新SOTA

    作者:熊兮.欢夏.章捷.临在 导读 多模态内容(例如图像.文本.语音.视频等)在互联网上的爆炸性增长推动了各种跨模态模型的研究与发展,支持了多种跨模态内容理解任务.在这些跨模态模型中,CLIP(Con ...

  2. 跨模态学习能力再升级,EasyNLP 电商文图检索效果刷新 SOTA

    导读 多模态内容(例如图像.文本.语音.视频等)在互联网上的爆炸性增长推动了各种跨模态模型的研究与发展,支持了多种跨模态内容理解任务.在这些跨模态模型中,CLIP(Contrastive Langua ...

  3. 美国新闻集团拟起诉微软谷歌OpenAI;大厂核心技术人员开启创业潮;京东云首次发布数智平台“优加”丨每日大事件...

    ‍ ‍数据智能产业创新服务媒体 --聚焦数智 · 改变商业 企业动态 美国新闻集团拟起诉微软谷歌OpenAI 自ChatGPT风靡全球后,AI版权问题就成为近来国外争论不休的一个焦点.据报道,AI技术 ...

  4. OpenAI 重磅发布 GPT-4 !ChatGPT 炸裂大升级,直接能考上哈佛,抢先体验后我慌了...

    公众号关注 「奇妙的 Linux 世界」 设为「星标」,每天带你玩转 Linux ! ​ 一觉醒来,万众期待的GPT-4,它来了! OpenAI老板Sam Altman直接开门见山地介绍说: 这是我们 ...

  5. #今日论文推荐# 千亿参数大模型首次被撬开,Meta复刻GPT-3“背刺“OpenAI,完整模型权重及训练代码全公布

    #今日论文推荐# 千亿参数大模型首次被撬开!Meta复刻GPT-3"背刺"OpenAI,完整模型权重及训练代码全公布 千亿级参数AI大模型,竟然真的能获取代码了?! 一觉醒来,AI ...

  6. 谷歌大动作!TPU超算系统大升级,全面超越英伟达A100

    编|泽南 源|机器之心 性能和效率都超越英伟达 A100,这样的超算我有不止十台. 我们还没有看到能与 ChatGPT 相匹敌的 AI 大模型,但在算力基础上,领先的可能并不是微软和 OpenAI. ...

  7. 谷歌最强 NLP 模型 BERT 解读

    谷歌最强 NLP 模型 BERT 解读 https://mp.weixin.qq.com/s/N7Qp_Fx0rAFbvrpLSETi8w 本文是追一科技潘晟锋基于谷歌论文为 AI 科技评论提供的解读 ...

  8. 谷歌最强NLP模型BERT如约开源,12小时GitHub标星破1500,即将支持中文

    夏乙 晓查 乾明 问耕 发自 凹非寺 量子位 报道 | 公众号 QbitAI BERT终于来了!今天,谷歌研究团队终于在GitHub上发布了万众期待的BERT. 代码放出不到一天,就已经在GitHub ...

  9. GPT-4发布!ChatGPT大升级!AI画图牛逼

    一觉醒来,万众期待的GPT-4,它来了! OpenAI老板Sam Altman直接开门见山地介绍说: 这是我们迄今为止功能最强大的模型! 有多强? 根据OpenAI官方的介绍,GPT-4是一个超大的多 ...

最新文章

  1. 彻底解决web开发中遇到的路径问题(上)
  2. 7本书带你掌握数据科学中的数学基础(附下载)
  3. 聚类常见距离及python实现
  4. 解决ubuntu系统中输入sudo passwd root,之后,提示输入新密码时,输不进去
  5. lnmp环境脚本自动配置
  6. 用户设置及用户默认设置
  7. 软件体系架构课后作业04
  8. 处理文章附件路径问题
  9. 【HDU1665】That Nice Euler Circuit(欧拉公式+点在线段上判断(不在端点)+线段规范相交)
  10. 常用webserver 比较
  11. Navicat premium for Mac 12 破解 纯手工
  12. java 正则表达式 html,java正则表达式语法大全
  13. 谈个人价值观与企业价值观(2014年收官之作,值得深思)
  14. OAuth2授权方式
  15. 一个基于WinHttp的轻量级的分片下载库介绍
  16. Android studio 回退按钮显示
  17. Fedora 33 安装wine-6.0 微信3.0
  18. linux12企业实战 -- 37zabbix企业微信通知配置
  19. 再贴一个Fleaphp相关的
  20. 我的开源项目,趣享GIF源代码已正式公开

热门文章

  1. KMP的next[]数组
  2. SharePoint的Reporting Service Viewer Web Part
  3. 中国电子学会青少年编程能力等级测试图形化四级编程题:太空大战
  4. The Six Best Practices(1~3)
  5. 【ACM】UVA - 340 Master-Mind Hints(一定要好好学英语...)
  6. android system window,Android控件的fitSystemWindows属性
  7. 毕业十年后,我忍不住出了一份程序员的高考试卷
  8. 开源需自立!Android、GitHub、Apache全线告急!
  9. ImageNet时代将终结?何恺明新作:Rethinking ImageNet Pre-training
  10. 活动推荐 | 百千万人才工程创新大讲堂开启报名