Transformer,一个nlp绕不开的话题,现在连推荐和图像也绕不开了。这么强大的模型倒不是没有缺点,例如训练预估慢就是它的硬伤,所以常常受资源/时间等限制,都会优先尝试tiny-bert等较小的模型去处理,但是论文表明这种处理对效果是有一定影响的。有没有又快又好的模型呢?它来了-Fastformer,不仅线性复杂度,还刷新了很多榜单。

fastformer

先温习下transformer中的self-attention,如下图所示:

我们可以看到query中每个向量都需要与key中的向量做点积,才能最终得到最终向量。让我们再看看fastformer:

我们可以看到query中所有向量通过additive attention聚合成了一个全局向量,然后和key做element-wise乘法,又通过additive attention聚合成全局key向量,最后和value做element-wise后做线性变换得到r1~rN,最后输出q1+r1, q2+r2, q3+r3。

additive attention, wq和wk是可学习的参数:

实验

参考文献

1、https://arxiv.org/pdf/2108.09084.pdf

Transformer又又又升级了?相关推荐

  1. 搭建自己的以图搜图系统(二):深入优化搭建生产级别的图搜系统

    概述 本文是"搭建自己的以图搜图系统"系列的第二篇,在第一篇内容中我们了解了如何利用"机器学习框架 Towhee ¹"和"向量数据库 Milvus ² ...

  2. Swin Transformer 升级,Swin V2:向更大容量、更高分辨率的更大模型迈进

    作者丨happy 编辑丨极市平台 本文原创首发于极市平台公众号,转载请获得授权并标明出处 论文链接:https://arxiv.org/pdf/2111.09833.pdf 代码链接:https:// ...

  3. Transformer升级之路:二维位置的旋转式位置编码

    ©PaperWeekly 原创 · 作者 | 苏剑林 单位 | 追一科技 研究方向 | NLP.神经网络 在之前的文章 Transformer 升级之路:博采众长的旋转式位置编码中我们提出了旋转式位置 ...

  4. Transformer升级之路:Sinusoidal位置编码追根溯源

    ©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 最近笔者做了一些理解和改进Transformer的尝试,得到了一些似乎还有价值的经验和结论,遂开一个专题总 ...

  5. Transformer升级之路:长度外推性与位置鲁棒性

    ©PaperWeekly 原创 · 作者 | 苏剑林 单位 | 追一科技 研究方向 | NLP.神经网络 上一篇文章<Transformer升级之路:长度外推性与局部注意力>我们讨论了 T ...

  6. Transformer大升级!谷歌、OpenAI联合推出分层模型,刷榜ImageNet32刷新SOTA

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨新智元 编辑丨极市平台 导读 来自谷歌.OpenAI和华沙大学 ...

  7. Transformer升级之路:博采众长的旋转式位置编码

    ©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 上一篇文章中,我们对原始的 Sinusoidal 位置编码做了较为详细的推导和理解,总的感觉是 Sinus ...

  8. 谷歌Transformer再升级——新模型实现性能、速度双提升,发展潜力巨大

    "数据猿年度重磅活动预告:2020年度金猿策划活动(金猿榜单发布+金猿奖杯颁发)即将推出,尽情咨询期待! 大数据产业创新服务媒体 --聚焦数据 · 改变商业 当我们在翻译软件上输入 &quo ...

  9. ​Transformer升级之路:从Performer到线性Attention

    ©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 看过笔者之前的文章线性Attention的探索:Attention 必须有个 Softmax 吗?和 Pe ...

最新文章

  1. 微信小程序wx.request POST获取不到数据解决办法
  2. 又被 AI 抢饭碗?2457 亿参数规模,全球最大中文人工智能巨量模型 “源1.0”正式开源...
  3. linux修改主机名+免密认证+关闭防火墙
  4. 对缓存击穿的一点思考
  5. 艾伟_转载:使用LINQ to SQL更新数据库(上):问题重重
  6. 【整理】史上最强的娱乐大餐———九奔、汉澳、器普。。。。。。
  7. 多功能时钟电路的设计框图_一种病理组织漂片多功能一体机的设计
  8. 启动窗口画面类CSplashWnd
  9. 天池 在线编程 最长AB子串(哈希)
  10. c语言实现bf算法的定位函数,数据结构c语言版严蔚敏清华大学出版社第四章串.ppt...
  11. 历史上杀伤力最大的笑话!!!
  12. Linux nohup 关闭终端的时候,程序依然能在后台运行( linux重定向及nohup不输出的方法)...
  13. ppt演讲计时器_靠这招,我成了领导眼中的PPT演讲高手!
  14. 人生哲理 之 驴子的故事
  15. Python爬虫入门教程 40-100 博客园Python相关40W博客抓取 scrapy
  16. [转]SEO做关键词的十大分析方法
  17. 使用malloc函数分配空间
  18. 192.168.0.1/27 表示什么
  19. 中科院计算机应用技术,2020-2021年中国科学院大学(中科院)计算机应用技术考研招生情况、分数线、参考书目及备考经验...
  20. mint-ui 图片懒加载及请求数据加载中提示方法

热门文章

  1. asp.net MVC Session 第二次加载丢失问题
  2. 文件上传api——MultipartFile
  3. ES6一些新特性记录
  4. angularjs $watch
  5. 利用zookeeper实现发布订阅模式
  6. 【树莓派】关于tinyproxy问题处理
  7. Android简易实战教程--第四十七话《使用OKhttp回调方式获取网络信息》
  8. iOS对UIViewController生命周期和属性方法的解析
  9. 基于TCP的一对回射客户/服务器程序及其运行过程分析( 下 )
  10. .net面试题目51-100