Transformer又又又升级了?
Transformer,一个nlp绕不开的话题,现在连推荐和图像也绕不开了。这么强大的模型倒不是没有缺点,例如训练预估慢就是它的硬伤,所以常常受资源/时间等限制,都会优先尝试tiny-bert等较小的模型去处理,但是论文表明这种处理对效果是有一定影响的。有没有又快又好的模型呢?它来了-Fastformer,不仅线性复杂度,还刷新了很多榜单。
fastformer
先温习下transformer中的self-attention,如下图所示:
我们可以看到query中每个向量都需要与key中的向量做点积,才能最终得到最终向量。让我们再看看fastformer:
我们可以看到query中所有向量通过additive attention聚合成了一个全局向量,然后和key做element-wise乘法,又通过additive attention聚合成全局key向量,最后和value做element-wise后做线性变换得到r1~rN,最后输出q1+r1, q2+r2, q3+r3。
additive attention, wq和wk是可学习的参数:
实验
参考文献
1、https://arxiv.org/pdf/2108.09084.pdf
Transformer又又又升级了?相关推荐
- 搭建自己的以图搜图系统(二):深入优化搭建生产级别的图搜系统
概述 本文是"搭建自己的以图搜图系统"系列的第二篇,在第一篇内容中我们了解了如何利用"机器学习框架 Towhee ¹"和"向量数据库 Milvus ² ...
- Swin Transformer 升级,Swin V2:向更大容量、更高分辨率的更大模型迈进
作者丨happy 编辑丨极市平台 本文原创首发于极市平台公众号,转载请获得授权并标明出处 论文链接:https://arxiv.org/pdf/2111.09833.pdf 代码链接:https:// ...
- Transformer升级之路:二维位置的旋转式位置编码
©PaperWeekly 原创 · 作者 | 苏剑林 单位 | 追一科技 研究方向 | NLP.神经网络 在之前的文章 Transformer 升级之路:博采众长的旋转式位置编码中我们提出了旋转式位置 ...
- Transformer升级之路:Sinusoidal位置编码追根溯源
©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 最近笔者做了一些理解和改进Transformer的尝试,得到了一些似乎还有价值的经验和结论,遂开一个专题总 ...
- Transformer升级之路:长度外推性与位置鲁棒性
©PaperWeekly 原创 · 作者 | 苏剑林 单位 | 追一科技 研究方向 | NLP.神经网络 上一篇文章<Transformer升级之路:长度外推性与局部注意力>我们讨论了 T ...
- Transformer大升级!谷歌、OpenAI联合推出分层模型,刷榜ImageNet32刷新SOTA
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来源丨新智元 编辑丨极市平台 导读 来自谷歌.OpenAI和华沙大学 ...
- Transformer升级之路:博采众长的旋转式位置编码
©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 上一篇文章中,我们对原始的 Sinusoidal 位置编码做了较为详细的推导和理解,总的感觉是 Sinus ...
- 谷歌Transformer再升级——新模型实现性能、速度双提升,发展潜力巨大
"数据猿年度重磅活动预告:2020年度金猿策划活动(金猿榜单发布+金猿奖杯颁发)即将推出,尽情咨询期待! 大数据产业创新服务媒体 --聚焦数据 · 改变商业 当我们在翻译软件上输入 &quo ...
- Transformer升级之路:从Performer到线性Attention
©PaperWeekly 原创 · 作者|苏剑林 单位|追一科技 研究方向|NLP.神经网络 看过笔者之前的文章线性Attention的探索:Attention 必须有个 Softmax 吗?和 Pe ...
最新文章
- 微信小程序wx.request POST获取不到数据解决办法
- 又被 AI 抢饭碗?2457 亿参数规模,全球最大中文人工智能巨量模型 “源1.0”正式开源...
- linux修改主机名+免密认证+关闭防火墙
- 对缓存击穿的一点思考
- 艾伟_转载:使用LINQ to SQL更新数据库(上):问题重重
- 【整理】史上最强的娱乐大餐———九奔、汉澳、器普。。。。。。
- 多功能时钟电路的设计框图_一种病理组织漂片多功能一体机的设计
- 启动窗口画面类CSplashWnd
- 天池 在线编程 最长AB子串(哈希)
- c语言实现bf算法的定位函数,数据结构c语言版严蔚敏清华大学出版社第四章串.ppt...
- 历史上杀伤力最大的笑话!!!
- Linux nohup 关闭终端的时候,程序依然能在后台运行( linux重定向及nohup不输出的方法)...
- ppt演讲计时器_靠这招,我成了领导眼中的PPT演讲高手!
- 人生哲理 之 驴子的故事
- Python爬虫入门教程 40-100 博客园Python相关40W博客抓取 scrapy
- [转]SEO做关键词的十大分析方法
- 使用malloc函数分配空间
- 192.168.0.1/27 表示什么
- 中科院计算机应用技术,2020-2021年中国科学院大学(中科院)计算机应用技术考研招生情况、分数线、参考书目及备考经验...
- mint-ui 图片懒加载及请求数据加载中提示方法