转自:新智元

【导读】attention is all you need是绝对的真理吗?自从Transformer面世以来,采用CNN等传统模型与注意力进行结合就成了新的创新方向。但苹果的华人研究员提出,attention也并不是必须的,并且时间复杂度更低!

2017年,一篇神奇的论文Attention is All You Need横空出世,目前已有两万多个引用,为后续的BERT,GPT类模型提供了基础的Transformer模型,在NLP,CV等多个机器学习领域大放异彩。

Transformer中一个重要的机制就是注意力(Attention),这也是论文标题中重点说明的,也是效果好的原因。

但谷歌的老对头苹果公司不这么想,近日,苹果公司在arxiv上上传了一篇论文,无需注意力机制的Transformer,即Attention Free Transformer (ATF)。

第一作者为华人Shuangfei Zhai,是毕业于宾汉姆顿大学的博士。

在attention效果好的时候,重新回顾不采用attention的研究方法就成了创新。

论文的摘要中说明,AFT是Transformer的一个有效的变体,不再需要自注意力机制。

一个 AFT 层中,key和value首先与一组已学习的位置偏差组合在一起,其结果以元素级(element-wise)方式与query相乘。

这种新的操作具有记忆线性复杂度(上下文大小和特征维度),使其既能兼容长输入文本,也能平衡模型大小。

AFT这个基础模型在文中又称为AFT-full,可视化的结果如下所示。对于每个时间步t来说,AFT都是value的加权平均值,结果就是和query的element wise的乘法。

除此之外,文中还介绍了 AFT-local 和 AFT-conv 两种模型,它们利用了局部性和空间权重分配的思想,同时保持了全局连通性。

AFT-local主要借鉴了CNN的思想,把相邻二维attention矩阵给平均池化。

AFT-simple是AFT-local的一个特殊情况,当s=0的时候,也就是没有位置偏差。

AFT-conv学习到了相邻位置的偏差,也是从局部性的想法扩展而来,采用了空间查权重共享的想法,也就是卷积,这个模型对于视觉相关的任务来说特别好用。

这个模型在两个自回归建模任务(CIFAR10和 Enwik8)和一个图像识别任务(ImageNet-1K 分类)上进行了广泛的实验,证明了 AFT 在所有的基准测试中都表现出了很好的竞争性能,同时也提供了很好的效率。

论文的结论就是AFT取代了原有attention机制中的点乘运算,并且在数据集上取得更好的结果,并且时间复杂度明显降低,这项工作将为Transformer类的模型提供参考。

论文在reddit社区上引发了激烈的讨论,有网友表示,你不需要卷积,你不需要注意力机制,你什么都不需要,能不能告诉我们到底需要什么?

有人回复道,我们需要价值数百万美元的硬件设备。

还有说全连接层is all you need。

即将到来的下一篇文章:Nothing is all you need。

参考资料:

https://www.reddit.com/r/MachineLearning/comments/npmq5j/r_an_attention_free_transformer/

欢迎添加群助手微信,邀请您加入大佬云集-Transformer&CV技术交流群!

???? 长按识别添加,邀请您进群!

苹果公司华人研究员抛弃注意力机制,史上最快的Transformer!新模型达成最低时间复杂度...相关推荐

  1. 史上最快的Transformer!新模型达成最低时间复杂度

    点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:新智元 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 20 ...

  2. 史上AI最高分!谷歌大模型创美国医师执照试题新纪录,科学常识水平媲美人类医生...

    杨净 羿阁 发自 凹非寺 量子位 | 公众号 QbitAI 史上AI最高分,谷歌新模型刚刚通过美国医师执照试题验证! 而且在科学常识.理解.检索和推理能力等任务中,直接与人类医生水平相匹敌.在一些临床 ...

  3. 一年六篇顶会的清华大神提出Fastformer:史上最快、效果最好的Transformer

    来源:新智元 [导读]Transformer模型好是好,可惜太慢了!最近一位清华大神在arxiv上传了一篇论文,提出新模型Fastformer,线性时间复杂度,训练和推理效率史上最快,还顺手在排行榜刷 ...

  4. 史上最小白之Transformer详解

    1.前言 博客分为上下两篇,您现在阅读的是下篇史上最小白之Transformer详解,在阅读该篇博客之前最好你能够先明白Encoder-Decoder,Attention机制,self-Attenti ...

  5. 半年 5 战 5 金:Kaggle 史上最快 GrandMaster 是如何炼成的?

    点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 转载自机器之心(id: almosthuman2014) 这是 Kaggle 你问我答 ...

  6. 【史上最全】如何建立模型

    ** [史上最全]如何建立模型 ** 战略性资源 学习:构建一颗知识树 提炼概念 建立连接 结构分析 纵向拆解 横向拆解 加强连接 每个人都有天生的学习能力,所以都能学习 -- 但是学习了如何学习,能 ...

  7. Android开发者福音-史上最快模拟器genymotion

    Android开发者福音-史上最快模拟器genymotion 2014年3月17日 这个模拟器是我在新公司第一天上班的时候,公司同事推荐给我的,这么好的东西,我自然不忘跟大家分享一下.我们都知道Ecl ...

  8. DeepFaceLab史上最快的环境搭建(虚拟环境)

    DeepFaceLab史上最快的环境搭建(虚拟环境) 文章目录: 一.测试环境 二.搭建虚拟环境 1.创建虚拟环境 2.激活虚拟环境 3.离开虚拟环境 三.配置GPU环境 四.安装配置python库包 ...

  9. 史上最快消息内核——ZeroMQ

    ZeroMQ是一个很有个性的项目,它原来是定位为"史上最快消息队列",所以名字里面有"MQ"两个字母,但是后来逐渐演变发展,慢慢淡化了消息队列的身影,改称为消息 ...

最新文章

  1. bzoj1402 Ticket to Ride 斯坦纳树 + 状压dp
  2. 定时任务 Crontab命令 详解
  3. 2017年第八届蓝桥杯 - 省赛 - C/C++大学A组 - C. 魔方状态
  4. 牛客练习赛34 E little w and Digital Root(数位dp)
  5. STRUTS模拟试题
  6. [objective-c] 04 - 消息机制 回调 目标-动作回调
  7. 云智能遥控开关设备再物联网领域的应用:智能养殖高效、生态、安全!
  8. js中将有层级关系的一维数据转换为父子级关系的二维数据、菜单权限三级层级数据实现(树形结构数据)
  9. 开源 java CMS - FreeCMS2.6 站点设置
  10. Ubuntu 命令大全
  11. linux下的C语言开发(多线程编程)
  12. [Web Chart系列之五] 4. 实战draw2d(Raphael)之取消Chrome中Label Text 全部选中
  13. DNF单机从服务器获取信息,dnf单机云服务器
  14. 我是如何入门机器学习的呢
  15. gif透明背景动画_ThunderSoft GIF Converter(GIF转换器)中文版分享
  16. java 高淇讲的怎么样_反射机制--高淇Java视频笔记
  17. linux+创建一个v文件共享,win10与Ubantu双系统:Linux下开启FTP服务器与创建无线热点(实现文件共享)...
  18. CPU100%,怎么快速定位?
  19. 淘宝网首页登录失败原因分析及解决…
  20. discuz当qq绑定超过5个网址时 如何解除绑定qq

热门文章

  1. poj 3275(传递闭包)
  2. Linux 多线程应用中编写安全的信号处理函数
  3. 艾伟:C#对游戏手柄的编程开发-API篇(2)
  4. 收藏:SqlServer
  5. json字段顺序读取 python_如何利用Python批量读取视频文件的时间长度?
  6. 怎样设置rotacast插件_百度克星、16倍速看视频,这5个谷歌插件简直太会玩了!...
  7. C语言程序设计有哪几种结构,第章c语言程序设计的三种基本结构.ppt
  8. Java中的实现马赛克效果以及灰度效果----整张图片
  9. sklearn(五)计算acc:使用metrics.accuracy_score()计算分类的准确率
  10. TCP/IP反码求和校验