点上方计算机视觉联盟获取更多干货

仅作学术分享,不代表本公众号立场,侵权联系删除

转载于:新智元

AI博士笔记系列推荐

周志华《机器学习》手推笔记正式开源!可打印版本附pdf下载链接

2017年,一篇神奇的论文Attention is All You Need横空出世,目前已有两万多个引用,为后续的BERT,GPT类模型提供了基础的Transformer模型,在NLP,CV等多个机器学习领域大放异彩。

Transformer中一个重要的机制就是注意力(Attention),这也是论文标题中重点说明的,也是效果好的原因。

但谷歌的老对头苹果公司不这么想,近日,苹果公司在arxiv上上传了一篇论文,无需注意力机制的Transformer,即Attention Free Transformer (ATF)。

第一作者为华人Shuangfei Zhai,是毕业于宾汉姆顿大学的博士。

在attention效果好的时候,重新回顾不采用attention的研究方法就成了创新。

论文的摘要中说明,AFT是Transformer的一个有效的变体,不再需要自注意力机制。

一个 AFT 层中,key和value首先与一组已学习的位置偏差组合在一起,其结果以元素级(element-wise)方式与query相乘。

这种新的操作具有记忆线性复杂度(上下文大小和特征维度),使其既能兼容长输入文本,也能平衡模型大小。

AFT这个基础模型在文中又称为AFT-full,可视化的结果如下所示。对于每个时间步t来说,AFT都是value的加权平均值,结果就是和query的element wise的乘法。

除此之外,文中还介绍了 AFT-local 和 AFT-conv 两种模型,它们利用了局部性和空间权重分配的思想,同时保持了全局连通性。

AFT-local主要借鉴了CNN的思想,把相邻二维attention矩阵给平均池化。

AFT-simple是AFT-local的一个特殊情况,当s=0的时候,也就是没有位置偏差。

AFT-conv学习到了相邻位置的偏差,也是从局部性的想法扩展而来,采用了空间查权重共享的想法,也就是卷积,这个模型对于视觉相关的任务来说特别好用。

这个模型在两个自回归建模任务(CIFAR10和 Enwik8)和一个图像识别任务(ImageNet-1K 分类)上进行了广泛的实验,证明了 AFT 在所有的基准测试中都表现出了很好的竞争性能,同时也提供了很好的效率。

论文的结论就是AFT取代了原有attention机制中的点乘运算,并且在数据集上取得更好的结果,并且时间复杂度明显降低,这项工作将为Transformer类的模型提供参考。

论文在reddit社区上引发了激烈的讨论,有网友表示,你不需要卷积,你不需要注意力机制,你什么都不需要,能不能告诉我们到底需要什么?

有人回复道,我们需要价值数百万美元的硬件设备。

还有说全连接层is all you need。

即将到来的下一篇文章:Nothing is all you need。

参考资料:

https://www.reddit.com/r/MachineLearning/comments/npmq5j/r_an_attention_free_transformer/

-------------------

END

--------------------

我是王博Kings,985AI博士,华为云专家、CSDN博客专家(人工智能领域优质作者)。单个AI开源项目现在已经获得了2100+标星。现在在做AI相关内容,欢迎一起交流学习、生活各方面的问题,一起加油进步!

我们微信交流群涵盖以下方向(但并不局限于以下内容):人工智能,计算机视觉,自然语言处理,目标检测,语义分割,自动驾驶,GAN,强化学习,SLAM,人脸检测,最新算法,最新论文,OpenCV,TensorFlow,PyTorch,开源框架,学习方法...

这是我的私人微信,位置有限,一起进步!

王博的公众号,欢迎关注,干货多多

王博Kings的系列手推笔记(附高清PDF下载):

博士笔记 | 周志华《机器学习》手推笔记第一章思维导图

博士笔记 | 周志华《机器学习》手推笔记第二章“模型评估与选择”

博士笔记 | 周志华《机器学习》手推笔记第三章“线性模型”

博士笔记 | 周志华《机器学习》手推笔记第四章“决策树”

博士笔记 | 周志华《机器学习》手推笔记第五章“神经网络”

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(上)

博士笔记 | 周志华《机器学习》手推笔记第六章支持向量机(下)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(上)

博士笔记 | 周志华《机器学习》手推笔记第七章贝叶斯分类(下)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(上)

博士笔记 | 周志华《机器学习》手推笔记第八章集成学习(下)

博士笔记 | 周志华《机器学习》手推笔记第九章聚类

博士笔记 | 周志华《机器学习》手推笔记第十章降维与度量学习

博士笔记 | 周志华《机器学习》手推笔记第十一章稀疏学习

博士笔记 | 周志华《机器学习》手推笔记第十二章计算学习理论

博士笔记 | 周志华《机器学习》手推笔记第十三章半监督学习

博士笔记 | 周志华《机器学习》手推笔记第十四章概率图模型

点分享

点收藏

点点赞

点在看

史上最快的Transformer!新模型达成最低时间复杂度相关推荐

  1. 苹果公司华人研究员抛弃注意力机制,史上最快的Transformer!新模型达成最低时间复杂度...

    转自:新智元 [导读]attention is all you need是绝对的真理吗?自从Transformer面世以来,采用CNN等传统模型与注意力进行结合就成了新的创新方向.但苹果的华人研究员提 ...

  2. 史上AI最高分!谷歌大模型创美国医师执照试题新纪录,科学常识水平媲美人类医生...

    杨净 羿阁 发自 凹非寺 量子位 | 公众号 QbitAI 史上AI最高分,谷歌新模型刚刚通过美国医师执照试题验证! 而且在科学常识.理解.检索和推理能力等任务中,直接与人类医生水平相匹敌.在一些临床 ...

  3. 一年六篇顶会的清华大神提出Fastformer:史上最快、效果最好的Transformer

    来源:新智元 [导读]Transformer模型好是好,可惜太慢了!最近一位清华大神在arxiv上传了一篇论文,提出新模型Fastformer,线性时间复杂度,训练和推理效率史上最快,还顺手在排行榜刷 ...

  4. 半年 5 战 5 金:Kaggle 史上最快 GrandMaster 是如何炼成的?

    点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 转载自机器之心(id: almosthuman2014) 这是 Kaggle 你问我答 ...

  5. 史上最小白之Transformer详解

    1.前言 博客分为上下两篇,您现在阅读的是下篇史上最小白之Transformer详解,在阅读该篇博客之前最好你能够先明白Encoder-Decoder,Attention机制,self-Attenti ...

  6. MySQL史上最快逻辑备份工具

    MySQL Shell 8.0.21 增加了一种新的逻辑备份恢复方法,有更快的备份恢复效率,支持zstd实时压缩,支持分块并行导出,load data并行导入,还能备份到OCI的对象存储. util. ...

  7. 【史上最全】如何建立模型

    ** [史上最全]如何建立模型 ** 战略性资源 学习:构建一颗知识树 提炼概念 建立连接 结构分析 纵向拆解 横向拆解 加强连接 每个人都有天生的学习能力,所以都能学习 -- 但是学习了如何学习,能 ...

  8. Android开发者福音-史上最快模拟器genymotion

    Android开发者福音-史上最快模拟器genymotion 2014年3月17日 这个模拟器是我在新公司第一天上班的时候,公司同事推荐给我的,这么好的东西,我自然不忘跟大家分享一下.我们都知道Ecl ...

  9. DeepFaceLab史上最快的环境搭建(虚拟环境)

    DeepFaceLab史上最快的环境搭建(虚拟环境) 文章目录: 一.测试环境 二.搭建虚拟环境 1.创建虚拟环境 2.激活虚拟环境 3.离开虚拟环境 三.配置GPU环境 四.安装配置python库包 ...

最新文章

  1. Science:导入了人类特有基因后,猴脑有了进化的趋势
  2. leader选举的源码分析-FastLeaderElection
  3. SpringBoot高级消息-RabbitMQ运行机制
  4. java每日小算法(10)
  5. Qt实践录:串口调试助手
  6. 启动白屏处理_App启动优化一顿操作猛如虎
  7. 计算机换汉语快捷键,电脑常用快捷键
  8. 论SetItemData和GetItemData
  9. Cognos 优化-大数据量的报表
  10. 向对话框传递数据DialogBoxParam;获取对话框返回的数据DialogBox;EndDialog;强制转换;
  11. struct termios结构体详解
  12. 在Flask中上传本地图片到服务器
  13. 电子信息工程考研方向计算机,电子信息工程考研方向
  14. 计算机网络教学改革方案,三教改革下的计算机网络专业教学改革
  15. 站长网专访:南昌网事:那一场关于互联网的风花雪月
  16. android TV 插入U盘检测
  17. Oracle数据库:oracle内连接inner join on,多表查询各种自链接、内连接、外连接的练习示例
  18. 光伏箱变保护测控装置
  19. canvas画圆环(一)之渐变色,纯色
  20. [CF1131F] Asya And Kittens

热门文章

  1. 内点惩罚函数法matlab_拉格朗日乘数法求解多元条件极值问题
  2. c2c旅游springboot开源_7个开源的 Spring Boot 前后端分离项目,一定要收藏!
  3. php socket 不能用,PHP无法用Socket方式连接MySQ
  4. mysql中in和between_MySQL的WHERE语句中BETWEEN与IN的用法和他们的区别
  5. tp5微信公众号获取用户openid_tp5+微信公众号获取用户基本信息
  6. linux搭建交叉编译器,手把手教你一步一步搭建mips-linux-gcc-4.4.0交叉编译工具
  7. Redhat7 Dell服务器驱动安装(Bin格式)
  8. 高考英语口试计算机系,高考英语口试材料.docx
  9. linux nginx 配置端口访问,Linux入门教程:ubuntu 16.04配置nginx服务器实现一个IP一个端口多个站点,ubuntunginxNginx 使用异步...
  10. python类和对象介绍_Python开发基础-Day17面向对象编程介绍、类和对象