苹果公司华人研究员抛弃注意力机制,史上最快的Transformer!新模型达成最低时间复杂度...
转自:新智元
【导读】attention is all you need是绝对的真理吗?自从Transformer面世以来,采用CNN等传统模型与注意力进行结合就成了新的创新方向。但苹果的华人研究员提出,attention也并不是必须的,并且时间复杂度更低!
2017年,一篇神奇的论文Attention is All You Need横空出世,目前已有两万多个引用,为后续的BERT,GPT类模型提供了基础的Transformer模型,在NLP,CV等多个机器学习领域大放异彩。
Transformer中一个重要的机制就是注意力(Attention),这也是论文标题中重点说明的,也是效果好的原因。
但谷歌的老对头苹果公司不这么想,近日,苹果公司在arxiv上上传了一篇论文,无需注意力机制的Transformer,即Attention Free Transformer (ATF)。
第一作者为华人Shuangfei Zhai,是毕业于宾汉姆顿大学的博士。
在attention效果好的时候,重新回顾不采用attention的研究方法就成了创新。
论文的摘要中说明,AFT是Transformer的一个有效的变体,不再需要自注意力机制。
一个 AFT 层中,key和value首先与一组已学习的位置偏差组合在一起,其结果以元素级(element-wise)方式与query相乘。
这种新的操作具有记忆线性复杂度(上下文大小和特征维度),使其既能兼容长输入文本,也能平衡模型大小。
AFT这个基础模型在文中又称为AFT-full,可视化的结果如下所示。对于每个时间步t来说,AFT都是value的加权平均值,结果就是和query的element wise的乘法。
除此之外,文中还介绍了 AFT-local 和 AFT-conv 两种模型,它们利用了局部性和空间权重分配的思想,同时保持了全局连通性。
AFT-local主要借鉴了CNN的思想,把相邻二维attention矩阵给平均池化。
AFT-simple是AFT-local的一个特殊情况,当s=0的时候,也就是没有位置偏差。
AFT-conv学习到了相邻位置的偏差,也是从局部性的想法扩展而来,采用了空间查权重共享的想法,也就是卷积,这个模型对于视觉相关的任务来说特别好用。
这个模型在两个自回归建模任务(CIFAR10和 Enwik8)和一个图像识别任务(ImageNet-1K 分类)上进行了广泛的实验,证明了 AFT 在所有的基准测试中都表现出了很好的竞争性能,同时也提供了很好的效率。
论文的结论就是AFT取代了原有attention机制中的点乘运算,并且在数据集上取得更好的结果,并且时间复杂度明显降低,这项工作将为Transformer类的模型提供参考。
论文在reddit社区上引发了激烈的讨论,有网友表示,你不需要卷积,你不需要注意力机制,你什么都不需要,能不能告诉我们到底需要什么?
有人回复道,我们需要价值数百万美元的硬件设备。
还有说全连接层is all you need。
即将到来的下一篇文章:Nothing is all you need。
参考资料:
https://www.reddit.com/r/MachineLearning/comments/npmq5j/r_an_attention_free_transformer/
欢迎添加群助手微信,邀请您加入大佬云集-Transformer&CV技术交流群!
???? 长按识别添加,邀请您进群!
苹果公司华人研究员抛弃注意力机制,史上最快的Transformer!新模型达成最低时间复杂度...相关推荐
- 史上最快的Transformer!新模型达成最低时间复杂度
点上方计算机视觉联盟获取更多干货 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:新智元 AI博士笔记系列推荐 周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 20 ...
- 史上AI最高分!谷歌大模型创美国医师执照试题新纪录,科学常识水平媲美人类医生...
杨净 羿阁 发自 凹非寺 量子位 | 公众号 QbitAI 史上AI最高分,谷歌新模型刚刚通过美国医师执照试题验证! 而且在科学常识.理解.检索和推理能力等任务中,直接与人类医生水平相匹敌.在一些临床 ...
- 一年六篇顶会的清华大神提出Fastformer:史上最快、效果最好的Transformer
来源:新智元 [导读]Transformer模型好是好,可惜太慢了!最近一位清华大神在arxiv上传了一篇论文,提出新模型Fastformer,线性时间复杂度,训练和推理效率史上最快,还顺手在排行榜刷 ...
- 史上最小白之Transformer详解
1.前言 博客分为上下两篇,您现在阅读的是下篇史上最小白之Transformer详解,在阅读该篇博客之前最好你能够先明白Encoder-Decoder,Attention机制,self-Attenti ...
- 半年 5 战 5 金:Kaggle 史上最快 GrandMaster 是如何炼成的?
点击上方"Datawhale",选择"星标"公众号 第一时间获取价值内容 转载自机器之心(id: almosthuman2014) 这是 Kaggle 你问我答 ...
- 【史上最全】如何建立模型
** [史上最全]如何建立模型 ** 战略性资源 学习:构建一颗知识树 提炼概念 建立连接 结构分析 纵向拆解 横向拆解 加强连接 每个人都有天生的学习能力,所以都能学习 -- 但是学习了如何学习,能 ...
- Android开发者福音-史上最快模拟器genymotion
Android开发者福音-史上最快模拟器genymotion 2014年3月17日 这个模拟器是我在新公司第一天上班的时候,公司同事推荐给我的,这么好的东西,我自然不忘跟大家分享一下.我们都知道Ecl ...
- DeepFaceLab史上最快的环境搭建(虚拟环境)
DeepFaceLab史上最快的环境搭建(虚拟环境) 文章目录: 一.测试环境 二.搭建虚拟环境 1.创建虚拟环境 2.激活虚拟环境 3.离开虚拟环境 三.配置GPU环境 四.安装配置python库包 ...
- 史上最快消息内核——ZeroMQ
ZeroMQ是一个很有个性的项目,它原来是定位为"史上最快消息队列",所以名字里面有"MQ"两个字母,但是后来逐渐演变发展,慢慢淡化了消息队列的身影,改称为消息 ...
最新文章
- bzoj1402 Ticket to Ride 斯坦纳树 + 状压dp
- 定时任务 Crontab命令 详解
- 2017年第八届蓝桥杯 - 省赛 - C/C++大学A组 - C. 魔方状态
- 牛客练习赛34 E little w and Digital Root(数位dp)
- STRUTS模拟试题
- [objective-c] 04 - 消息机制 回调 目标-动作回调
- 云智能遥控开关设备再物联网领域的应用:智能养殖高效、生态、安全!
- js中将有层级关系的一维数据转换为父子级关系的二维数据、菜单权限三级层级数据实现(树形结构数据)
- 开源 java CMS - FreeCMS2.6 站点设置
- Ubuntu 命令大全
- linux下的C语言开发(多线程编程)
- [Web Chart系列之五] 4. 实战draw2d(Raphael)之取消Chrome中Label Text 全部选中
- DNF单机从服务器获取信息,dnf单机云服务器
- 我是如何入门机器学习的呢
- gif透明背景动画_ThunderSoft GIF Converter(GIF转换器)中文版分享
- java 高淇讲的怎么样_反射机制--高淇Java视频笔记
- linux+创建一个v文件共享,win10与Ubantu双系统:Linux下开启FTP服务器与创建无线热点(实现文件共享)...
- CPU100%,怎么快速定位?
- 淘宝网首页登录失败原因分析及解决…
- discuz当qq绑定超过5个网址时 如何解除绑定qq
热门文章
- poj 3275(传递闭包)
- Linux 多线程应用中编写安全的信号处理函数
- 艾伟:C#对游戏手柄的编程开发-API篇(2)
- 收藏:SqlServer
- json字段顺序读取 python_如何利用Python批量读取视频文件的时间长度?
- 怎样设置rotacast插件_百度克星、16倍速看视频,这5个谷歌插件简直太会玩了!...
- C语言程序设计有哪几种结构,第章c语言程序设计的三种基本结构.ppt
- Java中的实现马赛克效果以及灰度效果----整张图片
- sklearn(五)计算acc:使用metrics.accuracy_score()计算分类的准确率
- TCP/IP反码求和校验