苹果公司华人研究员抛弃注意力机制，史上最快的Transformer！新模型达成最低时间复杂度...

转自：新智元

【导读】attention is all you need是绝对的真理吗？自从Transformer面世以来，采用CNN等传统模型与注意力进行结合就成了新的创新方向。但苹果的华人研究员提出，attention也并不是必须的，并且时间复杂度更低！

2017年，一篇神奇的论文Attention is All You Need横空出世，目前已有两万多个引用，为后续的BERT，GPT类模型提供了基础的Transformer模型，在NLP，CV等多个机器学习领域大放异彩。

Transformer中一个重要的机制就是注意力（Attention），这也是论文标题中重点说明的，也是效果好的原因。

但谷歌的老对头苹果公司不这么想，近日，苹果公司在arxiv上上传了一篇论文，无需注意力机制的Transformer，即Attention Free Transformer (ATF)。

第一作者为华人Shuangfei Zhai，是毕业于宾汉姆顿大学的博士。

在attention效果好的时候，重新回顾不采用attention的研究方法就成了创新。

论文的摘要中说明，AFT是Transformer的一个有效的变体，不再需要自注意力机制。

一个 AFT 层中，key和value首先与一组已学习的位置偏差组合在一起，其结果以元素级(element-wise)方式与query相乘。

这种新的操作具有记忆线性复杂度（上下文大小和特征维度），使其既能兼容长输入文本，也能平衡模型大小。

AFT这个基础模型在文中又称为AFT-full，可视化的结果如下所示。对于每个时间步t来说，AFT都是value的加权平均值，结果就是和query的element wise的乘法。

除此之外，文中还介绍了 AFT-local 和 AFT-conv 两种模型，它们利用了局部性和空间权重分配的思想，同时保持了全局连通性。

AFT-local主要借鉴了CNN的思想，把相邻二维attention矩阵给平均池化。

AFT-simple是AFT-local的一个特殊情况，当s=0的时候，也就是没有位置偏差。

AFT-conv学习到了相邻位置的偏差，也是从局部性的想法扩展而来，采用了空间查权重共享的想法，也就是卷积，这个模型对于视觉相关的任务来说特别好用。

这个模型在两个自回归建模任务(CIFAR10和 Enwik8)和一个图像识别任务(ImageNet-1K 分类)上进行了广泛的实验，证明了 AFT 在所有的基准测试中都表现出了很好的竞争性能，同时也提供了很好的效率。

论文的结论就是AFT取代了原有attention机制中的点乘运算，并且在数据集上取得更好的结果，并且时间复杂度明显降低，这项工作将为Transformer类的模型提供参考。

论文在reddit社区上引发了激烈的讨论，有网友表示，你不需要卷积，你不需要注意力机制，你什么都不需要，能不能告诉我们到底需要什么？

有人回复道，我们需要价值数百万美元的硬件设备。

还有说全连接层is all you need。

即将到来的下一篇文章：Nothing is all you need。

参考资料：

https://www.reddit.com/r/MachineLearning/comments/npmq5j/r_an_attention_free_transformer/

欢迎添加群助手微信，邀请您加入大佬云集-Transformer&CV技术交流群！

???? 长按识别添加，邀请您进群！

苹果公司华人研究员抛弃注意力机制，史上最快的Transformer！新模型达成最低时间复杂度...相关推荐

史上最快的Transformer！新模型达成最低时间复杂度
点上方计算机视觉联盟获取更多干货仅作学术分享,不代表本公众号立场,侵权联系删除转载于:新智元 AI博士笔记系列推荐周志华<机器学习>手推笔记正式开源!可打印版本附pdf下载链接 20 ...
史上AI最高分！谷歌大模型创美国医师执照试题新纪录，科学常识水平媲美人类医生...
杨净羿阁发自凹非寺量子位 | 公众号 QbitAI 史上AI最高分,谷歌新模型刚刚通过美国医师执照试题验证! 而且在科学常识.理解.检索和推理能力等任务中,直接与人类医生水平相匹敌.在一些临床 ...
一年六篇顶会的清华大神提出Fastformer：史上最快、效果最好的Transformer
来源:新智元 [导读]Transformer模型好是好,可惜太慢了!最近一位清华大神在arxiv上传了一篇论文,提出新模型Fastformer,线性时间复杂度,训练和推理效率史上最快,还顺手在排行榜刷 ...
史上最小白之Transformer详解
1.前言博客分为上下两篇,您现在阅读的是下篇史上最小白之Transformer详解,在阅读该篇博客之前最好你能够先明白Encoder-Decoder,Attention机制,self-Attenti ...
半年 5 战 5 金：Kaggle 史上最快 GrandMaster 是如何炼成的？
点击上方"Datawhale",选择"星标"公众号第一时间获取价值内容转载自机器之心(id: almosthuman2014) 这是 Kaggle 你问我答 ...
【史上最全】如何建立模型
** [史上最全]如何建立模型 ** 战略性资源学习:构建一颗知识树提炼概念建立连接结构分析纵向拆解横向拆解加强连接每个人都有天生的学习能力,所以都能学习 -- 但是学习了如何学习,能 ...
Android开发者福音-史上最快模拟器genymotion
Android开发者福音-史上最快模拟器genymotion 2014年3月17日这个模拟器是我在新公司第一天上班的时候,公司同事推荐给我的,这么好的东西,我自然不忘跟大家分享一下.我们都知道Ecl ...
DeepFaceLab史上最快的环境搭建（虚拟环境）
DeepFaceLab史上最快的环境搭建(虚拟环境) 文章目录: 一.测试环境二.搭建虚拟环境 1.创建虚拟环境 2.激活虚拟环境 3.离开虚拟环境三.配置GPU环境四.安装配置python库包 ...
史上最快消息内核——ZeroMQ
ZeroMQ是一个很有个性的项目,它原来是定位为"史上最快消息队列",所以名字里面有"MQ"两个字母,但是后来逐渐演变发展,慢慢淡化了消息队列的身影,改称为消息 ...

苹果公司华人研究员抛弃注意力机制，史上最快的Transformer！新模型达成最低时间复杂度...

【导读】attention is all you need是绝对的真理吗？自从Transformer面世以来，采用CNN等传统模型与注意力进行结合就成了新的创新方向。但苹果的华人研究员提出，attention也并不是必须的，并且时间复杂度更低！

苹果公司华人研究员抛弃注意力机制，史上最快的Transformer！新模型达成最低时间复杂度...相关推荐

最新文章

热门文章