堪比当年的LSTM,Transformer引燃机器学习圈:它是万能的
视学算法报道
转载自公众号:机器之心
作者:魔王
谷歌研究科学家 David Ha:Transformer 是新的 LSTM。
2017 年 6 月谷歌发布论文《Attention is All You Need》时,我们或许都没有意识到它提出的 Transformer 架构将带来多少惊喜。
在诞生至今不足四年的时间里,Transformer 不仅成为自然语言处理领域的主流模型(基于 Transformer 的预训练语言模型成为主流),还开始了向其他领域的跨界,近几个月来出现了大量将 Transformer 应用于计算机视觉领域的研究。
2020 年 10 月,谷歌提出了 Vision Transformer (ViT),可以直接利用 transformer 对图像进行分类,而不需要卷积网络。ViT 模型取得了与当前最优卷积网络相媲美的结果,但其训练所需的计算资源大大减少。
2020 年 12 月,复旦、牛津、腾讯等机构的研究者提出了 SEgmentation TRansformer(SETR),将语义分割视为序列到序列的预测任务,该模型在 ADE20K 上排名第一,性能优于 OCNet、GCNet 等网络。
2021 年 1 月初,OpenAI 又连放大招 ,用 DALL·E 和 CLIP 打破了自然语言与视觉的次元壁。两个模型都利用 Transformer 达到了很好的效果,前者可以基于本文直接生成图像,后者则能完成图像与文本类别的匹配。
由此,「Transformer 是万能的吗?」成为了近期机器学习社区的热门话题。谷歌大脑研究员 David Ha 发推表示:Transformer 是新的 LSTM。
他否定了自己在 2017 年 5 月发表的言论:「LSTM 就像神经网络中的 AK47。不管我们多么努力地想用新事物取代它,都是白费力气。从现在起它还将应用 50 年。」LSTM 由 Sepp Hochreiter 和 Jürgen Schmidhuber 于 1997 年联合提出,当时已诞生 20 年。
David Ha 不会想到,这句预言被一个月后出现的 Transformer 打破,而这仅用了 4 年时间。
著名机器学习资源网站 Papers with Code 在 1 月 20 日发布的 Newsletter 中列举了近期应用 Transformer 的十大新任务:
图像合成
论文:Taming Transformers for High-Resolution Image Synthesis
链接:https://arxiv.org/pdf/2012.09841v1.pdf
多目标追踪
论文:TransTrack: Multiple-Object Tracking with Transformer
链接:https://arxiv.org/pdf/2012.15460v1.pdf
音乐生成
论文:Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs
链接:https://arxiv.org/pdf/2101.02402v1.pdf
舞蹈生成
论文:Dance Revolution: Long-Term Dance Generation with Music via Curriculum Learning
链接:https://arxiv.org/pdf/2006.06119v5.pdf
3D 目标检测
论文:Self-Attention Based Context-Aware 3D Object Detection
链接:https://arxiv.org/pdf/2101.02672v1.pdf
点云处理
论文:PCT: Point Cloud Transformer
链接:https://arxiv.org/pdf/2012.09688v1.pdf
时序预测
论文:Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting
链接:https://arxiv.org/pdf/1912.09363v3.pdf
视觉 - 语言建模
论文:VinVL: Making Visual Representations Matter in Vision-Language Models
链接:https://arxiv.org/pdf/2101.00529v1.pdf
车道形状预测
论文:End-to-end Lane Shape Prediction with Transformers
链接:https://arxiv.org/pdf/2011.04233v2.pdf
端到端目标检测
论文:Deformable DETR: Deformable Transformers for End-to-End Object Detection
链接:https://arxiv.org/pdf/2010.04159v2.pdf
而除了 David Ha 以外,另一位研究者英伟达研究科学家、前 OpenAI 研究科学家 Ankur Handa 也表示「Transformers are all you need」:
... is All You Need?
Transformer 引领了不止一种潮流。
在其论文《Attention is All You Need》发表后,各种「** is All You Need」论文纷纷出现。就连 LSTM 提出者 Sepp Hochreiter 也写过一篇《Hopfield Networks is All You Need》。有趣的是,这篇论文正是对 Transformer 核心注意力机制新颖性的驳斥:Transformer 中的注意力机制等价于 Hopfield 网络中的更新规则。
Transformer 的强大主要归功于其中的注意力机制。注意力机制在 NLP 领域的应用最早可以追溯到 2014 年 Bengio 团队将其引入神经机器翻译任务,但那时模型的核心架构还是 RNN。相比之下,Transformer 完全抛弃了传统的 CNN 和 RNN,整个网络结构完全由注意力机制组成,这种改变所带来的效果提升也是颠覆性的。
然而,Sepp Hochreiter 等人在 2020 年 7 月发表的论文《Hopfield Networks is All You Need》中表示,Transformer 中的注意力机制其实等价于扩展到连续状态的 modern Hopfield 网络中的更新规则。
Sepp 这篇论文发表时,Transformer 的跨界之旅已经开始。2020 年 5 月,Facebook AI 推出了 首个将 Transformer 成功整合为检测 pipeline 中心构建块的目标检测框架——Detection Transformer(DETR),用于目标检测和全景分割。6 月,OpenAI 将基于 Transformer 的模型 GPT-2 应用到图像领域,用于图像分类任务。
半年过去,越来越多的工作开始探索如何将 Transformer 应用于计算机视觉等其他领域,最近更是出现了「Transformers are all you need」、「Transformers are the new LSTMs」的说法。
Transformer 是新的 LSTM 吗?
1997 年,Sepp Hochreiter 与 Jürgen Schmidhuber 联合发表了长短期记忆网络(LSTM)论文,被认为是机器学习发展史上的一座里程碑。
LSTM 是一种特殊的循环神经网络(RNN)。Sepp Hochreiter 在 1991 年分析了随时间反向传播(BPTT)带来的梯度爆炸和梯度消失问题;1997 年,Sepp Hochreiter 与 Jürgen Schmidhuber 在 LSTM 论文中引入 CEC 单元解决 BPTT 带来的梯度爆炸和消失问题。之后又有许多研究者对其进行了改进和普及。
LSTM 单元的基本结构(图源:https://en.wikipedia.org/wiki/Long_short-term_memory)
2020 年 2 月,LSTM 提出者 Jürgen Schmidhuber 撰文综述了 LSTM 的十年发展史,介绍了它在机器翻译、语音识别、机器人学、时序预测、聊天机器人等多个领域的应用。
而 Transformer 诞生伊始就完全舍弃了 RNN,在 LSTM 占优势的 NLP 领域逐渐站稳脚跟。现在,许多研究又将它应用于时序预测、音乐生成、图像分类等跨界任务中。在 Papers with Code 最近发布的 Transformer 应用十大新任务中,过去都有着 LSTM 的活跃身影。
Transformer 是新的 LSTM 吗?从模型应用领域的多样性来看,这似乎已见雏形。
不知道如果现在发表「Transformer 无法被替代,还可以再用 50 年」的预言,多久之后会被打破。????
参考链接:
https://paperswithcode.com/newsletter/3
https://twitter.com/hardmaru
© THE END
转载请联系 机器之心 公众号获得授权
投稿或寻求报道:content@jiqizhixin.com
点个在看 paper不断!
堪比当年的LSTM,Transformer引燃机器学习圈:它是万能的相关推荐
- transformer引燃机器学习圈 万能的
https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_10552434917785336259 ...
- DL-Paper精读:LSTM + Transformer 架构模型
Transformer Language Models with LSTM-based Cross-Utterance Information Representation https://arxiv ...
- 机器学习原来如此简单,万能模板直接用
机器学习是伴随着人工智能火起来的一个领域,听着名字似乎门槛很高.但是,得益于Python生态下的包共享机制,机器模型构建的过程其实已经变得非常简单了,很多听起来牛逼的算法,其实根本不需要自己实现,甚至 ...
- b mino为什么退出block_当年GAI被大半个说唱圈diss的时候,只有他们挺了一把…
整个江湖都任我闯,我的生命像一首歌. 江湖流 C-BLOCK 以下范上 在<长河>这首歌的MV放出来的时候,很多朋友都在文章下面留言: 大傻水平太差啦,大傻不行啊,我还是喜欢Bridge和 ...
- BERT大火却不懂Transformer?读这一篇就够了 原版 可视化机器学习 可视化神经网络 可视化深度学习...20201107
20211016 调节因子 20211004 [NLP]Transformer模型原理详解 - 知乎 论文所用 20210703 GPT模型与Transformer进行对比_znevegiveup1的 ...
- Block Recurrent Transformer:结合了LSTM和Transformer优点的强大模型
转载:Deephub Imba 在以前的文章中,我们讨论过Transformer并不适合时间序列预测任务.为了解决这个问题Google创建了Hybrid Transformer-LSTM模型,该模型可 ...
- 细节详解 | Bert,GPT,RNN及LSTM模型
文末可免费领取NLP学习资料 自然语言处理(NLP)是融合计算机科学.人工智能.语言学等学科的交叉领域,是一种更高层次的信号表达形式,也是人工智能最难攻克的领域之一. 随着互联网的快速发展,网络文本, ...
- LSTM还没「死」!
点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:机器之心 如果说「LSTM」已死,它为何依然能够在Kaggle竞赛中成为赢家呢? ...
- 一篇文章把Self-Attention与Transformer讲明白
文章主要内容概览: 1. Seq2Seq以及注意力机制 Seq2Seq 任务指的是输入和输出都是序列的任务.例如说英语翻译成中文. 1.1 Encoder-Decoder模型与Seq2Seq的关系? ...
最新文章
- 设置flashfxp选中ftp密码的时候显示出来看
- 程序文档的重要性理解
- 将RGB格式的颜色值转换为十六进制
- 开源大数据查询分析引擎
- WinAPI: GetUserName - 获取当前用户名
- python中控制台输出的颜色方法
- 【SF】开源的.NET CORE 基础管理系统 -介绍篇
- eclipe安装中文语言包 CDT Pydev
- android butterknife使用详解
- 在mysql命令行下执行sql文件
- 大数据之-Hadoop完全分布式_虚拟机环境准备---大数据之hadoop工作笔记0030
- java 接口 白名单,SpringBoot HTTP接口跨域调用及白名单实现
- python文件复制_python文件的复制
- python身份证号码解析编程_Python实现身份证号码解析
- GreenSock2
- linux puppy 安装软件,小芭比linux下载
- DIY个性家装心得家用电动工具选择
- Unity 圆形图片实现
- CocoaTouch框架与构建应用界面
- 「星火计划沙龙视频」腾讯自研Kona JDK技术分享