视学算法报道

转载自公众号:机器之心

作者:魔王

谷歌研究科学家 David Ha:Transformer 是新的 LSTM。

2017 年 6 月谷歌发布论文《Attention is All You Need》时,我们或许都没有意识到它提出的 Transformer 架构将带来多少惊喜。

在诞生至今不足四年的时间里,Transformer 不仅成为自然语言处理领域的主流模型(基于 Transformer 的预训练语言模型成为主流),还开始了向其他领域的跨界,近几个月来出现了大量将 Transformer 应用于计算机视觉领域的研究。

2020 年 10 月,谷歌提出了 Vision Transformer (ViT),可以直接利用 transformer 对图像进行分类,而不需要卷积网络。ViT 模型取得了与当前最优卷积网络相媲美的结果,但其训练所需的计算资源大大减少。

2020 年 12 月,复旦、牛津、腾讯等机构的研究者提出了 SEgmentation TRansformer(SETR),将语义分割视为序列到序列的预测任务,该模型在 ADE20K 上排名第一,性能优于 OCNet、GCNet 等网络。

2021 年 1 月初,OpenAI 又连放大招 ,用 DALL·E 和 CLIP 打破了自然语言与视觉的次元壁。两个模型都利用 Transformer 达到了很好的效果,前者可以基于本文直接生成图像,后者则能完成图像与文本类别的匹配。

由此,「Transformer 是万能的吗?」成为了近期机器学习社区的热门话题。谷歌大脑研究员 David Ha 发推表示:Transformer 是新的 LSTM。

他否定了自己在 2017 年 5 月发表的言论:「LSTM 就像神经网络中的 AK47。不管我们多么努力地想用新事物取代它,都是白费力气。从现在起它还将应用 50 年。」LSTM 由 Sepp Hochreiter 和 Jürgen Schmidhuber 于 1997 年联合提出,当时已诞生 20 年。

David Ha 不会想到,这句预言被一个月后出现的 Transformer 打破,而这仅用了 4 年时间。

著名机器学习资源网站 Papers with Code 在 1 月 20 日发布的 Newsletter 中列举了近期应用 Transformer 的十大新任务

图像合成

  • 论文:Taming Transformers for High-Resolution Image Synthesis

  • 链接:https://arxiv.org/pdf/2012.09841v1.pdf

多目标追踪

  • 论文:TransTrack: Multiple-Object Tracking with Transformer

  • 链接:https://arxiv.org/pdf/2012.15460v1.pdf

音乐生成

  • 论文:Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs

  • 链接:https://arxiv.org/pdf/2101.02402v1.pdf

舞蹈生成

  • 论文:Dance Revolution: Long-Term Dance Generation with Music via Curriculum Learning

  • 链接:https://arxiv.org/pdf/2006.06119v5.pdf

3D 目标检测

  • 论文:Self-Attention Based Context-Aware 3D Object Detection

  • 链接:https://arxiv.org/pdf/2101.02672v1.pdf

点云处理

  • 论文:PCT: Point Cloud Transformer

  • 链接:https://arxiv.org/pdf/2012.09688v1.pdf

时序预测

  • 论文:Temporal Fusion Transformers for Interpretable Multi-horizon Time Series Forecasting

  • 链接:https://arxiv.org/pdf/1912.09363v3.pdf

视觉 - 语言建模

  • 论文:VinVL: Making Visual Representations Matter in Vision-Language Models

  • 链接:https://arxiv.org/pdf/2101.00529v1.pdf

车道形状预测

  • 论文:End-to-end Lane Shape Prediction with Transformers

  • 链接:https://arxiv.org/pdf/2011.04233v2.pdf

端到端目标检测

  • 论文:Deformable DETR: Deformable Transformers for End-to-End Object Detection

  • 链接:https://arxiv.org/pdf/2010.04159v2.pdf

而除了 David Ha 以外,另一位研究者英伟达研究科学家、前 OpenAI 研究科学家 Ankur Handa 也表示「Transformers are all you need」:

... is All You Need?

Transformer 引领了不止一种潮流。

在其论文《Attention is All You Need》发表后,各种「** is All You Need」论文纷纷出现。就连 LSTM 提出者 Sepp Hochreiter 也写过一篇《Hopfield Networks is All You Need》。有趣的是,这篇论文正是对 Transformer 核心注意力机制新颖性的驳斥:Transformer 中的注意力机制等价于 Hopfield 网络中的更新规则。

Transformer 的强大主要归功于其中的注意力机制。注意力机制在 NLP 领域的应用最早可以追溯到 2014 年 Bengio 团队将其引入神经机器翻译任务,但那时模型的核心架构还是 RNN。相比之下,Transformer 完全抛弃了传统的 CNN 和 RNN,整个网络结构完全由注意力机制组成,这种改变所带来的效果提升也是颠覆性的。

然而,Sepp Hochreiter 等人在 2020 年 7 月发表的论文《Hopfield Networks is All You Need》中表示,Transformer 中的注意力机制其实等价于扩展到连续状态的 modern Hopfield 网络中的更新规则。

Sepp 这篇论文发表时,Transformer 的跨界之旅已经开始。2020 年 5 月,Facebook AI 推出了 首个将 Transformer 成功整合为检测 pipeline 中心构建块的目标检测框架——Detection Transformer(DETR),用于目标检测和全景分割。6 月,OpenAI 将基于 Transformer 的模型 GPT-2 应用到图像领域,用于图像分类任务。

半年过去,越来越多的工作开始探索如何将 Transformer 应用于计算机视觉等其他领域,最近更是出现了「Transformers are all you need」、「Transformers are the new LSTMs」的说法。

Transformer 是新的 LSTM 吗?

1997 年,Sepp Hochreiter 与 Jürgen Schmidhuber 联合发表了长短期记忆网络(LSTM)论文,被认为是机器学习发展史上的一座里程碑。

LSTM 是一种特殊的循环神经网络(RNN)。Sepp Hochreiter 在 1991 年分析了随时间反向传播(BPTT)带来的梯度爆炸和梯度消失问题;1997 年,Sepp Hochreiter 与 Jürgen Schmidhuber 在 LSTM 论文中引入 CEC 单元解决 BPTT 带来的梯度爆炸和消失问题。之后又有许多研究者对其进行了改进和普及。

LSTM 单元的基本结构(图源:https://en.wikipedia.org/wiki/Long_short-term_memory)

2020 年 2 月,LSTM 提出者 Jürgen Schmidhuber 撰文综述了 LSTM 的十年发展史,介绍了它在机器翻译、语音识别、机器人学、时序预测、聊天机器人等多个领域的应用。

而 Transformer 诞生伊始就完全舍弃了 RNN,在 LSTM 占优势的 NLP 领域逐渐站稳脚跟。现在,许多研究又将它应用于时序预测、音乐生成、图像分类等跨界任务中。在 Papers with Code 最近发布的 Transformer 应用十大新任务中,过去都有着 LSTM 的活跃身影。

Transformer 是新的 LSTM 吗?从模型应用领域的多样性来看,这似乎已见雏形。

不知道如果现在发表「Transformer 无法被替代,还可以再用 50 年」的预言,多久之后会被打破。????

参考链接:

https://paperswithcode.com/newsletter/3

https://twitter.com/hardmaru

© THE END

转载请联系 机器之心 公众号获得授权

投稿或寻求报道:content@jiqizhixin.com

点个在看 paper不断!

堪比当年的LSTM,Transformer引燃机器学习圈:它是万能的相关推荐

  1. transformer引燃机器学习圈 万能的

    https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_10552434917785336259 ...

  2. DL-Paper精读:LSTM + Transformer 架构模型

    Transformer Language Models with LSTM-based Cross-Utterance Information Representation https://arxiv ...

  3. 机器学习原来如此简单,万能模板直接用

    机器学习是伴随着人工智能火起来的一个领域,听着名字似乎门槛很高.但是,得益于Python生态下的包共享机制,机器模型构建的过程其实已经变得非常简单了,很多听起来牛逼的算法,其实根本不需要自己实现,甚至 ...

  4. b mino为什么退出block_当年GAI被大半个说唱圈diss的时候,只有他们挺了一把…

    整个江湖都任我闯,我的生命像一首歌. 江湖流 C-BLOCK 以下范上 在<长河>这首歌的MV放出来的时候,很多朋友都在文章下面留言: 大傻水平太差啦,大傻不行啊,我还是喜欢Bridge和 ...

  5. BERT大火却不懂Transformer?读这一篇就够了 原版 可视化机器学习 可视化神经网络 可视化深度学习...20201107

    20211016 调节因子 20211004 [NLP]Transformer模型原理详解 - 知乎 论文所用 20210703 GPT模型与Transformer进行对比_znevegiveup1的 ...

  6. Block Recurrent Transformer:结合了LSTM和Transformer优点的强大模型

    转载:Deephub Imba 在以前的文章中,我们讨论过Transformer并不适合时间序列预测任务.为了解决这个问题Google创建了Hybrid Transformer-LSTM模型,该模型可 ...

  7. 细节详解 | Bert,GPT,RNN及LSTM模型

    文末可免费领取NLP学习资料 自然语言处理(NLP)是融合计算机科学.人工智能.语言学等学科的交叉领域,是一种更高层次的信号表达形式,也是人工智能最难攻克的领域之一. 随着互联网的快速发展,网络文本, ...

  8. LSTM还没「死」!

    点击上方"AI遇见机器学习",选择"星标"公众号 重磅干货,第一时间送达 来自:机器之心 如果说「LSTM」已死,它为何依然能够在Kaggle竞赛中成为赢家呢? ...

  9. 一篇文章把Self-Attention与Transformer讲明白

    文章主要内容概览: 1. Seq2Seq以及注意力机制 Seq2Seq 任务指的是输入和输出都是序列的任务.例如说英语翻译成中文. 1.1 Encoder-Decoder模型与Seq2Seq的关系? ...

最新文章

  1. 设置flashfxp选中ftp密码的时候显示出来看
  2. 程序文档的重要性理解
  3. 将RGB格式的颜色值转换为十六进制
  4. 开源大数据查询分析引擎
  5. WinAPI: GetUserName - 获取当前用户名
  6. python中控制台输出的颜色方法
  7. 【SF】开源的.NET CORE 基础管理系统 -介绍篇
  8. eclipe安装中文语言包 CDT Pydev
  9. android butterknife使用详解
  10. 在mysql命令行下执行sql文件
  11. 大数据之-Hadoop完全分布式_虚拟机环境准备---大数据之hadoop工作笔记0030
  12. java 接口 白名单,SpringBoot HTTP接口跨域调用及白名单实现
  13. python文件复制_python文件的复制
  14. python身份证号码解析编程_Python实现身份证号码解析
  15. GreenSock2
  16. linux puppy 安装软件,小芭比linux下载
  17. DIY个性家装心得家用电动工具选择
  18. Unity 圆形图片实现
  19. CocoaTouch框架与构建应用界面
  20. 「星火计划沙龙视频」腾讯自研Kona JDK技术分享

热门文章

  1. 使用Windows的SHFileOperation外壳函数实现文件操作
  2. 【青少年编程】【三级】青蛙捕虫
  3. 07 Scratch等级考试(一级)模拟题
  4. 【POJ】3617 Best Cow Line (字典序 字符串)
  5. 知乎 CTO 李大海:创业公司如何拥抱开源
  6. ​吐血整理:手拿几个大厂offer的秘密武器!
  7. 算法鼻祖高德纳,82 岁仍在写《计算机程序设计的艺术》
  8. Go后台项目架构思考与重构 | 深度长文
  9. 攀登数据科学家和数据工程师之间的隔墙
  10. 福利直投!这个活动承包你2020全年技术干货