论文想要解决的问题:如何赋予编码器捕获长距离依赖的能力。

目前在自然语言处理领域,Transformer的编码能力超越了RNN,但是对长距离依赖的建模能力仍然不足。在基于LSTM的模型中,为了建模长距离依赖,提出了门控机制和梯度裁剪,目前可以编码的最长距离在200左右。在基于Transformer的模型中,允许词之间直接建立联系【self-attention】,能够更好地捕获长期依赖关系,但是还是有限制。

2. Vanilla Transformer
Vanilla Transformer是Transformer和Transformer-XL中间过度的一个算法,所以在介绍Transformer-XL之前我们先来了解下Vanilla Transformer。

Vanilla Transformer的原理图:

Vanilla Transformer论文中使用64层模型,并仅限于处理 512个字符这种相对较短的输入,因此它将输入分成段,并分别从每个段中进行学习,如上图所示。 在测试阶段如需处理较长的输入,该模型会在每一步中将输入向右移动一个字符,以此实现对单个字符的预测。

Vanilla Transformer的三个缺点:

上下文长度受限:字符之间的最大依赖距离受输入长度的限制,模型看不到出现在几个句子之前的单词。
上下文碎片:对于长度超过512个字符的文本,都是从头开始单独训练的。段与段之间没有上下文依赖性,会让训练效率低下,也会影响模型的性能。
推理速度慢:在测试阶段,每次预测下一个单词,都需要重新构建一遍上下文,并从头开始计算,这样的计算速度非常慢。

Transformer-XL、Vanilla Transformer相关推荐

  1. NLP-生成模型-2019:TransformerXL【对Vanilla Transformer的改进:片段级递归机制、相对位置编码】【超出固定长度上下文的注意力语言模型】

    <原始论文:Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context> 一.概述 一句话简介:Tran ...

  2. NLP-生成模型-2018:Vanilla Transformer【将长文本序列划截断为多个固定长度的段;段与段之间没有上下文依赖性;无法建模字符之间超过固定长度的依赖,关系导致上下文碎片化】

    一.Vanilla Transformer的结构 首先,作者要解决的问题是字级别的LM,相比词级别的LM,字级别LM明显需要依赖的距离特别长,比如说一句话某个位置是应该使用she还是he,是依赖于前面 ...

  3. transformer xl在文本生成上面的应用

    Transformer_xl相关介绍:https://zhuanlan.zhihu.com/p/84159401 从文本生成看Seq2Seq模型:https://zhuanlan.zhihu.com/ ...

  4. 【读论文】Character-Level Language Modeling with Deeper Self-Attention(Vanilla Transformer)

    当初读这篇论文的目的只有1个:在读Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context这篇文章时,关于infe ...

  5. 论文笔记-Vanilla Transformer:Character-Level Language Modeling with Deeper Self-Attention

    论文笔记-Vanilla Transformer:Character-Level Language Modeling with Deeper Self-Attention 1. 介绍 2. Chara ...

  6. transformer xl 用于文本生成

    本文尝试用transformer xl做中文文本续写,基于论文为:<Transformer-XL: Attentive Language Models Beyond a Fixed-Length ...

  7. Lifting Transformer: 基于跨步卷积Transformer的高效三维人体姿态估计

    点击上方"3D视觉工坊",选择"星标" 干货第一时间送达 论文:Lifting Transformer for 3D Human Pose Estimation ...

  8. 全民 Transformer (二): Transformer在深度学习和NLP中如何发挥作用

    <How Transformers work in deep learning and NLP: an intuitive introduction>   2020年的确是 Transfo ...

  9. OUC暑期培训(深度学习)——第六周学习记录:Vision Transformer amp; Swin Transformer

    第六周学习:Vision Transformer & Swin Transformer Part 1 视频学习及论文阅读 1.Vision Transformer 原文链接:https://a ...

  10. 博客阅读:图解Transformer(The Illustrated Transformer)

    博客阅读:图解Transformer(The Illustrated Transformer) 原文链接:https://jalammar.github.io/illustrated-transfor ...

最新文章

  1. checkio的日子(3)
  2. Leetcode 160 相交链表 (每日一题 20210802)
  3. 巧用拦截器:高效的扩展点设计
  4. Service生命周期
  5. Jerry在2020 SAP全球技术大会的分享:SAP Spartacus技术介绍的文字版
  6. oracle索引sys_nc,通过dba_ind_columns表查到索引所在列的名字为SYS_NC00133$
  7. 团队-象棋游戏-成员简介及分工
  8. 和baby的区别_姜涛状告白衣山猫?小伊伊有剧本?惟Baby整容?阿彩照骗?De劈腿?...
  9. 如何开发Linux内核?
  10. ps缩略图补丁 安装一次之后 失效,卸载重新安装提示这个,是什么原因
  11. verilog 四舍五入_IEEE 754 round-to-nearest-even Verilog代码
  12. 【机器人基础】标准D-H建模法(机器人建模与控制)
  13. do vis是什么意思_duck不必什么梗?李佳琦放过鸭子吧表情包
  14. 论文常用 | FineBI v6.0 新图表 | 箱形图
  15. Google Paly 开发者账号需要注意的小细节
  16. jquery选择器可以利用后代和直系后代选择器连续选择元素
  17. 电商移动Web实战项目(1)
  18. 刷手机流量,反正浪费就完事了
  19. interpro 数据库
  20. 中英离线翻译mac_Instant Translate for Mac-即时翻译Mac版下载 V1.3.0-PC6苹果网

热门文章

  1. 【转】如何查找MySQL中慢查询的SQL语句
  2. Oracle Telnet 1521 失败
  3. 一个不简洁的约瑟夫环解法
  4. Zookeeper,Hbase 伪分布,集群搭建
  5. freemarker 如何获得list的索引值
  6. OpenSCAD通过循环快速复制几何对象
  7. linux命令完整篇
  8. 开发小技巧: 如何在jQuery中禁用或者启用滚动事件.scroll
  9. 电脑故障速查方法集萃
  10. 红旗liuxe5.0下vmware tools安装记录