Transformer-XL 2

Motivation
Transformer最大的问题在于没有办法建模超过最大长度的序列，例如base bert其支持的序列最大长度是512，超过了该长度的序列需要进行截取，再把截取后的片段分别用bert进行编码，该方法虽然可行，但是存在上下文碎片化的问题，也就是说每个片段是单独建模的，互相之间没有上下文信息，并且，不同的片段位置编码都是从0开始，明显是有问题的。

可见Transformer对于较长的序列建模能力有限，如何解决该弊端就该Transformer-XL大显身手了。

Transformer-XL
Transformer-XL主要提出了两个优化点

·Segment-Level Recurrence Mechanism 段级递归
·Relative Positional Encodings 相对位置编码
接下来我们分别看下两个优化点是如何做的

1、Segment-Level Recurrence Mechanism
在讲解第一个优化点之前，我们简单回顾下vanilla transformer，在训练阶段如果要对多个片段编码，其训练过程如下图，可以看到，两个片段没有相互依赖，上下文信息会丢失，不同的片段位置编码一样，因此也不准确。

为了解决固定长度的限制，Transformer-XL提出了一种递归机制，如下图，第一个segment计算完成后，把计算的结果保存下来，在计算第二个片段的时候，把第一个片段的hidden state和第二个片段的hidden state拼接在一起，再进行后续的计算。

其中h表示的是hidden state，τ 表示第τ 个segment，SG函数表示的是不更新梯度，[]表示的是向量的拼接，第一个公式的意思即：第τ + 1 \tau +1τ+1个segment第n-1层的hidden state 等于第τ \tauτ个segment第n-1层的hidden state拼接上第τ + 1 \tau +1τ+1个segment第n-1层的hidden state，后续两个公式和vanilla版本类似，但要注意，q是未拼接的hidden state，k、v是拼接过后的，因为q表示的是当前的segment，所以不需要拼接。

Transformer-XL 2相关推荐

transformer xl在文本生成上面的应用
Transformer_xl相关介绍:https://zhuanlan.zhihu.com/p/84159401 从文本生成看Seq2Seq模型:https://zhuanlan.zhihu.com/ ...
transformer xl 用于文本生成
本文尝试用transformer xl做中文文本续写,基于论文为:<Transformer-XL: Attentive Language Models Beyond a Fixed-Length ...
Transformer的前世今生
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达来自 | 炼丹笔记干货作者 | Lilian Transfor ...
命名实体识别新SOTA：改进Transformer模型
2019-11-27 05:02:16 作者 | 刘旺旺编辑 | 唐里 TENER: Adapting Transformer Encoder for Name Entity Recognition ...
【NLP】Transformer大家庭简介！
炼丹笔记干货作者:Lilian Transformer Family 01 准备 02 Attention 以及 Self-Attention 1.Attention 是神经网络中的一种机制:模型可 ...
非常详细的transformer笔记，包括XLNet, MT-DNN, ERNIE, ERNIE2, RoBERTa
华校专老师更新了个人笔记,增加了 Transformer笔记,包含XLNet, MT-DNN, ERNIE, ERNIE2, RoBERTa 等内容,内容十分详细,非常值得学习,特此推荐. 作者华校专 ...
超全！一文看懂 9 种Transformer结构！
点上方蓝字计算机视觉联盟获取更多干货在右上方 ··· 设为星标 ★,与你不见不散仅作学术分享,不代表本公众号立场,侵权联系删除转载于:作者丨Lilian 来源丨炼丹笔记 AI博士笔记系列推荐周 ...
不得不看！降低Transformer复杂度的方法
作者 | Chilia 整理 | NewBeeNLP 首先来看一下原始Transformer的复杂度 self-attention复杂度记:序列长度为n,一个位置的embedding大小为d.例如( ...
TENER: Adapting Transformer Encoder for Name Entity Recognition
TENER: Adapting Transformer Encoder for Name Entity Recognition 来源:arxiv 链接:https://arxiv.org/pdf/19 ...
这六大方法，如何让 Transformer 轻松应对高难度长文本序列？
2020-06-08 05:24:09 编译 | Mr Bear 编辑 | 丛末众所周知,多头注意力机制 (Multi-Head Self-Attention) 的计算开销很大.在处理长度为 n 的 ...

Transformer-XL 2

Transformer-XL
Transformer-XL主要提出了两个优化点

Transformer-XL 2相关推荐

最新文章

热门文章

Transformer-XL 2

Transformer-XL Transformer-XL主要提出了两个优化点

Transformer-XL 2相关推荐

最新文章

热门文章

Transformer-XL
Transformer-XL主要提出了两个优化点