Transformer-XL

简介

Transformer智能学习具有固定长度内容的建模局限性，新网络Transformer-XL（超长）包含片段级递归机制和新颖的位置编码机制，从而捕获长期依赖性。

Transformer-XL引入递归机制，重用之前片段中获得的隐藏状态，而不是每次都要从头开始计算每个片段的隐藏状态。重用的隐藏状态当作当前片段的存储器，构成前一片段和当前片段的连接。

除了使用前片段的隐藏状态，Transformer-XL还使用相对位置编码，而不是绝对位置编码，这是因为不引起时间混淆情况下重用状态。
因此，Transformer-XL能够获得更多的相对有效上下文长度（Relative Effective Context Length，RECL）。

1.模型

给定 x = ( x 1 , . . . , x T ) \mathbf x = (x_1, ..., x_T) x=(x1,...,xT),联合概率 P ( x ) = ∏ t P ( x t ∣ x < t ) P(\mathbf x) = \prod_t P(x_t| \mathbf x_{< t}) P(x)=∏tP(xt∣x<t),

一种vanilla model是，先把语料分割为很多个片段，每个片段都没有信息交叉（如上图左）。评估阶段就每次移动一个位置。

Transformer-XL 模型结构是这样，

计算公式：
SG(·)代表stop-gradient。 [ h u ∘ h v ] [\mathbf h_u \circ \mathbf h_v] [hu∘hv]代表两个片段的拼接。

reference：

谷歌、CMU重磅论文：Transformer升级版
源代码

Transformer-XL相关推荐

transformer xl在文本生成上面的应用
Transformer_xl相关介绍:https://zhuanlan.zhihu.com/p/84159401 从文本生成看Seq2Seq模型:https://zhuanlan.zhihu.com/ ...
transformer xl 用于文本生成
本文尝试用transformer xl做中文文本续写,基于论文为:<Transformer-XL: Attentive Language Models Beyond a Fixed-Length ...
Transformer的前世今生
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达来自 | 炼丹笔记干货作者 | Lilian Transfor ...
命名实体识别新SOTA：改进Transformer模型
2019-11-27 05:02:16 作者 | 刘旺旺编辑 | 唐里 TENER: Adapting Transformer Encoder for Name Entity Recognition ...
【NLP】Transformer大家庭简介！
炼丹笔记干货作者:Lilian Transformer Family 01 准备 02 Attention 以及 Self-Attention 1.Attention 是神经网络中的一种机制:模型可 ...
非常详细的transformer笔记，包括XLNet, MT-DNN, ERNIE, ERNIE2, RoBERTa
华校专老师更新了个人笔记,增加了 Transformer笔记,包含XLNet, MT-DNN, ERNIE, ERNIE2, RoBERTa 等内容,内容十分详细,非常值得学习,特此推荐. 作者华校专 ...
超全！一文看懂 9 种Transformer结构！
点上方蓝字计算机视觉联盟获取更多干货在右上方 ··· 设为星标 ★,与你不见不散仅作学术分享,不代表本公众号立场,侵权联系删除转载于:作者丨Lilian 来源丨炼丹笔记 AI博士笔记系列推荐周 ...
不得不看！降低Transformer复杂度的方法
作者 | Chilia 整理 | NewBeeNLP 首先来看一下原始Transformer的复杂度 self-attention复杂度记:序列长度为n,一个位置的embedding大小为d.例如( ...
TENER: Adapting Transformer Encoder for Name Entity Recognition
TENER: Adapting Transformer Encoder for Name Entity Recognition 来源:arxiv 链接:https://arxiv.org/pdf/19 ...
这六大方法，如何让 Transformer 轻松应对高难度长文本序列？
2020-06-08 05:24:09 编译 | Mr Bear 编辑 | 丛末众所周知,多头注意力机制 (Multi-Head Self-Attention) 的计算开销很大.在处理长度为 n 的 ...

Transformer-XL

简介

1.模型

Transformer-XL相关推荐

最新文章

热门文章