简介

Transformer智能学习具有固定长度内容的建模局限性,新网络Transformer-XL(超长)包含片段级递归机制和新颖的位置编码机制,从而捕获长期依赖性。

Transformer-XL引入递归机制,重用之前片段中获得的隐藏状态,而不是每次都要从头开始计算每个片段的隐藏状态。重用的隐藏状态当作当前片段的存储器,构成前一片段和当前片段的连接。

除了使用前片段的隐藏状态,Transformer-XL还使用相对位置编码,而不是绝对位置编码,这是因为不引起时间混淆情况下重用状态。
因此,Transformer-XL能够获得更多的相对有效上下文长度(Relative Effective Context Length,RECL)。

1.模型

给定 x = ( x 1 , . . . , x T ) \mathbf x = (x_1, ..., x_T) x=(x1​,...,xT​),联合概率 P ( x ) = ∏ t P ( x t ∣ x < t ) P(\mathbf x) = \prod_t P(x_t| \mathbf x_{< t}) P(x)=∏t​P(xt​∣x<t​),


一种vanilla model是,先把语料分割为很多个片段,每个片段都没有信息交叉(如上图左)。评估阶段就每次移动一个位置。

Transformer-XL 模型结构是这样,

计算公式:
SG(·)代表stop-gradient。 [ h u ∘ h v ] [\mathbf h_u \circ \mathbf h_v] [hu​∘hv​]代表两个片段的拼接。


reference:

  1. 谷歌、CMU重磅论文:Transformer升级版
  2. 源代码

Transformer-XL相关推荐

  1. transformer xl在文本生成上面的应用

    Transformer_xl相关介绍:https://zhuanlan.zhihu.com/p/84159401 从文本生成看Seq2Seq模型:https://zhuanlan.zhihu.com/ ...

  2. transformer xl 用于文本生成

    本文尝试用transformer xl做中文文本续写,基于论文为:<Transformer-XL: Attentive Language Models Beyond a Fixed-Length ...

  3. Transformer的前世今生

    点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达 来自 | 炼丹笔记干货   作者 | Lilian Transfor ...

  4. 命名实体识别新SOTA:改进Transformer模型

    2019-11-27 05:02:16 作者 | 刘旺旺 编辑 | 唐里 TENER: Adapting Transformer Encoder for Name Entity Recognition ...

  5. 【NLP】Transformer大家庭简介!

    炼丹笔记干货 作者:Lilian Transformer Family 01 准备 02 Attention 以及 Self-Attention 1.Attention 是神经网络中的一种机制:模型可 ...

  6. 非常详细的transformer笔记,包括XLNet, MT-DNN, ERNIE, ERNIE2, RoBERTa

    华校专老师更新了个人笔记,增加了 Transformer笔记,包含XLNet, MT-DNN, ERNIE, ERNIE2, RoBERTa 等内容,内容十分详细,非常值得学习,特此推荐. 作者华校专 ...

  7. 超全!一文看懂 9 种Transformer结构!

    点上方蓝字计算机视觉联盟获取更多干货 在右上方 ··· 设为星标 ★,与你不见不散 仅作学术分享,不代表本公众号立场,侵权联系删除 转载于:作者丨Lilian 来源丨炼丹笔记 AI博士笔记系列推荐 周 ...

  8. 不得不看!降低Transformer复杂度的方法

    作者 | Chilia 整理 | NewBeeNLP 首先来看一下原始Transformer的复杂度 self-attention复杂度 记:序列长度为n,一个位置的embedding大小为d.例如( ...

  9. TENER: Adapting Transformer Encoder for Name Entity Recognition

    TENER: Adapting Transformer Encoder for Name Entity Recognition 来源:arxiv 链接:https://arxiv.org/pdf/19 ...

  10. 这六大方法,如何让 Transformer 轻松应对高难度长文本序列?

    2020-06-08 05:24:09 编译 | Mr Bear 编辑 | 丛末 众所周知,多头注意力机制 (Multi-Head Self-Attention) 的计算开销很大.在处理长度为 n 的 ...

最新文章

  1. springboot在centos下安装环境+部署war包
  2. mysql 储存过程
  3. 波卡链Substrate (2)系统框架
  4. ASP.NET .Net UCS2 加码最复杂的方法
  5. python seaborn 热图_python – 在seaborn中结合两张热图
  6. delphi中的函数传参如何传枚举参数_我是这样使用SpringBoot(API传参)
  7. 小米11系列有望提前亮相:最快年底相见
  8. 网络爬虫和Python有什么联系
  9. 阿里推迟招聘;大疆因腐败损失 10 亿;ofo 两创始人消失? | 极客头条
  10. wps加载失败模板文件损坏_Word中打不开提示模板损坏的解决方法
  11. (已解决)利用LiveReload插件实现vscode和谷歌浏览器实时刷新
  12. 老年人、色弱者和爱操心的妈妈:视频平台技术升级的新战场
  13. 数据、数据库、数据库管理系统、数据库系统的概念。
  14. 软考高级 真题 2017年上半年 信息系统项目管理师 案例分析
  15. tcc-transaction深入理解
  16. 批处理文件获取计算机ip,批处理获取本机IP地址及MAC地址,输出到文件
  17. 雷达通信术语中英文对照
  18. Playground 教程之SceneKit绘制个Torus圆环面
  19. 排列熵(permutation entropy)
  20. 【AAAI 2021】自监督目标检测知识蒸馏:Distilling Localization for Self-Supervised Representation Learning

热门文章

  1. ikbc键盘组合功能键
  2. Hive考试练习题前75分答案
  3. 鸡和兔子若干只,头有35个,脚有94个,求兔子和鸭个多少只
  4. python第七十九天--第十四周作业
  5. 重要:欢迎光临新版微软中文CRM论坛!
  6. STM32F103C8T6封装引脚图
  7. 高斯整数 / 费马平方和定理 / 拉格朗日的四平方定理
  8. 支付宝企业账户单笔支付到个人账户
  9. 苹果芯片订单立功 台积电股价创新高
  10. 一文带你理顺C++中的const