transformer与递归和卷积神经网络不同,它不显式地对其结构中的相对或绝对位置信息进行建模在这项工作中,本文提出了另一种方法,扩展自我注意机制,以有效地考虑相对位置的表示,或序列元素之间的距离。

在这项工作中,我们提出了一种将相对位置表征结合到transformer self-attention中的有效方法。即使完全替换其绝对位置编码,我们也在两个机器翻译任务上证明了翻译质量的显著提高。

主要对相对位置编码做了一个扩展,attention中在第一层之前,将基于变化频率的正弦的位置编码与编码器和解码器输入相加。与学习绝对位置表示的方法不同,atttention作者假设正弦位置编码将通过允许模型学习以及相对位置,从而帮助模型泛化,可以计算在训练过程中没有见过的序列长度。与绝对位置表示法不同,本文的相对位置表示方法共享了这一属性,它不随总序列长度而变化。

残差连接有助于将位置信息传递到高层layer。

原来的self-attention公式:
attention=softmax(QKTd)Vattention = softmax(\frac{QK^T}{\sqrt{d} } )Vattention=softmax(d​QKT​)V
attention=Zi=∑jnαij(xijWV)attention =Z_i = \sum_{j}^{n}\alpha _{ij}(x_{ij}W^{V})attention=Zi​=j∑n​αij​(xij​WV)
(QKT/d):eij=(xiWQ)(xjWk)Tdz(QK^T/\sqrt[]{d} ):e_{ij}=\frac{(x_iW^{Q})(x_jW^{k})^T}{\sqrt[]{d_z} } (QKT/d​):eij​=dz​​(xi​WQ)(xj​Wk)T​
softmax(QKTd):αij=exp⁡eij∑k=1nexp⁡eiksoftmax(\frac{QK^T}{\sqrt[]{d} }):\alpha_{ij}=\frac{\exp e_{ij}}{\sum\nolimits_{k=1}^{n}\exp e_{ik} } softmax(d​QKT​):αij​=∑k=1n​expeik​expeij​​
V:xijWVV:x_{ij}W^VV:xij​WV

扩展:将V和K进行扩展,分别添加一个额外的值aijV,aijKa_{ij}^{V},a_{ij}^{K}aijV​,aijK​进去

输入元素xi与xjx_i 与x_jxi​与xj​之间的边表示为ai,jV,ai,jK∈Rdaa_{i,j}^V,a_{i,j}^K \in R^{d_a}ai,jV​,ai,jK​∈Rda​

这里W的下标表示相对于当前位置的偏移量,例如 a2,1a_{2,1}a2,1​ 2 是当前位置,1是前一个位置,下标就是-1 (1-2),a2,4a_{2,4}a2,4​ ,当前为2 ,相关位置为4,就是向后偏移两个位置,因此下标为2(4-2),也就是相对位置距离,这也符合了标题的相对位置信息。

对于线性序列来说,“边(EDGE)”可以捕获不同元素之间相对位置差异的信息,我们考虑最大相对位置被限制为最大绝对值K。假设超过某个距离之后,精确的相对位置信息是没有用的。裁剪修改最大距离可以是模型泛化能力更好,可以泛化到训练期间没有见过的序列。综上,作者考虑2K+1个独立的 edge label。

Self-Attention with Relative Position Representations(2018)相关推荐

  1. 文本生成(二)【NLP论文复现】Relative position representations 相对位置编码突破Bert的文本长度限制!

    Relative position representations 相对位置编码突破Bert文本512长度的限制 前言 Self-Attention with Relative Position Re ...

  2. 论文阅读笔记:Self-Attention with Relative Position Representations

    提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录 前言 介绍 相关 具体结构 Relation-aware自注意力 相对位置表示 高效实现 实验结果 ...

  3. Relative Position Representations

    Self-Attention with Relative Position Representations 摘要 在原始transformer,位置信息通过加一个position的embedding实 ...

  4. 论文阅读——Self-Attention with Relative Position Representations

    Self-Attention with Relative Position Representations Abstract 2017年Vaswani等人提出的Transformer需要在输入中添加绝 ...

  5. 2018-Self-Attention with Relative Position Representations

    文章目录 1. Title 2. Summary 3. Problem Statement 4. Method(s) 4.1 Relation-aware Self-Attention 4.2 Rel ...

  6. How Self-Attention with Relative Position Representations works

      本文的主要内容是基于相对位置表示的自注意力机制是如何工作的. 1. 引论   本篇文章是基于 Self-Attention with Relative Position Representatio ...

  7. 知识蒸馏论文翻译(7)—— Knowledge Distillation from Internal Representations(内部表征)

    知识蒸馏论文翻译(7)-- Knowledge Distillation from Internal Representations(内部表征) 文章目录 知识蒸馏论文翻译(7)-- Knowledg ...

  8. 71页《乌镇智库:全球人工智能发展报告(2018)》PDF下载

    来源:专知 [导读]人工智能热潮之下,斯坦福.阿里等纷纷出台人工智能报告.乌镇智库已连续发布三年<全球人工智能发展报告>,以宏观视角纵览全球人工智能发展,从产业.融资.技术.教育和应用等多 ...

  9. 工业互联网平台创新发展白皮书(2018)

    来源:走向智能论坛 摘要:近日,在"2018年产业互联网与数据经济大会--首届工业互联网平台创新发展暨两化融合推进会"上,国家工业信息安全发展研究中心尹丽波主任发布并解读了< ...

  10. 业界 | 清华发布《人工智能芯片技术白皮书(2018)》

    来源:大数据文摘 12月11日,在第三届未来芯片论坛上,清华大学联合北京未来芯片技术高精尖创新中心发布<人工智能芯片技术白皮书(2018)>. 整个<白皮书>总共分为10个章节 ...

最新文章

  1. 【图像分类案例】(2) DenseNet 天气图片四分类(权重迁移学习),附Tensorflow完整代码
  2. jQ进阶篇--jQuery封装placeholder效果,让低版本浏览器支持该效果
  3. Epoll为我们带来了什么
  4. Centos7 下安装配置tomcat7
  5. matlab波特图带延迟的传递函数,matlab实现波特图
  6. js设计一个带开关的时钟_数电题:三个按键一个灯
  7. 求大佬帮Ansys三维地质体建模
  8. dajngo3新建app,并且访问
  9. “超级买手”阿里:一年投资65笔,涉及金额高达5400亿
  10. 计算机毕业设计Java宠物医院后台管理系统设计与实现(源码+系统+mysql数据库+lw文档)
  11. 5G和北斗,交通行业新基建的正确打开方式
  12. java 商品库存修改
  13. gis插入的文本怎么搞成两行_PPT脱白教程09期手把手带你了解“文本框”(03)...
  14. 浏览器看视频,加速脚本
  15. 好嗨游戏:战火重燃!2019LPL夏季赛精彩看点全盘点! || 附夏季赛赛程表
  16. 深信服技术支持工程师(安全、云计算方向)面试题目
  17. 关系模式设计的问题 函数依赖
  18. css3价格斜切_CSS秘密花园:斜切角
  19. 深度探索:使用FFmpeg实现视频Logo的添加与移除
  20. vue vuex watch改变scrollTop

热门文章

  1. 虚拟机建Mac系统步骤
  2. VirtualBox 无法安装 已删除了注册表及文件
  3. mysql中getdate怎么用_SQL中 getdate() 用法
  4. c语言双竖线,机器学习中的双竖线
  5. 高仿富途牛牛-组件化(四)-优秀的时钟
  6. 一个直肠癌患者的最后50天,转发自阮一峰博客
  7. 发票校验属于物料管理(MM)模块,发票为财务和成本控制提供付款信息和发票评估。
  8. 互联网金融指导意见或引发P2P跑路狂潮
  9. c#数字验证码功能,以及判断用户输入是否正确。
  10. 南方科技大学郑浩计算机,南方科技大学2017年广东综合评价入选资格考生名单(4)...