Self-Attention with Relative Position Representations

摘要

在原始transformer,位置信息通过加一个position的embedding实现,(因为position开始也是一个one-hot)

本文提出将 自注意力 考虑 token之间的距离位置信息

相对位置表示 比 绝对位置表示 在机器翻译任务上提升(BERT为啥不用相对位置?感觉因为机器翻译这个任务更关注token之间的相对位置)

并且发现:结合 绝对位置表示 和 相对位置表示,没有进一步提升

做法

一句话看成graph,把token看成节点,token之间的边用向量表示,

首先要理解position_embedding就是position的embedding,即比如one-hot的position是[1,2,3,4,5,6,…]则position_embedding就是对[1,2,3,4,5,6,…]进行embedding

代码:

https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/layers/common_attention.py 的dot_product_attention_relative方法

dot_product_attention_relative方法 里面的 _generate_relative_positions_embeddings 方法可知:

相对位置表示,先构造 [length_q, length_k] 的one-hot矩阵,再将 [length_q, length_k]

进行embedding_lookup成[length_q, length_k, hidden_size] 即Relative-position-embedding

之后在 _relative_attention_inner 方法将 Relative-position-embedding 计算入原始注意力里:

由 length == length_k == length_q

Relative-position-embedding = [length, length, hidden_size]

和input_x[length, batch, hidden_size] 进行matmul得到一个tensor [batch,length,length],

这个tensor加到原始那个attention matrix

Relative-position-embedding = [length, length, hidden_size] 和 input_x [length, batch, hidden_size] 进行matmul,这个还是不太理解

Relative Position Representations相关推荐

  1. 文本生成(二)【NLP论文复现】Relative position representations 相对位置编码突破Bert的文本长度限制!

    Relative position representations 相对位置编码突破Bert文本512长度的限制 前言 Self-Attention with Relative Position Re ...

  2. 论文阅读笔记:Self-Attention with Relative Position Representations

    提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录 前言 介绍 相关 具体结构 Relation-aware自注意力 相对位置表示 高效实现 实验结果 ...

  3. 2018-Self-Attention with Relative Position Representations

    文章目录 1. Title 2. Summary 3. Problem Statement 4. Method(s) 4.1 Relation-aware Self-Attention 4.2 Rel ...

  4. How Self-Attention with Relative Position Representations works

      本文的主要内容是基于相对位置表示的自注意力机制是如何工作的. 1. 引论   本篇文章是基于 Self-Attention with Relative Position Representatio ...

  5. 论文阅读——Self-Attention with Relative Position Representations

    Self-Attention with Relative Position Representations Abstract 2017年Vaswani等人提出的Transformer需要在输入中添加绝 ...

  6. 相对位置编码之RPR式:《Self-Attention with Relative Position Representations》论文笔记

  7. [NLP] 相对位置编码 Relative Position Representatitons (RPR)

    1. 翻译:https://medium.com/@_init_/how-self-attention-with-relative-position-representations-works-281 ...

  8. 【论文笔记】Rethinking and Improving Relative Position Encoding for Vision Transformer

    论文 论文题目:Rethinking and Improving Relative Position Encoding for Vision Transformer 接收:ICCV 2021 论文地址 ...

  9. 一文读懂css的相对定位【relative position】以及相对定位为什么要设置偏移量?

    目录 何为定位 偏移量 垂直方向 top bottom 水平方向 left right relative-相对定位 何为相对定位 相对定位的特点 实例 元素代码的起始位置 元素若不开启相对定位,即便设 ...

最新文章

  1. 一周一论文(翻译)——[SIGMOD 2016] RDMA over Commodity Ethernet at Scale
  2. exit与return区别
  3. FZU OJ:2230 翻翻棋
  4. Airflow 中文文档:保护连接
  5. JTS(Geometry)工具类
  6. 解决xcel数据导入MySQL数据库【日期数据格式混乱】的问题
  7. 【Excel】设置数据有效性以及COUNTIF用法
  8. Spring单例模式的一次失败经历和总结
  9. C语言编写简单的走迷宫小游戏
  10. cla作用matlab,CLA(共轭亚油酸)的作用
  11. 7-23 币值转换 (20 分)
  12. github.com/gogo/protobu: invalid pseudo-version: revision is shorter than canonical
  13. Corner芯片TT,FF,SS
  14. springboot 之 微服务调用 之 链路追踪
  15. [原创+总结]防火墙常见日志分析
  16. html插入图标img i png
  17. Vue给table指定行加样式
  18. 【科普园地】郭雷院士:系统的反馈原理及魅力
  19. docker namespaces
  20. 对测试驱动开发的一些理解

热门文章

  1. 【先定一个小目标】数据挖掘学习进度总结
  2. testdisk windows mac linux,TestDisk for Mac-TestDisk Mac版下载 V7.2-PC6苹果网
  3. UVA11491 奖品的价值 Erasing and Winning
  4. 胡图图想学c语言之字符串函数原型
  5. 3.RabbitMQ 通过管理界面了解Rabbit
  6. <map>标签与<area>标签实例
  7. 深度技术 GHOSTXPSP3 快速装机专业版 V9.0
  8. 使用java实现面向对象编程第十章嗖嗖移动业务大厅项目_ACCP6.0 S2 使用Java实现面向对象编程 第一章...
  9. Linux.centos系统mysql5.7.31安装教程
  10. UVA508摩斯密码题目详解