Relative Position Representations

Self-Attention with Relative Position Representations

摘要

在原始transformer，位置信息通过加一个position的embedding实现，（因为position开始也是一个one-hot）

本文提出将自注意力考虑 token之间的距离位置信息

相对位置表示比绝对位置表示在机器翻译任务上提升（BERT为啥不用相对位置？感觉因为机器翻译这个任务更关注token之间的相对位置）

并且发现：结合绝对位置表示和相对位置表示，没有进一步提升

做法

一句话看成graph，把token看成节点，token之间的边用向量表示，

首先要理解position_embedding就是position的embedding，即比如one-hot的position是[1,2,3,4,5,6,…]则position_embedding就是对[1,2,3,4,5,6,…]进行embedding

代码：

https://github.com/tensorflow/tensor2tensor/blob/master/tensor2tensor/layers/common_attention.py 的dot_product_attention_relative方法

由 dot_product_attention_relative方法里面的 _generate_relative_positions_embeddings 方法可知：

相对位置表示，先构造 [length_q, length_k] 的one-hot矩阵，再将 [length_q, length_k]

进行embedding_lookup成[length_q, length_k, hidden_size] 即Relative-position-embedding

之后在 _relative_attention_inner 方法将 Relative-position-embedding 计算入原始注意力里：

由 length == length_k == length_q

Relative-position-embedding = [length, length, hidden_size]

和input_x[length, batch, hidden_size] 进行matmul得到一个tensor [batch,length,length]，

这个tensor加到原始那个attention matrix

Relative-position-embedding = [length, length, hidden_size] 和 input_x [length, batch, hidden_size] 进行matmul，这个还是不太理解

Relative Position Representations相关推荐

文本生成（二）【NLP论文复现】Relative position representations 相对位置编码突破Bert的文本长度限制！
Relative position representations 相对位置编码突破Bert文本512长度的限制前言 Self-Attention with Relative Position Re ...
论文阅读笔记：Self-Attention with Relative Position Representations
提示:阅读论文时进行相关思想.结构.优缺点,内容进行提炼和记录,论文和相关引用会标明出处. 文章目录前言介绍相关具体结构 Relation-aware自注意力相对位置表示高效实现实验结果 ...
2018-Self-Attention with Relative Position Representations
文章目录 1. Title 2. Summary 3. Problem Statement 4. Method(s) 4.1 Relation-aware Self-Attention 4.2 Rel ...
How Self-Attention with Relative Position Representations works
本文的主要内容是基于相对位置表示的自注意力机制是如何工作的. 1. 引论本篇文章是基于 Self-Attention with Relative Position Representatio ...
论文阅读——Self-Attention with Relative Position Representations
Self-Attention with Relative Position Representations Abstract 2017年Vaswani等人提出的Transformer需要在输入中添加绝 ...
相对位置编码之RPR式：《Self-Attention with Relative Position Representations》论文笔记
[NLP] 相对位置编码 Relative Position Representatitons (RPR)
1. 翻译:https://medium.com/@_init_/how-self-attention-with-relative-position-representations-works-281 ...
【论文笔记】Rethinking and Improving Relative Position Encoding for Vision Transformer
论文论文题目:Rethinking and Improving Relative Position Encoding for Vision Transformer 接收:ICCV 2021 论文地址 ...
一文读懂css的相对定位【relative position】以及相对定位为什么要设置偏移量？
目录何为定位偏移量垂直方向 top bottom 水平方向 left right relative-相对定位何为相对定位相对定位的特点实例元素代码的起始位置元素若不开启相对定位,即便设 ...

Relative Position Representations

摘要

做法

Relative Position Representations相关推荐

最新文章

热门文章