Transformers中的位置编码到底是什么?

众所周知,self-attention是不考虑输入序列的位置的,要解决这个问题就得靠Position Encoding了,在attention is All You Need中就提出了这个方法,在每个输入中都加上了位置编码,如下图红框所示:

然后在论文3.5部分给出了以下PE公式,一个sin函数和一个cos函数,为每个position计算一个值:

说实话,看到这里时晴反正是没看懂,公式是初中生都看的懂,d_model表示输入的维度,pos表示单词的索引,i表示向量中索引,用sin,cos计算出对应值,但是为什么可以这样加到input上达到位置编码的效果呢?这时候我们看看bert就是非常直观的绝对位置动态编码,就直观很多,每个位置就是固定的embedding:

让我们看看原文作者是怎么解释的:

对于任何偏移量k,对pos+k的编码都可以是pos编码线形变换.先来看看可视化结果:

值得注意的是,每个向量第0和第1的位置,第0的位置对应于PE公式的sin式,第1的位置对应于PE公式的cos式子,但是他们的2i都是0,所以会有下式:

所以每个输入向量的第0个和第1个位置的位置编码只和向量所处的pos有关.但是第3个位置后就受d_model影响了,一旦d_model变小,sin/cos函数就会有“拉伸”感,如下图所示:

对于长度为20的input,维度是50,我们可以画出一下PE值:

我们发现,越小的pos受影响的i就越少,i如果很大,PE值就会在0和1进行变换.从上图中,我们看到30~50列值基本没有变化.为啥上图这种编码就能学到位置信息?其实有种非常直观的解释方式,比如让你对数字进行编码,最直观的想法就是二进制编码,如下图所示:

PE方法就可以简单的理解为上述版本的float编码.

PE的方法有很多,但是有很多实验表明,这些PE方法最终结果都很类似,本文讨论的PE方法优势在于可以支持更长的序列长度.

Transformers中的位置编码到底是什么?相关推荐

【Transformer】Transformer 中的位置编码 -- ICLR 2021
引言 Transformer是近年来非常流行的处理序列到序列问题的架构,其self-attention机制允许了长距离的词直接联系,可以使模型更容易学习序列的长距离依赖.由于其优良的可并行性以及可观的 ...
深入理解transformer中的位置编码
文章目录总览问题1 问题2 问题3 问题4 问题5 问题6 总览我们今天需要讲解transformer中的位置编码,这其实属于进阶内容.既然你会到这里,我默认你已经看过了transformer的 ...
举例理解transformer中的位置编码
文章目录 1. transformer结构图 2. 位置编码的作用 3. 位置编码的计算 1. transformer结构图在transformer的结构图中,由一个"Position ...
ICCV2021 | Vision Transformer中相对位置编码的反思与改进
前言在计算机视觉中,相对位置编码的有效性还没有得到很好的研究,甚至仍然存在争议,本文分析了相对位置编码中的几个关键因素,提出了一种新的针对2D图像的相对位置编码方法,称为图像RPE(IRPE). ...
TUPE ：重新思考语言预训练中的位置编码
作者 | sliderSun 知乎专栏 | 优选读.BERT巨人肩膀整理 | NewBeeNLP 一篇来自微软关于Transformer中位置编码的文章,关于位置编码,我们之前也有讨论过,参见: T ...
Transformer | DETR目标检测中的位置编码position_encoding代码详解
本文主要描述的是DETR论文中的position_encoding,详细DETR论文解析可参考论文篇 | 2020-Facebook-DETR :利用Transformers端到端的目标检测=> ...
Transformer中的位置编码（PE，position）
参考链接 [1]https://blog.csdn.net/qq_34771726/article/details/102918440?utm_medium=distribute.pc_relevan ...
transformer中相对位置编码理解
对于一副图像,位置信息占有非常重要的地位,ViT中用了绝对位置编码,Swin中用到了相对位置编码.看了Swin的源码,参考了https://blog.csdn.net/qq_37541097/arti ...
透彻分析Transformer中的位置编码（positional enconding）
一.Transformer中为什么要使用位置编码positional encoding 在<Attention Is All You Need>这篇论文中首次提到了transformer模 ...

Transformers中的位置编码到底是什么?

Transformers中的位置编码到底是什么?相关推荐

最新文章

热门文章