5分钟理解transformer模型位置编码

Bert模型是自然语言处理方面里程碑式的进步，其核心是transformer层, 而transformer采用自注意力编码器摒弃了循环网络，循环网络天生的顺序信息在自注意力编码器中没有了，而语言往往是顺序不同意思相差很大。所以transformer的作者设计了一种三角函数位置编码方式，为每个不同位置的token单独生成一个位置向量（或者位置嵌入，即position embedding,缩写为PE)。下面的公式是位置编码的公式，但是论文及网上其他文章对公式解释不是很清楚，所以我在此采用例子来帮助初学者理解。

式中pos为token在序列中的位置号码，它的取值是0到序列最大长度max_que_length-1之间的整数。比如“[cls] 我爱中华 [sep]”是6个token组成的序列，[cls]的pos值为0，“我”的pos值为1，“爱”的pos为2，“中”为3，“华”为4，'[sep]'为5 。bert base最大长度max_que_length是512，pos取值还能一直到511。当然如果序列真实长度小于最大长度时，后面的位置号没有意义，最终会被mask掉。

dmodel是位置向量的维度，与整个模型的隐藏状态维度值相同，这解释了为什么起dmodel这个名字，这个维度在bert base模型里设置为768。

i 是从0到dmodel/2-1之间的整数值，即0，1，2，...383。

2i 是指向量维度中偶数维，即第0维，第2维，第4维，直到第766维。

2i+1 是维度中奇数维，即第1维，第3维，第5维，直到第767维。

PE是一个矩阵，行数是最大的序列长度max_que_length,列数是dmodel,即它的形状为[max_que_length,dmodel]

PE(pos,2i)是PE矩阵中第pos行，第2i列的数值，是个标量。这里是在第偶数列上的值，偶数列用正玄函数计算。

PE(pos,2i+1) 是PE矩阵中第pos行，第2i+1列的数值，是个标量。这里是在第奇数列上的值，奇数列用余玄函数计算。

仍然以序列“[cls] 我爱中华 [sep]”为例，现在计算序列中"我"的位置向量，这个向量有768维，我考虑前面4维的值和最后2维做为例子，其他维度则省略：

"我"在序列中位置pos的值是1，当i=0时，2i表示第0维，2i+1表示第1维,dmodel=768,为简洁，此处小数点后只取2位

PE(1,0）= sin(1/(10000)^(0/768)) = sin(1/1) = sin(1) = 0.84

PE(1,1) = cos(1/(10000)^(0/768)) = cos(1/1)=cos(1) = 0.54

再看当i=1时的第2维和第3维

PE(1,2) = sin(1/(10000^(2/768))) = sin(1/(10000^(1/384)))=sin(1/1.02)=0.83

PE(1,3) = cos(1/(10000^(2/768))) = cos(1/1.02) = 0.56

再看最后两维的情况,这时i=383：

PE(1,766) = sin(1/(10000^(766/768))) = sin(1/9763.00) = 0.00

PE(1,767) = cos(1/(10000^(766/768))) = cos(1/9763.00) = 1.00

那token"我"的位置向量大概样子是

[0.84,0.54,。。。,0.00,1.00]

再看看当位置号pos不断增大时，某一维比如第0维的值是怎么变化的。因为三角函数是关于2倍圆周率Pi的周期函数，所以把数值转为Pi的倍数

P(1,0)=sin(1)=sin(0.31Pi)

P(2,0)=sin(2)=sin(0.64Pi)

P(3,0)=sin(3)=sin(0.96Pi)

P(6,0)=sin(6)=sin(1.91Pi)

P(7,0)=sin(7)=sin(2.23Pi)=sin(0.23Pi)

P(8,0)=sin(8)=sin(2.54Pi)=sin(0.54Pi)

由此可看出，由于三角函数是周期函数，随着位置号的增加，相同维度的值有周期性变化的特点。

transformer为什么设计这样的编码方式来生成位置向量呢? 因为三角函数有个性质

sin(a+b) = sin(a) * cos(b) + cos(a) * sin(b)

cos(a+b) = cos(a) * cos(b) - sin(a) * sin(b)

因此可以推导出，两个位置向量的点积是一个与他们两个位置差值（即相对位置）有关，而与绝对位置无关。这个性质使得在计算注意力权重的时候(两个向量做点积)，使得相对位置对注意力发生影响，而绝对位置变化不会对注意力有任何影响，这更符合常理。

比如”我爱中华“这句话，”华“与”中“相对位置为1，华与中的相关性程度取决于相对位置值1。而如果这句话前面还有其他字符，那华和中两个字的绝对位置会变化，这个变化不会影响到中华这两个字的相关程度。

但是这里似乎有个缺陷，就是这个相对位置没有正负之分，比如"华"在"中"的后面，对于"中"字，"华"相对位置值应该是1，而"爱"在"中"的前面，相对位置仍然是1，这就没法区分到底是前面的还是后面的。

transformer的位置向量还有一种生成方式是可训练位置向量。即随机初始化一个向量，然后由模型自动训练出最可能的向量。transformer的作者指出这种可训练向量方式的效果与正玄余玄编码方式的效果差不多。在bert的代码中采用的是可训练向量方式。

5分钟理解transformer模型位置编码相关推荐

Transformer课程：理解语言的 Transformer 模型-位置编码及掩码（Masking）
Transformer课程:理解语言的 Transformer 模型-位置编码及掩码 (Masking) 目录位置编码(Positional encoding) 掩码 (Masking) 参考文献 ...
有关swin transformer相对位置编码的理解：
有关swin transformer相对位置编码的理解: 假设window_size是7*7 那么窗口中共有49个patch,共有49*49个相对位置,每个相对位置有两个索引对应x和y两个方向,每个索 ...
十分钟理解Transformer
本文转载于知乎文章:十分钟理解Transformer Transformer是一个利用注意力机制来提高模型训练速度的模型.关于注意力机制可以参看这篇文章,trasnformer可以说是完全基于自注意力 ...
【Transformer 相关理论深入理解】注意力机制、自注意力机制、多头注意力机制、位置编码
目录前言一.注意力机制:Attention 二.自注意力机制:Self-Attention 三.多头注意力机制:Multi-Head Self-Attention 四.位置编码:Positiona ...
深入理解transformer中的位置编码
文章目录总览问题1 问题2 问题3 问题4 问题5 问题6 总览我们今天需要讲解transformer中的位置编码,这其实属于进阶内容.既然你会到这里,我默认你已经看过了transformer的 ...
FLOATER：更加灵活的Transformer位置编码！
NewBeeNLP公众号原创出品公众号专栏作者 @Maple小七北京邮电大学·模式识别与智能系统来自 ICML2020 对Transformer位置编码的探索论文:Learning to E ...
Transformer架构：位置编码
2017年,Google的Vaswani 等人提出了一种新颖的纯注意力序列到序列架构,闻名学术界与工业界的 Transformer 架构横空出世.它的可并行化训练能力和优越的性能使其成为自然语言处理领 ...
transformer引入位置信息--Sinusoidal位置编码《个人学习笔记》
transformer引入位置信息--Sinusoidal位置编码为什么transformer需要位置编码 Sinusoidal绝对位置编码首先,所有技术都是个人理解,并感谢技术各位分享,由此根据 ...
美团提出基于隐式条件位置编码的Transformer，性能优于ViT和DeiT
视学算法发布机器之心编辑部 Transformer 跨界计算机视觉的热潮之下,有一个问题需要解决:如何像 CNN 一样直接处理不同尺寸的输入?对此,美团提出了一种新型隐式条件位置编码方法,基于该方法 ...

5分钟理解transformer模型位置编码

5分钟理解transformer模型位置编码相关推荐

最新文章

热门文章