举例理解transformer中的位置编码

2024-06-01 22:20:13

文章目录

1. transformer结构图
2. 位置编码的作用
3. 位置编码的计算

1. transformer结构图

在transformer的结构图中，由一个“Positional Encoding”，即位置编码，查看了以下资料后，稍微有点儿理解了，记录于此。

2. 位置编码的作用

由于transformer是并行化运算，所以输入的信息中没有位置信，而在语音文本中，绝大部分都是有语序的。例如：我爱你，要是翻译成’“You love me”，那意思就完全不一样了。于是，就有了位置编码，其作用就是让输入数据携带位置信息，是模型能够找出位置特点。

3. 位置编码的计算

在transformer中的位置编码中，其编码公式如下：
$\over 10000^{2i/d_{model}}}) \\ PE(pos, 2i+1) = cos({pos \over 10000^{2i/d_{model}}})$
其中， $PE表示位置编码，pos表示当前字符在输入字母中的位置，i=dim_index // 2即改字符的维度下表对2求模， d_{model}表示该字符的维度。$

。上面，表示偶数位置使用sin, 奇数位置使用cos。引入实例，如：翻译"我爱你"。

Step1: embedding编码

假设embedding编码将每个词向量编程成512维，如图所示：

如上，如果有规定每次输入的x1, x2,…,xn的长度，那么不足就直接使用padding用0填充.其中的”喜欢“换成”爱“即可。

Step2： 位置编码

由上图知，其 $d_{model} = 512, pos_{爱} = 1$ ，其编码示意图如下：

一步步计算可得，其具体的位置编码：
$PE_0 = sin({1 \over 10000^{2*0/512}}) = sin(1) \\ PE_1= cos({1 \over 10000^{2*0/512}}) = cos(1) \\ ... \\ PE_511 = cos({1 \over 10000^{2*255/512}})$
Step3: 位置编码与embedding编码进行相加

如图，

然后即可将其作为transtormer的输入进去Attention以及其他运算。

注：

文章有参考：https://wangguisen.blog.csdn.net/article/details/125074022?spm=1001.2014.3001.5502
该文写得非常赞，值得一看。

举例理解transformer中的位置编码相关推荐

深入理解transformer中的位置编码
文章目录总览问题1 问题2 问题3 问题4 问题5 问题6 总览我们今天需要讲解transformer中的位置编码,这其实属于进阶内容.既然你会到这里,我默认你已经看过了transformer的 ...
【Transformer】Transformer 中的位置编码 -- ICLR 2021
引言 Transformer是近年来非常流行的处理序列到序列问题的架构,其self-attention机制允许了长距离的词直接联系,可以使模型更容易学习序列的长距离依赖.由于其优良的可并行性以及可观的 ...
transformer中相对位置编码理解
对于一副图像,位置信息占有非常重要的地位,ViT中用了绝对位置编码,Swin中用到了相对位置编码.看了Swin的源码,参考了https://blog.csdn.net/qq_37541097/arti ...
Transformer中的位置编码（PE，position）
参考链接 [1]https://blog.csdn.net/qq_34771726/article/details/102918440?utm_medium=distribute.pc_relevan ...
ICCV2021 | Vision Transformer中相对位置编码的反思与改进
前言在计算机视觉中,相对位置编码的有效性还没有得到很好的研究,甚至仍然存在争议,本文分析了相对位置编码中的几个关键因素,提出了一种新的针对2D图像的相对位置编码方法,称为图像RPE(IRPE). ...
透彻分析Transformer中的位置编码（positional enconding）
一.Transformer中为什么要使用位置编码positional encoding 在<Attention Is All You Need>这篇论文中首次提到了transformer模 ...
Transformer架构：位置编码
2017年,Google的Vaswani 等人提出了一种新颖的纯注意力序列到序列架构,闻名学术界与工业界的 Transformer 架构横空出世.它的可并行化训练能力和优越的性能使其成为自然语言处理领 ...
Positional Encodings in ViTs 近期各视觉Transformer中的位置编码方法总结及代码解析 1
Positional Encodings in ViTs 近期各视觉Transformer中的位置编码方法总结及代码解析最近CV领域的Vision Transformer将在NLP领域的Transo ...
Transformer正余弦位置编码理解
在学习Transformer模型过程中不可避免的一个过程便是要对序列进行位置编码,在Transformer中分为固定位置编码与可学习的位置编码,其一般采用固定位置编码中的正余弦位置编码方式. 今天便以 ...

最新文章

热门文章