矩阵推导后注意力机制居然是这样

假如AB 分别编码为

A=[12]A=\begin{bmatrix}1 & 2 \\ \end{bmatrix}A=[12]

B=[34]B=\begin{bmatrix}3 & 4 \\ \end{bmatrix}B=[34]

S=[AB]=[1234]S=\begin{bmatrix} A \\B \\ \end{bmatrix}=\begin{bmatrix} 1 & 2 \\3 & 4 \\ \end{bmatrix}S=[AB]=[1324]

Wq=[w1w2w3w4]表示成[w1w2]Wq=\begin{bmatrix} w1 & w2 \\w3 & w4 \\ \end{bmatrix}表示成\begin{bmatrix} w1 &w2 \\ \end{bmatrix}Wq=[w1w3w2w4]表示成[w1w2]

Q=S∗Wq=[1234]∗[w1w2w3w4]=>Q=S*Wq=\begin{bmatrix} 1 & 2 \\3 & 4 \\ \end{bmatrix}*\begin{bmatrix} w1 & w2 \\w3 & w4 \\ \end{bmatrix}=>Q=S∗Wq=[1324]∗[w1w3w2w4]=>

[1∗w1+2∗w31∗w2+2∗w43∗w1+4∗w33∗w2+4∗w4]=>\begin{bmatrix} 1*w1+2*w3 & 1*w2+2*w4 \\3*w1+4*w3 & 3*w2+4*w4 \\ \end{bmatrix}=>[1∗w1+2∗w33∗w1+4∗w31∗w2+2∗w43∗w2+4∗w4]=>

[AB][w1w2]=>\begin{bmatrix} A \\B \\ \end{bmatrix}\begin{bmatrix} w1 & w2 \\ \end{bmatrix}=>[AB][w1w2]=>

[A∗w1A∗w2B∗w1B∗w2]\begin{bmatrix} A*w1 & A*w2 \\B*w1 & B*w2 \\ \end{bmatrix}[A∗w1B∗w1A∗w2B∗w2]

接着就是K

Wk=[w5w6w7w8]表示成[w7w8]Wk=\begin{bmatrix} w5 & w6 \\w7 & w8 \\ \end{bmatrix}表示成\begin{bmatrix} w7 &w8 \\ \end{bmatrix}Wk=[w5w7w6w8]表示成[w7w8]

K=S∗Wk=[5678]∗[w5w6w7w8]=>K=S*Wk=\begin{bmatrix} 5 & 6 \\7 & 8 \\ \end{bmatrix}*\begin{bmatrix} w5& w6 \\w7 & w8 \\ \end{bmatrix}=>K=S∗Wk=[5768]∗[w5w7w6w8]=>

[5∗w5+6∗w75∗w6+6∗w87∗w5+8∗w77∗w6+8∗w8]=>\begin{bmatrix} 5*w5+6*w7 & 5*w6+6*w8 \\7*w5+8*w7 & 7*w6+8*w8 \\ \end{bmatrix}=>[5∗w5+6∗w77∗w5+8∗w75∗w6+6∗w87∗w6+8∗w8]=>

[AB][w7w8]=>\begin{bmatrix} A \\B \\ \end{bmatrix}\begin{bmatrix} w7 & w8 \\ \end{bmatrix}=>[AB][w7w8]=>

[A∗w7A∗w8B∗w7B∗w8]\begin{bmatrix} A*w7 & A*w8 \\B*w7 & B*w8 \\ \end{bmatrix}[A∗w7B∗w7A∗w8B∗w8]

同上推导的到V

V=[A∗w0A∗w9B∗w0B∗w9]V=\begin{bmatrix} A*w0 & A*w9 \\B*w0& B*w9 \\ \end{bmatrix}V=[A∗w0B∗w0A∗w9B∗w9]

KT=[A∗w7B∗w7A∗w8B∗w8]K^T=\begin{bmatrix} A*w7 &B*w7 \\ A*w8& B*w8 \\ \end{bmatrix}KT=[A∗w7A∗w8B∗w7B∗w8]

Q∗KT=[A∗w7B∗w7A∗w8B∗w8]∗[A∗w1A∗w2B∗w1B∗w2]=>Q*K^T=\begin{bmatrix} A*w7 &B*w7 \\ A*w8& B*w8 \\ \end{bmatrix}*\begin{bmatrix} A*w1 & A*w2 \\B*w1 & B*w2 \\ \end{bmatrix}=>Q∗KT=[A∗w7A∗w8B∗w7B∗w8]∗[A∗w1B∗w1A∗w2B∗w2]=>

Q∗KT=>Q*K^T=>Q∗KT=>
[A∗A∗w1∗w7+B∗B∗w1∗w7A∗A∗w2∗w7+B∗B∗w2∗w7A∗A∗w1∗w8+B∗B∗w1∗w8A∗A∗w2∗w8+B∗B∗w2∗w8]\begin{bmatrix} A*A*w1*w7+B*B*w1*w7 &A*A*w2*w7 +B*B*w2*w7 \\ A*A*w1*w8+B*B*w1*w8&A*A*w2*w8+B*B*w2*w8 \\ \end{bmatrix}[A∗A∗w1∗w7+B∗B∗w1∗w7A∗A∗w1∗w8+B∗B∗w1∗w8A∗A∗w2∗w7+B∗B∗w2∗w7A∗A∗w2∗w8+B∗B∗w2∗w8]
=>=>=>
(A2+B2)∗[w1∗w7w2∗w7w1∗w8w2∗w8](A^2+B^2)*\begin{bmatrix} w1*w7 &w2*w7 \\ w1*w8&w2*w8 \\ \end{bmatrix}(A2+B2)∗[w1∗w7w1∗w8w2∗w7w2∗w8]

再sorftmax 再乘V
而sorftmax 本质可以只通过下面例子，简单的表示
比如

sorftmax([12])=[1/(1+2)2/(1=2)]sorftmax(\begin{bmatrix} 1 & 2 \\ \end{bmatrix})=\begin{bmatrix} 1/(1+2) & 2/(1=2) \\ \end{bmatrix}sorftmax([12])=[1/(1+2)2/(1=2)]

sorftmax((A2+B2)∗[w1∗w7w2∗w7w1∗w8w2∗w8])=>sorftmax((A^2+B^2)*\begin{bmatrix} w1*w7 &w2*w7 \\ w1*w8&w2*w8 \\ \end{bmatrix})=>sorftmax((A2+B2)∗[w1∗w7w1∗w8w2∗w7w2∗w8])=>
行的维度施加sorftmax
一行一列演示如下

[(A2+B2)∗w1∗w7/(A2+B2)∗（w1∗w7+w2∗w7）w2∗w7w1∗w8w2∗w8]=>\begin{bmatrix} (A^2+B^2)*w1*w7/(A^2+B^2)*（w1*w7+ w2*w7） &w2*w7 \\ w1*w8&w2*w8 \\ \end{bmatrix}=>[(A2+B2)∗w1∗w7/(A2+B2)∗（w1∗w7+w2∗w7）w1∗w8w2∗w7w2∗w8]=>
可以看到
[(A2+B2)]\begin{bmatrix} (A^2+B^2) \\ \end{bmatrix}[(A2+B2)]
被约掉了所以随后结果为

[w1∗w7/（w1∗w7+w2∗w7）w2∗w7/（w1∗w7+w2∗w7）w1∗w8/(w1∗w8+w2∗w8)w2∗w8/(w1∗w8+w2∗w8)]\begin{bmatrix} w1*w7/（w1*w7+ w2*w7） &w2*w7 /（w1*w7+ w2*w7） \\ w1*w8/(w1*w8+w2*w8)&w2*w8/(w1*w8+w2*w8) \\ \end{bmatrix}[w1∗w7/（w1∗w7+w2∗w7）w1∗w8/(w1∗w8+w2∗w8)w2∗w7/（w1∗w7+w2∗w7）w2∗w8/(w1∗w8+w2∗w8)]

继续化简
[w1/（w1+w2）w2/（w1+w2）w1/(w1+w2)w2/(w1+w2)]\begin{bmatrix} w1/（w1+ w2） &w2 /（w1+ w2） \\ w1/(w1+w2)&w2/(w1+w2) \\ \end{bmatrix}[w1/（w1+w2）w1/(w1+w2)w2/（w1+w2）w2/(w1+w2)]

竟然和K没半毛关系，可能sorftmax不是这样的，先忽略这样的问题，后期咱写个网络验证一番就可( 如果没有K 只能直接拿Q的权重直接乘V 才能得到，结果，貌似没法反向传播，不过推理的时候可以直接使用这样就减少了计算量，且貌似还能使用一行就可以，)

接下来乘V算一下

sorftmax(Q∗KT)∗V=[w1/（w1+w2）w2/（w1+w2）w1/(w1+w2)w2/(w1+w2)]∗[A∗w0A∗w9B∗w0B∗w9]=sorftmax(Q*K^T)*V=\begin{bmatrix} w1/（w1+ w2） &w2 /（w1+ w2） \\ w1/(w1+w2)&w2/(w1+w2) \\ \end{bmatrix}*\begin{bmatrix} A*w0 & A*w9 \\B*w0& B*w9 \\ \end{bmatrix}=sorftmax(Q∗KT)∗V=[w1/（w1+w2）w1/(w1+w2)w2/（w1+w2）w2/(w1+w2)]∗[A∗w0B∗w0A∗w9B∗w9]=

[（w1+w2）]=>S1\begin{bmatrix} （w1+ w2） \end{bmatrix}=>S1[（w1+w2）]=>S1

sorftmax(Q∗KT)∗V=([w1w2w1w2]/S1)∗[A∗w0A∗w9B∗w0B∗w9]=sorftmax(Q*K^T)*V=(\begin{bmatrix} w1 &w2 \\ w1&w2 \\ \end{bmatrix}/S1)*\begin{bmatrix} A*w0 & A*w9 \\B*w0& B*w9 \\ \end{bmatrix}=sorftmax(Q∗KT)∗V=([w1w1w2w2]/S1)∗[A∗w0B∗w0A∗w9B∗w9]=

[w0∗(w1∗A+w2∗B)w9∗(w1∗A+w2∗B)w0∗(w1∗A+w2∗B)w9∗(w1∗A+w2∗B)]/S1\begin{bmatrix} w0*(w1*A+w2*B) & w9*(w1*A+w2*B) \\w0*(w1*A+w2*B) & w9*(w1*A+w2*B) \\ \end{bmatrix}/S1[w0∗(w1∗A+w2∗B)w0∗(w1∗A+w2∗B)w9∗(w1∗A+w2∗B)w9∗(w1∗A+w2∗B)]/S1
一行一列
表示为
[w0∗(w1∗A+w2∗B)/(w1+w2)]\begin{bmatrix} w0*(w1*A+w2*B) /(w1+w2)\end{bmatrix}[w0∗(w1∗A+w2∗B)/(w1+w2)]

就好比下面的表达式
2(2x+3y)/5

[(w1∗A+w2∗B)/(w1+w2)]=>S2\begin{bmatrix} (w1*A+w2*B) /(w1+w2)\end{bmatrix}=>S2[(w1∗A+w2∗B)/(w1+w2)]=>S2

化简为

[w0∗S2w9∗S2w0∗S2w9∗S2]=>\begin{bmatrix} w0*S2& w9*S2 \\w0*S2 & w9*S2 \\ \end{bmatrix}=>[w0∗S2w0∗S2w9∗S2w9∗S2]=>

[w0w9w0w9]∗S2\begin{bmatrix} w0& w9 \\w0 & w9 \\ \end{bmatrix}*S2[w0w0w9w9]∗S2
所以影响结果的是V的权重。看看S2的表达式像不像加权平均

假设A是a某属性的平均值 B是b的某属性的平均值 S2=(Aa+Bb)/(a+b)
假相没有其他层了直接输出对应序列
已知B求A 就是
A=w0S2 那么 w0=A/S2=A(a+b)/(Aa+Bb) 这不就是 a的平均值占总平均值得占比吗

实际输出是一个Voc_size 的一个概率分类。
50人是a 平均分是A =1
60人是b 平均分是B=2
平均分是我们人为设置的，一中语言的最小单位，要表达成两个属性，60人和平均分，也就是说一个字代表一个班级，而一篇文章又代表什么呢。代表一个活动，每个班级按照某种规则进行了比赛。比赛得到了平均分。
最后平均分和人数组合起来将每个班级完全的区分开了。

矩阵推导后注意力机制居然是这样相关推荐

ciaodvd数据集的简单介绍_基于注意力机制的规范化矩阵分解推荐算法
随着互联网技术的发展以及智能手机的普及, 信息超载问题也亟待解决.推荐系统[作为解决信息超载问题的有效工具, 已被成功应用于各个领域, 包括电子商务.电影.音乐和基于位置的服务等[.推荐系统通过分析用 ...
独家 | 感悟注意力机制
作者:Greg Mehdiyev, Ray Hong, Jinghan Yu, Brendan Artley翻译:陈之炎校对:ZRX本文约2800字,建议阅读12分钟本文由Simon Fraser大 ...
入门 | 什么是自注意力机制？
来源 : 机器之心, 禁止二次转载注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制.注意力机制可以快速提取稀疏数据的重要特征,因而被广泛用于自 ...
注意力机制详解(小白入门)
文章目录产生原因注意力机制类型最大池化与平均池化的注意力机制注意力池化层次池化- 引入时序,更新V 循环池化引入时序更新Q 多头注意力池化基于多头注意力的变换器注意力机制的研究进展(待 ...
动画详解Transformer模型注意力机制的概念与模型搭建
多头注意力机制通过上一期的分享,我们了解了transformer模型中的多头注意力机制的概念,且通过7个attention注意力机制的变形,彻底了解了tranformer模型的多头注意力机制,哪里重 ...
【Pytorch神经网络理论篇】 20 神经网络中的注意力机制
注意力机制可以使神经网络忽略不重要的特征向量,而重点计算有用的特征向量.在抛去无用特征对拟合结果于扰的同时,又提升了运算速度. 1 注意力机制所谓Attention机制,便是聚焦于局部信息的机制,比 ...
【深度学习】04-01-自注意力机制（Self-attention）-李宏毅老师2122深度学习课程笔记
04-01-自注意力机制Self-attention 模型输入文字处理语音处理 Graph 模型输出类型一:一对一(Sequence Labeling) 类型二:多对一类型三:多对多(由模型自 ...
注意力机制的详细理解
一.线性Attention的探索:Attention必须有个Softmax吗? 前几天笔者读到了论文 Transformers are RNNs: Fast Autoregressive Transf ...

矩阵推导后注意力机制居然是这样

矩阵推导后注意力机制居然是这样相关推荐

最新文章

热门文章