假如AB 分别编码为

A=[12]A=\begin{bmatrix}1 & 2 \\ \end{bmatrix}A=[1​2​]

B=[34]B=\begin{bmatrix}3 & 4 \\ \end{bmatrix}B=[3​4​]

S=[AB]=[1234]S=\begin{bmatrix} A \\B \\ \end{bmatrix}=\begin{bmatrix} 1 & 2 \\3 & 4 \\ \end{bmatrix}S=[AB​]=[13​24​]

Wq=[w1w2w3w4]表示成[w1w2]Wq=\begin{bmatrix} w1 & w2 \\w3 & w4 \\ \end{bmatrix}表示成\begin{bmatrix} w1 &w2 \\ \end{bmatrix}Wq=[w1w3​w2w4​]表示成[w1​w2​]

Q=S∗Wq=[1234]∗[w1w2w3w4]=>Q=S*Wq=\begin{bmatrix} 1 & 2 \\3 & 4 \\ \end{bmatrix}*\begin{bmatrix} w1 & w2 \\w3 & w4 \\ \end{bmatrix}=>Q=S∗Wq=[13​24​]∗[w1w3​w2w4​]=>

[1∗w1+2∗w31∗w2+2∗w43∗w1+4∗w33∗w2+4∗w4]=>\begin{bmatrix} 1*w1+2*w3 & 1*w2+2*w4 \\3*w1+4*w3 & 3*w2+4*w4 \\ \end{bmatrix}=>[1∗w1+2∗w33∗w1+4∗w3​1∗w2+2∗w43∗w2+4∗w4​]=>

[AB][w1w2]=>\begin{bmatrix} A \\B \\ \end{bmatrix}\begin{bmatrix} w1 & w2 \\ \end{bmatrix}=>[AB​][w1​w2​]=>

[A∗w1A∗w2B∗w1B∗w2]\begin{bmatrix} A*w1 & A*w2 \\B*w1 & B*w2 \\ \end{bmatrix}[A∗w1B∗w1​A∗w2B∗w2​]

接着就是K

Wk=[w5w6w7w8]表示成[w7w8]Wk=\begin{bmatrix} w5 & w6 \\w7 & w8 \\ \end{bmatrix}表示成\begin{bmatrix} w7 &w8 \\ \end{bmatrix}Wk=[w5w7​w6w8​]表示成[w7​w8​]

K=S∗Wk=[5678]∗[w5w6w7w8]=>K=S*Wk=\begin{bmatrix} 5 & 6 \\7 & 8 \\ \end{bmatrix}*\begin{bmatrix} w5& w6 \\w7 & w8 \\ \end{bmatrix}=>K=S∗Wk=[57​68​]∗[w5w7​w6w8​]=>

[5∗w5+6∗w75∗w6+6∗w87∗w5+8∗w77∗w6+8∗w8]=>\begin{bmatrix} 5*w5+6*w7 & 5*w6+6*w8 \\7*w5+8*w7 & 7*w6+8*w8 \\ \end{bmatrix}=>[5∗w5+6∗w77∗w5+8∗w7​5∗w6+6∗w87∗w6+8∗w8​]=>

[AB][w7w8]=>\begin{bmatrix} A \\B \\ \end{bmatrix}\begin{bmatrix} w7 & w8 \\ \end{bmatrix}=>[AB​][w7​w8​]=>

[A∗w7A∗w8B∗w7B∗w8]\begin{bmatrix} A*w7 & A*w8 \\B*w7 & B*w8 \\ \end{bmatrix}[A∗w7B∗w7​A∗w8B∗w8​]

同上推导的到V

V=[A∗w0A∗w9B∗w0B∗w9]V=\begin{bmatrix} A*w0 & A*w9 \\B*w0& B*w9 \\ \end{bmatrix}V=[A∗w0B∗w0​A∗w9B∗w9​]

KT=[A∗w7B∗w7A∗w8B∗w8]K^T=\begin{bmatrix} A*w7 &B*w7 \\ A*w8& B*w8 \\ \end{bmatrix}KT=[A∗w7A∗w8​B∗w7B∗w8​]

Q∗KT=[A∗w7B∗w7A∗w8B∗w8]∗[A∗w1A∗w2B∗w1B∗w2]=>Q*K^T=\begin{bmatrix} A*w7 &B*w7 \\ A*w8& B*w8 \\ \end{bmatrix}*\begin{bmatrix} A*w1 & A*w2 \\B*w1 & B*w2 \\ \end{bmatrix}=>Q∗KT=[A∗w7A∗w8​B∗w7B∗w8​]∗[A∗w1B∗w1​A∗w2B∗w2​]=>

Q∗KT=>Q*K^T=>Q∗KT=>
[A∗A∗w1∗w7+B∗B∗w1∗w7A∗A∗w2∗w7+B∗B∗w2∗w7A∗A∗w1∗w8+B∗B∗w1∗w8A∗A∗w2∗w8+B∗B∗w2∗w8]\begin{bmatrix} A*A*w1*w7+B*B*w1*w7 &A*A*w2*w7 +B*B*w2*w7 \\ A*A*w1*w8+B*B*w1*w8&A*A*w2*w8+B*B*w2*w8 \\ \end{bmatrix}[A∗A∗w1∗w7+B∗B∗w1∗w7A∗A∗w1∗w8+B∗B∗w1∗w8​A∗A∗w2∗w7+B∗B∗w2∗w7A∗A∗w2∗w8+B∗B∗w2∗w8​]
=>=>=>
(A2+B2)∗[w1∗w7w2∗w7w1∗w8w2∗w8](A^2+B^2)*\begin{bmatrix} w1*w7 &w2*w7 \\ w1*w8&w2*w8 \\ \end{bmatrix}(A2+B2)∗[w1∗w7w1∗w8​w2∗w7w2∗w8​]

再sorftmax 再乘V
而sorftmax 本质可以只通过下面例子,简单的表示
比如

sorftmax([12])=[1/(1+2)2/(1=2)]sorftmax(\begin{bmatrix} 1 & 2 \\ \end{bmatrix})=\begin{bmatrix} 1/(1+2) & 2/(1=2) \\ \end{bmatrix}sorftmax([1​2​])=[1/(1+2)​2/(1=2)​]

sorftmax((A2+B2)∗[w1∗w7w2∗w7w1∗w8w2∗w8])=>sorftmax((A^2+B^2)*\begin{bmatrix} w1*w7 &w2*w7 \\ w1*w8&w2*w8 \\ \end{bmatrix})=>sorftmax((A2+B2)∗[w1∗w7w1∗w8​w2∗w7w2∗w8​])=>
行的维度施加sorftmax
一行一列演示如下

[(A2+B2)∗w1∗w7/(A2+B2)∗(w1∗w7+w2∗w7)w2∗w7w1∗w8w2∗w8]=>\begin{bmatrix} (A^2+B^2)*w1*w7/(A^2+B^2)*(w1*w7+ w2*w7) &w2*w7 \\ w1*w8&w2*w8 \\ \end{bmatrix}=>[(A2+B2)∗w1∗w7/(A2+B2)∗(w1∗w7+w2∗w7)w1∗w8​w2∗w7w2∗w8​]=>
可以看到
[(A2+B2)]\begin{bmatrix} (A^2+B^2) \\ \end{bmatrix}[(A2+B2)​]
被约掉了所以随后结果为

[w1∗w7/(w1∗w7+w2∗w7)w2∗w7/(w1∗w7+w2∗w7)w1∗w8/(w1∗w8+w2∗w8)w2∗w8/(w1∗w8+w2∗w8)]\begin{bmatrix} w1*w7/(w1*w7+ w2*w7) &w2*w7 /(w1*w7+ w2*w7) \\ w1*w8/(w1*w8+w2*w8)&w2*w8/(w1*w8+w2*w8) \\ \end{bmatrix}[w1∗w7/(w1∗w7+w2∗w7)w1∗w8/(w1∗w8+w2∗w8)​w2∗w7/(w1∗w7+w2∗w7)w2∗w8/(w1∗w8+w2∗w8)​]

继续化简
[w1/(w1+w2)w2/(w1+w2)w1/(w1+w2)w2/(w1+w2)]\begin{bmatrix} w1/(w1+ w2) &w2 /(w1+ w2) \\ w1/(w1+w2)&w2/(w1+w2) \\ \end{bmatrix}[w1/(w1+w2)w1/(w1+w2)​w2/(w1+w2)w2/(w1+w2)​]

竟然和K没半毛关系,可能sorftmax不是这样的,先忽略这样的问题,后期咱写个网络验证一番就可( 如果没有K 只能直接拿Q的权重直接乘V 才能得到,结果,貌似没法反向传播,不过推理的时候可以直接使用这样就减少了计算量,且貌似还能使用一行就可以,)

接下来乘V算一下

sorftmax(Q∗KT)∗V=[w1/(w1+w2)w2/(w1+w2)w1/(w1+w2)w2/(w1+w2)]∗[A∗w0A∗w9B∗w0B∗w9]=sorftmax(Q*K^T)*V=\begin{bmatrix} w1/(w1+ w2) &w2 /(w1+ w2) \\ w1/(w1+w2)&w2/(w1+w2) \\ \end{bmatrix}*\begin{bmatrix} A*w0 & A*w9 \\B*w0& B*w9 \\ \end{bmatrix}=sorftmax(Q∗KT)∗V=[w1/(w1+w2)w1/(w1+w2)​w2/(w1+w2)w2/(w1+w2)​]∗[A∗w0B∗w0​A∗w9B∗w9​]=

[(w1+w2)]=>S1\begin{bmatrix} (w1+ w2) \end{bmatrix}=>S1[(w1+w2)​]=>S1

sorftmax(Q∗KT)∗V=([w1w2w1w2]/S1)∗[A∗w0A∗w9B∗w0B∗w9]=sorftmax(Q*K^T)*V=(\begin{bmatrix} w1 &w2 \\ w1&w2 \\ \end{bmatrix}/S1)*\begin{bmatrix} A*w0 & A*w9 \\B*w0& B*w9 \\ \end{bmatrix}=sorftmax(Q∗KT)∗V=([w1w1​w2w2​]/S1)∗[A∗w0B∗w0​A∗w9B∗w9​]=

[w0∗(w1∗A+w2∗B)w9∗(w1∗A+w2∗B)w0∗(w1∗A+w2∗B)w9∗(w1∗A+w2∗B)]/S1\begin{bmatrix} w0*(w1*A+w2*B) & w9*(w1*A+w2*B) \\w0*(w1*A+w2*B) & w9*(w1*A+w2*B) \\ \end{bmatrix}/S1[w0∗(w1∗A+w2∗B)w0∗(w1∗A+w2∗B)​w9∗(w1∗A+w2∗B)w9∗(w1∗A+w2∗B)​]/S1
一行一列
表示为
[w0∗(w1∗A+w2∗B)/(w1+w2)]\begin{bmatrix} w0*(w1*A+w2*B) /(w1+w2)\end{bmatrix}[w0∗(w1∗A+w2∗B)/(w1+w2)​]

就好比下面的表达式
2(2x+3y)/5


[(w1∗A+w2∗B)/(w1+w2)]=>S2\begin{bmatrix} (w1*A+w2*B) /(w1+w2)\end{bmatrix}=>S2[(w1∗A+w2∗B)/(w1+w2)​]=>S2

化简为

[w0∗S2w9∗S2w0∗S2w9∗S2]=>\begin{bmatrix} w0*S2& w9*S2 \\w0*S2 & w9*S2 \\ \end{bmatrix}=>[w0∗S2w0∗S2​w9∗S2w9∗S2​]=>

[w0w9w0w9]∗S2\begin{bmatrix} w0& w9 \\w0 & w9 \\ \end{bmatrix}*S2[w0w0​w9w9​]∗S2
所以影响结果的是V的权重。看看S2的表达式像不像加权平均

假设A是a某属性的平均值 B是b的某属性的平均值 S2=(Aa+Bb)/(a+b)
假相没有其他层了直接输出对应序列
已知B求A 就是
A=w0S2 那么 w0=A/S2=A(a+b)/(Aa+Bb) 这不就是 a的平均值占总平均值得占比吗

实际输出是一个Voc_size 的一个概率分类。
50人是a 平均分是A =1
60人是b 平均分是B=2
平均分是我们人为设置的,一中语言的最小单位,要表达成两个属性,60人和平均分,也就是说一个字代表一个班级,而一篇文章又代表什么呢。代表一个活动,每个班级按照某种规则进行了比赛。比赛得到了平均分。
最后平均分和人数组合起来将每个班级完全的区分开了。

矩阵推导后注意力机制居然是这样相关推荐

  1. ciaodvd数据集的简单介绍_基于注意力机制的规范化矩阵分解推荐算法

    随着互联网技术的发展以及智能手机的普及, 信息超载问题也亟待解决.推荐系统[作为解决信息超载问题的有效工具, 已被成功应用于各个领域, 包括电子商务.电影.音乐和基于位置的服务等[.推荐系统通过分析用 ...

  2. 独家 | 感悟注意力机制

    作者:Greg Mehdiyev, Ray Hong, Jinghan Yu, Brendan Artley翻译:陈之炎校对:ZRX本文约2800字,建议阅读12分钟 本文由Simon Fraser大 ...

  3. 入门 | 什么是自注意力机制?

    来源 : 机器之心, 禁止二次转载 注意力机制模仿了生物观察行为的内部过程,即一种将内部经验和外部感觉对齐从而增加部分区域的观察精细度的机制.注意力机制可以快速提取稀疏数据的重要特征,因而被广泛用于自 ...

  4. 注意力机制详解(小白入门)

    文章目录 产生原因 注意力机制类型 最大池化与平均池化的注意力机制 注意力池化 层次池化- 引入时序,更新V 循环池化 引入时序更新Q 多头注意力池化 基于多头注意力的变换器 注意力机制的研究进展(待 ...

  5. 动画详解Transformer模型注意力机制的概念与模型搭建

    多头注意力机制 通过上一期的分享,我们了解了transformer模型中的多头注意力机制的概念,且通过7个attention注意力机制的变形,彻底了解了tranformer模型的多头注意力机制,哪里重 ...

  6. Attention注意力机制的前世今身

    ©PaperWeekly 原创 · 作者|马敏博 学校|西南交通大学硕士生 研究方向|命名实体识别 总体介绍 注意力机制(Attention Mechanism)最早应用 CV 任务上 ,但最初的论文 ...

  7. 【Pytorch神经网络理论篇】 20 神经网络中的注意力机制

    注意力机制可以使神经网络忽略不重要的特征向量,而重点计算有用的特征向量.在抛去无用特征对拟合结果于扰的同时,又提升了运算速度. 1 注意力机制 所谓Attention机制,便是聚焦于局部信息的机制,比 ...

  8. 【深度学习】04-01-自注意力机制(Self-attention)-李宏毅老师2122深度学习课程笔记

    04-01-自注意力机制Self-attention 模型输入 文字处理 语音处理 Graph 模型输出 类型一:一对一(Sequence Labeling) 类型二:多对一 类型三:多对多(由模型自 ...

  9. 注意力机制的详细理解

    一.线性Attention的探索:Attention必须有个Softmax吗? 前几天笔者读到了论文 Transformers are RNNs: Fast Autoregressive Transf ...

最新文章

  1. Java-001-面向对象
  2. php 制表符分隔csv,CSV(逗号分隔)、文本文件(制表符分隔) 等文件的读取
  3. VTK:图片之ImageIdealHighPass
  4. ProgressDialog用法
  5. swoole 清除定时器提示no timer
  6. 全球六大国际域名解析量统计报告(6月25日)
  7. 12个职场信条让你的工作不可替代
  8. bzoj 5084: hashit
  9. python微博接口_python调用微博api接口
  10. 【C语言程序】鸡兔同笼问题
  11. java生成数据库三线表
  12. 基于JAVA高校教材征订管理系统计算机毕业设计源码+数据库+lw文档+系统+部署
  13. TLD文件自定义标签
  14. 常微分方程的差分方法C语言,常微分方程差分方法.ppt
  15. 全新雅思模拟考试开启全国高校预热活动
  16. 查看java 多少位_如何查看jdk的版本是32位还是64位
  17. linux vi后不保存退出,linux下退出VI的方法:不保存退出
  18. GNS3路由器host not reachable问题解决方案
  19. 【必备算法】动态规划:LeetCode题(九)309. 最佳买卖股票时机含冷冻期,714. 买卖股票的最佳含手续费
  20. win7x64新进程画面均无显示一例分析——从内核态到用户态,从x64到wow64,从汇编到托管

热门文章

  1. 第十四届智能车竞赛规则浅聊
  2. 任艳频 | 竞赛12年纪念文集--后记
  3. 职称计算机考试word2003真题,职称计算机考试《Word2003》历年真题回顾(4)
  4. java底层语言_JAVA语言思维的底层基础
  5. springboot2 war页面放在那_成为微服务架构师--SpringBoot2学习笔记
  6. python简述题_python的一些基本概念知识和面试题
  7. matlab 分段式规范作图
  8. 如何阅读微控制器数据手册:简介和第一步
  9. FPGA之道(46)数字电路中的隐患
  10. 【FPGA】SRIO中的关键问题总结(一)SRIO中的关键数据包格式总结