刚从李宏毅老师的Transformer出来,弹幕里关于投影矩阵WQ/WK/WV是否共享已经吵翻,这里写一下自己的看法。

首先得搞清楚Multi-Head Self-Attention,什么是一个head:

如下图所示,是一个Multi-Head Self-Attention的计算图,右侧h的意思就是h个head,所以一个head就是一个Scaled Dot-Product Attention。

然后就是是否共享的问题,先摆出结论:在同一个head中,WQ都是同一个WQ,WK都是同一个WK,WV都是同一个WV,也就是各自共享,但是WQ、WK、WV之间一般互不相同,也就是互相不共享;在不同head里,WQ互不相同,也就是不共享,WK、WV也是如此。

举个例子解释一下,主要以WQ举例,对于WK和WV是同样适用的:比如我现在使用了一个3个heads的self-attention,在head1里,我的WQ=苹果,WK=西蓝花,WV=杨枝甘露,那么在head1里所有的WQ就都是苹果,这也就是“共享”,但是WQ、WK、WV是不同的,这是“不共享”;在head2里,我的WQ=芒果,WK=甘蓝,WV=茉香奶绿,head2里的WQ与head1中的WQ不同,这是“不共享”。

其实Multi-Head Self-Attention就是为了模仿CNN中不同kernel提取不同的模式,也就是得到的feature map中一个channel对应一种模式。类比过来,Multi-Head Self-Attention中一个head提取一种模式,最后h个head的输出concate起来,这样就模仿了CNN的功能!假设不同head里的WQ是一样的,那么也就是说CNN中的kernel都是一样的,那样就没意义了呀,只需要一个head就能解决模式提取,multi-head就毫无意义了,所以WQ在不同的head中是不同的。

下面放一篇论文,主要是证明Multi-Head Self-Attention是一种特殊的CNN,感兴趣的网友可以看一下:https://arxiv.org/abs/1911.03584

Multi-Head Self-Attention里投影矩阵WQ/WK/WV是否共享的问题相关推荐

  1. 矩阵的逆、伪逆、左右逆,最小二乘,投影矩阵

    主要内容: 矩阵的逆.伪逆.左右逆 矩阵的左逆与最小二乘 左右逆与投影矩阵 一.矩阵的逆.伪逆.左右逆 1.矩阵的逆 定义: 设A是数域上的一个n阶方阵,若在相同数域上存在另一个n阶矩阵B,使得: A ...

  2. 模型矩阵、视图矩阵、投影矩阵

    模型视图投影矩阵的作用,就是将顶点从局部坐标系转化到规范立方体(Canonical View Volnme)中.总而言之,模型视图投影矩阵=投影矩阵×视图矩阵×模型矩阵,模型矩阵将顶点从局部坐标系转化 ...

  3. 投射式AR/AR眼镜的标定之相机姿态、Unity投影矩阵的计算

    首先感谢这位大佬的系列文章 https://zzlzz.blog.csdn.net/article/details/53215105 https://blog.csdn.net/zzlyw/artic ...

  4. 如何将一个向量投影到一个平面上_线性代数笔记(15-16)投影、投影矩阵和最小二乘...

    投影(Projection) 上图为二维平面的投影.其中p是b在a方向上的投影,则有: (1) (2) (3) (正交) 因此可得 进而可得 (P为矩阵:Ax=b的形式,bp均为向量,则A为矩阵) 其 ...

  5. (数学概念)矩阵的逆、伪逆、左右逆,最小二乘,投影矩阵

    主要内容: 矩阵的逆.伪逆.左右逆 矩阵的左逆与最小二乘 左右逆与投影矩阵 一.矩阵的逆.伪逆.左右逆 1.矩阵的逆 定义: 设A是数域上的一个n阶方阵,若在相同数域上存在另一个n阶矩阵B,使得: A ...

  6. 压缩感知中的数学知识:投影矩阵(projection matrix)

    题目:压缩感知中的数学知识:投影矩阵(projection matrix) ========================背景======================== 关注于投影矩阵主要是看 ...

  7. 线性代数笔记18——投影矩阵和最小二乘

    一维空间的投影矩阵 先来看一维空间内向量的投影: 向量p是b在a上的投影,也称为b在a上的分量,可以用b乘以a方向的单位向量来计算,现在,我们打算尝试用更"贴近"线性代数的方式表达 ...

  8. c++实现软光栅(二)实现立方体的绘制几个视图矩阵变换投影矩阵推导

    文章目录 顶点数据分析 如何变换到世界空间:Model_Matrix 缩放rotate_matrix 旋转 平移 如何变换到摄像机空间:View_Matrix 如何使视图更加符合人眼视角(产生近大远小 ...

  9. 线性代数 --- 投影Projection 三(投影矩阵P)

    投影矩阵P 在前面的两篇关于投影的文章中,我们的学习重点分别是: 1,如何计算一个任意向量b在另一个向量a上的投影.也就是计算投影系数和投影向量p(小写). 线性代数 --- 投影Projection ...

最新文章

  1. 三星android获取root权限,三星G9250(S6 Edge公开版全网通 Android 5.1)获取ROOT权限详解教程...
  2. 2.HTML基本格式
  3. 乡村野生草药_官方野生蝇群流口水分数
  4. python鼠标选中事件_python对绑定事件的鼠标、按键的判断实例
  5. 【Python】python文件名和文件路径操作
  6. 局域网只能看到一部分电脑_win10 网上邻居看不到其它电脑、共享不了文件
  7. c# mysql executenonquery_C#中ExecuteNonQuery()返回值注意点分析
  8. python怎么引入os模块的函数_Python里的OS模块常用函数说明
  9. ahb总线协议主机_IIC协议学习笔记
  10. 【HIHOCODER 1133】 二分·二分查找之k小数
  11. Cisdem PDF Password Remover for mac(PDF文件解密工具)
  12. 面向对象(Python):学习笔记之类属性和类方法
  13. java 删除文件路径下的指定文件
  14. widevine level1测试视频的生成方法
  15. Java全系列教程:『Java学习指南』
  16. 爬虫入门-爬取有道在线翻译结果(1)
  17. 二叉树:输出根节点到叶子的路径
  18. 在《王者荣耀》来聊聊游戏的帧同步
  19. java计算机毕业设计绿色生活基于PS、DW的绿色环保宣传网站源码+数据库+系统+lw文档+mybatis+运行部署
  20. 022 Rust死灵书之污染

热门文章

  1. 词霸天下---3~4词根【仅供学习使用】
  2. 《python编程:从入门到实践的》第六章:字典的例题代码
  3. 和老外聊天的几个网站
  4. Neo4j入门-以Movies Project为例
  5. 2023 云海Chatgtp个人商业源码
  6. 《安富莱嵌入式周报》第308期:开源带软硬件安全认证的PLC设计,开源功率计,可靠PID实现,PR2机器人设计文件全开源,智能手表设计WASP-OS
  7. 第7章-JavaScript基础
  8. 帮小姐姐打分系统的模型创建,滚雪球学 Python 第三轮第 11 篇
  9. 基于Java毕业设计学习类视频网源码+系统+mysql+lw文档+部署软件
  10. 红杉资本推出两支总规模达28.5亿美元的新基金,将扩大Web3领域投资