Multi-Head Self-Attention里投影矩阵WQ/WK/WV是否共享的问题
刚从李宏毅老师的Transformer出来,弹幕里关于投影矩阵WQ/WK/WV是否共享已经吵翻,这里写一下自己的看法。
首先得搞清楚Multi-Head Self-Attention,什么是一个head:
如下图所示,是一个Multi-Head Self-Attention的计算图,右侧h的意思就是h个head,所以一个head就是一个Scaled Dot-Product Attention。
然后就是是否共享的问题,先摆出结论:在同一个head中,WQ都是同一个WQ,WK都是同一个WK,WV都是同一个WV,也就是各自共享,但是WQ、WK、WV之间一般互不相同,也就是互相不共享;在不同head里,WQ互不相同,也就是不共享,WK、WV也是如此。
举个例子解释一下,主要以WQ举例,对于WK和WV是同样适用的:比如我现在使用了一个3个heads的self-attention,在head1里,我的WQ=苹果,WK=西蓝花,WV=杨枝甘露,那么在head1里所有的WQ就都是苹果,这也就是“共享”,但是WQ、WK、WV是不同的,这是“不共享”;在head2里,我的WQ=芒果,WK=甘蓝,WV=茉香奶绿,head2里的WQ与head1中的WQ不同,这是“不共享”。
其实Multi-Head Self-Attention就是为了模仿CNN中不同kernel提取不同的模式,也就是得到的feature map中一个channel对应一种模式。类比过来,Multi-Head Self-Attention中一个head提取一种模式,最后h个head的输出concate起来,这样就模仿了CNN的功能!假设不同head里的WQ是一样的,那么也就是说CNN中的kernel都是一样的,那样就没意义了呀,只需要一个head就能解决模式提取,multi-head就毫无意义了,所以WQ在不同的head中是不同的。
下面放一篇论文,主要是证明Multi-Head Self-Attention是一种特殊的CNN,感兴趣的网友可以看一下:https://arxiv.org/abs/1911.03584
Multi-Head Self-Attention里投影矩阵WQ/WK/WV是否共享的问题相关推荐
- 矩阵的逆、伪逆、左右逆,最小二乘,投影矩阵
主要内容: 矩阵的逆.伪逆.左右逆 矩阵的左逆与最小二乘 左右逆与投影矩阵 一.矩阵的逆.伪逆.左右逆 1.矩阵的逆 定义: 设A是数域上的一个n阶方阵,若在相同数域上存在另一个n阶矩阵B,使得: A ...
- 模型矩阵、视图矩阵、投影矩阵
模型视图投影矩阵的作用,就是将顶点从局部坐标系转化到规范立方体(Canonical View Volnme)中.总而言之,模型视图投影矩阵=投影矩阵×视图矩阵×模型矩阵,模型矩阵将顶点从局部坐标系转化 ...
- 投射式AR/AR眼镜的标定之相机姿态、Unity投影矩阵的计算
首先感谢这位大佬的系列文章 https://zzlzz.blog.csdn.net/article/details/53215105 https://blog.csdn.net/zzlyw/artic ...
- 如何将一个向量投影到一个平面上_线性代数笔记(15-16)投影、投影矩阵和最小二乘...
投影(Projection) 上图为二维平面的投影.其中p是b在a方向上的投影,则有: (1) (2) (3) (正交) 因此可得 进而可得 (P为矩阵:Ax=b的形式,bp均为向量,则A为矩阵) 其 ...
- (数学概念)矩阵的逆、伪逆、左右逆,最小二乘,投影矩阵
主要内容: 矩阵的逆.伪逆.左右逆 矩阵的左逆与最小二乘 左右逆与投影矩阵 一.矩阵的逆.伪逆.左右逆 1.矩阵的逆 定义: 设A是数域上的一个n阶方阵,若在相同数域上存在另一个n阶矩阵B,使得: A ...
- 压缩感知中的数学知识:投影矩阵(projection matrix)
题目:压缩感知中的数学知识:投影矩阵(projection matrix) ========================背景======================== 关注于投影矩阵主要是看 ...
- 线性代数笔记18——投影矩阵和最小二乘
一维空间的投影矩阵 先来看一维空间内向量的投影: 向量p是b在a上的投影,也称为b在a上的分量,可以用b乘以a方向的单位向量来计算,现在,我们打算尝试用更"贴近"线性代数的方式表达 ...
- c++实现软光栅(二)实现立方体的绘制几个视图矩阵变换投影矩阵推导
文章目录 顶点数据分析 如何变换到世界空间:Model_Matrix 缩放rotate_matrix 旋转 平移 如何变换到摄像机空间:View_Matrix 如何使视图更加符合人眼视角(产生近大远小 ...
- 线性代数 --- 投影Projection 三(投影矩阵P)
投影矩阵P 在前面的两篇关于投影的文章中,我们的学习重点分别是: 1,如何计算一个任意向量b在另一个向量a上的投影.也就是计算投影系数和投影向量p(小写). 线性代数 --- 投影Projection ...
最新文章
- 三星android获取root权限,三星G9250(S6 Edge公开版全网通 Android 5.1)获取ROOT权限详解教程...
- 2.HTML基本格式
- 乡村野生草药_官方野生蝇群流口水分数
- python鼠标选中事件_python对绑定事件的鼠标、按键的判断实例
- 【Python】python文件名和文件路径操作
- 局域网只能看到一部分电脑_win10 网上邻居看不到其它电脑、共享不了文件
- c# mysql executenonquery_C#中ExecuteNonQuery()返回值注意点分析
- python怎么引入os模块的函数_Python里的OS模块常用函数说明
- ahb总线协议主机_IIC协议学习笔记
- 【HIHOCODER 1133】 二分·二分查找之k小数
- Cisdem PDF Password Remover for mac(PDF文件解密工具)
- 面向对象(Python):学习笔记之类属性和类方法
- java 删除文件路径下的指定文件
- widevine level1测试视频的生成方法
- Java全系列教程:『Java学习指南』
- 爬虫入门-爬取有道在线翻译结果(1)
- 二叉树:输出根节点到叶子的路径
- 在《王者荣耀》来聊聊游戏的帧同步
- java计算机毕业设计绿色生活基于PS、DW的绿色环保宣传网站源码+数据库+系统+lw文档+mybatis+运行部署
- 022 Rust死灵书之污染
热门文章
- 词霸天下---3~4词根【仅供学习使用】
- 《python编程:从入门到实践的》第六章:字典的例题代码
- 和老外聊天的几个网站
- Neo4j入门-以Movies Project为例
- 2023 云海Chatgtp个人商业源码
- 《安富莱嵌入式周报》第308期:开源带软硬件安全认证的PLC设计,开源功率计,可靠PID实现,PR2机器人设计文件全开源,智能手表设计WASP-OS
- 第7章-JavaScript基础
- 帮小姐姐打分系统的模型创建,滚雪球学 Python 第三轮第 11 篇
- 基于Java毕业设计学习类视频网源码+系统+mysql+lw文档+部署软件
- 红杉资本推出两支总规模达28.5亿美元的新基金,将扩大Web3领域投资