Q、K、V生动的例子:

举个简单例子说明:

  • 假设世界上所有小吃都可以被标签化,例如微辣、特辣、变态辣、微甜、有嚼劲....,总共有1000个标签,现在我想要吃的小吃是[微辣、微甜、有嚼劲],这三个单词就是我的Query
  • 来到东门老街一共100家小吃店,每个店铺卖的东西不一样,但是肯定可以被标签化,例如第一家小吃被标签化后是[微辣、微咸],第二家小吃被标签化后是[特辣、微臭、特咸],第三家小吃被标签化后是[特辣、微甜、特咸、有嚼劲],其余店铺都可以被标签化,每个店铺的标签就是Keys,但是每家店铺由于卖的东西不一样,单品种类也不一样,所以被标签化后每一家的标签List不一样长
  • Values就是每家店铺对应的单品,例如第一家小吃的Values是[烤羊肉串、炒花生]
  • 将Query和所有的Keys进行一一比对,相当于计算相似性,此时就可以知道我想买的小吃和每一家店铺的匹配情况,最后有了匹配列表,就可以去店铺里面买东西了(Values和相似性加权求和)。最终的情况可能是,我在第一家店铺买了烤羊肉串,然后在第10家店铺买了个玉米,最后在第15家店铺买了个烤面筋

以上就是完整的注意力机制,采用我心中的标准Query去和被标签化的所有店铺Keys一一比对,此时就可以得到我的Query在每个店铺中的匹配情况,最终去不同店铺买不同东西的过程就是权重和Values加权求和过程。

使用self-attention layer取代RNN所做的事情

而CNN的一个好处是:它是可以并行化的 (can parallel),不需要等待红色的filter算完,再算黄色的filter。但是必须要叠很多层filter,才可以看到长时的资讯。所以今天有一个想法:self-attention,如下图3所示,目的是使用self-attention layer取代RNN所做的事情

图3:You can try to replace any thing that has been done by RNN with self-attention

所以重点是:我们有一种新的layer,叫self-attention,它的输入和输出和RNN是一模一样的,输入一个sequence,输出一个sequence,它的每一个输出 b1-b4 都看过了整个的输入sequence,这一点与bi-directional RNN(双向循环神经网络)相同。但是神奇的地方是:它的每一个输出 b1-b4可以并行化计算。

Self-attention整体过程:

图4:self-attention就是一堆矩阵乘法,可以实现GPU加速

详细的过程:Vision Transformer 超详细解读 (原理分析+代码解读) (一) - 知乎

如何理解Q、K、V,Self-attention + Multi-head Self-attention相关推荐

  1. 《Attention Is All You Need》注意力机制公式中Q,K,V的理解

    一.概述 <Attention Is All You Need>是一篇关于注意力机制里程碑的文章,从2017年发表至今2020年7月已经获得了上万的引用.该文的两大亮点一是提出了一个几乎仅 ...

  2. 深度学习attention机制中的Q,K,V分别是从哪来的?

    提问:找了各种资料,也读了论文原文,都是详细介绍了怎么把Q,K,V通过什么样的运算得到输出结果,始终没有一个地方有解释Q,K,V是从哪来的?一个layer的输入不就是一个tensor吗,为什么会有Q, ...

  3. 神经网络 注意力机制 Q K V 理解

    注意力机制 公式 为了简单假定       Q矩阵 K矩阵一样 Q                                                   K转置              ...

  4. transformer注意力机制的理解(Q,K,V,dk)

    Attention公式: 上面这个注意力公式可以理解为是算 V 的加权后的表示 权重就是V前面的所有部分, 其中 softmax 可以使得权重概率分布和为1. 其中  算的就是注意力的原始分数(其实也 ...

  5. 注意力机制Q K V

    https://zhuanlan.zhihu.com/p/67115572 要点: 在模型训练好后,根据attention矩阵,我们就可以得到源语言和目标语言的对齐矩阵了 通过设计一个函数将目标模块m ...

  6. 深度学习的相似度计算 向量之间的相似程度计算 Q K V的注意力权重

    https://blog.csdn.net/qq_32797059/article/details/106502737

  7. self attentin Q K V心得

    https://blog.csdn.net/weixin_43821843/article/details/103208033?utm_medium=distribute.pc_relevant.no ...

  8. 学习Transformer前言(Self Attention Multi head self attention)

    一.前言 一直在做项目,也比较懒没有挤出时间去学习新的东西,感觉停滞很久了,好长一段时间都没有新的知识输入,早就需要就去学习transformer了,因此先来学习注意力机制,本文为个人的一个笔记总结. ...

  9. 【SwinTransformer源码阅读二】Window Attention和Shifted Window Attention部分

    先放一下SwinTransformer的整体结构,图片源于原论文,可以发现,在Transformer的Block中 W-MSA(Window based multi-head self attenti ...

  10. 从Attention到Bert——1 Attention解读

    下一篇从Attention到Bert--2 transformer解读 文章目录 1 Attention的发展历史 2015-2017年 2 Attention的原理 3 Multi-Head Att ...

最新文章

  1. 递归下降文法C语言实验报告,递归下降语法分析器实验报告.doc
  2. linux目录空间内存,Linux 目录结构:内存文件夹
  3. HFSS15.0安装步骤
  4. c#进阶(4)—— Redis 用于消息队列的存储
  5. vscode在vue页面中书写代码没有提示!怎么破?
  6. 超详细的UI设计软件教程与资料
  7. VSCode修改字体的方法
  8. excel函数公式html文档,15个常用excel函数公式
  9. 清除计算机垃圾cmd命令,dos命令清理垃圾,教你dos命令清理垃圾的方法
  10. 扭曲丛林服务器未响应,LOL等级最高玩家已246级 狂刷扭曲丛林攒经验
  11. 解决fullpage滑动,控制台的报错提示
  12. MXT6208量产修复工具+v2.0非常好用哦!
  13. 使用Notepad++实现文本编辑的豆沙绿背景颜色,护眼
  14. 互联网晚报| 8月18日|未婚已育女性办理生育津贴不需要结婚证;拼多多将上线跨境电商平台;小米汽车将采用宁德时代麒麟和比亚迪刀片...
  15. 乐优商城(三十)——授权中心
  16. 网络7层协议,4层,5层?理清容易混淆的几个概念
  17. 八种炫酷纯CSS加载动画代码
  18. 瑞萨单片机C语言,瑞萨单片机学习笔记(1)基本配置
  19. 辽师计算机杂志期刊等级认定,辽师学术期刊认标准(2017年5月修订).doc
  20. 视频监控系统时间显示常见故障分析 及时间同步解决方案

热门文章

  1. js经典面试题及答案汇总(持续更新)
  2. git版本管理软件——git发布补丁和打补丁
  3. 2012考研数学二第(17)题——积分应用:求面积、旋转体的体积+导数应用:曲线相切
  4. usb扫描枪驱动下载 wince_WinCE系列全站仪USB驱动程序(WinCE全站仪USB驱动) 最新中文版...
  5. 5G工业互联网的“下半场”该拼什么?
  6. 继承第一课:减少重复代码
  7. PostgreSQL安全基线
  8. Unix基本系统数据类型
  9. 计算机病毒与防范技术
  10. php assoc 循环,PHP嵌套While循环不适用于mysql_fetch_assoc