https://www.jianshu.com/p/7a61533fd73b

通俗理解讲解一

以翻译为例

  • source:我 是 中国人
  • target: I am Chinese

比如翻译目标单词为 I 的时候,Q为I

而source中的 “我” “是” “中国人”都是K,

那么Q就要与每一个source中的K进行对齐(相似度计算);"I"与"我"的相似度,"I"与"是"的相似度;"I"与"中国人"的相似度;

相似度的值进行归一化后会生成对齐概率值(“I"与source中每个单词的相似度(和为1)),也可以注意力值;

而V代表每个source中输出的context vector;如果为RNN模型的话就是对应的状态向量;即key与value相同;

然后相应的V与相应的P进行加权求和,就得到了context vetor;

从网上找到了一张图更能证明我的理解的正确性;

阶段1中的F函数是一个计算得分的函数;比如可以用前馈神经网络结构进行计算得分:

这里的v与上面的V是不一样的,这属于一个单隐藏层的前馈神经网络;v属于隐藏层激活后的一个计算得分的权重系数矩阵;

w属于激活前的权重系数矩阵;

这里应该是输出神经元为一个得分值;所以需要多个前馈神经网络同时计算每个hi的得分;与我预想的不同,以为一个前馈神经网络就可以输出所有对应的得分,即输出层的维度是与input序列长度一样;(目前的理解);为什么不与预想的一致呢?

然后对所有得分进行归一化,一般选择softmax方法;让权重系数为1

第二阶段:将hi与对应的权重系数相乘得到一个context vector;即注意力值.

通俗理解讲解二

Q、K、V是什么

[PS:本文谈论的Q、K、V只限于seq2seq结构]

  • Q:指的是query,相当于decoder的内容
  • K:指的是key,相当于encoder的内容
  • V:指的是value,相当于encoder的内容

看到这里,是不是只想直呼卧槽,这什么鬼。不急,先看一个例子

例子

由于讨论的是seq2seq任务,于是来看看机器翻译。
假如我们要将我喜欢看电影翻译成I like watching movies,步骤则会如下

  • 使用一种编码方式(如LSTM、CNN、Transformer等)编码中文
  • 使用一种方式解码
    1.机器翻译这个任务中会在解码端给一个开始的标记,如</s>,我们根据这个标记传给解码端,开始生成英文,比如生成了I这个单词,下一步当然是需要生成’like’这个单词,于是这个I将会作为query集去查找,形象话说就是我们需要使用已经有的东西去询问一些事情。
    ** 2.去哪里查找?当然是编码端,也就是那些可以被查找的信息,如果原文在编码中是字向量表示则是我、喜、欢、看、电、影。
    3.找到了返回啥的信息?返回编码端的信息,具体的会将我、喜、欢、看、电、影做一个调整再回传。
    到这里,对于使用Attention机制的seq2seq任务,这么理解我认为是没问题的。
  • 参考原文:https://blog.csdn.net/ningyanggege/article/details/89786077和
  • https://blog.csdn.net/u013887652/article/details/101062567?depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1&utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromBaidu-1#1

作者:top_小酱油
链接:https://www.jianshu.com/p/7a61533fd73b
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

通俗理解注意力机制中的Q、K和V表示的具体含义相关推荐

  1. 深度学习attention机制中的Q,K,V分别是从哪来的?

    提问:找了各种资料,也读了论文原文,都是详细介绍了怎么把Q,K,V通过什么样的运算得到输出结果,始终没有一个地方有解释Q,K,V是从哪来的?一个layer的输入不就是一个tensor吗,为什么会有Q, ...

  2. 注意力机制中的Q、K和V的意义

    以翻译为例: source:我 是 中国人 target: I  am Chinese 比如翻译目标单词为 I 的时候,Q为I 而source中的 "我"   "是&qu ...

  3. 《Attention Is All You Need》注意力机制公式中Q,K,V的理解

    一.概述 <Attention Is All You Need>是一篇关于注意力机制里程碑的文章,从2017年发表至今2020年7月已经获得了上万的引用.该文的两大亮点一是提出了一个几乎仅 ...

  4. 由注意力机制中scaled sqrt(dk)操作联想到期望与方差的本质推导

    在注意力机制文章Attention Is All You Need中,作者在计算dot-product attention时,引入了一个scaled因子,即 之所以引入scaled因子,是让数据符合0 ...

  5. 【深度好文】ICLR 2022 | cosFormer:重新思考注意力机制中的Softmax

    关注公众号,发现CV技术之美 导读:Transformer在自然语言处理.计算机视觉和音频处理方面取得了巨大成功.作为其核心组成部分之一,Softmax Attention模块能够捕捉长距离的依赖关系 ...

  6. java 接口强制转换_三分钟学习Java泛型中T、E、K、V、?的含义

    作者:Java武学秘籍

  7. 通俗易懂:Attention中的Q、K、V是什么?怎么得到Q、K、V?

    说一下Attention中的QKV是什么,再举点例子说明QKV怎么得到.还是结合例子明白的快. Attention中Q.K.V是什么? 首先Attention的任务是获取局部关注的信息.Attenti ...

  8. Attention机制中 Q、K、V分别从哪里来?

    在深度学习中,尤其是自然语言处理领域,Attention 机制已经成为一种非常重要的方法.它的核心思想是根据输入序列中的每个元素与当前元素的相关性来分配不同的权重,从而实现对输入序列的动态聚焦.在 A ...

  9. transformer中QKV的通俗理解(渣男与备胎的故事)

    transformer中QKV的通俗理解(渣男与备胎的故事) 用vit的时候读了一下transformer的思想,前几天面试结束之后发现对QKV又有点忘记了, 写一篇文章来记录一下 参考链接: 哔哩哔 ...

最新文章

  1. 验证码在服务器不显示
  2. 剑指offer和LeetCode题目笔记
  3. 802.11ac标准简介
  4. JAVA编程经验汇总 (载)
  5. 移动web现状、viewport视口、二倍图、移动web开发主流方案、布局技术选型(流式布局、flex弹性布局、less+rem+媒体查询布局、混合布局、媒体查询、bootstrap)
  6. CUDA C程序中的函数类型
  7. Spring Cloud Spring Boot mybatis分布式微服务云架构(五)构建RESTful API
  8. 【读书笔记】iOS-Web应用程序的自动化测试
  9. 北大学神恽之玮斩获西蒙斯学者奖:18岁满分获IMO金牌,35岁成MIT终身教授,北大数学“黄金一代”刷新战绩...
  10. XILINX 7系列FPGA与SOC产品选型指南
  11. 交通灯matlab程序,毕业论文设计(交通灯).doc
  12. RTKLIB_E.5对流层和电离层模型
  13. api接口—闲鱼搜索的数据
  14. 雅可比(Jacobi)及高斯-塞德尔(Gauss_Seidel)迭代法求解线性方程组的matlab现实
  15. 将SVG图像插入到Word中 - Tools
  16. 关于竞赛,CSDN还有很长的路要走
  17. 虹科分享 | 简单实用的CANopen介绍,看完你就明白了(1)——CANopen基础概念
  18. 教你用 python 制作一张五彩斑斓的黑
  19. iOS Xcode13基于dSYM和ips文件Crash奔溃堆栈解析
  20. web期末网站设计大作业 奶茶店网站美食餐饮网站设计与实现(HTML+CSS+JavaScript)

热门文章

  1. 电脑任何字都打不出来_“有时候觉得自己一个字都写不出来了”
  2. 测试接口时使用PostMan怎么设置全局变量?
  3. java float 加法_JAVA 实现精确的加减乘除运算
  4. 非关系型数据库-NoSQL(Redis)
  5. linux烧录,新人求教,怎么烧录Linux系统到一个小芯片上?
  6. treeview控件怎么使用修改发育树_树形控件在生产力工具中的设计
  7. access open 知乎_NX使用——远程IDE利器
  8. php文本域输出_PHP转换文本框内容为HTML格式的方法
  9. 深职院计算机学院教室,机电学院计算机专业赴深职院为国赛训练取经
  10. bp神经网络应用实例_自监督图神经网络