以翻译为例:

source:我 是 中国人

target: I  am Chinese

比如翻译目标单词为 I 的时候,Q为I

而source中的 “我”   “是”  “中国人”都是K,

那么Q就要与每一个source中的K进行对齐(相似度计算);"I"与"我"的相似度,"I"与"是"的相似度;"I"与"中国人"的相似度;

相似度的值进行归一化后会生成对齐概率值(“I"与source中每个单词的相似度(和为1)),也可以注意力值;

而V代表每个source中输出的context vector;如果为RNN模型的话就是对应的状态向量;即key与value相同;

然后相应的V与相应的P进行加权求和,就得到了context vetor;

从网上找到了一张图更能证明我的理解的正确性;

阶段1中的F函数是一个计算得分的函数;比如可以用前馈神经网络结构进行计算得分:

这里的v与上面的V是不一样的,这属于一个单隐藏层的前馈神经网络;v属于隐藏层激活后的一个计算得分的权重系数矩阵;

w属于激活前的权重系数矩阵;

这里应该是输出神经元为一个得分值;所以需要多个前馈神经网络同时计算每个hi的得分;与我预想的不同,以为一个前馈神经网络就可以输出所有对应的得分,即输出层的维度是与input序列长度一样;(目前的理解);为什么不与预想的一致呢?

然后对所有得分进行归一化,一般选择softmax方法;让权重系数为1

第二阶段:将hi与对应的权重系数相乘得到一个context vector;即注意力值;

注意力机制中的Q、K和V的意义相关推荐

  1. 通俗理解注意力机制中的Q、K和V表示的具体含义

    https://www.jianshu.com/p/7a61533fd73b 通俗理解讲解一 以翻译为例 source:我 是 中国人 target: I am Chinese 比如翻译目标单词为 I ...

  2. 深度学习attention机制中的Q,K,V分别是从哪来的?

    提问:找了各种资料,也读了论文原文,都是详细介绍了怎么把Q,K,V通过什么样的运算得到输出结果,始终没有一个地方有解释Q,K,V是从哪来的?一个layer的输入不就是一个tensor吗,为什么会有Q, ...

  3. 《Attention Is All You Need》注意力机制公式中Q,K,V的理解

    一.概述 <Attention Is All You Need>是一篇关于注意力机制里程碑的文章,从2017年发表至今2020年7月已经获得了上万的引用.该文的两大亮点一是提出了一个几乎仅 ...

  4. 由注意力机制中scaled sqrt(dk)操作联想到期望与方差的本质推导

    在注意力机制文章Attention Is All You Need中,作者在计算dot-product attention时,引入了一个scaled因子,即 之所以引入scaled因子,是让数据符合0 ...

  5. 【深度好文】ICLR 2022 | cosFormer:重新思考注意力机制中的Softmax

    关注公众号,发现CV技术之美 导读:Transformer在自然语言处理.计算机视觉和音频处理方面取得了巨大成功.作为其核心组成部分之一,Softmax Attention模块能够捕捉长距离的依赖关系 ...

  6. 通俗易懂:Attention中的Q、K、V是什么?怎么得到Q、K、V?

    说一下Attention中的QKV是什么,再举点例子说明QKV怎么得到.还是结合例子明白的快. Attention中Q.K.V是什么? 首先Attention的任务是获取局部关注的信息.Attenti ...

  7. Attention机制中 Q、K、V分别从哪里来?

    在深度学习中,尤其是自然语言处理领域,Attention 机制已经成为一种非常重要的方法.它的核心思想是根据输入序列中的每个元素与当前元素的相关性来分配不同的权重,从而实现对输入序列的动态聚焦.在 A ...

  8. transformer注意力机制的理解(Q,K,V,dk)

    Attention公式: 上面这个注意力公式可以理解为是算 V 的加权后的表示 权重就是V前面的所有部分, 其中 softmax 可以使得权重概率分布和为1. 其中  算的就是注意力的原始分数(其实也 ...

  9. 神经网络 注意力机制 Q K V 理解

    注意力机制 公式 为了简单假定       Q矩阵 K矩阵一样 Q                                                   K转置              ...

最新文章

  1. 25个强大的 jQuery 砌体网页设计作品
  2. Oracle 数据库 - sql语句筛选出符合查询条件的第一条结果实例演示,sql查询结果只显示指定行数的数据方法
  3. Optimized Purchasing基础知识
  4. Oracle 数据类型及存储方式(袁光东 原创)
  5. 社群广场程序公众号版本程序源码-支持群采集
  6. Tomcat的BIO、NIO、ARP模式
  7. charles测试学习 手机端连接电脑进行抓包分析
  8. 随心所欲学Java,起步-心理安慰
  9. python按位处理二进制文件_对如何在python shell中对16位二进制数执行按位运算感到困惑...
  10. 狗和猫有相同的情绪反应吗?
  11. WingIDE5注册破解的方法
  12. php ios表情包,php处理APP中emoji表情包的方法
  13. Python实现GWO智能灰狼优化算法优化支持向量机分类模型(SVC算法)项目实战
  14. char与signed char, unsigned char的区别
  15. word2013表格文字上下居中
  16. Java 套接字(Socket)
  17. Android Studio教学视频118集(共18.2G)
  18. 你是许三多还是成才?--《士兵突击》观后感
  19. css行高line-height研究
  20. 基于eclipse的android项目实战—博学谷(新功能五)更换头像

热门文章

  1. 详解Django中Request对象的相关用法
  2. python3 中print 显示不全问题
  3. Python的Super方法
  4. linux新手程序,linux新手需要掌握的入门级命令
  5. nginx 上传 文件超时设置_Nginx大文件上传413和500问题排查总结
  6. Linux进程地址空间与进程内存布局详解,内核空间与用户空间
  7. 如何比较对比两张图片差异(判断是不是同一张)== all
  8. 网络编程 数据的封装与解封装过程
  9. 如何在C++中调用python程序?
  10. mysql稠化报表_使用Partitioned Outer Join实现稠化报表