attention的query、key和value的理解
attention是干什么用的?解决什么问题?
我们如果使用传统的窗口分割数据的方法,那么我们很难让每个窗口都有全局的信息,实际上每个窗口只有自己的那部分信息其他部分的信息其实这个窗口是没有的。
为了让这个点又具有当前窗口的信息也具有全局的信息,这里就要求我们在这里融入其他部分的信息,这就是注意力机制提出的背景驱动。
query和key的理解
可以看到我们是想把其他部分的信息融合到当前这个窗口当中,但是这个融合不可以是简单的加和,是需要一个权重,这就是我们需要使用query和key的原因。
这哥俩的作用就是生成一个权重的情况,这里想要完全的了解这个东西为什么叫这个东西,我们还得想一下谁起的这个名字的了,也就是谷歌,这个大哥主要是搞搜索的(虽然他现在搜索只是一小部分业务,但是这个东西毕竟是起家的行当嘛)这个例的query其实就是查询,而key则是被比对的项。
这俩相乘其实得到的是一个向量的点积,这个点积其实反映的是两个是不是十分相似,而这个相似与否,则可以理解乘是不是相关的问题。
所以这个最终的结果就是我们通过这个乘算之后过softmax得到一个权重,这个权重其实是两者的cos相似度,之后通过这个cos相似度,当成相关性给原来的数据融入资源。
但是为什么我们看到的都是直接矩阵乘法乘在一起的?
我们先针对单个query进行理解:
其实只是单个query和全部的key(包括这个query本身)求相似度,之后通过这个相似度将value(对应每个key)融入到这个query当中。
然后我们对这个内容进行并行化:
也就得到了softmax(q×k)×v的形式
这个推算的过程之后会补充。
attention的query、key和value的理解相关推荐
- vue取通过key取value_彻底理解Vue中的Watcher、Observer、Dep
思考以下代码 new Vue({el: '#example',data(){return{obj:{a:1}}}, }) 当我们写下这行代码时,vue将我们在data内定义的obj对象进行依赖追踪. ...
- 关于数据库键(Key)的一些理解
超键:如果一个关系(表)中所有属性(列)都由一个属性集合决定,那么这组属性集合称为超键. 显然,由一个关系的所有属性组成的属性集合必然是这个关系的超键. 通俗地讲,超键用来唯一确定一个元组(行,记录) ...
- max(label_counts, key=label_counts.get)的理解
label_counts={888:9999,8848:88833338,990:23333} print(max(label_counts, key=label_counts.get)) 就是把选出 ...
- A Cuboid CNN Model with an Attention Mechanism for Skeleton-based Action Recognition---论文理解
翻译 一个有注意力的长方体CNN模型基于骨架的动作识别机制 摘要 深度传感器(如微软Kinect)的引入推动了人类动作识别的研究.深度传感器收集的人体骨骼数据为动作识别传递了大量的信息.虽然在动作识别 ...
- Transformer--Attention is All You Need (推荐--非常详细)
文章目录 前言 对Transformer的直观认识 论文地址 模型提出的背景(或者动机) 本论文模型---Tranformer Model Architecture Encoder residual ...
- 万字逐行解析与实现Transformer,并进行德译英实战(一)
文章目录 本文内容 环境准备 Part 1: 模型架构 Encoder and Decoder 的堆叠 Encoder Decoder Attention Position-wise 前馈神经网络 E ...
- [深度学习-实践]Transformer模型训练IMDB-tensorflow2 keras
1. 引言 什么是Self-attention, Muti-attention和Transformer 2. 数据预处理 mdb影评的数据集介绍与下载 下载后执行下面预处理代码,把每个词都转化为索引. ...
- 多模态多目标学习-vsn+transformer
多模态:结构化数据(表格数据)+文本数据(或图片.音频)进行特征融合 多目标:共享分特征处理部分,然后分别再次全连接激活,输出多个训练目标 本文针对如上两个特点,基于TensorFlow2.0,实现了 ...
- tf.keras.layers.Attention 理解总结
官方链接:https://tensorflow.google.cn/versions/r2.1/api_docs/python/tf/keras/layers/Attention tf.keras.l ...
最新文章
- libpcap 源代码分析(二)
- 2022年全球及中国金属摩托车车轮市场竞争格局与供需前景调研报告
- POJ 1654 Area 凸包面积
- 数据仓库入门(实验10)在Excel中查询层次结构
- 常遇问题及一些可能的解决方案
- ural 1297 O(nlogn) 后缀数组求最长回文字串
- js中短路运算符 ||
- 【zz】matlab 直方图匹配
- python数字组合算法_python - 简单算法题 - 求三位数组合
- python入门基础知识实例-Python入门基础知识实例,值得收藏!
- 【POJ】2454.Jersey Politics
- 细数那些年ZStack拿过奖的案例
- 构建之法——现代软件工程
- EXCEL VBA编程入门一
- 异步电路中时钟同步的方法
- GitHub、Apache 等平台开源项目,受美国出口管制么?
- 强烈推荐www.wikipedia.org英文版
- Ant下载安装及使用详解
- 自动驾驶仿真测试的意义
- 我的2019年终总结
热门文章
- Gradle常用配置
- Linux中设置定期备份oracle数据库
- exception ----- Functions
- IOS开发-GitHub使用详解
- 计算当前日期是一年中的第几周
- C# WinForm开发系列 - DataGridView A
- 用python编写的无线AP扫描器
- CSP认证201512-3	画图[C++题解]:dfs、左下角建系、坐标反着读入
- PAT甲级1002 A+B for Polynomials:[C++题解]字符串、多项式加法或高精度加法
- 计算机二级c在哪里学习,2017年计算机二级C语言考点学习