attention 机制主要是为了解决在一句话中 让机器学会和人类一样有关注的重点。

那么,在NLP中,Attention机制是什么呢?从直觉上来说,与人类的注意力分配过程类似,就是在信息处理过程中,对不同的内容分配不同的注意力权重。下面我们详细看看,在自然语言处理中,注意力机制是怎么实现的。
https://mp.weixin.qq.com/s/_rP-0WgqRCyKq5toXLCEvw

RNN hard to parallel
using CNN to replace RNN
self-attention layer

attention is all you need

在计算attention时主要分为三步,
第一步是将query和每个key进行相似度计算得到权重,常用的相似度函数有点积,拼接,感知机等;
然后第二步一般是使用一个softmax函数对这些权重进行归一化;
最后将权重和相应的键值value进行加权求和得到最后的attention。
目前在NLP研究中,key和value常常都是同一个,即key=value。
Q K V R如何计算的
然后使用 q和k 去计算 得到a 然后使用softmax计算得到a冒,然后再与每个v计算得到b
下面是矩阵如何计算的,

矩阵计算部分,对于q k v 计算是根据分别的W 和a的相乘计算 得到数据。

a 计算中 k是有个转置 ,然后才能与q相乘,得到a

如上图所示, A通过softmax 得到A 冒。。

V 与A相乘 得到O 即为输出O

总结一下,就是如上图所示,I (一大锥a)与Wq 等相乘得到 Q K V ,
Q与K相乘得到 A 再softmax 得到A冒, V再与A冒 相乘 得到 输出O 也是一大锥 b

其中每个 都是自己和自己的计算,和其他没有太大关系。
多head 计算中,就是每个head 可能计算 关注点不一样所看的不一样

把位置信息加进去,在原来Xi
后面加入一个Pi
Wp 如图所示


add 就是把a和b作合
feed forward 就是多做处理

if you can use seq2seq , you can use transformer

深度方向上用 RNN



https://blog.csdn.net/luoxiaolin_love/article/details/82258069



3.《Attention Is All You Need》

self-attention相关推荐

  1. attention seq2seq transformer bert 学习总结 _20201107

    https://blog.csdn.net/weixin_44388679/article/details/102575223 Seq2Seq原理详解 一文读懂BERT(原理篇) 2018年的10月1 ...

  2. “Attention is All You Need 翻译

    <p><img src="output_0_0.png" alt="png"></p> "Attention is ...

  3. 《attention is all you need》解读

    Motivation: 靠attention机制,不使用rnn和cnn,并行度高 通过attention,抓长距离依赖关系比rnn强 创新点: 通过self-attention,自己和自己做atten ...

  4. 浅谈Transformer 及Attention网络

    1 Transformer 模型结构 处理自然语言序列的模型有 rnn, cnn(textcnn),但是现在介绍一种新的模型,transformer.与RNN不同的是,Transformer直接把一句 ...

  5. Attention is all your need 谷歌的超强特征提取网络——Transformer

    过年放了七天假,每年第一件事就是立一个flag--希望今年除了能够将技术学扎实之外,还希望能够将所学能够用来造福社会,好像flag立得有点大了.没关系,套用一句电影台词为自己开脱一下--人没有梦想,和 ...

  6. 《Attention is All You Need》浅读(简介+代码)

    2017年中,有两篇类似同时也是笔者非常欣赏的论文,分别是FaceBook的<Convolutional Sequence to Sequence Learning>和Google的< ...

  7. seq2seq与Attention机制

    学习目标 目标 掌握seq2seq模型特点 掌握集束搜索方式 掌握BLEU评估方法 掌握Attention机制 应用 应用Keras实现seq2seq对日期格式的翻译 4.3.1 seq2seq se ...

  8. 什么是self-attention、Multi-Head Attention、Transformer

    本文紧接<什么是Encoder-Decoder.Seq2Seq.Attention?>,目的是从输入输出.以及内部数据流和详细的计算过程角度,去剖析self-attention.Multi ...

  9. 谷歌NIPS论文Transformer模型解读:只要Attention就够了

    作者 | Sherwin Chen 译者 | Major,编辑 | 夕颜 出品 | AI科技大本营(ID:rgznai100) 导读:在 NIPS 2017 上,谷歌的 Vaswani 等人提出了 T ...

  10. 图解 Attention(完整版)!

    ↑↑↑关注后"星标"Datawhale 每日干货 & 每月组队学习,不错过 Datawhale干货 译者:张贤,哈尔滨工程大学,Datawhale原创作者 本文约4000字 ...

最新文章

  1. php yii orm,Yii中的sql查询的位置(或任何支持ORM的框架)?
  2. python中文软件-Python
  3. 学python需要什么-想要学人工智能需要学些什么python的知识
  4. 基于visual Studio2013解决算法导论之007优先队列(堆实现)
  5. asp.net各种类型视频播放代码(全)(转)
  6. 对比学习系列论文CPCforHAR(一):Contrastive Predictive Coding for Human Activity Recognition
  7. LeetCode-剑指 Offer 10- I. 斐波那契数列
  8. 【prometheus】alertmanager 配置文件示例
  9. Tarjan 强连通分量
  10. 文献记录(part94)--Clustering and outlier detection using isoperimetric number of trees
  11. 1Android系统移植与驱动开发概述
  12. 每日一笑 | 程序员千万不能轻易去网吧!
  13. dataframe 众数的方法_学习数据分析数据方法论 [描述性统计分析]
  14. [转] 虚拟机VMware3种网络模式(桥接、nat、Host-only)的工作原理
  15. oracle导入dmp文件出错,IMP导入时的错误以及解决办法
  16. ruby入门_loop
  17. 小说APP源码的图片加载方式,懒加载和预加载的实现
  18. dedecms后台界面更改
  19. 用Jekyll生成网页部署的若干问题
  20. OpenStack开源云平台

热门文章

  1. 做抖音为什么需要海外抖音服务器?如何自建海外抖音服务器站点?
  2. Vue前端项目-登录组件-登录功能(上)
  3. Ant Design学习——Mentions
  4. 关于游戏开发,如何开发一款游戏(基于unity)
  5. MySQL 03 高级查询(一)
  6. 【Java】Java安装与配置指南
  7. 详细分析MySQL的日志(一)本文原创地址:博客园骏马金龙https://www.cnblogs.com/f-ck-need-u/p/9001061.html
  8. 免费申报!5G网络Awards参评企业征集,欢迎参与!
  9. 【ansys workbench】1.零件分析基本思路讲解
  10. java 生成随机md5_Java常用工具类(计算MD5,验证码随机生成,天数差值计算)