考虑整个 sequence 长度的内容

可以多层 self attention 叠加 attention is all you need

1, dafada

alpha  : attention score 代表两个输入的关联性

b1~b4 并行产生

Muti-head self attention

Positional Encoding

No position information in self attention

each position has a unique position vector e^i

Truncated self attention 并不需要看整句话,只需要考虑小范围数据,加快训练速度

self attention 适用于输入为 vector set

影像也可以看成一个 vector set ,每一个pixel 都可以看成一个vector

CNN是简化版的 self attention, CNN相对是小的 model 适合数据集小的情况

CNN 的model小,弹性小,适合数据比较小的情况 

 

self attention 比 RNN更 平行处理输入数据,运算速度更快

很多架构从 RNN改成 self attention

self attention 变形很多, 运算量非常大

李宏毅 Attention相关推荐

  1. 【李宏毅2020 ML/DL】P53-55 Conditional Generation by RNN Attention Pointer Network Recursive

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...

  2. Monotonic Chunkwise Attention(MoChA)——李宏毅人类语言处理

    其是想在attention上做一些改变,我们可以把他想成是动态的移动我们的window. here?:吃两个输入,z0和h,输出Yes/No,选择是否将window放在这里,如果No的话往右移动. 在 ...

  3. attention seq2seq transformer bert 学习总结 _20201107

    https://blog.csdn.net/weixin_44388679/article/details/102575223 Seq2Seq原理详解 一文读懂BERT(原理篇) 2018年的10月1 ...

  4. [深度学习] 自然语言处理 --- 1.Attention

    目录 Attention简介 Encoder-Decoder框架 Attention模型 Attention 的优点 Attention 不同类型 1. 计算区域 2. 所用信息 3. 结构层次 4. ...

  5. “李宏毅老师对不起,我要去追这门美女老师的课了” ,台大陈蕴侬深度学习课程最新资料下载...

    估计很多同学看到台大首先想到是李宏毅老师的"深度学习人类语言处理"课程,不过这次我们说的是台湾大学陈蕴侬老师的"应用深度学习"课程,这门课程我们之前推荐过,不过 ...

  6. 【李宏毅机器学习】Brief Introduction of Deep Learning 深度学习简介(p12) 学习笔记

    李宏毅机器学习学习笔记汇总 课程链接 Deep Learning 文章目录 Deep Learning Deep Learning attracts lots of attention Ups and ...

  7. Attention模型

    李宏毅深度学习 https://www.bilibili.com/video/av9770302/?p=8 Generation 生成模型基本结构是这样的, 这个生成模型有个问题是我不能干预数据生成, ...

  8. transformer中attention计算方式_Reformer: 局部敏感哈希、可逆残差和分块计算带来的高效...

    最近要开始使用Transformer去做一些事情了,特地把与此相关的知识点记录下来,构建相关的.完整的知识结构体系, 以下是要写的文章,本文是这个系列的第九篇: Transformer:Attenti ...

  9. 【必收藏】台大李宏毅老师课程 | 资源汇总、笔记总结与索引

    2020年7月20日至2020年8月18日,我刷完了台大李宏毅老师的深度学习/机器学习相关课程,我分为了 64 个大课时,记录了 64 篇笔记. 我对于李老师课程感到惊讶又欣喜: 惊讶在于,李老师能把 ...

最新文章

  1. shell学习之路:流程控制(if)
  2. xen 虚拟机挂了,宿主机假死的问题追终,全思路
  3. 图片和input不对齐_pdf到png再到mp4短视频:不需要工具,2个指令1键搞定
  4. 3、构建并安装PHP扩展
  5. iOS高级-QuartzCore框架-背景平铺
  6. python中列表的查_每日一记----python中的列表【查询和插入】
  7. android常用的存储方式,Android数据的四种存储方式
  8. java实验报告实验思路_20145307第一周JAVA实验报告
  9. unity 解决乱码_解决unity3d读写中文乱码
  10. 已经更CSS《一篇文章让你从HTML零基础入门前端开发》12.22
  11. 记录安卓,IOS安装kali的办法
  12. 红包大战不再是两马战,内容平台为何成为新生力量?
  13. pip install 安装的问题
  14. 产品经理和项目经理区别与联系
  15. MySQL 批量插入/填充数据 - 实践
  16. exp和expdp的filesize参数的使用--导出多个文件
  17. python爬取微博热搜写入数据库_python爬虫爬取微博热搜
  18. [LOJ#6617][THUPC2019]摆家具(矩阵乘法 + 子集和变换)
  19. XenServer使用技巧集合
  20. HTML几种设置水平居中和垂直居中的方式

热门文章

  1. jsp文字上下居中显示_怎么把jsp的文字居中
  2. 安装前端编辑器HBuilderX
  3. 五句话介绍Hessian序列化
  4. 66页三级医院智慧医院 信息化建设规划
  5. 初探QQ空间本地安全问题!
  6. 光荣与梦想:Uniswap的2020回顾和2021展望
  7. 有关esp8266OTA升级的过程
  8. 【2020版冲刺年薪30W】超全大数据学习路线+思维导图
  9. 华为鸿蒙系统应用开发工具介绍 DevEco Studio
  10. 使用Meterperter会话获取目标屏幕与键盘记录