目录

李宏毅2022ML第四周课程笔记——自注意力机制

为什么引入自注意力机制?

Self-Attention的具体机理

多头注意力机制

位置编码

CNN vs self-attention

RNN

为什么RNN会有奇特的特性

为什么rnn很难使用?

为什么我们把rnn换成lstm?

LSTM


李宏毅2022ML第四周课程笔记——自注意力机制

为什么引入自注意力机制?

因为之前rnn的使用,我们可以看到是对于序列数据输入的处理,但它不能实现并行处理,只能当上一时刻的输入处理完成才能继续下一步,同时我们希望能对于一长串的vector同时进行处理。

自注意力机制就是这样一种能对一串vector同时处理输出若干序列的方法,同时FC会考虑整个vector集合的属性。

Self-Attention的具体机理

首先我们对于每个输入ai都会分别乘3个不同的weight得到qi、ki、vi,然后通过a1的q1和其它ai的qi计算关联性得到a1i,将所有的a1i通过softmax层之后与对应的vi相乘得到b1,其它为重复过程。

多头注意力机制

类似单头,所谓多头是增加对每一个输入ai产生的qi、ki、vi的数量,其它过程一样。多头相对于单头来说,考虑的关联性更加多样,但同时会使得整个模型高度复杂化,容易产生过拟合。

位置编码

如果你觉得位置信息很重要,可以使用positional encoding的技术,对于每一个位置的输入可以加上一个与之相关的向量一起作为输入。

CNN vs self-attention

如果我们比较CNN跟Self-attention的话,CNN 可以看作是一种简化版的Self-attention,因為在做CNN的时候,我们只考虑接受野内的资讯,而在做Self-attention的时候,我们是考虑整张图片的资讯,所以CNN,是简化版的Self-attention。

RNN

为什么RNN会有奇特的特性

为什么rnn很难使用?

因为其error surface是陡峭的,在训练的时候会突然飞出去,即其梯度过大,导致很难train起来。

为什么我们把rnn换成lstm?

从上面的图,我们可以看到,rnn架构而言,输入微小的变化,会导致最终结构有巨大变化,很容易发生梯度爆炸或者梯度消失。

而lstm的Memory和Input是相加的(在RNN中每个时间点的memory会被洗掉),而且只要forget gate不关,cell的影响始终存在

LSTM

long short term memory

由门函数来控制网络架构中的memory是否释放。

李宏毅2022ML第四周课程笔记相关推荐

  1. 李宏毅老师2022机器学习课程笔记 01 Introduction of Deep Learning

    01 Introduction of Deep Learning 机器学习相关规定 什么是机器学习 机器学习的概念 我觉得李老师讲得非常好的一点就是,他真正说清楚了机器学习中的一些因果逻辑. 比如我之 ...

  2. 李宏毅教授Imitation Learning课程笔记总结

    Imitation Learning 又称demonstration/apprenticeship learning 用于解决没有reward的情况下的学习情况 多数情况下agent可以和环境进行互动 ...

  3. 李宏毅老师2022机器学习课程笔记 02 卷积神经网络(CNN)

    02 卷积神经网络(CNN) CNN介绍 上图是CNN的完整结构图,先放在这里,下面会以图像分类任务为例,逐步对其进行介绍. CNN的设计动机 CNN是专门为图像设计的网络结构,结合了许多图像才会有的 ...

  4. 5-1 Coursera吴恩达《序列模型》 第一周课程笔记-循环序列网络(RNN)

    记录吴恩达Andrew Ng深度学习专项课程笔记,方便之后回顾,共5门课.第一门课<神经网络与深度学习>(Neural Networks and Deep Learning)的4周课程笔记 ...

  5. 李宏毅老师《机器学习》课程笔记-2.1模型训练技巧

    注:本文是我学习李宏毅老师<机器学习>课程 2021/2022 的笔记(课程网站 ),文中图片除了两幅是我自己绘制外,其余图片均来自课程 PPT.欢迎交流和多多指教,谢谢! 文章目录 Le ...

  6. 李宏毅机器学习完整笔记发布,AI界「最热视频博主」中文课程笔记全开源

    点上方"小詹学Python",选择"置顶公众号"第一时间获取干货分享!本文转自:Datawhale 提起李宏毅老师,熟悉机器学习的读者朋友一定不会陌生.很多人选 ...

  7. 李宏毅老师《机器学习》课程笔记-6 GAN

    注:本文是我学习李宏毅老师<机器学习>课程 2021/2022 的笔记(课程网站 ),文中图片均来自课程 PPT.欢迎交流和多多指教,谢谢! 6 Unsupervised Learning ...

  8. 李宏毅2021春季机器学习课程视频笔记1:Introduction, Colab PyTorch Tutorials, HW1

    诸神缄默不语-个人CSDN博文目录 李宏毅2021春季机器学习课程视频笔记集合 VX号"PolarisRisingWar"可直接搜索添加作者好友讨论. 更新日志: 2021.11. ...

  9. 台大李宏毅课程笔记3——New Optimization for Deep Learning深度学习新优化

    台大李宏毅课程笔记3 SGD with Momentum(SGDM) RMSProp Adam SWATS AdaXXX Adam分析 AMSGrad AdaBound SGDM分析 Cyclical ...

最新文章

  1. P1034 矩形覆盖
  2. python装饰器类-Python类装饰器
  3. 创建型模式:单例模式(懒汉+饿汉+双锁校验+内部类+枚举)
  4. elipse+pydev+python开发arcgis脚本程序
  5. Integer类的装箱和拆箱到底是怎样实现的?
  6. 不同系统可以用一个数据库服务器吗,同一个数据库 不同服务器吗
  7. AcWing 3. 完全背包问题(完全背包模板)
  8. 十进制、二进制、八进制、十六进制转换
  9. java从入门到精通pdf第五版,满满干货指导
  10. 大学计算机基础操作题材料,《大学计算机基础》操作题
  11. 银河麒麟桌面操作系统V10node.js 14安装小助手
  12. Axure获取焦点和触发事件
  13. 计算机组装维修设置还原点,怎样恢复出厂设置组装电脑
  14. MackBookpro8.1从10.11升级到high sierra10.13.6
  15. Java中的数组利用键盘输入求平均数
  16. python人工智能框架有哪些_10个最佳的人工智能开发框架和AI库
  17. centos os u盘启动盘_Mac上制作Centos7系统U盘安装盘(示例代码)
  18. 第二单元 The Opera Singer
  19. 天河超级计算机观后感,“天河一号”超级计算机读后感
  20. NAC学习笔记(手写版)

热门文章

  1. Python-爬虫(requests库、二进制数据(图片)获取,GET/POST请求、session请求)
  2. MFC中获取、改变Edict文本框和static静态文本框的值的方法
  3. MySQL查询时记录行号rownum MySQL查询显示行号MySQL查询显示行号MySQL流水号自MySQL自增行号
  4. Excel(单元格的引用方法)
  5. TOF相机-非扫描三维成像
  6. 今有仁心仁闻而民不被其泽,不可法于后世者,不行先王之道也
  7. 敏捷思维-架构设计中的方法学
  8. 【Python基础】Python简介
  9. 现学现用——通过成绩统计案例了解Excel加权平均函数
  10. 业务-研发一体化管理平台,存在吗?