李宏毅2022ML第四周课程笔记
目录
李宏毅2022ML第四周课程笔记——自注意力机制
为什么引入自注意力机制?
Self-Attention的具体机理
多头注意力机制
位置编码
CNN vs self-attention
RNN
为什么RNN会有奇特的特性
为什么rnn很难使用?
为什么我们把rnn换成lstm?
LSTM
李宏毅2022ML第四周课程笔记——自注意力机制
为什么引入自注意力机制?
因为之前rnn的使用,我们可以看到是对于序列数据输入的处理,但它不能实现并行处理,只能当上一时刻的输入处理完成才能继续下一步,同时我们希望能对于一长串的vector同时进行处理。
自注意力机制就是这样一种能对一串vector同时处理输出若干序列的方法,同时FC会考虑整个vector集合的属性。
Self-Attention的具体机理
首先我们对于每个输入ai都会分别乘3个不同的weight得到qi、ki、vi,然后通过a1的q1和其它ai的qi计算关联性得到a1i,将所有的a1i通过softmax层之后与对应的vi相乘得到b1,其它为重复过程。
多头注意力机制
类似单头,所谓多头是增加对每一个输入ai产生的qi、ki、vi的数量,其它过程一样。多头相对于单头来说,考虑的关联性更加多样,但同时会使得整个模型高度复杂化,容易产生过拟合。
位置编码
如果你觉得位置信息很重要,可以使用positional encoding的技术,对于每一个位置的输入可以加上一个与之相关的向量一起作为输入。
CNN vs self-attention
如果我们比较CNN跟Self-attention的话,CNN 可以看作是一种简化版的Self-attention,因為在做CNN的时候,我们只考虑接受野内的资讯,而在做Self-attention的时候,我们是考虑整张图片的资讯,所以CNN,是简化版的Self-attention。
RNN
为什么RNN会有奇特的特性
为什么rnn很难使用?
因为其error surface是陡峭的,在训练的时候会突然飞出去,即其梯度过大,导致很难train起来。
为什么我们把rnn换成lstm?
从上面的图,我们可以看到,rnn架构而言,输入微小的变化,会导致最终结构有巨大变化,很容易发生梯度爆炸或者梯度消失。
而lstm的Memory和Input是相加的(在RNN中每个时间点的memory会被洗掉),而且只要forget gate不关,cell的影响始终存在
LSTM
long short term memory
由门函数来控制网络架构中的memory是否释放。
李宏毅2022ML第四周课程笔记相关推荐
- 李宏毅老师2022机器学习课程笔记 01 Introduction of Deep Learning
01 Introduction of Deep Learning 机器学习相关规定 什么是机器学习 机器学习的概念 我觉得李老师讲得非常好的一点就是,他真正说清楚了机器学习中的一些因果逻辑. 比如我之 ...
- 李宏毅教授Imitation Learning课程笔记总结
Imitation Learning 又称demonstration/apprenticeship learning 用于解决没有reward的情况下的学习情况 多数情况下agent可以和环境进行互动 ...
- 李宏毅老师2022机器学习课程笔记 02 卷积神经网络(CNN)
02 卷积神经网络(CNN) CNN介绍 上图是CNN的完整结构图,先放在这里,下面会以图像分类任务为例,逐步对其进行介绍. CNN的设计动机 CNN是专门为图像设计的网络结构,结合了许多图像才会有的 ...
- 5-1 Coursera吴恩达《序列模型》 第一周课程笔记-循环序列网络(RNN)
记录吴恩达Andrew Ng深度学习专项课程笔记,方便之后回顾,共5门课.第一门课<神经网络与深度学习>(Neural Networks and Deep Learning)的4周课程笔记 ...
- 李宏毅老师《机器学习》课程笔记-2.1模型训练技巧
注:本文是我学习李宏毅老师<机器学习>课程 2021/2022 的笔记(课程网站 ),文中图片除了两幅是我自己绘制外,其余图片均来自课程 PPT.欢迎交流和多多指教,谢谢! 文章目录 Le ...
- 李宏毅机器学习完整笔记发布,AI界「最热视频博主」中文课程笔记全开源
点上方"小詹学Python",选择"置顶公众号"第一时间获取干货分享!本文转自:Datawhale 提起李宏毅老师,熟悉机器学习的读者朋友一定不会陌生.很多人选 ...
- 李宏毅老师《机器学习》课程笔记-6 GAN
注:本文是我学习李宏毅老师<机器学习>课程 2021/2022 的笔记(课程网站 ),文中图片均来自课程 PPT.欢迎交流和多多指教,谢谢! 6 Unsupervised Learning ...
- 李宏毅2021春季机器学习课程视频笔记1:Introduction, Colab PyTorch Tutorials, HW1
诸神缄默不语-个人CSDN博文目录 李宏毅2021春季机器学习课程视频笔记集合 VX号"PolarisRisingWar"可直接搜索添加作者好友讨论. 更新日志: 2021.11. ...
- 台大李宏毅课程笔记3——New Optimization for Deep Learning深度学习新优化
台大李宏毅课程笔记3 SGD with Momentum(SGDM) RMSProp Adam SWATS AdaXXX Adam分析 AMSGrad AdaBound SGDM分析 Cyclical ...
最新文章
- P1034 矩形覆盖
- python装饰器类-Python类装饰器
- 创建型模式:单例模式(懒汉+饿汉+双锁校验+内部类+枚举)
- elipse+pydev+python开发arcgis脚本程序
- Integer类的装箱和拆箱到底是怎样实现的?
- 不同系统可以用一个数据库服务器吗,同一个数据库 不同服务器吗
- AcWing 3. 完全背包问题(完全背包模板)
- 十进制、二进制、八进制、十六进制转换
- java从入门到精通pdf第五版,满满干货指导
- 大学计算机基础操作题材料,《大学计算机基础》操作题
- 银河麒麟桌面操作系统V10node.js 14安装小助手
- Axure获取焦点和触发事件
- 计算机组装维修设置还原点,怎样恢复出厂设置组装电脑
- MackBookpro8.1从10.11升级到high sierra10.13.6
- Java中的数组利用键盘输入求平均数
- python人工智能框架有哪些_10个最佳的人工智能开发框架和AI库
- centos os u盘启动盘_Mac上制作Centos7系统U盘安装盘(示例代码)
- 第二单元 The Opera Singer
- 天河超级计算机观后感,“天河一号”超级计算机读后感
- NAC学习笔记(手写版)
热门文章
- Python-爬虫(requests库、二进制数据(图片)获取,GET/POST请求、session请求)
- MFC中获取、改变Edict文本框和static静态文本框的值的方法
- MySQL查询时记录行号rownum MySQL查询显示行号MySQL查询显示行号MySQL流水号自MySQL自增行号
- Excel(单元格的引用方法)
- TOF相机-非扫描三维成像
- 今有仁心仁闻而民不被其泽,不可法于后世者,不行先王之道也
- 敏捷思维-架构设计中的方法学
- 【Python基础】Python简介
- 现学现用——通过成绩统计案例了解Excel加权平均函数
- 业务-研发一体化管理平台,存在吗?