【李宏毅2020 ML/DL】P66 Self-supervised Learning
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的、自己不知道的东西。
本节内容综述
- 本节课四十分钟,由助教
Chi-Liang Liu
讲解 Self-Supervised Learning 。 - 首先复习,监督学习;监督学习效果好,但是所需的标签数据是“稀缺资源”;而无标签数据是很多的。
- Self-Supervised Learning 其实是一种 Un-Supervised Learning,但是其更注重数据本身的信息。
- 目前 Self-Supervised Learning 可以分为 3 种:Reconstruct from a corrupted (or partial) data、Visual common sense tasks与Contrastive Learning。
- 分别讲解上述三个思想及其子方法。
- 在 Bert-family(Text) 中提及了不少技术、花费了课程大半的时间。
- 后介绍了些图片编码技术。
文章目录
- 本节内容综述
- 小细节
- Methods of Self-Supervised Learning
- Reconstruct from a corrupted (or partial) data
- Denoising Autoencoder
- Bert-family(Text)
- Language Model
- ELMO & GPT & BERT
- BERT - Pipeline
- ARLM vs AELM
- XLNet - Permutation LM
- BART - Encoder & Decoder
- ELECTRA - Discriminator
- In-painting(Image)
- Visual common sense tasks
- Jigsaw puzzles
- Rotation
- Contrastive Learning
- Contrastive Predictive Coding(CPC)
- SIMCLR
- Reference
小细节
Methods of Self-Supervised Learning
Reconstruct from a corrupted (or partial) data
- Denoising Autoencoder
- Bert-family(Text)
- In-painting(Image)
Visual common sense tasks
- Jigsaw puzzles
- Rotation
Contrastive Learning
- word2vec
- Contrastive Predictive Coding(CPC)
- SIMCLR
Reconstruct from a corrupted (or partial) data
Denoising Autoencoder
如上,在 Denoising Autoencoder 中,我们不仅仅重视编码器,还重视解码器,或者说,我们重视模型整体,进行训练。
Bert-family(Text)
Language Model
如上,基础的语言模型是用于估计语句的出现概率
。
ELMO & GPT & BERT
如上,ELMO是在 pre-training 时,进行前后向的训练。
如上,GPT使用了 12 层的 Transformer 。如何使用呢?在使用时,只需要将 Task Prediction 拔掉,接一个 Task Classifier 上去
。
如上,而 BERT 的特点是使用了 Masked LM 。
BERT - Pipeline
如上,BERT也分为 Pre-training 与 Fine-Tuning 两个步骤。
ARLM vs AELM
如上,BERT可以归为 Autoencoding Language Model (AELM) ;而 GPT 可以归为 Autoregressive Language Model (ARLM) 。
ARLM的好处是,通常不好有数据的冲突,但是只能是单向的(只能前向或者后向)。
XLNet - Permutation LM
如上,为了解决ARLM的局限性,提出 XLNet 。
XLNet 可以分为 2 步:
- 先打乱顺序;
- 后再依次输入。
如上例子,打乱顺序为 3,2,4,1 的话,我们编码 3 只能从 memory 中获取信息;打乱顺序为 2,4,3,1 的话,我们编码 3 就从 memory 以及 2, 4 获取信息。因此类推,让神经网络可以“看得到两边”。
BART - Encoder & Decoder
如上,做一个 Encoder 与一个 Decoder 。其中 Encoder 与 BERT 差不多,而 Decoder 能做更多的事,使用了 Auto regressive。
ELECTRA - Discriminator
用类似 GAN 的架构,最后使用这个训练好的 Discriminator 作为编码工具。
In-painting(Image)
如上,对于图片的处理,将其挖掉一部分,进行训练。
如上,还有一种训练方法,如预测图片的色彩,目标是让上色后的图片与真实图片相同。
Visual common sense tasks
Jigsaw puzzles
如上,还可以做“拼图”的任务。
Rotation
如上,还可以让图片旋转,并且预测其旋转了多少度。
Contrastive Learning
Contrastive Predictive Coding(CPC)
如上,较新的一篇文章。给定一个序列,预测是不是接下来的部分。这样可以有很多负样本,进行大量负采样。
这实际上就是 Word2Vec 。
SIMCLR
如上,现在对于一个数据xxx,我们进行随机的变换
,得到x~i\tilde{x}_ix~i以及x~j\tilde{x}_jx~j,我们希望经过编码的x~i\tilde{x}_ix~i与x~j\tilde{x}_jx~j越像越好;而与其他数据得到的编码越不像越好。
如上,这个随机变换可以是旋转、去色、傅里叶转换等等。
Reference
- CS294-158 Deep Unsupervised Learning Lecture 7
- AAAI 2020 Keynotes Truing Award Winners Event
- Learning From Text - OpenAI
- Learning from Unlabeled Data - Thang Luong
【李宏毅2020 ML/DL】P66 Self-supervised Learning相关推荐
- 【李宏毅2020 ML/DL】P59 Unsupervised Learning - Auto-encoder
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...
- 【李宏毅2020 ML/DL】P58 Unsupervised Learning - Neighbor Embedding | LLE, t-SNE
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...
- 【李宏毅2020 ML/DL】P88-96 Meta Learning – MAML | Reptile
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 本节内容综述 元学习就是 Learn to learn ,让机器变成 a better learner .Me ...
- 【李宏毅2020 ML/DL】P85 Transfer Learning
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 本节内容综述 要做一项任务,但是数据不直接与任务相关.这就涉及到了迁移学习.在现实生活中,我们其实不断在做&q ...
- 【李宏毅2020 ML/DL】P60-61 Unsupervised Learning - Deep Generative Model
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...
- 【李宏毅2020 ML/DL】P57 Unsupervised Learning - Linear Methods | PCA Matrix Factorization
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...
- 【李宏毅2020 ML/DL】P22 Unsupervised Learning - Word Embedding
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...
- 【李宏毅2020 ML/DL】P86-87 More about Domain Adaptation
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 本节内容综述 本节课由助教 Chao Brian 讲解. 首先讲解些领域适配的基础内容,包括名词.定义等. 接 ...
- 李宏毅svm_李宏毅2020 ML/DL补充Structured Learning Structured SVM
李宏毅2020 ML/DL补充Structured Learning Structured SVM [李宏毅2020 ML/DL]补充:Structured Learning: Structured ...
- 【李宏毅2020 ML/DL】P1 introduction
[李宏毅2020 ML/DL]P1 introduction 本节主要介绍了 DL 的15个作业 英文大意 Regression: 回归分析 Classification: 分类 RNN: 循环神经网 ...
最新文章
- 在32位Ubuntu 10.04上编译Android 2.3
- 微软宣布加入 OpenJDK,打不过就改变 Java 未来!
- python split(), os.path.split()和os.path.splitext()函数的区别
- Linux tar将分割的小文件进行合并
- vue重复路由_解决vue路由name同名,路由重复的问题
- 治愈系休闲旅游创意海报PSD模板|做设计没思路,快来Get这个小技巧
- 跨过虚拟化技术浪潮,Veeam快步入局云数据管理
- UITableViewCell的高亮和选中以及自绘分割线
- 【数据结构】DFS 代码模板
- 【概率论】5-9:多项式分布(The Multinomial Distributions)
- 1121 Damn Single(25 分)
- python中对象的定义_全面了解python中的类,对象,方法,属性
- 下载徐小明新浪博客全部博文链接
- TinyPXE网络启动,打造无盘工作站
- 小游戏策划案例精选_最具创意大型活动策划案例
- 计算机连接了无线网络显示有限的访问权限,win7连接无线网络提示有限的访问权限怎么办...
- 环比和同比的定义和应用
- PS 滤镜算法原理——碎片效果
- Java中 ? extends T 和 ? super T 的理解
- 电子电路计算机仿真应用,电力电子电路的计算机仿真