我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的、自己不知道的东西。

已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-notes

本节对应笔记:https://sakura-gh.github.io/ML-notes/ML-notes-html/20_Unsupervised-Learning-Word-Embedding.html

本节内容综述

  1. 1-of-N Encoding具有局限性,无法体现词义之间的联系;做word class也无法体现全面的信息。因此需要 word embedding。
  2. word embedding就是用向量表示词。但这是无监督学习(输入一个词,输出一个向量)。但不可用auto-encoder。
  3. word embedding的基本思路就是:通过上下文找到这个词的意义。
  4. 基本思路有 Count basedPerdiction based 。见[小细节](#How to exploit the context?)
  5. Perdiction based 中有许多变形,如CBOWSkip-gram等。见[小细节](#Prediction-based Various Architectures)
  6. word embedding带来了许多有趣的特性,比如观察词的属性、进行加减运算等等。
  7. 此外,还可以对图像进行embedding,已达到类似“元学习”的效果。

小细节

How to exploit the context?


而对于Prediction-based:

  • 给一个句子中的单词;
  • 来预测下一个单词是谁。


这样,拿出第一层的输出,就是这个embedding向量。

这样对于有相同后缀的词,神经网络就必须让这两个词的向量接近。

此外,还有些Sharing Parameters等技巧。

如上图,输入两个词,来进行预测。注意,每个词不管在哪个地方被输入,起自己对应的权重必须一样,这样从神经网络隐层中取出embedding vector对这个词才是唯一的。上图中,一个颜色代表同一权重。

那么,如何保证权重相同呢?


如上,减去相同的项,以保证更新的同步。

Prediction-based Various Architectures

【李宏毅2020 ML/DL】P22 Unsupervised Learning - Word Embedding相关推荐

  1. 李宏毅svm_李宏毅2020 ML/DL补充Structured Learning Structured SVM

    李宏毅2020 ML/DL补充Structured Learning Structured SVM [李宏毅2020 ML/DL]补充:Structured Learning: Structured ...

  2. 【李宏毅2020 ML/DL】P59 Unsupervised Learning - Auto-encoder

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...

  3. 【李宏毅2020 ML/DL】P58 Unsupervised Learning - Neighbor Embedding | LLE, t-SNE

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...

  4. 【李宏毅机器学习】Unsupervised Learning - Word Embedding 无监督学习 - 词嵌入(p22) 学习笔记

    文章目录 Unsupervised Learning Word Embedding 用一个vector来表示一个word的几种方法 1-of-N Encoding Word Class Word Em ...

  5. 【李宏毅2020 ML/DL】P1 introduction

    [李宏毅2020 ML/DL]P1 introduction 本节主要介绍了 DL 的15个作业 英文大意 Regression: 回归分析 Classification: 分类 RNN: 循环神经网 ...

  6. 【李宏毅2020 ML/DL】P86-87 More about Domain Adaptation

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 本节内容综述 本节课由助教 Chao Brian 讲解. 首先讲解些领域适配的基础内容,包括名词.定义等. 接 ...

  7. 【李宏毅2020 ML/DL】P15 Why Deep-

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐): https://github.com/Sakura-gh/ML-not ...

  8. 【李宏毅2020 ML/DL】P14 Tips for training DNN | 激活函数、Maxout、正则、剪枝 Dropout

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐): https://github.com/Sakura-gh/ML-not ...

  9. 【李宏毅2020 ML/DL】P66 Self-supervised Learning

    我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 本节内容综述 本节课四十分钟,由助教 Chi-Liang Liu 讲解 Self-Supervised Lea ...

最新文章

  1. 手把手教你生成对抗网络 GAN,50 行代码玩转 GAN 模型!(附源码)
  2. Linux-C-Program:makefile
  3. 数字签名与HTTPS详解
  4. C语言模拟实现标准库函数之strstr()
  5. 声压级 matlab,语音信号处理教程(二)声音的声压级和响度
  6. java接口签名(Signature)实现方案续
  7. IntelliJ IDEA 8.1.3 Web开发视频教程
  8. 射频电路中三种基本接收机结构
  9. git 小乌龟代码回退
  10. 面向对象编程 — 为什么要引入抽象概念?
  11. 操作系统重要知识清单:一起来搞懂进程呀!!
  12. C语言解析wav文件格式
  13. 蓝牙耳机打电话外放?目前通话效果最好的蓝牙耳机
  14. 在线、近线、离线数据存储概念
  15. jQuery实现图片卡片层叠式切换效果
  16. 如何参与linux 内核开发
  17. 海康威视热线技术支持面试
  18. ​今年36岁,北邮硕士毕业,待过字节,阿里,最近被裁员,只能去外包。。。...
  19. SpringBoot集成TkMapper
  20. MAC程序坞0响应设置

热门文章

  1. 学html需要什么软件,在上海学html需要学什么软件?
  2. 【Kafka】Kafka安装部署
  3. (Windows7)Visual Studio 2017编译运行出现脚本错误的解决方法
  4. VScode Python no module的解决方法
  5. docker load tar.gz包失败解决方法
  6. Aspose.Words转换为PDF的时候字体丢失的问题解决
  7. Python读取文件时出现UnicodeDecodeError: ‘gbk‘ codec can‘t decode byte 0x80 in position xx: 解决方案
  8. 解决“此图片来自微信公众平台未经允许不可引用”的方法
  9. 使用PHP的“注意:未定义的变量”,“注意:未定义的索引”和“注意:未定义的偏移量”
  10. 检索每个组中的最后一条记录-MySQL