Unsupervised learning：word embedding

无监督学习：词嵌入

摘要：这节课通过介绍word embedding，说明什么是无监督学习以及word embedding的两种实现方法，简单介绍了一些运用word embedding方法的实际应用。，

一、什么是word embedding

二、两种实现方法：

1.count based

2.prediction based

三、如何训练这个神经网络

四、Prediction-based model的其他类型

五、Word embedding的一些应用成果

总结：

一、什么是word embedding

用向量表示word的方法：

1-of-N encoding

缺陷：没有办法区分单词之间的联系。

改进方法：可以增加词分类。

问题又来了，不同的词分类也存在一定的联系，这该如何改进？

Word embedding：把每个word向量都投影到一个多维度体系中。不同的维度具有不同的含义

Generating word vector是无监督的：向神经网络输入一个单词，输出为word embedding对应的向量。（只有输出，没有输出的样子）

原理：理解一个单词意思是通过上下文语境

二、两种实现方法：

1.count based

如果有两个单词wi和wj常常出现在同一篇文章，那么它们的vector可能是非常接近的

2.prediction based

训练的神经网络，输入是wi-1的1-of-n encoding向量，输出是每个单词作为下一个输出wi的可能性。（有多少单词，输出就有多少维度）

对于任意一个单词，将这个神经网络的第一层的输入拿出来，当做word embedding的word vector。（对于任意的单词，拿出来的输入都是唯一的）

为什么第一层的输入与word embedding中的vector是接近的?

对于上面两句训练文字，我们希望输入两个名字，得到的输出都是宣誓就职。

因为不同的输入得到相同的输出，这意味在第一层输出之前，神经网络对这两个词进行了一些处理，使它们具有相似的特征，这样得到的vector在word embedding的维度也是相近的。

由于针对wi-1来输出wi的可能性太多了，所以可以对这个方法做一些改进。

不只看前一个词汇，可以看前面n个词汇。

需要注意的是，同样维度的1-of-n encoding连接第一层中相同神经元的weight是一样的。

这样做可以减少参数量。

用公式来表示：

Xi-1和Xi-2的长度都是|v|

神经网络第一层z的长度为|z|

Z=w1* Xi-2+w2* Xi-1

W1和W2都是|z|*|v|维的矩阵。

令w1=w2=w，这时候z=w（xi-2+xi-1）

如何让w1和w2相等？

三、如何训练这个神经网络

例句：潮水退了就知道谁…

每次输入两个word，输出结果与后续的word做交叉熵，取交叉熵之和的最小值。

四、Prediction-based model的其他类型

Continuous bag of word （CBOW）：拿前后的word来预测中间的word

Skip-gram：拿中间的word来预测上下文的word

Word vector并不需要用DNN

五、Word embedding的一些应用成果

1.将不同国家和首都放在一个维度

2.将动词的三个时态联系起来

3.如果B属于A，那么A和B的word vector相减，它们的结果是类似的。

由此可以得到一些推论。

罗马和意大利的word vector相减，近似等于柏林-德国。这样计算机就可以通过计算

V(柏林)-V（罗马）+V（意大利），得到柏林对应的word。（相比于罗马对应意大利）

根据一些已知的中英对照的word vector，可以训练出一个神经网络，来实现未知的中英的word vector的对照关系，就可以实现翻译功能

还可以应用于影像分类

已知汽车，狗和马的图像分布位置。对于一个新的图像，对它进行perdition-based，得到的vector可以使其分布在它所属于物种的周围。

虽然之前没有猫这个图像，但是通过perdition-based也可以把它分布在适当的位置。

总结：

word embedding主要想法是通过将事务转化为vector，并且相同类型的事务，它们的vector是接近的，这样对不同事务可以进行一些分类，联系等实际应用。

word embedding的输入、输出数据量是非常大的，但是神经网络中的参数则相对少很多。

李宏毅机器学习16—Unsupervised learning：word embedding相关推荐

【李宏毅机器学习】Unsupervised Learning - Word Embedding 无监督学习 - 词嵌入（p22）学习笔记
文章目录 Unsupervised Learning Word Embedding 用一个vector来表示一个word的几种方法 1-of-N Encoding Word Class Word Em ...
台大李宏毅Machine Learning 2017Fall学习笔记 (16)Unsupervised Learning:Neighbor Embedding
台大李宏毅Machine Learning 2017Fall学习笔记 (16)Unsupervised Learning:Neighbor Embedding
李宏毅老师课程：Unsupervised Learning - Word Embedding
词嵌入:word embedding Introduction Word Embedding Count based Prediction based Sharing Parameters Train ...
【李宏毅2020 ML/DL】P22 Unsupervised Learning - Word Embedding
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...
李宏毅ML lecture-14 unsupervised Learning Word Embeddng
李宏毅ML lecture-14 unsupervised Learning--Word Embeddng https://blog.csdn.net/Arron_hou/article/detail ...
李宏毅深度学习--《Unsupervised Learning:Neighbor Embedding》
<Unsupervised Learning:Neighbor Embedding> Manifold Learning Locally Linear Embedding (LLE) La ...
李宏毅机器学习-explainable machine learning（机器学习的可解释性）及代码
目录为什么需要机器学习的可解释性? Interpretable VS Powerful 什么叫做好的 Explanation explainable ML的分类 Local Explanation( ...
【李宏毅2020 ML/DL】P58 Unsupervised Learning - Neighbor Embedding | LLE, t-SNE
我已经有两年 ML 经历,这系列课主要用来查缺补漏,会记录一些细节的.自己不知道的东西. 已经有人记了笔记(很用心,强烈推荐):https://github.com/Sakura-gh/ML-note ...
李宏毅机器学习之Deep Learning简介
一.深度学习的发展趋势 1958:Perceptron(linear model) 1969:Perceptron has limitation 1980:Multi-layer perceptron ...

李宏毅机器学习16—Unsupervised learning：word embedding

一、什么是word embedding

二、两种实现方法：

1.count based

2.prediction based

三、如何训练这个神经网络

四、Prediction-based model的其他类型

五、Word embedding的一些应用成果

总结：

李宏毅机器学习16—Unsupervised learning：word embedding相关推荐

最新文章

热门文章