cbow word2vec 损失_word2vec个人总结-理论篇

word2vec不算新，但是在工业界有广泛应用。该方法利用词在各滑动窗口的共现现象建模词的潜在关系，并最终得到词向量(word embedding)。如果两个词的embedding向量内积较大，则表示它们关系越近。主要参考的是aston zhang的dive into deep learning ，也结合了相关论文和优质博客，补充一些自己的理解。

word2vec在其思想框架下提出了两个具体模型，即skip-gram和CBOW。刚开始看的时候以为是word2vec是一个具体算法，skip-gram/CBOW是其中的两个模块，实际上它们是word2vec思想框架下的两种独立的实现。

假设单词

有中心词

和背景词

两种角色，分别用长度为d的词向量表示，其中i为单词表V中的单词下标。以

作为中心，取前后长度为m的窗口，截取一个2m+1个单词序列，并利用词在序列内的共现现象挖掘词的内在联系。以一定的步长滑动窗口得到训练集。窗口内除了

，其他词都定义为背景词。具体概念参考下图：

滑动窗口为2，蓝色背景为中心词，其他为背景词

根据最大似然的思想，既然我们看到了一篇文档，那么我们认为该文档的产生不是偶然。假设文档内各单词独立生成，则可人为定义每个单词的生成概率，进一步得到一篇文档的生成概率，并利用最大似然的思想最大化这个概率，利用滑动窗口内单词共现这一线索去求每个单词的两种词向量

和

。自此word2vec已完成使命。我们可以利用词向量去完成其他任务，例如聚类等。

跳字模型（skip-gram）

该模型定义已知中心词

生成背景词

的概率：

公式1

其中

是

的背景词向量，

是

的中心词向量，该式是一个softmax。假定滑动窗口大小为m，文本序列长度为T，

。则生成文本序列的似然函数为

公式2

等价的log损失函数为

公式3

公式4

其中

公式5

接下来是自己的一些理解。

skip-gram如何与网络结构对应起来。简单来说，前半段（输入层-隐藏层）是查询过程，后半段（隐藏层-输出层）实际上就是一个softmax。

图1

先考虑从输入层到隐藏层的过程。输入层为

的onehot表示，隐藏层参数矩阵实际上是所有中心词的词向量，隐藏层输出的是

的词向量

，是一个“查字典的过程”。例子：

输入第四个词的onehot，与隐藏层矩阵相乘，最后输出第四个词作为中心词的词向量

。该过程表达的是“已知中心词为

”。

再考虑从隐藏层到输出层的过程。隐藏层的输出是

，输出层参数矩阵实际上是所有背景词的词向量，两者做向量内积，第i个输出单元为

的值，最后以softmax形式归一化。该过程表达的是“已知中心词为

，生成背景词

的概率”。例子：

2. 无标签的word2vec内部隐含的有监督学习。既然是NN，那么就存在前向传递和反向传播两个步骤。前者固定参数并计算中间结果，最终输出预测值。后者根据设定好的损失函数（目标函数），固定中间结果并更新参数。损失函数本质上是关于标签与预测值的函数

，所以标签是什么呢？标签其实就是

中的

。例子：

假设

为第四个单词，左边是softmax输出的预测概率，右边是

的onehot形式的label，由于

真的出现了，所以label为1。从模型的似然函数来看，实际上等价于交叉熵

，

其中

是y_label的第v各分量，因为是onehot形式，化简即得公式3。

3. 为什么一般只使用skip-gram的中心词向量作为词的表征向量

感性认识见此链接。我尝试在公式层面用反向传播过程去理解，但没想明白。以随机梯度下降为例，每个样本产生的损失函数见公式3

该公式是关于任一背景词向量

和中心词向量

的函数。反向传播时会更新所有背景词向量和指定中心词向量。每个样本每次反向传播时，背景词向量都会更新，那么为什么skip-gram不取背景词向量作为词的表征呢？

4. 条件概率

中是如何想到用背景词向量乘中心词向量

来对条件概率进行建模的

向量内积本质上就是cosine距离。从物理意义上来说，skip-gram建模的是中心词和背景词的共现，若中心词

和背景词

在滑动窗口内同时出现，则两者隐含语义越接近，向量内积就越大。

CBOW

该模型与skip-gram最大的不同在于条件概率的定义。不同于skip-gram，CBOW定义的是已知背景词等情况下生成中心词的条件概率。由于背景词有多个，一般求所有背景词的平均，然后用skip-gram相同的步骤求解。CBOW一般用背景词向量来表征单词。

CBOW训练速度要比skip-gram快，原因在于一个滑动窗口内只能产生一个sample，而skip-gram可以产生多个。比如滑动窗口含“the man loves his son”， loves为中心词。对于CBOW，只有一个样本，该样本以loves为中心词，“the man his son”作为背景词；对于skip-gram，有多个样本，即<love, the>, <love, man>, <love, his>, <love son>。

skip-gram效果更好一些，尤其是生僻字。原因有两个，一是上一段提到的样本的原因。love在skip-gram有四个sample，可以更新四次参数（假设使用随机梯度下降）。而使用CBOW时"the man his son"只有一个样本，更新一次参数。此外，CBOW用所有背景词的均值来表示背景词信息带入运算，也会损失精度。

参考资料

10.1. 词嵌入（word2vec） dive into deep learning, 第10.1节词嵌入。
论文 word2vec Parameter Learning Explained
穆文：[NLP] 秒懂词向量Word2vec的本质
Word2Vec教程-Skip-Gram模型
word2vec 中的SkipGram 和CBOW的区别