word2vec Parameter Learning Explained

Xin Rong(ronxin@umich.edu)【致敬】
arXiv:1411.2738v4 [cs.CL] 5 Jun 2016

文章目录

word2vec Parameter Learning Explained
Abstract
1. Continuous Bag-of-Word Model
- 1.1 上下文为单个词 One-word context
- - （1）模型结构
  - （2）输入层 -> 隐藏层
  - （3）隐藏层 -> 输出层
  - （4）模型意义
  - （5）更新方程：隐藏层 -> 输出层
  - - 直观理解
  - （6）更新方程：输入层 -> 隐藏层
  - - 直观理解
- 1.2 上下文为多个词 Multi-word context
2. Skip-Gram Model
- （1）模型结构
- （2）输入层 -> 隐藏层
- （3）隐藏层 -> 输出层
- （4）损失函数E
- （5）更新方程：隐藏层 -> 输出层
- （6）更新方程：输入层 -> 隐藏层
3 Optimizing Computational Effciency
- 3.1 Hierarchical Softmax（Trick 1，分层softmax）
- - （1）模型结构
  - （2）模型理解
  - （3）损失函数
  - （4）梯度更新
- 3.2 Negative Sampling（Trick 2，负采样）
- - （1）损失函数
  - （2）梯度更新
  - （3）优势

Abstract

The word2vec model and application by Mikolov et al. have attracted a great amount of attention in recent two years. The vector representations of words learned by word2vec models have been shown to carry semantic meanings and are useful in various NLP tasks. As an increasing number of researchers would like to experiment with word2vec or similar techniques, I notice that there lacks a material that comprehensively explains the parameter learning process of word embedding models in details, thus preventing researchers that are non-experts in neural networks from understanding the working mechanism of such models.

Mikolov等人提出的word2vec模型及其应用，在近两年引起了广泛的关注。基于word2vec模型学到的单词向量表示，已经被证明具有语义意义，同时在各种NLP任务中也是有帮助的。越来越多的研究人员，希望使用word2vec或类似的技术，（但在同时）我注意到，目前缺乏一份材料，用于全面、详细地解释词Embedding模型的参数学习过程，（这）导致研究者们难以理解这种模型的工作机制，尤其对于不是神经网络专家的研究者。

This note provides detailed derivations and explanations of the parameter update equations of the word2vec models, including the original continuous bag-of-word (CBOW) and skip-gram (SG) models, as well as advanced optimization techniques, including hierarchical softmax and negative sampling. Intuitive interpretations of the gradient equations are also provided alongside mathematical derivations.

本文给出了word2vec模型的参数更新方程的详细推导和解释，包括原始的 连续词袋(CBOW)模型 和 跳跃图(skip-gram, SG)模型，以及先进的优化技术，包括 分层softmax 和负采样。同时提供了梯度方程的直观解释，以及数学推导。

In the appendix, a review on the basics of neuron networks and backpropagation is provided. I also created an interactive demo, wevi, to facilitate the intuitive understanding of the model.

在附录中，回顾了神经网络和反向传播相关基础，同时创建了一个交互式演示——wevi，便于模型的直观理解。

wevi
- http://bit.ly/wevi-online
- https://github.com/ronxin/wevi.git

1. Continuous Bag-of-Word Model

基本结构：

输入词：上下文
输出词：目标词（中心词）

1.1 上下文为单个词 One-word context

我们从Mikolov等人引入的连续词袋模型(CBOW)的最简单版本开始。
We start from the simplest version of the continuous bag-of-word model (CBOW) introduced in Mikolov et al. (2013a).

Mikolov, T., Chen, K., Corrado, G., and Dean, J. (2013a). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781.

假设每个上下文只考虑一个单词，即给定一个上下文单词后，模型预测一个目标词，就像一个双词模型。
We assume that there is only one word considered per context, which means the model will predict one target word given one context word, which is like a bigram model.

（1）模型结构

$V$ ：输入层维度，单词总数量，单词one-hot编码维度
$N$ ：隐藏层维度，单词Embedding后表示向量的维度
$W$ ： $V×NV \times N$ $V \times N$ 矩阵（ $V >> N$ ），表示输入层到隐藏层之间的全连接关系。
- 输入矩阵，高且窄
- 可视作查询词作为中心词时的Embedding查询表
$W^{'}$ ： $N×VN \times V$ $N \times V$ 矩阵（ $N << V$ ），表示隐藏层到输出层之间的全连接关系。
- 输出矩阵，矮且宽
- 可视作查询词作为上下文时的Embedding查询表

PS: $W^{'}$ 并不是 $W$ 的转置

（2）输入层 -> 隐藏层

对于第k个词，编码为ont-hot向量 $x$ ，即 $x$ 中第k个元素为1，其余元素为0。将其作为模型输入：

$W^T x = W^T_{(k, \cdot)} = W_{(k, \cdot)}^T := v_{w_I}^T \tag{1}$

即 $W$ 可作为（一种）word2vec查询表（Look-Up-Table）：第k个单词（输入词 $w_I$ ）的Embedding向量，就是矩阵 $W$ 的第k行（再转置） $v_{w_I}^T$ 。

其中， $v_{w_I}^T$ 被称为输入向量；可视作输入词作为中心词时候的Embedding。

$x$ 右乘 $W^T$ ，即对 $W^T$ 列变换，由于 $x$ 为one-hot编码（假设 $x_k=1$ ），即取 $W^T$ 某一列（第k列），等同于取 $W$ 某一行（第k行）。

（3）隐藏层 -> 输出层

对于输出层的第j个节点，输出的是一个分数值 $u_j$ ：

$uj=W(:,j)′Th=:vwj′Th(2)u_j = {W'_{(:, j)}}^T h = :{v'_{w_j}}^T h \tag{2}$

其中 $v'_{w_j}$ 为 $W^{'}$ 的第j列，被称为输出向量；可视作输入词作为上下文时候的Embedding。

分数值 $u_j$ 表示输入词为 $w_I$ 时，其上下文为单词 $w_j$ 的分值，不具有概率意义，即和不为一：

$∑j=1Nuj≠1\sum_{j=1}^{N} u_j \neq 1$

因此，为使得模型输出具有概率意义，需要添加softmax函数，获得条件概率分布：

$prob(wj∣wI)=exp(uj)∑l=1Vexp(ul):=yj(3)prob(w_j|w_I) = \frac{exp(u_j)}{\sum_{l=1}^{V} exp(u_l)} := y_j \tag{3}$

相当于对输出层使用softmax激活函数。上面输入层到隐藏层相当于没有激活函数，为线性关系。

（4）模型意义

整合上面公式，得到条件概率分布：

$prob(wj∣wI)=exp(vwj′TvwI)∑l=1Vexp(vwl′TvwI)=yj(4)prob(w_j|w_I) = \frac{exp({v'_{w_j}}^T v_{w_I})}{\sum_{l=1}^{V} exp({v'_{w_l}}^T v_{w_I})} = y_j \tag{4}$

可理解为，word2vec模型维护了两套向量表示，分别为：

输入向量 —— $v_{w_I}^T$ ，输入词 $w_I$ 的一种向量表示，来源于 $W$ 的行向量；
输出向量 —— $v'_{w_j}$ ，输出词 $w_j$ 的一种向量表示，来源于 $W^{'}$ 的列向量；

从输入词到输出词的条件概率分布，被建模为：输入词的输入向量，与输出词的输出向量，两者之间计算内积，再softmax归一化。其中内积起到一种相似性度量的作用。

PS：可以类比Transformer的Multi-Head Attention中的Scaled Dot-Product Attention，每个单词拥有三套表示：Query, Key和Value.

（5）更新方程：隐藏层 -> 输出层

后面开始推导上述模型的参数更新方程。尽管实际的计算过程并不是按照本节的推导进行的，或者说本节的推导并不实用（具体原因后面会解释，见第3节，通过一些trick或近似，使得模型求解更加实用），但是依然想通过微分推导，获得对最原始模型（未使用trick）的直观理解。

根据Eq(5-7)，

$\Big[p(w_O|w_I)\Big] = log \sum_{l=1}^V exp(u_l) - u_{j*}$

关于 $u_j$ ，对 $E$ 的第1项求导，正好是 $y_j$ （参照Eq3中 $y_j$ 的定义）；对其第2项求导，是 $j = j *$ 的示性函数，于是有Eq8.

Eq9中第二项，参照Eq2中 $u_j$ 的定义和Eq1中 $v'_{w_j}$ 的定义.

于是，基于随机梯度下降，得到 隐藏层 -> 输出层的权重 $w'_{ij}$ 的更新公式Eq10，或表示为向量的形式，即Eq11.

Eq11中，所有词的输出向量都需要更新；对比后面的Eq16，只有输入词的输入向量需要更新。

直观理解

给定一个输入词后，从词表中遍历所有可能的输出词，例如词表中第j个词，检查模型对其概率密度估计 $y_j$ ，并与期望值 $t_j$ （即ground truch）比较。

如果 $y_j > t_j$ ，即估计过高（此处当且仅当 $t_j = 0$ ，即第j个词不是输出词的GT），则需要从 $v'_{w_j}$ 中减去一定比例（学习率）的 $h$ ，让输出词 $w_j$ 的输出向量表示 $v'_{w_j}$ ，远离输入词 $w_I$ 的输入向量表示 $v_{w_I}$ ；
如果 $y_j < t_j$ ，即估计过低（此处当且仅当 $t_j = 1$ ，即第j个词正好是输出词GT），则需要从 $v'_{w_j}$ 中加上一定比例（学习率）的 $h$ ，让输出词 $w_j$ 的输出向量表示 $v'_{w_j}$ ，靠近输入词 $w_I$ 的输入向量表示 $v_{w_I}$ ；
如果两者差不多，变动也相应很小。

再次指出，输入向量表示 $v_w$ 和输入向量表示 $v'_w$ ，是同一单词 $w$ 的两种不同表示方式。

（6）更新方程：输入层 -> 隐藏层

得到 $E$ 关于 $W^{'}$ 的更新公式之后，根据链式法则，后面继续推导 $E$ 关于 $W$ 的更新公式。

Eq12得到 $E$ 关于隐层节点 $h_i$ 的偏导，是预测误差 $e_j=y_j - t_j$ 根据 $w'_{ij}$ 加权求和后的结果，简记为 $EH_i$ .

$E$ 关于隐层所有节点 $h$ 的偏导，可简记为 $E H$ ，是一个N维（列）向量（对应N个隐层节点）。

Eq13为Eq1的另一种表示，便于Eq14的推导表示。

Eq14中，下角标k对应第k个输入词，i对应第i个隐层单元。Eq14可以表示为张量积的形式，得到Eq15.

Eq15中， $∂E∂W\frac{\partial E}{\partial W}$ 为V行N列，x为V行1列，EH为N行1列。

考虑到one-hot向量x的稀疏性（例如 $x_k=1$ ，即 $w_I = W_k$ ）， $∂E∂W\frac{\partial E}{\partial W}$ 中只有一行（第k行）是非零的。

x左乘 $EH^T$ 即对 $EH^T$ 行变换，取其一行，而 $EH^T$ 也只有一行。即创建一个V行N列的零矩阵，再将 $EH^T$ 复制到其第k行。

因此， $W$ 中仅有一行会被更新到，即第k行，即仅输入词 $w_I$ 对应的那一行会更新；更新方式为向负梯度方向移动，步长为一定比例（学习率）的 $xk⋅EHT=EHTx_k \cdot EH^T = EH^T$ 。于是有Eq16。

除了输入词 $w_I$ 之外，其他词 $\neq w_I$ 的输入向量 $v_w$ 不作更新。

对比前面的Eq11，所有词的输出向量都需要更新。

直观理解

直观的，向量 $E H$ 是词汇表中所有单词输出向量的加权和，权重系数为预测误差 $e_j=y_j - t_j$ ，于是Eq16可以被理解为，将词汇表中每个词的输出向量，按照一定比例，叠加到输入词的输入向量上。

如果词 $w_j$ 是输出词的概率被高估，即 $yj>tj⇒ej>0y_j > t_j \Rightarrow e_j > 0$ ，输入词 $w_I$ 的输入向量将趋向于远离词 $w_j$ 的输出向量；
如果词 $w_j$ 是输出词的概率被低估，即 $yj<tj⇒ej<0y_j < t_j \Rightarrow e_j < 0$ ：输入词 $w_I$ 的输入向量将趋向于靠近词 $w_j$ 的输出向量；
如果估计的差不多，即 $yj≈tjy_j \approx t_j$ ：输入词 $w_I$ 的输入向量变化很少，所受影响不大；
对于某个词 $w_j$ ，其估计误差 $e_j$ 越大，这个词对于上述输入词 $w_I$ 的输入向量的叠加效果，将起到越大的影响；

当我们使用训练语料库，生成 上下文-目标词对，迭代更新模型参数时，（上面提到的）向量之间的影响会逐渐累积。
As we iteratively update the model parameters by going through context-target word pairs generated from a training corpus, the effects on the vectors will accumulate.

可以想象，某个单词w的输出向量，被其 共现邻居 的输入向量前后拖动，就像有一条绳子一样，连接在单词w和它的相邻词的表示向量中间。
We can imagine that the output vector of a word w is dragged" back-and-forth by the input vectors of w’s co-occurring neighbors, as if there are physical strings between the vector of w and the vectors of its neighbors.

类似地，输入向量也可以被认为是被许多输出向量拖动的。
Similarly, an input vector can also be considered as being dragged by many output vectors.

这种解释可以让我们想起重力或者受力分析图。
This interpretation can remind us of gravity, or force-directed graph layout.

每条虚拟绳子的平衡长度，与关联词对之间的共现强度有关，也与学习率有关。

The equilibrium length of each imaginary string is related to the strength of cooccurrence between the associated pair of words, as well as the learning rate.

经过多次迭代，输入向量和输出向量之间的相对位置，最终将达到稳定。
After many iterations, the relative positions of the input and output vectors will eventually stabilize.

1.2 上下文为多个词 Multi-word context

CBOW模型：多个输入词，如Fig2。

隐层单元：不再是直接从输入词的输入向量中复制（参照Eq1中，ont-hot编码的x右乘矩阵 $W$ ），而是对C个输入词的输入向量计算平均值，于是得到Eq(17-18)。

损失函数：Eq21，与Eq7基本相同。Eq21对Eq7中的 $u_j$ 项进行了展开，便于说明隐层单元 $h$ 的计算存在区别。

更新方程：

Eq22: 隐藏层 -> 输出层，和Eq11保持一致。输出矩阵 $W^{'}$ 的每一个元素都要更新。
Eq23：输入层 -> 隐藏层，和Eq16相似，区别是需要将梯度平均分配到C个输入词的输入向量上。