深入浅出系列1：词向量

0、文章结构

词向量简介
one-hot编码
统计语言模型
分布式表征和SVD分解
神经网络语言模型
word2vec
fastText（新增文章补充，敬请期待）
GloVe（新增文章补充，敬请期待）
Bert/ELMO/GPT提取词向量（新增文章补充，敬请期待）

1、词向量简介

词向量（word vector/word embedding）：为了计算机理解语言，将词映射为实体向量，常见的词向量表示方法有：

词袋模型：one-hot、tf-idf、textrank等
主题模型：LSA（LDA分解）、pLSA等
静态表征的词向量：word2vec、fastText、GloVe等
动态表征的词向量：Bert、GPT、ELMO等

2、one-hot编码

one-hot编码大家一般都是比较熟悉的，词向量的维度等于词汇表大小，每个词都有固定的索引位置，某个词的向量表示为索引位置值为1，其他为0，举个例子：假设词汇表中仅有4个词：我、爱、编、程，那么这四个词的词向量表示分别为：

我：[1, 0, 0, 0]
爱：[0, 1, 0, 0]
编：[0, 0, 1, 0]
程：[0, 0, 0, 1]

从one-hot的原理来看，它主要有以下几个特点：

（1）词与词完全独立，无法计算相似度关系；比如“编”和“我”/“程”的欧式距离都是0，但是实际上“编”和“程”的语义关系应该更接近。

（2）维度灾难：由于向量维度和词汇表大小一样，常见的中文词表大小也有5000多，这样的表示方法会使得下有模型负担很重。

3、统计语言模型

统计语言模型的基本问题是：如何解决一段文本序列在某种语言下出现的概率？用数学公式表示为：
$P(w_1, w_2, ..., w_n) = \sum_{t=1}^n p(w_t|w_1,w_2,...,w_{t-1})$

$s$ ：句子

$w_t$ ：句子中的某个词或者某个字

为了计算联合概率分布 $p (s)$ ，我们需要计算条件概率分布：即给定上文的条件下当前词出现的概率：
$p(w_t|w_1,w_2,...,w_{t-1})$
我们可以知道当依赖的上文长度比较长时，参数是很高的，假设我们只考虑：

已知一个词出现另一个词的条件概率，那么参数大小为 $N^2$ （ $N$ 为词表大小）

怎么理解呢？还是以“我爱编程“为例，假设词表中仅仅包含着4个词，那么要计算上面的条件概率，就需要计算出以下16种情况：
$\\ p(爱|我)、p(爱|爱)、p(爱|编)、p(爱|程) \\ p(编|我)、p(编|爱)、p(编|编)、p(编|程) \\ p(程|我)、p(程|爱)、p(程|编)、p(程|程) \\$
已知两个词出现第三个词的条件概率，那么参数大小为 $N^3$ （ $N$ 为词表大小）

分析参考上面的实例。

所以在实际应用中，通常只利用上文的n个词来计算当前词的条件概率，这就是n-gram：
$p(wt∣w1,w2,....,wt−1)≈p(wt∣wt−n+1,...wt−1)p(w_t|w_1,w_2,....,w_{t-1}) \approx p(w_t|w_{t-n+1}, ...w_{t-1})$

当 $n = 1$ ：unigram模型，词和词之间完全是独立的，只考虑自身出现的频率。
当 $n = 2$ ：bigram模型，考虑上文的一个词
当 $n = 3$ ：trigram模型，考虑上文的两个词（由于模型参数空间以及计算复杂度的限制，实际应用很少有 $n > 3$ 的情况）

通常会用极大似然估计去求解n-gram的参数，其实就是等价于统计每个n-gram出现的条件词频（这就是该语言模型为什么成为”统计“的原因了：统计语言模型）。

4、分布式表征和SVD分解

要了解分布式表征，需要我们看下什么是向量空间模型。

4-1、向量空间模型（VSM：vector space model）

VSM主要是基于两个假设提出来的：

词袋假说（bag of words hypothesis）：一篇文档的词频表示了文档的主题（例如出现”药“字的文章的主题很可能属于医疗领域的）
分布假说（distributed hypothesis）：出现在相似的上下文中的两个词有相似的语义

基于词袋假说，我们可以构造一个term-document矩阵 $A$ （即词-文档矩阵）。其中 $A_{i,j}$ 表示 $w_i$ 在文档 $D_j$ 中出现的次数，这样我们简单的提取该矩阵的行向量作为 $w_i$ 的表示向量，提取列向量作为文档 $D_j$ 的主题向量。

基于分布假说，我们可以构造一个word-context矩阵 $A$ （即词-上下文矩阵）。其中 $A_{i,j}$ 表示词 $w_i,w_j$ 在某个指定窗口（例如3）的上下文中共同出现的次数。

因此，我们可以知道：SVD分解来表征词向量的方法是基于词袋模型来做的，而word2vec是基于分布假说来完成的。（不要急，慢慢往下看）

4-2、什么是SVD分解？

特征值分解（对方阵进行分解）
$\lambda v \\ A = Q\Sigma Q^{-1}$
$A$ ：方阵

$v$ ：特征向量

$λ\lambda$ ：特征值

$Q$ ：特征向量组成的矩阵

$Σ\Sigma$ ：特征值组成的对角矩阵
奇异值分解
$U\Sigma V^T$
$A$ ：mxn； $U$ ：mxm； $Σ\Sigma$ ：mxn； $V^T$ ：nxn。

其中 $U / V$ 是正交矩阵，那么特征值分解和奇异值分解的关系是：
$A=UΣVT→AT=VΣUT→ATA=VΣ2VTA=U\Sigma V^T \rightarrow A^T = V\Sigma U^T \rightarrow A^TA=V\Sigma^2 V^T$
最后一个式子不就是特征值分解吗？这样就能够很方便的求出 $U 和 V$ 。

通常可以取前10%的奇异值以及对应的奇异向量来描述矩阵 $A$ ，即
$\approx U_{m*r} \Sigma V_{r*n}^T$
奇异值分解的缺点：分解出来的向量不是能够很好地解释，并且svd分解计算复杂度较高。

4-3、基于SVD表征的词向量

假设有以下的term-document矩阵， $A_{m*n}$ ，表示有m个词n个文档/句子，该矩阵表示如下。

	文档1	文档2	文档3	文档4
我	1	0	1	1
爱	1	0	1	1
编	1	0	0	1
程	1	0	0	1
你	0	1	1	1
呢	0	1	0	1

对上面进行SVD分解，可得：

>>> import numpy as np
>>> A = np.array([[1,0,1,1],[1,0,1,1],[1,0,0,1],[1,0,0,1],[0,1,1,1],[0,1,0,1]], dtype=float)
>>> U,Sigma,V = np.linalg.svd(A)
>>> U
array([[-0.49466625, -0.19734749, -0.3647272 ,  0.61545745,  0.42563459, 0.15290732],[-0.49466625, -0.19734749, -0.3647272 , -0.12309149, -0.70939099, -0.25484553],[-0.37026004, -0.29950169,  0.43574408, -0.24618298,  0.3809445 , -0.61449863],[-0.37026004, -0.29950169,  0.43574408, -0.24618298, -0.0971881 , 0.71643684],[-0.40035037,  0.65831991, -0.27018723, -0.49236596,  0.28375639, 0.10193821],[-0.27594416,  0.55616572,  0.53028406,  0.49236596, -0.28375639, -0.10193821]])
>>> Sigma
array([3.34223380e+00, 1.60644231e+00, 1.11750452e+00, 1.15720168e-16])
>>> V
array([[-5.17573783e-01, -2.02348063e-01, -4.15794633e-01, -7.19921846e-01],[-6.18570836e-01,  7.56009489e-01,  1.64104818e-01, 1.37438653e-01],[ 1.27099046e-01,  2.32747892e-01, -8.94530286e-01, 3.59846939e-01],[ 5.77350269e-01,  5.77350269e-01, -5.55111512e-17, -5.77350269e-01]])

如果只保留前两个特征值和特征向量，那么可得词和文档的表示如下：

左奇异矩阵 $U$ 的每一行代表每个词的表征向量；

右奇异矩阵 $V$ 的每一列代表每个文档的表征向量；

5、神经网络语言模型（NNLM：neural network language model）

提出文献2003：《A neural probabilistic language model》，提出一套用神经网络建立统一语言模型的框架，奠定了后续word2vec等方法的基础。

NNLM的主要思想：

（1）每个词都对应一个连续的特征向量

（2）存在一个连续平滑的概率模型，输入一段词向量序列，可以输出这段序列的联合概率

（3）在学习条件概率的过程中，能够产生词向量的副产物

模型思路：

采用一个简单的前向反馈神经网络 $F(w_{1}, ...,w_{t-1})$ 来拟合当前词 $w_t$ 的条件概率 $p(w_t|w_1,w_2,...,w_{t-1})$ 。该模型包含三层神经网络：映射层+隐藏层+输出层：

映射层：将词从one-hot映射为词向量，其中网络权值即为我们要求的词向量。
前向反馈神经网络：tanh激活的隐藏层 + softmax输出

该模型解决了两个问题：（1）统计语言模型中关注的条件概率 $p(w_t|context)$ 的计算（2）词向量的表示

该模型存在的两个问题：（1）由于NNLM使用全连接层，只能处理定长序列（2）参数空间巨大（参考之前提到的ngram），训练慢

6、word2vec

经过10多年的转变，word2vec被提出来了，word2vec本质上还是语言模型，不过其训练目标就是针对此词向量的。

word2vec主要有几个地方需要搞懂：两种形式 + 两个提速手段

6-1、两种形式：CBOW+Skip-gram

CBOW：输入前后n个词，预测中间词，其模型结构：

$x_{1k}, ..., x_{ck}]$ 表示第k个中心词的前后C个上下文的one-hot向量
将one-hot放到词向量矩阵（需要网络不断学习）中进行查表， $W_{V*N}$ ：V为词表大小，N为词向量维度，通常取300、500等
将查表得到的上下文向量进行直接相加，在通过隐藏层映射到输出层，输出层节点个数为词表大小

CBOW vs NNLM：

（1）对查表之后的向量直接进行相加（NNLM是对输出结果进行拼接）

（2）将下文词加入到上下文环境，而NNLM仅仅考虑了上文

（3）输出层是Huffman树而非线性全连接层，使用了hierarchical softmax + negative sampling

Skip-gram是已知中心词预测上下文，这里不再赘述，模型结构如下：

6-2、两个提速技巧

hierarchical softmax：由于softmax层计算需要遍历所有输出节点的值，即时间复杂度为 $N$ ，因此作者提出用分层softmax来加速训练和计算。将时间复杂度从 $O(N)→O(log(N))O(N)\rightarrow O(log(N))$ 。由于涉及到Huffman树的原理以及实际的构造细节，所以本篇不再赘述，后续会单独开一篇进行详细介绍。
negative sampling（负采样）

目的：提高训练速度，利用相对简单的随机负采样来大幅提高性能。

思想：每次训练时只修改部分权重

如果词表大小为5000，当输入样本为（”我“，”爱“）时（假设为bigram模型），”我“经过one-hot编码之后，我们期望对应”爱“单词的按个神经元节点输出为0，其余4999个节点为0。在这个案例中，这4999个节点对应的单词成为negative words，如果我们每次更新这么多权重的话，训练注定会很慢，一个很简单的想法就是：随机选择一部分negative words，对他们的权重值进行更新就好了。那么问题来了：

如何随机选择一部分的negative word呢？

选择某个词的概率和该词出现频率的有关，频率越高，被选择的概率应该越大。
$p(wi)=f(wi)0.75∑j=1nf(wj)0.75p(w_i) = \frac{f(w_i)^{0.75}}{\sum_{j=1}^n f(w_j)^{0.75}}$
word2vec的局限

（1）只考虑局部context信息，缺少全局信息

（2）训练后每个词的词向量是固定的，无法捕获在不同上下文环境下的语义。例如”苹果“在不同的上下文中可能说的是水果，也能是手机。

7、其他

由于工作繁忙，每次理解和整理都需要花费闲暇时间完成，请谅解。

本系列待补充文章，敬请期待：

深入浅出Huffman树及应用
深入浅出fastText
深入浅出GloVe
深入浅出深度学习预训练模型

参考链接

https://zhuanlan.zhihu.com/p/26306795

《A neural probabilistic language model》