注：

Unimelb Comp90042 NLP笔记

分布语义学

分布语义学
1 分布语义学
- 1.1 分布假设
- 1.2 根据上下文猜意思
- 1.3 词向量
2 构建词向量的方法
- 2.1 基于数量统计方法
- - 2.1.1 向量空间模型（Vector Space Model）
  - 2.1.2 TF-IDF
  - 2.1.3 单词作为上下文
  - - 2.1.3.1 逐点互信息（Point Mutual Information，PMI）
    - 2.1.3.2 PMI 矩阵
- 2.2 基于神经网络方法
- - 2.2.1 Word Embedding
  - 2.2.2 Word2Vec
  - - 2.2.2.1 Skip-gram模型
- 2.3 评估
- - 2.3.1 词相似
  - 2.3.2 词类比
  - 2.3.3 Embedding空间
  - 2.3.4 下游任务

上一篇讲了 词汇数据库（Lexical Database），但它存在以下几点问题：

需要人工搭建，不仅昂贵，且认为的标注会产生偏差和噪音。
语言是动态的，总会有一些新的单词（俚语或者术语）出现，单词也会有新的词义出现。
互联网为我们提供了大量的文本，我们可以利用它们获得单词含义吗？

1 分布语义学

1.1 分布假设

“You shall know a word by the company it keeps（你可以通过其周围的上下文单词来了解一个目标单词）” —— (Firth, 1957)
共现（co-occurrence）文档通常表明了主题（此处文档作为上下文来参考）
- 比如说 voting（投票） 和 politics（政治）
  如果我们观察多个文档，会发现这两个单词经常出现在同一文档中。因此，不同单词的共现文档在一定程度上反映了这些单词在某种主题方面的关联。
本地上下文能反映单词词义（此处单词窗口作为上下文来参考）
- 比如说 eat a pizza 和 eat a burger

1.2 根据上下文猜意思

通过一个单词的使用，来学习这个未知单词。比如说 tezgüino ，和它一起出现的上下文有四条：

通过这四句话，我们也可以指到这多半是一种酒。
也可以通过查看这个单词和其他单词是否共享相似的上下文。
比如说 wine 的上下文和 (14.1)，(14.2)，(14.3)相类似，因此我们可以初步判断 wine 和 tezgüino 的意思较为相同。

1.3 词向量

上图按行来看，其实就可以当作词向量来看。
它描述了一个词的分布属性
即编码其上下文词的信息，把单词们的各种上下文作为特征。
捕捉各种语义关系 (同义词、类比等)

我们之前也见过词向量，那就是 word embedding。不过接下来我们会通过其他方式来生成词向量：

基于数量统计方法
专门用来生成词向量的神经网络

2 构建词向量的方法

2.1 基于数量统计方法

主要分为两类：

用文档作为上下文
用邻近的单词作为上下文

2.1.1 向量空间模型（Vector Space Model）

核心思想：将单词的意思表示为向量
把文档作为上下文。
一个矩阵，两种视角：
- 文档会通过单词的形式被表现
- 单词会通过文档的形式被表现
  
  文档 425 中出现了 0 次state，1次fun，0次heaven；也可以说是，state 在文档425出现了0次，426出现了3次…

操作VSM

可以对数值增减权重（不只是单进行数字统计）
变成低维度的稠密向量

2.1.2 TF-IDF

TF-IDF (Term Frequency-Inverse Document Frequency)，信息检索（information retrieval领域的一种标准加权方案。
首先得到一个TF矩阵，就是前文说到的单纯基于统计的矩阵：

然后计算该单词对应的 IDF（inverse document frequency值： $idf_w=log\frac{|D|}{df_w}$
其中， $∣ D ∣$ 表示文档总数。 $df_w$ 表示单词 $w$ 的文档频率，即该单词在所有文档（即语料库）中出现的总次数（TF 矩阵中最后一行）。这里，log 的底数为 2。
IDF的意思是为了惩罚那些经常出现在大多数文档中的单词，所以当 $df_w$ 越大时， $idf_w$ 越来越小。

最后将每个单词的IDF值和其对应单元格的TF相乘，得到TF-IDF矩阵。

降维：
TF矩阵很稀疏，然而所谓降维就是创建更短、稠密的向量，让特征更少，从而消除一些噪声（当噪声过多，我们会出现过度拟合噪声）

降维方法：

奇异值分解（SVD）
Sigular Value Decomposition，流行的降维方法。
核心思想就是将一个给定的矩阵 $A$ ，分解成3个矩阵相乘： $A = U Σ V T A=U\Sigma V^T$ $A = U Σ V^{T}$
- 原始矩阵 $A$ 是 TF 矩阵，其行数为词汇表大小 $∣ V ∣$ ，列数为文档总数 $∣ D ∣$ 。
- $U$ 是新的 term 矩阵，行数为词汇表大小 $∣ V ∣$ ，列数为 $m$ 。其中， $m$ 为矩阵 $∣ A ∣$ 的秩，即 $m = R a n k (A)$ 。（秩：其行向量或列向量的极大无关组中包含向量的个数。消除那些能通过矩阵中其他向量表示的向量。）
- $\Sigma$ 是大小为 $m\times m$ 的奇异值矩阵，它是一个对角矩阵。
- $V^T$ 是新的 document 矩阵，行数为 $m$ ，列数为文档总数 $∣ D ∣$ 。
- 后文给出SVD的求解例子。
截取：潜在语义分析（LSA，Latent Semantic Analysis）
- 基于SVD，将 $U,\Sigma, V$ 截取到 k 维，从而生成原始矩阵的最佳 k 阶近似
- 因此，截断后的 $U_k$ （或者 $V_k^T$ ）是对应单词的一个新的低维表示。
- 通常 k 的取值为 100-5000。

题外话——求解SVD：

$U$ 正交矩阵（左奇异向量）， $\Sigma$ 对角矩阵（奇异矩阵）， $V^T$ 正交矩阵（右奇异向量）。也可以理解为三个矩阵做了旋转、拉伸、旋转。
其中正交矩阵 $A$ 简单说就是 $A^{-1}=A^T,AA^T=E$ 。
如果我们想求解 $A=U\Sigma V^T$ ，我们现需要计算以下两个公式：

$A^TA=V\Sigma ^TU^TU\Sigma V^T=V\Sigma ^TE\Sigma V^T = V\Sigma ^T\Sigma V^T$
$AV=U\Sigma$
例：矩阵 $C=\begin{pmatrix}5 & 5\\-1& 7\end{pmatrix}$ 的SVD
代入上述两项公式得
$C^TC=\begin{pmatrix}5 & -1\\5& 7\end{pmatrix}\begin{pmatrix}5 & 5\\-1& 7\end{pmatrix} =\begin{pmatrix}26 & 18\\18& 74\end{pmatrix}$
现在需要找到 $C^TC$ 的特征值和特征向量
$det(C^TC-\lambda I)=det\begin{pmatrix}26-\lambda & 18\\18& 74-\lambda\end{pmatrix}\\ =\lambda^2-100\lambda+1600=(\lambda-20)(\lambda-80)=0$
det(x)表示矩阵x的行列式， I表示单位矩阵.
所以特征值是 20 和 80，然后通过 $(C^TC-\lambda I)X=0$ ，求特征向量 $X$ 。
代入20：
$(C^TC-20I)X=\begin{pmatrix}6 & 18\\18& 54\end{pmatrix}X=0$ 通过矩阵变换，可以求得 $V_1=\begin{pmatrix}\frac{-3}{\sqrt{10}} \\ \frac{1}{\sqrt{10}}\end{pmatrix}$ 。
代入80：可求得 $V_2=\begin{pmatrix}\frac{1}{\sqrt{10}} \\ \frac{3}{\sqrt{10}}\end{pmatrix}$
所以将两个特征向量合并得到 $V=\begin{pmatrix}\frac{-3}{\sqrt{10}} & \frac{1}{\sqrt{10}}\\\frac{1}{\sqrt{10}}& \frac{3}{\sqrt{10}}\end{pmatrix}$
将特征值开根号代入 $\Sigma = \begin{pmatrix}2\sqrt{5} & 0\\0& 4\sqrt{5}\end{pmatrix}$ .
然后开始根据上面第二个公式求出 $U$
$CV=\begin{pmatrix}-\sqrt{10} & 2\sqrt{10}\\\sqrt{10}& 2\sqrt{10}\end{pmatrix}$ ，然后把它变成单位长度 $\begin{pmatrix}-\frac{1}{\sqrt{2}} & \frac{1}{\sqrt{2}}\\\frac{1}{\sqrt{2}}& \frac{1}{\sqrt{2}}\end{pmatrix}=U\Sigma=U \begin{pmatrix}2\sqrt{5} & 0\\0& 4\sqrt{5}\end{pmatrix}$ ，简单反推一下 $\Sigma=\begin{pmatrix}1\sqrt{2} & 1\sqrt{2}\\-1\sqrt{2}& 1\sqrt{2}\end{pmatrix}$ .
DONE！

TODO：后期可以看看如何证明SVD

2.1.3 单词作为上下文

列举词与其他词一起出现的频率
- 在一些预定义的语境中（如一个N个词的窗口）。
原始频率的明显问题：被常用词所支配（比如the）
- 但我们不能使用tf-idf，因为我们不存在多个文档。
  
  在上面的矩阵中，每一行每一列都表示一个单词。单元格中的数字表示目标单词和上下文单词在整个语料库中所有大小为 5 的窗口内（即从语料库中提取所有的 five-grams）共同出现的频率。

2.1.3.1 逐点互信息（Point Mutual Information，PMI）

对于两个事件 x 和 y（即两个单词），PMI计算两者相关性，越相关数值越大。
- 计算联合分布 = $P (x, y)$
- 计算他们的单独分布（假设是独立的） = $P (x) P (y)$
- $log_2\frac{P(x,y)}{P(x)P(y)}$

例：
现在求state和country的PMI

2.1.3.2 PMI 矩阵

PMI确实能不错地提取到语义，比如 heaven 和 hell。
但是对于很少出现的单词对，结果就会存在一些偏差。
对于从来没出现的单词对，就会出现 -inf。

技巧
把所有负数的PMI都变成0（变成一个全部positive的PMI，即PPMI），这样可以避免 -inf 以及不可靠的负值出现。
通过normalise PMI $(\frac{PMI(x,y)}{-logP(x,y)})$ ，来减少罕见单词对

不管用的是 tf-idf 还是 PPMI ，SVD都可以帮助产生稠密向量。

2.2 基于神经网络方法

2.2.1 Word Embedding

在之前章节中，我们已经见过神经网络（前馈或循环）使用的词嵌入 (word embeddings)。
但是这些模型是为其他任务设计的：
- 分类
- 语言模型
词嵌入只是这些模型的一部分（副产品）。

专门为Embedding的神经模型

2.2.2 Word2Vec

TODO：可以看看中文论文翻译（参考）
大体讲的不错的视频
有时间再弄透这个，优先把LSTM和Transformer搞好。

核心思想：目标单词的嵌入应与其 相邻单词 的嵌入相似；并且和不会出现在其附近的其他单词的嵌入 不相似。

Word2Vec的框架是学习一个分类器，有以下2种算法
Skip-gram： 给定目标单词，预测该单词周围的局部上下文单词。
CBOW：给定目标单词周围的局部上下文单词，预测位于中心的目标单词。
周围的单词位置为 $L$ ，上面的例子中， $L = 2$

2.2.2.1 Skip-gram模型

通过给定的目标单词来预测每个相邻的单词
所有的概率被定义为： $\prod_{l\in-L,...,-1,1,...,L}P(w_{t+l|w_t})$
使用逻辑回归模型求 $P(w_{t+l}|w_t)$
$P(life|rests)=\frac{exp(W_{rests}\cdot C_{life})}{\sum_{u\in V exp(W_{rests\cdot C_u})}}$ ，其中 $W_{rests}$ 是 rests 的 word embedding， $C_{life}$ 是 life 的 word embedding。
上述公式里面有两个 word embedding $W, C$

每一行是一个单词的embedding，并且被标了序号。这两个大矩阵 $W, C$ 包含了所有的目标单词和上下文单词。

下图是最简单的 Skip-gram 模型的可视化图，当输出只有一个单词的时候。

Input layer：输入的是目标单词 $w_t$ 的one-hot向量。
比如说目标单词总共有 $∣ V ∣$ 个，当前目标单词比如是 love ，在所有目标单词中位置在第一个，那么模型的输入就是 $0,\cdots, 0]$
Hidden layer：这里的激活函数都是线性的（Word2Vec特有），指定大小为 $N$ 。（2014年Rong, X的文章中定义叫隐藏层，2013年Mikolov的原始论文其实定义叫投影层，但两者本质是一样的。参考本文2.4）。
Output layer：输出的大小仍然是 $1 * ∣ V ∣$ ，为了训练中间的参数，我们需要将实际上下文的单词向量和输入层的向量做对比，从而实现反向传播。。（从隐藏层到输出层的权重矩阵W′的计算量巨大，因为中间每个元素不为0，所以相比输入层和隐藏层中间的参数，这里需要 V^N个参数，所以和2013年Mikolov的工作一样，也是去掉了权重W′，这里用的是Hierarchical SoftMax 的方法。后文专门写一个Word2Vec）

“当模型训练完后，最后得到的其实是神经网络的权重，比如现在输入一个 x 的 one-hot encoder: $0,\cdots, 0]$ ，对应刚说的词语 love，则在输入层到隐含层的权重里，只有对应 1 这个位置的权重被激活，这些权重的个数，跟隐含层节点数是一致的，从而这些权重组成一个向量 vx 来表示x，而因为每个词语的 one-hot encoder 里面 1 的位置是不同的，所以，这个向量 vx 就可以用来唯一表示 x。”（参考）
除此之外，向量vx的大小是根据隐藏层神经元的个数决定的，所以一定程度上实现了 降维。

下图是当输出有两个单词时，skip-gram的图像。
输入层仍然是一个目标单词，中间会产生 $∣ V ∣ * d$ 个参数，d 就是隐藏层神经元的个数，然后通过不同的参数（上下文单词的词嵌入 $C$ ）得到不同的输出结果（第一次参数没有迭代时，大家的结果是一样的）。

训练 skip-gram 模型：

训练的目的就是让结果与原文本相似，也就是概率更高
但实际上，会使得训练很慢，原因是需要在计算概率的时候对所有的上下文单词的词嵌入点乘一遍，也就是归一化（normalization）。
为了解决这个问题，我们可以简单地把多分类问题（给一个目标单词，得到 $∣ V ∣$ 个多分类问题）变成二分类问题。
- 比如 (life, rests) 是真是存在的上下文，我们给它打上标签 1
- (aardvark, rests) 不存在这样的上下文关系，就打上标签 0
- 因为所有通过滑动窗口出来地单词组合都是 1，所以我们就有正向的数据集
- 负向的数据集（负采样），我们简单的拿目标单词配上随机从词表中抽取的单词即可，因为大部分单词还是很少同时出现的，所以随机就可以生成标签为 0 的数据。

负采样（Negative Sampling）
一句话中，t 是目标单词，前后两个都是上下文单词。那么正采样就是这个窗口中的搭配，负采样就是目标单词和任意单词的搭配。

用逻辑回归做二元分类问题，我们希望正采样结果是两个单词有最大的相似度，负采样的结果两词最不相似。

Skip-gram 损失函数
判断一个目标单词的损失函数，就是将正向采样中预测与结果之间的差值和负向采样中预测与结果之间的差值各自求和再两者求和：

但实践中，我们会对每一个目标单词给 k 个负采样，负采样的数量一般一个目标单词配上 5 个是最好的（参考gensim库）。

理想模型：

无监督：不需要有标签过的语料库
高效：负采样（不需要用softmax在整个词典里分析）；可以扩展到非常大的语料库上。

词向量或词嵌入的问题：

难以对词向量的质量进行量化。因为都是数字，不好直接判断好坏。
不能捕捉多义词。一个单词一个向量，但是词义不同没法解决。

2.3 评估

2.3.1 词相似

用余弦法测量两个词的相似度
将预测的相似性与人类的直觉进行比较
数据集
- WordSim-353 是一个由带有相关性评分的名词对组成的数据集。
- SimLex-999 还包含了动词和形容词。

2.3.2 词类比

Man 如果对应 King，那么 Woman 对应什么？
可以通过向量相减来判断： v(???) = v(Woman) - v(Man) + v(King) ，然后找到与 ??? 最相近的单词

2.3.3 Embedding空间

如果我们将词嵌入绘制在二维空间中（例如：使用 PCA 降维），我们会发现一些非常有趣的几何关系。这两张图就较为直观地展示了为什么我们可以实现词类比。

2.3.4 下游任务

“对于词向量，最佳评估方式是基于其他下游任务中的表现进行评估。

使用词袋嵌入作为分类器中的特征表示。
大部分深度学习模型中的第一层是对输入文本进行嵌入表示；相比随机初始化所有权重系数，我们可以仅对部分参数进行随机初始化，而对于词嵌入层的初始权重，我们可以使用预训练的词向量作为嵌入的初始化，因为这样我们可以在少量数据上训练出相对准确的词嵌入。

最近的 上下文词向量（contextual word vectors） 显示在神经网络上具有更好的效果。

ELMO 和 BERT

例如：根据单词 “dog” 出现的地方，我们会得到不同的词向量。从句子 1 得到的单词 “dog” 的词嵌入和从句子 2 得到的单词 “dog” 的词嵌入可能差别很大，因为二者的上下文不同。BERT 在捕获这种上下文词向量上做得非常好。”（参考3.14）

【NLP基础理论】 09 分布语义学（Distributional Semantics)）相关推荐

【NLP基础理论】03 文本分类
注: Unimelb Comp90042 NLP笔记相关tutorial代码链接 Text Classification(文本分类) 目录 Text Classification(文本分类) 1 分 ...
《深入探索C++对象模型》第二章构造函数语义学(The Semantics of Constructors)
一.default constructor的构造操作先看一个小例子: class Foo { public: int val; Foo *pnext; }; 此处正确的程序语意是要求Foo有一个默认 ...
【NLP基础理论】02 N-grams语言模型和Smoothing
注: Unimelb Comp90042 NLP笔记相关tutorial代码链接 N-grams Language Model (N-grams语言模型) 目录 N-grams Language M ...
【NLP基础理论】01 数据预处理
注: Unimelb Comp90042 NLP笔记相关tutorial代码链接目录 1 Preprocessing Steps(预处理步骤) 1.1 Sentence Segmentation( ...
NLP基础知识（语法语义、LDA、N-gram、词嵌入）
文章目录本节课大纲 Hyper-simplified linguistics Term spotting + handling negation, uncertainty ML to expand ...
《Python自然语言处理-雅兰·萨纳卡(Jalaj Thanaki)》学习笔记：06 高级特征工程和NLP算法
06 高级特征工程和NLP算法 6.1 词嵌入 6.2 word2vec基础 6.2.1 分布语义 6.2.2 定义word2vec 6.2.3 无监督分布语义模型中的必需品 6.3 word2vec ...
从one hot vector到Attention, Bert——NLP基本思想串连回顾
本文关注点在于梳理Neural NLP中各个方法.模型的思想,和各个模型之间的相互关联.启发不对各个模型的具体方程.梯度计算.训练trick等作详细讨论目录 1. 语言有哪些特点 1.1 前人对语 ...
NLP论文解读《Distributed Representations of Words and Phrasesand their Compositionality》
目录词和短语的分布式表示以及他们的表示 1.介绍 2 Skip - gram模型 2.1 分层的Softmax(Hierarchical Softmax) 2.2 负样本(Negative Sam ...
人工智能——自然语言处理（NLP）攻略
自然语言处理,英文Natural Language Processing,简写NLP.NLP这个概念本身过于庞大,很难通过简短的几句定义就能明白它是什么.不妨把它分成"自然语言"和 ...

【NLP基础理论】 09 分布语义学（Distributional Semantics)）