glove中文词向量_《GloVe:Global Vectors for Word Representation》学习

1.概述

自从2013年Mikolov提出了word2vec之后，无监督预训练的word embedding越来越火，很多学者都在研究如何获得更好的语义表达。于是，出现了同样是静态表示的Glove,动态表示的Elmo,Bert,Xlnet等。特别是bert,xlnet在NLP多项任务上大杀四方。同时，word embedding的研究倾向于复杂的模型，需要强大的计算能力，所以，Word embedding以后的发展可能基本上只属于巨头们。另一条路来说，随着知识图谱的发展，有学者开始研究如何利用知识图谱来进行语义表示，可能这个方向上，利用简单的Word embedding算法可以获得更好的性能。

2.word embedding发展

在word2vec之前，NLP领域的embedding主要是one-hot、n-gram、co-occurrence matrix，以及在这基础上的矩阵分解。他们的问题是，维数过多，太稀疏。

随着深度神经网络的发展，学者提出了神经语言模型，开始研究分布式表征。这个阶段word embedding只是个附属产物。其图示如下：

2013年Mikolov进行了改进，专注于获得word embedding,于是有了CBOW,Skip-grams两种word2vec,并且在计算时进行了优化，提出了negative sampling和Hierarchical Softmax。

word2vec是基于滑动窗口进行计算的，只考虑了局部信息，那么为了利用全局的信息，本文提出了GloVe.

word2vec,Glove都是静态的，每个词的embedding训练后就是固定的，但是真正的语义是基于context上下文的，于是有了后来的动态embedding,比如，Elmo(基于bi-lstm),Bert,Xlnet(基于transformer).

在利用知识图谱方面，ERNIE也表现出了不俗的性能。

3.论文细节

3.1 共现矩阵

在训练语料中，可以统计每个词i与其上下文窗口内的词j的出现次数，表示为

,在实际实现中，由于距离i的远近不一样，这些上下文的权重应该不一样，所以要根据距离i的位置给一个加权系数。中心词i的上下文中所有词出现次数表示为

,令

3.2 目标函数

共现矩阵可以直接统计出来，那么如何利用它设计一个好的目标函数？

给定两个中心词，i,j，对于上下文词k，如果k与i更相关，那么，

应该更大。为什么要考虑这个比值，而不是直接利用

呢？我觉得比值可以表达与中心词的相关度，单独一个绝对的P无法表达。绝对的P值大，可能是分子大，也可能是分母小，他们的作用并不一样。

与两个中心词i,j,和一个上下文词k有关，表示为：

,其中

,分别是中心词d维向量和上下文词d维向量。接下来要确定F的形式。

向量空间一般是线性的，所以这里考虑F是两个向量的差值的函数，即

,而

是一个标量，而向量差值依然是向量。要将向量转为标量，可以用一些复杂函数，比如NN，但是非线性函数会影响到向量空间的线性结构，所以，本文利用了简单的向量点积，即

中心词和上下文词的分布是任意的，为了能让他们互换，F设计为

,所以

令F = exp,那么，

,于是有：

，为了保证对称，在左侧对i,k各加入一个bias,即

,其中

包含了

。

这里有两个问题，一是，在统计中

会有很多为零的情况，为了解决这一问题，可以加一，即

，但是这样差距会变小.二是，其对所有共现词权重都一样，忽略了出现的绝对次数，要解决这个问题，本文提出了加权最小平方回归模型，最终的目标函数为：

其中，V是vocabulary的大小。

加权函数f需要满足一些条件：

1.f(0) = 0

2.f(x)单调不减,保证出现次数少的不会加权过大。

3.x很大时，f(x)不能太大，保证出现次数太大的也不会加权过大。

本文选择的是

.其中

是超参数，本文给的是经验值，100和3/4.其图示如下；

x_max=100,alpha = 3/4时加权函数

3.3 模型复杂度

从目标函数出可以看到，计算复杂度最多为

,当V较大时，这个会很大。所以要谨慎选择Vocabulary.

4.实验结果

4.1 任务

（1）词类比word analogy：完成“a is to b as c is to ?”

（2）词相似度word similarity：找到相似度高的词

（3）NER tagging：标记人名，组织名，地点名，时间等，如CoNLL评测集

4.2 结果

(1)word analogy

sem语义，Syn语法

(2)word similarity

(3)NER tagging

从以上三个任务对比结果看，glove都优于其他的embedding。

5.总结

word2vec基于local 窗口来计算，忽略了全局的信息，Glove利用了共现矩阵来弥补了这一缺点。Glove的模型包含中心词embedding，和共现词embedding。在使用的时候可以灵活的利用这两个embedding，比如拼接，加和平均。

pretrain embedding在NLP任务中占据了越来越多的重要性，比如Bert,XlNet等频频刷榜。但是Bert,XLnet模型太复杂，训练很困难。这也会把embedding的发展引入歧途，毕竟对于大多数NLP任务可能不需要这么复杂的模型。

参考资料：

GloVe:Global Vectors for Word Representation，Jeffrey Pennington etc.

https://blog.csdn.net/L_R_H000/article/details/81320286