glove中文词向量_NLP中文文本分类任务的笔记（一）

词向量的使用。

通用的词向量包含word2vec，glove，fasttext三种方式，通过n-gram以及COBW或者skip-gram的方式获取得到，这边分享一个词向量的GitHub资

Embedding/Chinese-Word-Vectorsgithub.com

word2vec/fasttext基本训练步骤：

step 1：准备词表，将词进行one-hot-encoding。

step 2：进行正负样本的采样，利用context word构建正负样本。

step 3：基于softmax进行浅层神经网络进行训练，fasttext的加速方法：

选择使用分层softmax， ngram的方式处理数据。

2. Glove的基本原理概述：

基于窗口的共现矩阵（windows based co-occurrence matrix）和词上下文出现的总词数形成一个共现频率矩阵，类似于singular value decomposition的方法实现的。

传统文本分类的方法（LR，SVM，TEXTCNN）

Logistic Regression:

LR的概率定义：

目标函数是：

mi. n -frac{1}{n}sum_{i=1}^{n}y_ilog(1-hat{p_i}) +(1-y_i)loghat{p_i}

2. SVM:

hard margin hinge loss:

soft margin loss 加入松弛变量

根据KKT条件，我们将其转化为对偶问题，从而减少计算量：

核函数相关的

Linear Kernel:

Polynomial Kernel:

Radius Basis Kernel:

Sigmoid Kernel:

3. TEXT-CNN:

text-cnn 是一种高效且准确率有保障的一种文本分类算法，具体的原理可以有下面的图片表示：

上面的图表示的是每个词被表征为一个向量，然后一句话就可以concatenate成一个词向量矩阵，接下来，我们可以定义不同的 conv2d layer (如上图，我们用了不同的kernel， kernel size为2，3，4)。具体的代码实现如下。

class TextCNN(nn.Module):def __init__(self, config):super(TextCNN, self).__init__()self.config = configvocab_size = config["vocab_size"]embed_dim = config["emb_dim"]label_num = config["num_labels"]channel_i = 1channel_o = config["kernel_num"]kernel_sizes = config["kernel_sizes"]self.encoder = nn.Embedding(vocab_size, embed_dim)if vectors:self.encoder = self.encoder.from_pretrained(torch.tensor(vectors), freeze=True)self.convs = nn.ModuleList([nn.Conv2d(channel_i, channel_o, (k, embed_dim)) for k in kernel_sizes])self.dropout = nn.Dropout(config["dropout"])self.fc = nn.Linear(len(kernel_sizes)*channel_o, label_num)# self.fc1 = nn.Linear(config.max_len*embed_dim, label_num)def forward(self, sentence):x = self.encoder(sentence)x= x.unsqueeze(1) ## (N, 1, W, embed_dim)x = [F.relu(conv(x).squeeze(3)) for conv in self.convs] ## (N, channel_o, Wi]) i = 1,...,len(kernel_sizes)x = [F.max_pool1d(i, i.size(2)).squeeze(2) for i in x] ## (N, channel_o) * len(kernel_sizes)x = torch.cat(x, dim=1) ## (N, channel_o*len(kernel_sizes))x = self.dropout(x) ## (N, channel_o*len(kernel_sizes))logit = self.fc(x) ## (N, label_num)output = F.log_softmax(logit, dim=1)return output