本文资源:

链接:https://pan.baidu.com/s/1my30wyqOk_WJD0jjM7u4TQ 
        提取码:xxe0 
        --来自百度网盘超级会员V1的分享

中文都讲完了,英文没有什么好说的,相关的理论知识可以看之前的博客

中文词向量:word2vec之skip-gram实现(不使用框架实现词向量模型)_Richard_Kim的博客-CSDN博客

中文词向量:使用pytorch实现CBOW训练_Richard_Kim的博客-CSDN博客

直接贴结果了

英文语料运行结果

完整代码

#!/usr/bin/endimension python
# -#-coding:utf-8 -*-
# author:by ucas iie 魏兴源
# datetime:2021/10/29 11:24:08
# software:PyCharm"""之前已经使用numpy手动实现skip-gram,现在使用pytorch框架实现CBOW这是pytorch官网的CBOW案例的修改,简单明了,没有涉及底层代码,没有层次优化or负采样优化等问题地址:https://pytorch.org/tutorials/beginner/nlp/word_embeddings_tutorial.html?highlight=cbow
"""import torch
import numpy as np
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from matplotlib import pyplot as plt
from sklearn.decomposition import PCA
from tqdm import tqdm, trange# 初始化矩阵
torch.manual_seed(1)with open('data/enDemoTest2') as f:data = f.read()
raw_text = data.split()print("raw_text=", raw_text)# 超参数
learning_rate = 0.001
# 放cuda或者cpu里
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
# 上下文信息,即涉及文本的前n个和后n个
context_size = 2
# 词嵌入的维度,比如embedding_dim=3即一个单词3个浮点数表示比如 the=[10.2323,12.132133,4.1219774]...
# 如果值为100的话,用维度为100的向量表示,一般都是要100-300个之间
embedding_dim = 100
# 训练次数
epoch = 10def make_context_vector(context, word_to_ix):idxs = [word_to_ix[w] for w in context]return torch.tensor(idxs, dtype=torch.long)# 把所有词集合转成dict
vocab = set(raw_text)
vocab_size = len(vocab)word_to_idx = {word: i for i, word in enumerate(vocab)}
idx_to_word = {i: word for i, word in enumerate(vocab)}# cbow那个词表,即{[w1,w2,w4,w5],"label"}这样形式
data = []
for i in range(2, len(raw_text) - 2):context = [raw_text[i - 2], raw_text[i - 1],raw_text[i + 1], raw_text[i + 2]]target = raw_text[i]data.append((context, target))print(data[:5])class CBOW(nn.Module):def __init__(self, vocab_size, embedding_dim):super(CBOW, self).__init__()self.embeddings = nn.Embedding(vocab_size, embedding_dim)self.proj = nn.Linear(embedding_dim, 128)self.output = nn.Linear(128, vocab_size)def forward(self, inputs):embeds = sum(self.embeddings(inputs)).view(1, -1)out = F.relu(self.proj(embeds))out = self.output(out)nll_prob = F.log_softmax(out, dim=-1)return nll_prob# 模型在cuda训练
model = CBOW(vocab_size, embedding_dim).to(device)
# 优化器
optimizer = optim.SGD(model.parameters(), lr=0.001)
# 存储损失的集合
losses = []
"""负对数似然损失函数,用于处理多分类问题,输入是对数化的概率值。对于包含N NN个样本的batch数据 D ( x , y ) D(x, y)D(x,y),x xx 是神经网络的输出,进行了归一化和对数化处理。y yy是样本对应的类别标签,每个样本可能是C种类别中的一个。
"""
loss_function = nn.NLLLoss()for epoch in trange(epoch):total_loss = 0for context, target in tqdm(data):# 把训练集的上下文和标签都放到GPU中context_vector = make_context_vector(context, word_to_idx).to(device)target = torch.tensor([word_to_idx[target]]).cuda()# print("context_vector=", context_vector)# 梯度清零model.zero_grad()# 开始前向传播train_predict = model(context_vector).cuda()  # 这里要从cuda里取出,不然报设备不一致错误loss = loss_function(train_predict, target)# 反向传播loss.backward()# 更新参数optimizer.step()total_loss += loss.item()losses.append(total_loss)
print("losses-=", losses)# 测试一下,用['present', 'food', 'can', 'specifically']这个上下预测一下模型,正确答案是‘surplus’
context = ['present', 'food', 'can', 'specifically']
# 这个变量要放到gpu中,不然又要报设备不一致错误,因为只有把这个数据 同cuda里训练好的数据比较,再能出结果。。很好理解吧
context_vector = make_context_vector(context, word_to_idx).to(device)
# 预测的值
predict = model(context_vector).data.cpu().numpy()
print('Raw text: {}\n'.format(' '.join(raw_text)))
print('Test Context: {}\n'.format(context))
max_idx = np.argmax(predict)
# 输出预测的值
print('Prediction: {}'.format(idx_to_word[max_idx]))# 获取词向量,这个Embedding就是我们需要的词向量,他只是一个模型的一个中间过程
print("CBOW embedding'weight=", model.embeddings.weight)
W = model.embeddings.weight.cpu().detach().numpy()# 生成词嵌入字典,即{单词1:词向量1,单词2:词向量2...}的格式
word_2_vec = {}
for word in word_to_idx.keys():# 词向量矩阵中某个词的索引所对应的那一列即为所该词的词向量word_2_vec[word] = W[word_to_idx[word], :]
print("word2vec=", word_2_vec)"""待转换类型的PyTorch Tensor变量带有梯度,直接将其转换为numpy数据将破坏计算图,因此numpy拒绝进行数据转换,实际上这是对开发者的一种提醒。如果自己在转换数据时不需要保留梯度信息,可以在变量转换之前添加detach()调用。
"""pca = PCA(n_components=2)
principalComponents = pca.fit_transform(W)# 降维后在生成一个词嵌入字典,即即{单词1:(维度一,维度二),单词2:(维度一,维度二)...}的格式
word2ReduceDimensionVec = {}
for word in word_to_idx.keys():word2ReduceDimensionVec[word] = principalComponents[word_to_idx[word], :]# 将生成的字典写入到文件中
with open("CBOW_en_wordvec.txt", 'w') as f:for key in word_to_idx.keys():f.write('\n')f.writelines('"' + str(key) + '":' + str(word_2_vec[key]))f.write('\n')# 将词向量可视化
plt.figure(figsize=(20, 20))
# 只画出1000个,太多显示效果很差
count = 0
for word, wordvec in word2ReduceDimensionVec.items():if count < 1000:plt.scatter(wordvec[0], wordvec[1])plt.annotate(word, (wordvec[0], wordvec[1]))count += 1
plt.show()

英文词向量:使用pytorch实现CBOW相关推荐

  1. 《自然语言处理学习之路》02 词向量模型Word2Vec,CBOW,Skip Gram

    本文主要是学习参考莫烦老师的教学,对老师课程的学习,记忆笔记. 原文链接 文章目录 书山有路勤为径,学海无涯苦作舟. 零.吃水不忘挖井人 一.计算机如何实现对于词语的理解 1.1 万物数字化 1.2 ...

  2. PGL 系列(四)词向量 CBOW

    环境 python 3.6.8 paddlepaddle-gpu 2.3.0 numpy 1.19.5 pgl 2.2.4 学习路线 一.CBOW 概念 CBOW:通过上下文的词向量推理中心词 在CB ...

  3. 预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载

    中文预训练词向量--基于中文维基百科语料训练 英文预训练词向量--斯坦福glove预训练的词向量 百度云分享:https://pan.baidu.com/s/1UpZeuqlNMl6XtTB5la53 ...

  4. NLP-分类模型-2016-文本分类:FastText【使用CBOW的模型结构;作用:①文本分类、②训练词向量、③词向量模型迁移(直接拿FastText官方已训练好的词向量来使用)】【基于子词训练】

    <原始论文:Bag of Tricks for Efficient Text Classification> <原始论文:Enriching Word Vectors with Su ...

  5. BERT实战(1):使用DistilBERT作为词嵌入进行文本情感分类,与其它词向量(FastText,Word2vec,Glove)进行对比

    这次根据一篇教程Jay Alammar: A Visual Guide to Using BERT for the First Time学习下如何在Pytorch框架下使用BERT. 主要参考了中文翻 ...

  6. 词向量Word2Vec(深度细致分析)

    本文以博客园刘建平Pinard对于word2vec的解释为基础,同时参考了其他相关博客的分析并加入了自己的理解,希望站在巨人的肩膀上进行一定的学习输出.至于本片文章的属性,个人认为是伪原创吧,有需要的 ...

  7. 中文词向量论文综述(二)

    导读 最近在做中文词向量相关工作,其中看了一些中文词向量的相关论文,在这篇文章,将把近几年的中文词向量进展及其模型结构加以简述,大概要写3-4篇综述,每篇包含2-3篇论文.续 --- 中文词向量论文综 ...

  8. 背景区域为负样本什么意思_词向量-skipgram与负采样

    大纲: 1. onehot vs 分布式表示 2. 分布式表示的全局泛化能力 3. how to learn word2vec - intuition 4. SkipGram 5. SkipGram ...

  9. NLP基础|中英文词向量评测理论与实践

    七月 上海 | 高性能计算之GPU CUDA培训 7月27-29日三天密集式学习  快速带你入门阅读全文> 正文共1416个字,6张图,预计阅读时间6分钟. 导读 最近在做词向量相关工作,训练的 ...

最新文章

  1. LeetCode简单题之检查是否所有字符出现次数相同
  2. 2013年3月空调类品牌网络知名度排名
  3. 写在Github被微软收购之际 - Github的那些另类用法
  4. Java 清除指定目录文件夹下文件
  5. 2580 php to yuan,PHP版汉字转拼音类-ASCII版本 | 学步园
  6. Unity内置管线Projector原理分析
  7. React Native 中使用图标
  8. 电脑技巧:加装SSD固态硬盘注意事项,电脑速度超流畅
  9. spring-mybatis实现注册通过邮箱发送激活码激活注册用户
  10. audio autoplay
  11. [Linux]termios
  12. Zero-shot Learning / One-shot Learning
  13. Android仿手机淘宝多级下拉菜单
  14. 2019计算机学院年会主持稿,2019学校元旦联欢晚会主持词(开场白+结尾)
  15. 手把手教你如何使用Multisim对Digilent FPGA开发板进行编程
  16. IT项目管理-看板管理
  17. 绿幕抠图直接成像_我在PPT做抠图 - 教程分享 - 锐普PPT论坛 - Powered by Discuz!
  18. 果里果气的套壳Windows11系统资源来了,已跳过TPM安全模块验证
  19. 【前端Vue】nginx部署vue windows版本
  20. ue4中Pak文件中挂载的资源名称获取

热门文章

  1. java流程控制——嵌套循环
  2. 成长随心记12(C++容器,stack,queue,list)
  3. 第一次完全会玩扫雷,@NK_test
  4. go与python区别_golang和python有什么区别?
  5. 苹果系统地图定位服务器,iOS 系统地图实现及定位
  6. Excel电商女装评价分析
  7. STO会带领区块链走向新繁荣吗?
  8. 西瓜书--学习笔记1
  9. 微信官方揭秘高收益骗局:既骗用户还骗运营者
  10. 【视频】植物细胞分裂