word2vec——训练自己的word2vec模型

数据集：data/souhu下面的所有文件夹的所有txt文件

代码：

import os
import re
import sys
import jieba
import torch
from gensim.models import Word2Vec, word2vec
import numpy as np
import jieba.analyse
import matplotlib.pyplot as plt
from tqdm import tqdm
import pickleplt.rcParams['font.sans-serif'] = ['SimHei']#用来正常显示中文标签
plt.rcParams['axes.unicode_minus'] = False#用来正常显示负号#固定随机数
np.random.seed(100)
torch.cuda.manual_seed(100)
sys.stdout.flush()
nFile = 200
root_path = "datasets/souhu"
class_list = os.listdir(root_path)
all_word_list = []
for c in class_list:class_path =root_path + "/" + cfile_list = os.listdir(class_path)for name in file_list:file_path = class_path+"/" +namewith open(file_path, "r", encoding='utf-8') as f:txt = f.read()txt = re.sub("[    \t\n]*", "", txt)word_list = jieba.analyse.textrank(txt, topK = None, withWeight = False, allowPOS=('ns', 'n', 'vn', 'v'))all_word_list.extend(word_list)
result = " ".join(all_word_list)
with open("result.txt", "w", encoding="utf-8") as f:f.write(result)
f.close()
sentences = word2vec.Text8Corpus("result.txt")#加载语料
model = word2vec.Word2Vec(sentences, vector_size = 250, min_count=1) #训练模型,维度设置为200,最小词频设置为1;
model.save("my_model.model")
with open("all_word_list.pkl", "wb") as f:pickle.dump(all_word_list, f)
f.close()model = Word2Vec.load("my_model.model")
with open("all_word_list.pkl", 'rb') as f:all_word_list = pickle.load(f)
f.close()

用新生成的word2vec计算与输入单词最相近的单词：

用新生成的word2vec计算输入单词中最不同的：

# coding=utf-8
from gensim.models import Word2Vecen_wiki_wor2vec_model=Word2Vec.load('my_model.model')testwords=['苹果','数学','电影']
for i in range(3):res=en_wiki_wor2vec_model.wv.most_similar(testwords[i])print(testwords[i])print(res)testwords=['济南','北京','叶蓁蓁']
re1=en_wiki_wor2vec_model.wv.doesnt_match(testwords)
print(re1)

备注：一般是用维基百科的语料库进行word2vec的训练

word2vec——训练自己的word2vec模型相关推荐

268G+训练好的word2vec模型（中文词向量）
268G+训练好的word2vec模型( 从网上了解到,很多人缺少大语料训练的word2vec模型,在此分享下使用268G+语料训练好的word2vec模型. 查看全文 http://www.ta ...
【深度学习】120G+训练好的word2vec模型（中文词向量）
很多人缺少大语料训练的word2vec模型,在此分享下使用268G+语料训练好的word2vec模型. 训练语料: 百度百科800w+条,26G+ 搜狐新闻400w+条,13G+ 小说:229G+ i ...
120G+训练好的word2vec模型（中文词向量）
从网上了解到,很多人缺少大语料训练的word2vec模型,在此分享下使用120G+语料训练好的word2vec模型. 训练语料: 百度百科800w+条,20G+ 搜狐新闻400w+条,12G+(数据下 ...
word2vec训练中文模型—wiki百科中文库
ps:整理电脑文档,将之前的做的word2vec训练的中文模型实验记录做下poko,欢迎交流学习. 1.准备数据与预处理注意事项:请将内存最好选择8g及以上的电脑,否则可能卡顿,并在开始时候安装好p ...
Python Djang 搭建自动词性标注网站（基于Keras框架和维基百科中文预训练词向量Word2vec模型，分别实现由GRU、LSTM、RNN神经网络组成的词性标注模型）
引言本文基于Keras框架和维基百科中文预训练词向量Word2vec模型,分别实现由GRU.LSTM.RNN神经网络组成的词性标注模型,并且将模型封装,使用python Django web框架搭建 ...
Python gensim库使用word2vec 加载和保存模型、在预训练基础上训练自己的预料
Python gensim库使用word2vec 常见: gensim.models.word2vec.Word2Vec(size=300, sg=1, min_count=1) 加载和保存模型 ge ...
word2vec训练词向量 python_使用Gensim word2vector训练词向量
注意事项 Skip-Gram models:输入为单个词,输出目标为多个上下文单词: CBOW models:输入为多个上下文单词,输出目标为一个单词: 选择的训练word2vec的语料要和要使用词向 ...
使用word2vec训练中文词向量
https://www.jianshu.com/p/87798bccee48 一.文本处理流程通常我们文本处理流程如下: 1 对文本数据进行预处理:数据预处理,包括简繁体转换,去除xml符号,将单词 ...
利用word2vec训练词向量
利用word2vec训练词向量这里的代码是在pycharm上运行的,文件列表如下: 一.数据预处理我选用的数据集是新闻数据集一共有五千条新闻数据,一共有四个维度数据集:https://pan.b ...

word2vec——训练自己的word2vec模型

word2vec——训练自己的word2vec模型相关推荐

最新文章

热门文章