利用中文维基百科训练词向量模型

本文通过对中文维基百科数据的处理用来训练word2vec模型，更深入的了解词向量模型的训练过程，并且对文本的处理进行掌握

python代码如下所示（添加详细注释）：

# -*-coding: UTF-8 -*-
# @Time:2019/8/28 19:02
# @author superxjz
# @func
import logging, jieba, os, re
from gensim.models import word2vec#得到停用词
def get_stopwords():#这是关于日志的设置函数logging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s', level=logging.INFO)# 加载停用词表# set()函数创建一个无序不重复元素集，可进行关系测试，删除重复数据，还可以计算交集、差集、并集等/类似是一个集合stopword_set = set()with open("../stop_words/stopwords.txt", 'r', encoding="utf-8") as stopwords:for stopword in stopwords:stopword_set.add(stopword.strip("\n"))return stopword_set'''
使用正则表达式解析文本
'''#对维基数据进行处理的函数
def parse_zhwiki(read_file_path, save_file_path):# 过滤掉<doc># 正则表达式regex_str = "[^<doc.*>$]|[^</doc>$]"#打开文件file = open(read_file_path, "r", encoding="utf-8")# 打开写入文件output = open(save_file_path, "w+", encoding="utf-8")#将文件内的第一行数据（文章）写入到content_linecontent_line = file.readline()# 获取停用词表stopwords = get_stopwords()# 定义一个字符串变量，表示一篇文章的分词结果article_contents = ""#当文件内的数据没有读完的时候while content_line:#使用正则表达式进行匹配将句子匹配了出来match_obj = re.match(regex_str, content_line)#去除换行content_line = content_line.strip("\n")if len(content_line) > 0:#如果match_obj为真if match_obj:# 使用jieba对content_line进行分词words = jieba.cut(content_line, cut_all=False)for word in words:if word not in stopwords:#将单词写入到article_contentsarticle_contents += word + " "else:if len(article_contents) > 0:output.write(article_contents + "\n")#将这一行重新又设置成了空的字符串article_contents = ""# 读入第二行content_line = file.readline()# 关闭文件output.close()'''
将维基百科语料库进行分类
'''#对raw_corpus进行处理
def generate_corpus():#原始的语料zhwiki_path = "D:/dataset/NLP/zhwiki/AA"#保存处理后的语料save_path = "D:/dataset/NLP/zhwiki/AA"#文件夹下不止一个文件for i in range(3):# os.path.join()函数：连接两个或更多的路径名组件file_path = os.path.join(zhwiki_path, str("zh_wiki_0%s_jt" % str(i)))#经过 parse_zhwiki这个函数已经将原始语料进行了处理，并且保存在了文件夹中parse_zhwiki(file_path, os.path.join(save_path, "wiki_corpus0%s" % str(i)))'''
合并分词后的文件
'''
def merge_corpus():# 打开处理后的维基文件夹output = open("D:/dataset/NLP/zhwiki/AA/wiki_corpus","w",encoding="utf-8")input = "D:/dataset/NLP/zhwiki/AA"for i in range(3):# 将input文件下的文件保存在output-一个文件下file_path = os.path.join(input,str("wiki_corpus0%s"%str(i)))file = open(file_path,"r",encoding="utf-8")line = file.readline()while line:output.writelines(line)line = file.readline()file.close()output.close()if __name__ == "__main__":#已经处理好的维基语料input_file = "D:/dataset/NLP/zhwiki/AA/wiki_corpus"file = open(input_file,"r",encoding="utf-8")line = file.readline()num = 1while line:print(line)line = file.readline()num += 1if num > 10:break#利用处理好的中文维基语料进行训练词向量模型并且保存sentences = word2vec.LineSentence("D:/dataset/NLP/zhwiki/AA/wiki_corpus")model = word2vec.Word2Vec(sentences, size=250)# 保存模型model.save("model/wiki_corpus.model")

github源码地址如下：https://github.com/steelOneself/NLP_learn/tree/master/zhwiki_chinese

利用中文维基百科训练词向量模型相关推荐

基于中文维基百科的词向量构建及可视化
你将使用Gensim和维基百科获得你的第一批中文词向量,并且感受词向量训练的基本过程. 词向量原理详解请参考: 词向量技术原理及应用详解(一) 词向量技术原理及应用详解(二) 词向量技术原理及应用详解 ...
Windows下维基百科中文语料库词向量训练
Windows下维基百科中文语料库词向量训练 Garbage in,garbage out. 自然语言处理中,词向量的处理尤为重要.而生成词向量的好坏往往取决于语料库的训练,所以,语料库的选择十分 ...
使用中文维基百科训练word2vec模型的最新方法！
网上看了很多其他博客,发现有些部分都太老旧了,以至于现在套用都错误百出...这里总结了一下使用中文维基百科训练word2vec模型的最新方法. 参考链接: https://blog.csdn.net/ ...
基于Keras预训练词向量模型的文本分类方法
本文语料仍然是上篇所用的搜狗新闻语料,采用中文预训练词向量模型对词进行向量表示.上篇文章将文本分词之后,采用了TF-IDF的特征提取方式对文本进行向量化表示,所产生的文本表示矩阵是一个稀疏矩阵,本篇采 ...
从零开始构建基于textcnn的文本分类模型（上），word2vec向量训练，预训练词向量模型加载，pytorch Dataset、collete_fn、Dataloader转换数据集并行加载
伴随着bert.transformer模型的提出,文本预训练模型应用于各项NLP任务.文本分类任务是最基础的NLP任务,本文回顾最先采用CNN用于文本分类之一的textcnn模型,意在巩固分词.词向量 ...
使用中文维基百科训练word2vec模型
一.下载原始数据数据下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ,或者在这 ...
利用中文维基百科数据进行词语相似度word2vec实验
使用维基百科数据利用word2vec简历词向量, 通过对词向量之间的距离的比对,查找出与给出词语相似度较高的单词进行返回 1.使用维基百科官方给出的文档处理程序处理从维基百科上下载的压缩包文件成原始t ...
使用 rnn 训练词向量模型
词向量说明如下: 词向量模型表征的是词语与词语之间的距离和联系,词向量也叫词嵌入 word embedding CBOW 模型: 根据某个词的上下文,计算中间词出现的概率,预测的是中心词 Skip-G ...
ELMo预训练词向量模型
引言 Word Embedding:词嵌入.最简单的理解就是:将词进行向量化表示,抽象成为数学描述,然后可以进行建模,应用到很多自然语言处理的下游任务中.之前用语言模型做 Word Embedding ...
用维基百科训练word2vec中文词向量
主要参考: https://blog.csdn.net/weixin_40547993/article/details/97781179 https://www.kaggle.com/jeffd23/ ...

利用中文维基百科训练词向量模型

本文通过对中文维基百科数据的处理用来训练word2vec模型，更深入的了解词向量模型的训练过程，并且对文本的处理进行掌握

利用中文维基百科训练词向量模型相关推荐

最新文章

热门文章