本文通过对中文维基百科数据的处理用来训练word2vec模型,更深入的了解词向量模型的训练过程,并且对文本的处理进行掌握

python代码如下所示(添加详细注释):

# -*-coding: UTF-8 -*-
# @Time:2019/8/28 19:02
# @author superxjz
# @func
import logging, jieba, os, re
from gensim.models import word2vec#得到停用词
def get_stopwords():#这是关于日志的设置函数logging.basicConfig(format='%(asctime)s:%(levelname)s:%(message)s', level=logging.INFO)# 加载停用词表# set()函数创建一个无序不重复元素集,可进行关系测试,删除重复数据,还可以计算交集、差集、并集等/类似是一个集合stopword_set = set()with open("../stop_words/stopwords.txt", 'r', encoding="utf-8") as stopwords:for stopword in stopwords:stopword_set.add(stopword.strip("\n"))return stopword_set'''
使用正则表达式解析文本
'''#对维基数据进行处理的函数
def parse_zhwiki(read_file_path, save_file_path):# 过滤掉<doc># 正则表达式regex_str = "[^<doc.*>$]|[^</doc>$]"#打开文件file = open(read_file_path, "r", encoding="utf-8")# 打开写入文件output = open(save_file_path, "w+", encoding="utf-8")#将文件内的第一行数据(文章)写入到content_linecontent_line = file.readline()# 获取停用词表stopwords = get_stopwords()# 定义一个字符串变量,表示一篇文章的分词结果article_contents = ""#当文件内的数据没有读完的时候while content_line:#使用正则表达式进行匹配将句子匹配了出来match_obj = re.match(regex_str, content_line)#去除换行content_line = content_line.strip("\n")if len(content_line) > 0:#如果match_obj为真if match_obj:# 使用jieba对content_line进行分词words = jieba.cut(content_line, cut_all=False)for word in words:if word not in stopwords:#将单词写入到article_contentsarticle_contents += word + " "else:if len(article_contents) > 0:output.write(article_contents + "\n")#将这一行重新又设置成了空的字符串article_contents = ""# 读入第二行content_line = file.readline()# 关闭文件output.close()'''
将维基百科语料库进行分类
'''#对raw_corpus进行处理
def generate_corpus():#原始的语料zhwiki_path = "D:/dataset/NLP/zhwiki/AA"#保存处理后的语料save_path = "D:/dataset/NLP/zhwiki/AA"#文件夹下不止一个文件for i in range(3):# os.path.join()函数:连接两个或更多的路径名组件file_path = os.path.join(zhwiki_path, str("zh_wiki_0%s_jt" % str(i)))#经过 parse_zhwiki这个函数已经将原始语料进行了处理,并且保存在了文件夹中parse_zhwiki(file_path, os.path.join(save_path, "wiki_corpus0%s" % str(i)))'''
合并分词后的文件
'''
def merge_corpus():# 打开处理后的维基文件夹output = open("D:/dataset/NLP/zhwiki/AA/wiki_corpus","w",encoding="utf-8")input = "D:/dataset/NLP/zhwiki/AA"for i in range(3):# 将input文件下的文件保存在output-一个文件下file_path = os.path.join(input,str("wiki_corpus0%s"%str(i)))file = open(file_path,"r",encoding="utf-8")line = file.readline()while line:output.writelines(line)line = file.readline()file.close()output.close()if __name__ == "__main__":#已经处理好的维基语料input_file = "D:/dataset/NLP/zhwiki/AA/wiki_corpus"file = open(input_file,"r",encoding="utf-8")line = file.readline()num = 1while line:print(line)line = file.readline()num += 1if num > 10:break#利用处理好的中文维基语料进行训练词向量模型并且保存sentences = word2vec.LineSentence("D:/dataset/NLP/zhwiki/AA/wiki_corpus")model = word2vec.Word2Vec(sentences, size=250)# 保存模型model.save("model/wiki_corpus.model")

github源码地址如下:https://github.com/steelOneself/NLP_learn/tree/master/zhwiki_chinese

利用中文维基百科训练词向量模型相关推荐

  1. 基于中文维基百科的词向量构建及可视化

    你将使用Gensim和维基百科获得你的第一批中文词向量,并且感受词向量训练的基本过程. 词向量原理详解请参考: 词向量技术原理及应用详解(一) 词向量技术原理及应用详解(二) 词向量技术原理及应用详解 ...

  2. Windows下维基百科中文语料库词向量训练

    Windows下维基百科中文语料库词向量训练 Garbage in,garbage out. ​ 自然语言处理中,词向量的处理尤为重要.而生成词向量的好坏往往取决于语料库的训练,所以,语料库的选择十分 ...

  3. 使用中文维基百科训练word2vec模型的最新方法!

    网上看了很多其他博客,发现有些部分都太老旧了,以至于现在套用都错误百出...这里总结了一下使用中文维基百科训练word2vec模型的最新方法. 参考链接: https://blog.csdn.net/ ...

  4. 基于Keras预训练词向量模型的文本分类方法

    本文语料仍然是上篇所用的搜狗新闻语料,采用中文预训练词向量模型对词进行向量表示.上篇文章将文本分词之后,采用了TF-IDF的特征提取方式对文本进行向量化表示,所产生的文本表示矩阵是一个稀疏矩阵,本篇采 ...

  5. 从零开始构建基于textcnn的文本分类模型(上),word2vec向量训练,预训练词向量模型加载,pytorch Dataset、collete_fn、Dataloader转换数据集并行加载

    伴随着bert.transformer模型的提出,文本预训练模型应用于各项NLP任务.文本分类任务是最基础的NLP任务,本文回顾最先采用CNN用于文本分类之一的textcnn模型,意在巩固分词.词向量 ...

  6. 使用中文维基百科训练word2vec模型

    一.下载原始数据 数据下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ,或者在这 ...

  7. 利用中文维基百科数据进行词语相似度word2vec实验

    使用维基百科数据利用word2vec简历词向量, 通过对词向量之间的距离的比对,查找出与给出词语相似度较高的单词进行返回 1.使用维基百科官方给出的文档处理程序处理从维基百科上下载的压缩包文件成原始t ...

  8. 使用 rnn 训练词向量模型

    词向量说明如下: 词向量模型表征的是词语与词语之间的距离和联系,词向量也叫词嵌入 word embedding CBOW 模型: 根据某个词的上下文,计算中间词出现的概率,预测的是中心词 Skip-G ...

  9. ELMo预训练词向量模型

    引言 Word Embedding:词嵌入.最简单的理解就是:将词进行向量化表示,抽象成为数学描述,然后可以进行建模,应用到很多自然语言处理的下游任务中.之前用语言模型做 Word Embedding ...

  10. 用维基百科训练word2vec中文词向量

    主要参考: https://blog.csdn.net/weixin_40547993/article/details/97781179 https://www.kaggle.com/jeffd23/ ...

最新文章

  1. 255套绝美ppt模板!适用于总结汇报、形象宣传、授课培训、项目介绍、毕业答辩等...
  2. 对代理ARP技术的误读、无法完成代理ARP实验的故障分析
  3. tcp/ip详解--封装
  4. 廖的python教程_学廖老师的python教程想到的
  5. 树莓派AI视觉云台——3、树莓派系统的启动
  6. java集群session共享_分布式/集群下session共享方案汇总
  7. 计组—双端口与多模块存储器
  8. python tcp协议_python 网络编程 -- Tcp协议
  9. http1.0 http1.1 http2 之间的区别
  10. Arrays类中的fill(用于填充数组)
  11. STM32之JScope调试
  12. 平面海报设计素材|几何风格极简流行风,继续
  13. python安装idle_怎么在windows下的Python开发工具IDLE里安装其他模块
  14. pandas 导入excel_三行Python代码,合并多个Excel文件
  15. Silverlight 设置DataGrid中行的提示信息
  16. java 串行化 序列化_对象串行化 对象序列化
  17. 手机4k屏幕测试软件,手机4K屏、2K屏、1080p屏对比测试!惊叹
  18. 六一儿童节(python)
  19. QFile 无法重命名文件名问题
  20. 百度BML-飞桨服务器以及Jetson nano部署实战案例(下)

热门文章

  1. 谷歌浏览器不兼容websocket的wss协议_为什么程序员都喜欢用Chrome浏览器?
  2. eigen一维向量_Eigen中的矩阵及向量运算
  3. 新托业模拟考试感言—了解一下参加过托业考试前辈们的经验03
  4. 个人和企业都免费的office办公软件
  5. 超详细的抖音养号上热门技巧,看完这一篇就够了
  6. EPLAN史上最全部件库,官网下载,部件宏,EDZ格式
  7. 小米路由器青春版刷Padavan固件
  8. 王炸 | 海康汽车来了 商机还是冒进?
  9. 使用计算机时正确的开关机顺序,电脑开关机的正确操作
  10. 免费注册的域名.tk