十四、中文词向量训练一

1.Word2vec介绍

1.1 Word Embedding介绍

WordEmbedding将「不可计算」「非结构化」的词转化为「可计算」「结构化」的向量.

1.2 Word2vec 基本内容

Word2vec是google的一个开源工具，能够根据输入的词计算出词与词之间的距离.
Word2vec将term转换成向量形式，可以把对文本内容的处理简化为向量运算，计算出词向量的相似度，来表示文本语义上的相似度。
词向量：用Distributed Representation表示词，通常也被称为“Word Representation”或“Word Embedding（嵌入）”。

1.3 Word2vec的两种训练方法

CBOW：通过上下文预测中心词。
Skip-Gram：通过中心词预测上下文。

2. 数据集及工具库介绍

2.1 数据集：中文维基百科语料库

下载地址： https://dumps.wikimedia.org/zhwiki/
尽可能下载大一些的，语料库越大，模型的效果会越好.
本案例下载的是：

1.https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2

2.数据集的大小为1.8G

3 中文词向量训练的数据预处理

3.1 代码实现

"""解析XML文件：process_wiki_data.py"""
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# process_wiki_data.py 用于解析XML，将XML的wiki数据转换为text格式import logging
import os.path
import sys
from gensim.corpora import WikiCorpusif __name__ == '__main__':# sys.argv[0]获取的是脚本文件的文件名称program = os.path.basename(sys.argv[0])# sys.argv[0]获取的是脚本文件的文件名称logger = logging.getLogger(program)# format: 指定输出的格式和内容，format可以输出很多有用信息，# %(asctime)s: 打印日志的时间# %(levelname)s: 打印日志级别名称# %(message)s: 打印日志信息logging.basicConfig(format='%(asctime)s: %(levelname)s: %(message)s')logging.root.setLevel(level=logging.INFO)# 打印这是一个通知日志logger.info("running %s" % ' '.join(sys.argv))# check and process input argumentsif len(sys.argv) < 3:print (globals()['__doc__'] % locals())sys.exit(1)inp, outp = sys.argv[1:3]# inp:输入的数据集# outp:从压缩文件中获得的文本文件space = " "i = 0output = open(outp, 'w', encoding='utf-8')wiki = WikiCorpus(inp, lemmatize=False, dictionary={})for text in wiki.get_texts():output.write(space.join(text) + "\n")i = i + 1if i % 200 == 0:logger.info("Saved " + str(i) + " articles")breakoutput.close()logger.info("Finished Saved " + str(i) + " articles")"""分词文件：seg.py"""
#!/usr/bin/env python
# -*- coding: utf-8 -*-
# seg.py 用于解析wiki.zh.text，生成分词文件import jieba
import jieba.analyse
import codecs# 将文本文件分词
def process_wiki_text(origin_file, target_file):with codecs.open(origin_file, 'r', 'utf-8') as inp, codecs.open(target_file,'w','utf-8') as outp:line = inp.readline()line_num = 1while line:print('---- processing ', line_num, 'article----------------')line_seg = " ".join(jieba.cut(line))# print(len(line_seg))outp.writelines(line_seg)line_num = line_num + 1line = inp.readline()if line_num == 101:breakinp.close()outp.close()def main():process_wiki_text('wiki.zh.text', 'wiki.zh.text.seg')if __name__ == '__main__':main()

十四、中文词向量训练一相关推荐

十五、中文词向量训练二
中文词向量训练二 1. Gensim工具训练中文词向量 1.1 中文词向量过程源程序:train_word2vec_model.py 执行方法:在命令行终端执行下列代码. python train_ ...
ELMO中文词向量训练及使用的完整流程
笔者最近在学习elmo中文的词向量训练及使用,由于网上相关资料比较缺乏,也比较零碎,没有完整的从中文词向量的训练到使用的介绍,学起来困难较多.经过漫长的尝试,笔者终于将整套流程走通,相信应该是目前最完 ...
基于word2vec的中文词向量训练
基于word2vec的中文词向量训练使用katex解析的数学公式,csdn好像不支持 word2vec来源 Google开源可以在百万数量级的词典和上亿的数据集上进行高效地训练该工具得到的训练结 ...
词向量技术原理及应用详解（四）——词向量训练
前文理论介绍完毕,接下来进入实战环节.实践中向量化应用的场景常有不同,但向量文本化的训练和使用方式大同小异.在这里我将采用两种方法:gensim库以及tensorflow来完成词向量实战训练. 一.w ...
Word2Vec中文词向量
word2vec中文词向量中文词向量训练模型保存模型导入中文词向量训练 from gensim.models import Word2Vec s = ["被告人段某酒后与其 ...
word2vec词向量训练及中文文本类似度计算
本文是讲述怎样使用word2vec的基础教程.文章比較基础,希望对你有所帮助! 官网C语言下载地址:http://word2vec.googlecode.com/svn/trunk/ 官网Python ...
开源中文词向量加载（训练好的词向量如何加载） tensorflow
中文词向量下载 https://github.com/Embedding/Chinese-Word-Vectors 用到的函数: readline() 方法: fileObject.readline( ...
github设置中文_【Github】100+ Chinese Word Vectors 上百种预训练中文词向量
(给机器学习算法与Python学习加星标,提升AI技能) 该项目提供了不同表征(密集和稀疏)上下文特征(单词,ngram,字符等)和语料库训练的中文单词向量.开发者可以轻松获得具有不同属性的预先训练的 ...
Ubuntu下GloVe中文词向量模型训练
开启美好的九月最近在学习textCNN进行文本分类,然后随机生成向量构建embedding网络的分类效果不是很佳,便考虑训练Glove词向量来进行训练,整个过程还是有遇到一些问题,希望懂的旁友能来指 ...

十四、中文词向量训练一

1.Word2vec介绍

1.1 Word Embedding介绍

1.2 Word2vec 基本内容

1.3 Word2vec的两种训练方法

2. 数据集及工具库介绍

2.1 数据集：中文维基百科语料库

3 中文词向量训练的数据预处理

3.1 代码实现

十四、中文词向量训练一相关推荐

最新文章

热门文章