python wiki中文语料分词

上篇将wiki中文语料已经下载下来（wiki中文文本语料下载并处理 ubuntu + python2.7），并且转为了txt格式，本篇对txt文件进行分词，分词后才能使用word2vector训练词向量
分词python程序为（使用jieba分词）

# -*- coding: utf-8 -*-
#!/usr/bin/env python
import sys
reload(sys)
sys.setdefaultencoding('utf8')import pandas as pd
import numpy as np
import lightgbm as lgb
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import f1_score
from gensim.models import word2vec
import logging, jieba
import os, iostop_words_file = "stop_words.txt"
stop_words = list()
with io.open(stop_words_file, 'r', encoding="gb18030") as stop_words_file_object: contents = stop_words_file_object.readlines() for line in contents: line = line.strip() stop_words.append(line)data_file = 'wiki.txt'
i = 1
with io.open(data_file, 'r', encoding='utf-8') as content:for line in content:seg_list = list(jieba.cut(line))out_str = ''for word in seg_list:if word not in stop_words:if word.strip() != "":word = ''.join(word)out_str += wordout_str += ' 'print 'fenci:' + str(i)i += 1with io.open('wiki_seg.txt', 'a', encoding='utf-8') as output:output.write(unicode(out_str))output.close()

最后会输出一个 wiki_seg.txt
由于文件很大（1.8G），所以程序跑的时间很长，具体时间忘记了
分词后的文件打印出来是这样的

# -*- coding: utf-8 -*-
#!/usr/bin/env python
import sys
reload(sys)
sys.setdefaultencoding('utf8')import pandas as pd
import numpy as np
import lightgbm as lgb
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import f1_score
from gensim.models import word2vec
import logging, jieba
import os, iowords_file = "wiki_seg.txt"
words = list()
i = 0
with io.open(words_file, 'r', encoding="utf-8") as words_file_object: contents = words_file_object.readlines() for line in contents: print linei += 1if i == 200:break

python wiki中文语料分词相关推荐

利用Python构建Wiki中文语料词向量模型
利用Python构建Wiki中文语料词向量模型试验完整代码下载地址:利用Python构建Wiki中文语料词向量模型本实例主要介绍的是选取wiki中文语料,并使用python完成Word2vec模型 ...
中文word2vec的python实现_利用Python实现wiki中文语料的word2vec模型构建
本实例主要介绍的是选取wiki中文语料,并使用python完成Word2vec模型构建的实践过程,不包含原理部分,旨在一步一步的了解自然语言处理的基本方法和步骤.文章主要包含了开发环境准备.数据的获取 ...
wiki中文语料的word2vec模型构建
一.利用wiki中文语料进行word2vec模型构建 1)数据获取到wiki官网下载中文语料,下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件,里 ...
基于深度学习的Wiki中文语料词word2vec向量模型
资源下载地址:https://download.csdn.net/download/sheziqiong/85820613 资源下载地址:https://download.csdn.net/downl ...
用opencc实现Wiki中文语料从繁体转换为简体
1,我遇见问题的描述我想通过opencc来实现Wiki中文语料从繁体转换为简体 2,解决方法 2.1 软件以及数据准备我到https://bintray.com/package/files/byv ...
wiki中文语料下载及繁体转简体的处理。
wiki中文语料下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 下载后是xml的 ...
python word2vector训练wiki中文文本语料
前两篇文章对wiki中文语料进行下载(wiki中文文本语料下载并处理 ubuntu + python2.7)和分词(python wiki中文语料分词),本篇使用word2vector训练词向量,训练 ...
【用户行为分析】用wiki百科中文语料训练word2vec模型
本文地址: http://blog.csdn.net/hereiskxm/article/details/49664845 前言最近在调研基于内容的用户行为分析,在过程中发现了word2vec这个 ...
wiki中文文本语料下载，在维基百科中文语料训练Word2vec and doc2vec 文本向量化代码示例
首先下载wiki中文语料(大约1.7G) https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ...

python wiki中文语料分词

python wiki中文语料分词相关推荐

最新文章

热门文章