python wiki中文语料分词
上篇将wiki中文语料已经下载下来(wiki中文文本语料下载并处理 ubuntu + python2.7),并且转为了txt格式,本篇对txt文件进行分词,分词后才能使用word2vector训练词向量
分词python程序为(使用jieba分词)
# -*- coding: utf-8 -*-
#!/usr/bin/env python
import sys
reload(sys)
sys.setdefaultencoding('utf8')import pandas as pd
import numpy as np
import lightgbm as lgb
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import f1_score
from gensim.models import word2vec
import logging, jieba
import os, iostop_words_file = "stop_words.txt"
stop_words = list()
with io.open(stop_words_file, 'r', encoding="gb18030") as stop_words_file_object: contents = stop_words_file_object.readlines() for line in contents: line = line.strip() stop_words.append(line)data_file = 'wiki.txt'
i = 1
with io.open(data_file, 'r', encoding='utf-8') as content:for line in content:seg_list = list(jieba.cut(line))out_str = ''for word in seg_list:if word not in stop_words:if word.strip() != "":word = ''.join(word)out_str += wordout_str += ' 'print 'fenci:' + str(i)i += 1with io.open('wiki_seg.txt', 'a', encoding='utf-8') as output:output.write(unicode(out_str))output.close()
最后会输出一个 wiki_seg.txt
由于文件很大(1.8G),所以程序跑的时间很长,具体时间忘记了
分词后的文件打印出来是这样的
# -*- coding: utf-8 -*-
#!/usr/bin/env python
import sys
reload(sys)
sys.setdefaultencoding('utf8')import pandas as pd
import numpy as np
import lightgbm as lgb
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import f1_score
from gensim.models import word2vec
import logging, jieba
import os, iowords_file = "wiki_seg.txt"
words = list()
i = 0
with io.open(words_file, 'r', encoding="utf-8") as words_file_object: contents = words_file_object.readlines() for line in contents: print linei += 1if i == 200:break
python wiki中文语料分词相关推荐
- 利用Python构建Wiki中文语料词向量模型
利用Python构建Wiki中文语料词向量模型试验 完整代码下载地址:利用Python构建Wiki中文语料词向量模型 本实例主要介绍的是选取wiki中文语料,并使用python完成Word2vec模型 ...
- 中文word2vec的python实现_利用Python实现wiki中文语料的word2vec模型构建
本实例主要介绍的是选取wiki中文语料,并使用python完成Word2vec模型构建的实践过程,不包含原理部分,旨在一步一步的了解自然语言处理的基本方法和步骤.文章主要包含了开发环境准备.数据的获取 ...
- wiki中文语料的word2vec模型构建
一.利用wiki中文语料进行word2vec模型构建 1)数据获取 到wiki官网下载中文语料,下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件,里 ...
- 基于深度学习的Wiki中文语料词word2vec向量模型
资源下载地址:https://download.csdn.net/download/sheziqiong/85820613 资源下载地址:https://download.csdn.net/downl ...
- 用opencc实现Wiki中文语料从繁体转换为简体
1,我遇见问题的描述 我想通过opencc来实现Wiki中文语料从繁体转换为简体 2,解决方法 2.1 软件以及数据准备 我到https://bintray.com/package/files/byv ...
- wiki中文语料下载及繁体转简体的处理。
wiki中文语料下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 下载后是xml的 ...
- python word2vector训练wiki中文文本语料
前两篇文章对wiki中文语料进行下载(wiki中文文本语料下载并处理 ubuntu + python2.7)和分词(python wiki中文语料分词),本篇使用word2vector训练词向量,训练 ...
- 【用户行为分析】 用wiki百科中文语料训练word2vec模型
本文地址: http://blog.csdn.net/hereiskxm/article/details/49664845 前言 最近在调研基于内容的用户行为分析,在过程中发现了word2vec这个 ...
- wiki中文文本语料下载,在维基百科中文语料训练Word2vec and doc2vec 文本向量化代码示例
首先下载wiki中文语料(大约1.7G) https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ...
最新文章
- c语言枚举3位数相加等于10,C语言 联合和枚举
- 使用leangoo做多团队敏捷开发项目管理
- QT的QSignalTransition类的使用
- Java并发教程–信号量
- 前端学习(2167):前端路由和后端路由
- Python 迭代器和 C++ 迭代器,最大的不同竟然是......
- 众专家推荐《移动微技(Mobile Widget)应用开发权威指南》
- 重磅 | 阿里云启动AliSQL邀测,性能比MySQL提升70%,秒杀场景提升百倍
- 声纹识别demo_科学网—声纹识别、说话人识别软件,SPEAKER v0.1 - 石自强的博文...
- FPGA——sdram控制器1
- CC2430基础——串口测试实验
- Python高级编程——13.垃圾回收机制
- Phi-divergence
- 2015——那年、匆匆
- python报错Ran out of input
- 交互设计笔记(4)——理解用户:定性研究
- 佩尔方程(超详细推导+例题讲解) 每日一遍,算法再见!
- oracle创建用户赋予访问某一视图的权限
- 2023年最新版kali linux安装教程
- 电视剧《创业时代》中罗维演讲
热门文章
- 佳能430二代_闪光灯中的小钢炮 佳能430EX III-RT体验
- 口腔诊所需不需要网络顾问计算机,牙科口腔诊所网络咨询岗位职责.doc
- 强大多云混合多K8S集群管理平台Rancher入门实战
- PCB工程师金字塔分级标准
- 《从零开始编写一个直播服务器》 C++ 实现一个最简单的RTSP流媒体服务器
- 开学季 | 用十本书打破固有思维,“文理兼修”
- Microsoft.Practices.Unity 通用类
- 10G/25G Ethernet Subsystem(一)(内回环)
- css 设置 th 宽度,javascript
- c语言double类型是几字节,c语言中int long float double 等类型所占字节及输出表示(转)...