上篇将wiki中文语料已经下载下来(wiki中文文本语料下载并处理 ubuntu + python2.7),并且转为了txt格式,本篇对txt文件进行分词,分词后才能使用word2vector训练词向量
分词python程序为(使用jieba分词)

# -*- coding: utf-8 -*-
#!/usr/bin/env python
import sys
reload(sys)
sys.setdefaultencoding('utf8')import pandas as pd
import numpy as np
import lightgbm as lgb
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import f1_score
from gensim.models import word2vec
import logging, jieba
import os, iostop_words_file = "stop_words.txt"
stop_words = list()
with io.open(stop_words_file, 'r', encoding="gb18030") as stop_words_file_object: contents = stop_words_file_object.readlines() for line in contents: line = line.strip() stop_words.append(line)data_file = 'wiki.txt'
i = 1
with io.open(data_file, 'r', encoding='utf-8') as content:for line in content:seg_list = list(jieba.cut(line))out_str = ''for word in seg_list:if word not in stop_words:if word.strip() != "":word = ''.join(word)out_str += wordout_str += ' 'print 'fenci:' + str(i)i += 1with io.open('wiki_seg.txt', 'a', encoding='utf-8') as output:output.write(unicode(out_str))output.close()

最后会输出一个 wiki_seg.txt
由于文件很大(1.8G),所以程序跑的时间很长,具体时间忘记了
分词后的文件打印出来是这样的

# -*- coding: utf-8 -*-
#!/usr/bin/env python
import sys
reload(sys)
sys.setdefaultencoding('utf8')import pandas as pd
import numpy as np
import lightgbm as lgb
from sklearn.model_selection import StratifiedKFold
from sklearn.metrics import f1_score
from gensim.models import word2vec
import logging, jieba
import os, iowords_file = "wiki_seg.txt"
words = list()
i = 0
with io.open(words_file, 'r', encoding="utf-8") as words_file_object: contents = words_file_object.readlines() for line in contents: print linei += 1if i == 200:break

python wiki中文语料分词相关推荐

  1. 利用Python构建Wiki中文语料词向量模型

    利用Python构建Wiki中文语料词向量模型试验 完整代码下载地址:利用Python构建Wiki中文语料词向量模型 本实例主要介绍的是选取wiki中文语料,并使用python完成Word2vec模型 ...

  2. 中文word2vec的python实现_利用Python实现wiki中文语料的word2vec模型构建

    本实例主要介绍的是选取wiki中文语料,并使用python完成Word2vec模型构建的实践过程,不包含原理部分,旨在一步一步的了解自然语言处理的基本方法和步骤.文章主要包含了开发环境准备.数据的获取 ...

  3. wiki中文语料的word2vec模型构建

    一.利用wiki中文语料进行word2vec模型构建 1)数据获取 到wiki官网下载中文语料,下载完成后会得到命名为zhwiki-latest-pages-articles.xml.bz2的文件,里 ...

  4. 基于深度学习的Wiki中文语料词word2vec向量模型

    资源下载地址:https://download.csdn.net/download/sheziqiong/85820613 资源下载地址:https://download.csdn.net/downl ...

  5. 用opencc实现Wiki中文语料从繁体转换为简体

    1,我遇见问题的描述 我想通过opencc来实现Wiki中文语料从繁体转换为简体 2,解决方法 2.1 软件以及数据准备 我到https://bintray.com/package/files/byv ...

  6. wiki中文语料下载及繁体转简体的处理。

    wiki中文语料下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 下载后是xml的 ...

  7. python word2vector训练wiki中文文本语料

    前两篇文章对wiki中文语料进行下载(wiki中文文本语料下载并处理 ubuntu + python2.7)和分词(python wiki中文语料分词),本篇使用word2vector训练词向量,训练 ...

  8. 【用户行为分析】 用wiki百科中文语料训练word2vec模型

    本文地址: http://blog.csdn.net/hereiskxm/article/details/49664845  前言 最近在调研基于内容的用户行为分析,在过程中发现了word2vec这个 ...

  9. wiki中文文本语料下载,在维基百科中文语料训练Word2vec and doc2vec 文本向量化代码示例

    首先下载wiki中文语料(大约1.7G) https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ...

最新文章

  1. c语言枚举3位数相加等于10,C语言 联合和枚举
  2. 使用leangoo做多团队敏捷开发项目管理
  3. QT的QSignalTransition类的使用
  4. Java并发教程–信号量
  5. 前端学习(2167):前端路由和后端路由
  6. Python 迭代器和 C++ 迭代器,最大的不同竟然是......
  7. 众专家推荐《移动微技(Mobile Widget)应用开发权威指南》
  8. 重磅 | 阿里云启动AliSQL邀测,性能比MySQL提升70%,秒杀场景提升百倍
  9. 声纹识别demo_科学网—声纹识别、说话人识别软件,SPEAKER v0.1 - 石自强的博文...
  10. FPGA——sdram控制器1
  11. CC2430基础——串口测试实验
  12. Python高级编程——13.垃圾回收机制
  13. Phi-divergence
  14. 2015——那年、匆匆
  15. python报错Ran out of input
  16. 交互设计笔记(4)——理解用户:定性研究
  17. 佩尔方程(超详细推导+例题讲解) 每日一遍,算法再见!
  18. oracle创建用户赋予访问某一视图的权限
  19. 2023年最新版kali linux安装教程
  20. 电视剧《创业时代》中罗维演讲

热门文章

  1. 佳能430二代_闪光灯中的小钢炮 佳能430EX III-RT体验
  2. 口腔诊所需不需要网络顾问计算机,牙科口腔诊所网络咨询岗位职责.doc
  3. 强大多云混合多K8S集群管理平台Rancher入门实战
  4. PCB工程师金字塔分级标准
  5. 《从零开始编写一个直播服务器》 C++ 实现一个最简单的RTSP流媒体服务器
  6. 开学季 | 用十本书打破固有思维,“文理兼修”
  7. Microsoft.Practices.Unity 通用类
  8. 10G/25G Ethernet Subsystem(一)(内回环)
  9. css 设置 th 宽度,javascript
  10. c语言double类型是几字节,c语言中int long float double 等类型所占字节及输出表示(转)...