首先介绍一下word2vec

参考http://www.cnblogs.com/iloveai/p/word2vec.html

2013年,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。随着深度学习(Deep Learning)在自然语言处理中应用的普及,很多人误以为word2vec是一种深度学习算法。其实word2vec算法的背后是一个浅层神经网络。另外需要强调的一点是,word2vec是一个计算word vector的开源工具。当我们在说word2vec算法或模型的时候,其实指的是其背后用于计算word vector的CBoW模型和Skip-gram模型。

python3.6维基百科中文语料

1.http://www.52nlp.cn/中英文维基百科语料上的Word2Vec实验中下载中文维基百科数据,也可从中文数据的下载地址是:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2中文维基百科数据特殊处理一下,包括繁简转换,中文分词,去除非utf-8字符等。

2.下载完安装包之后,不需要解压,使用Wikipedia Extractor抽取正文文本

Wikipedia Extractor 是意大利人用Python写的一个维基百科抽取器,使用非常方便。下载之后直接使用这条命令即可完成抽取,运行了大约半小时的时间。用https://github.com/attardi/wikiextractor/blob/master/WikiExtractor.py来复制下来新建一个py脚本进行存储。然后再cmd里运行一下命令中的任意一个(看自己的情况而定)

  (1) pythonbzcat zhwiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -b1000M -o extracted >output.txt

  参数 -b1000M 表示以 1000M 为单位切分文件,默认是 500K。由于最后生成的正文文本不到 600M,把参数设置的大一些可以保证最后的抽取结果全部存在一个文件里。

(2) python WikiExtractor.py -b 500M -o extracted zhwiki-latest-pages-articles.xml.bz2

(3)我再cmd运行(2)使出现NO such files 这样的提示,是因为找不到路径,所以输入这样命令:python G:\维基百科语料\WikiExtractor.py -b 500M -o extracted G:\维基百科语料\zhwiki-latest-pages-articles.xml.bz2

在cmd运行结果:

运行之后会存在C:\Users\xiaolin\extracted\AA

3.将中繁体化为简体

首先先安装opencc安装exe的版本https://bintray.com/package/files/byvoid/opencc/OpenCC 中下载

opencc-1.0.1-win64.7z

解压到自定义目录下,我给解压在了C盘下 C:\Users\xiaolin\opencc-1.0.1-win64

参考一下博客上面写在cmd中运行该命令C:\Users\xiaolin\opencc-1.0.1-win64\opencc.exe -i wiki_00 -o zh_wiki_00 -c zht2hs.iniz

出现发现opencc-1.0.1-win64中没有这个文件,

然后阅读了http://blog.sina.com.cn/s/blog_703521020102zb5v.html这篇博客知道 t2s.json Traditional Chinese to Simplified Chinese 繁體到簡體

所以更改命令为C:\Users\xiaolin\opencc-1.0.1-win64\opencc.exe  -i C:\Users\xiaolin\extracted\AA\wiki_02  -o zh_wiki_02 -c C:\Users\xiaolin\opencc-1.0.1-win64\t2s.json

-i表示输入文件,-o表示输出文件,t2s.json表示繁体转换为简体

切记如果不把t2s.json和wiki_02 的绝对路径写出会找不到给文件,之后zh_wiki_02 存在于C:\Users\xiaolin下

也可以直接在AA文件执行,就不需要写wiki_02的绝对路径

最后总的执行结果:

我用了上面的命令得到的zh_wiki_00、zh_wiki_01、zh_wiki_02是空的,所以用了在直接在AA处打开命令行执行

这样得到的就不是空的了

4.用结巴进行中文分词处理

参考了https://codesky.me/archives/ubuntu-python-jieba-word2vec-wiki-tutol.wind这篇博客

import jieba
import jieba.analyse
import jieba.posseg as pseg
import codecs,sys
def cut_words(sentence):#print sentencereturn " ".join(jieba.cut(sentence)).encode('utf-8')
f=codecs.open('C:\\Users\\xiaolin\\extracted\\AA\\zh_wiki_00','r',encoding="utf8")
target = codecs.open("C:\\Users\\xiaolin\\extracted\\AA\\zh_wiki_00.fenci", 'w',encoding="utf8")
print ('open files')
line_num=1
line = f.readline()
while line:print('---- processing ', line_num, ' article----------------')line_seg = " ".join(jieba.cut(line))target.writelines(line_seg)line_num = line_num + 1line = f.readline()
f.close()
target.close()
exit()
while line:curr = []for oneline in line:#print(oneline)curr.append(oneline)after_cut = map(cut_words, curr)target.writelines(after_cut)print ('saved ',line_num,' articles')exit()line = f.readline1()
f.close()
target.close()

结果为:



  

用Python3.6来做维基百科中文语料相关推荐

  1. windows下使用word2vec训练维基百科中文语料全攻略!(三

    全文共1552个字,7张图,预计阅读时间8分钟. 训练一个聊天机器人的很重要的一步是词向量训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为词向量,时下最火的词向量训练模型是word ...

  2. wiki中文文本语料下载,在维基百科中文语料训练Word2vec and doc2vec 文本向量化代码示例

    首先下载wiki中文语料(大约1.7G) https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ...

  3. windows下使用word2vec训练维基百科中文语料全攻略!(二)

    全文共454个字,3张图,预计阅读时间5分钟. 训练一个聊天机器人的很重要的一步是词向量训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为词向量,时下最火的词向量训练模型是word2 ...

  4. 维基百科简体中文语料训练word2vec词向量

    步骤: 1.下载维基百科中文语料 2.使用工具从压缩包中抽取正文文本 3.将繁体字转简体字 4.分词 5.训练模型 6.测试模型 1.下载维基百科中文语料 语料下载地址:https://dumps.w ...

  5. 【NLP】维基百科中文数据训练word2vec词向量模型——基于gensim库

    前言   本篇主要是基于gensim 库中的 Word2Vec 模型,使用维基百科中文数据训练word2vec 词向量模型,大体步骤如下: 数据预处理 模型的训练 模型的测试 准备条件: Window ...

  6. 维基百科中文创始人_维基百科的创始人正在建立一个社区运营的新闻网站

    维基百科中文创始人 Back in 2001, Jimmy Wales co-founded Wikipedia with the mission of "empowering and en ...

  7. Python Djang 搭建自动词性标注网站(基于Keras框架和维基百科中文预训练词向量Word2vec模型,分别实现由GRU、LSTM、RNN神经网络组成的词性标注模型)

    引言 本文基于Keras框架和维基百科中文预训练词向量Word2vec模型,分别实现由GRU.LSTM.RNN神经网络组成的词性标注模型,并且将模型封装,使用python Django web框架搭建 ...

  8. wiki维基百科各种语料数据下载

    wiki维基百科常用语料下载路径 英文语料路径: https://dumps.wikimedia.org/enwiki/ 中文语料路径: https://dumps.wikimedia.org/zhw ...

  9. 【用户行为分析】 用wiki百科中文语料训练word2vec模型

    本文地址: http://blog.csdn.net/hereiskxm/article/details/49664845  前言 最近在调研基于内容的用户行为分析,在过程中发现了word2vec这个 ...

最新文章

  1. Arduino Yun的硬件——Arduino Yun快速入门教程
  2. Python3.x 发送邮件
  3. jvm在windows和linux,理解JVM如何使用Windows和Linux上的本机内存
  4. shell unset之后数组元素个数为_PHP删除数组中指定值的元素的方法
  5. python学习中遇到的问题
  6. feign直接走熔断_SpringCloud微服务面试必问:Hystrix 服务降级、熔断
  7. 我为什么不无偿加班,你也不应该
  8. 灵敏度和稳定性能兼具 新气体传感器技术适用于工业应用
  9. 64位驱动 hp630打印机_惠普630打印机驱动
  10. 浅学transcad(与表格链接以及创建矩阵OD并显示期望线)
  11. 前后端分离 获取客户端ip_前后端分离交互
  12. win10怎么添加打印机
  13. linux rs,Linux中的RS, ORS, FS, OFS
  14. 2011年国庆2天厦门到平潭岛湄洲岛自驾游
  15. stable diffusion--二次元福利
  16. 解决我的驱动无法卸载的问题
  17. 电影资源详细信息爬取
  18. Android手电筒开发
  19. Python各种包学习
  20. 写博客--用文字整理生命

热门文章

  1. CNN基础论文 精读+复现----LeNet5 (二)
  2. 如何设置服务器固定ip
  3. JNI(一) JNI - NDK-交叉编译
  4. ORACLE 表空间扩展方法,ORACLE 表空间扩展方法
  5. Install PSSH
  6. Charles通过Rewrite越过OPTIONS请求拦截
  7. 尼康D7100_认识机身上的控件
  8. 写一篇2万字的大学生消费情况调查报告
  9. OpenCV_电路板焊点的定位
  10. android手机如何到导出电话号码,苹果手机通讯录怎么导入?如何导出手机通讯录到新手机...