用Python3.6来做维基百科中文语料
首先介绍一下word2vec
参考http://www.cnblogs.com/iloveai/p/word2vec.html
2013年,Google开源了一款用于词向量计算的工具——word2vec,引起了工业界和学术界的关注。首先,word2vec可以在百万数量级的词典和上亿的数据集上进行高效地训练;其次,该工具得到的训练结果——词向量(word embedding),可以很好地度量词与词之间的相似性。随着深度学习(Deep Learning)在自然语言处理中应用的普及,很多人误以为word2vec是一种深度学习算法。其实word2vec算法的背后是一个浅层神经网络。另外需要强调的一点是,word2vec是一个计算word vector的开源工具。当我们在说word2vec算法或模型的时候,其实指的是其背后用于计算word vector的CBoW模型和Skip-gram模型。
python3.6维基百科中文语料
1.http://www.52nlp.cn/中英文维基百科语料上的Word2Vec实验中下载中文维基百科数据,也可从中文数据的下载地址是:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2。中文维基百科数据特殊处理一下,包括繁简转换,中文分词,去除非utf-8字符等。
2.下载完安装包之后,不需要解压,使用Wikipedia Extractor抽取正文文本
Wikipedia Extractor 是意大利人用Python写的一个维基百科抽取器,使用非常方便。下载之后直接使用这条命令即可完成抽取,运行了大约半小时的时间。用https://github.com/attardi/wikiextractor/blob/master/WikiExtractor.py来复制下来新建一个py脚本进行存储。然后再cmd里运行一下命令中的任意一个(看自己的情况而定)
(1) pythonbzcat zhwiki-latest-pages-articles.xml.bz2 | python WikiExtractor.py -b1000M -o extracted >output.txt
参数 -b1000M 表示以 1000M 为单位切分文件,默认是 500K。由于最后生成的正文文本不到 600M,把参数设置的大一些可以保证最后的抽取结果全部存在一个文件里。
(2) python WikiExtractor.py -b 500M -o extracted zhwiki-latest-pages-articles.xml.bz2
(3)我再cmd运行(2)使出现NO such files 这样的提示,是因为找不到路径,所以输入这样命令:python G:\维基百科语料\WikiExtractor.py -b 500M -o extracted G:\维基百科语料\zhwiki-latest-pages-articles.xml.bz2
在cmd运行结果:
运行之后会存在C:\Users\xiaolin\extracted\AA
3.将中繁体化为简体
首先先安装opencc安装exe的版本到https://bintray.com/package/files/byvoid/opencc/OpenCC 中下载
opencc-1.0.1-win64.7z |
解压到自定义目录下,我给解压在了C盘下 C:\Users\xiaolin\opencc-1.0.1-win64
参考一下博客上面写在cmd中运行该命令C:\Users\xiaolin\opencc-1.0.1-win64\opencc.exe -i wiki_00 -o zh_wiki_00 -c zht2hs.iniz
出现发现opencc-1.0.1-win64中没有这个文件,
然后阅读了http://blog.sina.com.cn/s/blog_703521020102zb5v.html这篇博客知道 t2s.json Traditional Chinese to Simplified Chinese 繁體到簡體
所以更改命令为C:\Users\xiaolin\opencc-1.0.1-win64\opencc.exe -i C:\Users\xiaolin\extracted\AA\wiki_02 -o zh_wiki_02 -c C:\Users\xiaolin\opencc-1.0.1-win64\t2s.json
-i表示输入文件,-o表示输出文件,t2s.json表示繁体转换为简体
切记如果不把t2s.json和wiki_02 的绝对路径写出会找不到给文件,之后zh_wiki_02 存在于C:\Users\xiaolin下
也可以直接在AA文件执行,就不需要写wiki_02的绝对路径
最后总的执行结果:
我用了上面的命令得到的zh_wiki_00、zh_wiki_01、zh_wiki_02是空的,所以用了在直接在AA处打开命令行执行
这样得到的就不是空的了
4.用结巴进行中文分词处理
参考了https://codesky.me/archives/ubuntu-python-jieba-word2vec-wiki-tutol.wind这篇博客
import jieba
import jieba.analyse
import jieba.posseg as pseg
import codecs,sys
def cut_words(sentence):#print sentencereturn " ".join(jieba.cut(sentence)).encode('utf-8')
f=codecs.open('C:\\Users\\xiaolin\\extracted\\AA\\zh_wiki_00','r',encoding="utf8")
target = codecs.open("C:\\Users\\xiaolin\\extracted\\AA\\zh_wiki_00.fenci", 'w',encoding="utf8")
print ('open files')
line_num=1
line = f.readline()
while line:print('---- processing ', line_num, ' article----------------')line_seg = " ".join(jieba.cut(line))target.writelines(line_seg)line_num = line_num + 1line = f.readline()
f.close()
target.close()
exit()
while line:curr = []for oneline in line:#print(oneline)curr.append(oneline)after_cut = map(cut_words, curr)target.writelines(after_cut)print ('saved ',line_num,' articles')exit()line = f.readline1()
f.close()
target.close()
结果为:
用Python3.6来做维基百科中文语料相关推荐
- windows下使用word2vec训练维基百科中文语料全攻略!(三
全文共1552个字,7张图,预计阅读时间8分钟. 训练一个聊天机器人的很重要的一步是词向量训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为词向量,时下最火的词向量训练模型是word ...
- wiki中文文本语料下载,在维基百科中文语料训练Word2vec and doc2vec 文本向量化代码示例
首先下载wiki中文语料(大约1.7G) https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ...
- windows下使用word2vec训练维基百科中文语料全攻略!(二)
全文共454个字,3张图,预计阅读时间5分钟. 训练一个聊天机器人的很重要的一步是词向量训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为词向量,时下最火的词向量训练模型是word2 ...
- 维基百科简体中文语料训练word2vec词向量
步骤: 1.下载维基百科中文语料 2.使用工具从压缩包中抽取正文文本 3.将繁体字转简体字 4.分词 5.训练模型 6.测试模型 1.下载维基百科中文语料 语料下载地址:https://dumps.w ...
- 【NLP】维基百科中文数据训练word2vec词向量模型——基于gensim库
前言 本篇主要是基于gensim 库中的 Word2Vec 模型,使用维基百科中文数据训练word2vec 词向量模型,大体步骤如下: 数据预处理 模型的训练 模型的测试 准备条件: Window ...
- 维基百科中文创始人_维基百科的创始人正在建立一个社区运营的新闻网站
维基百科中文创始人 Back in 2001, Jimmy Wales co-founded Wikipedia with the mission of "empowering and en ...
- Python Djang 搭建自动词性标注网站(基于Keras框架和维基百科中文预训练词向量Word2vec模型,分别实现由GRU、LSTM、RNN神经网络组成的词性标注模型)
引言 本文基于Keras框架和维基百科中文预训练词向量Word2vec模型,分别实现由GRU.LSTM.RNN神经网络组成的词性标注模型,并且将模型封装,使用python Django web框架搭建 ...
- wiki维基百科各种语料数据下载
wiki维基百科常用语料下载路径 英文语料路径: https://dumps.wikimedia.org/enwiki/ 中文语料路径: https://dumps.wikimedia.org/zhw ...
- 【用户行为分析】 用wiki百科中文语料训练word2vec模型
本文地址: http://blog.csdn.net/hereiskxm/article/details/49664845 前言 最近在调研基于内容的用户行为分析,在过程中发现了word2vec这个 ...
最新文章
- Arduino Yun的硬件——Arduino Yun快速入门教程
- Python3.x 发送邮件
- jvm在windows和linux,理解JVM如何使用Windows和Linux上的本机内存
- shell unset之后数组元素个数为_PHP删除数组中指定值的元素的方法
- python学习中遇到的问题
- feign直接走熔断_SpringCloud微服务面试必问:Hystrix 服务降级、熔断
- 我为什么不无偿加班,你也不应该
- 灵敏度和稳定性能兼具 新气体传感器技术适用于工业应用
- 64位驱动 hp630打印机_惠普630打印机驱动
- 浅学transcad(与表格链接以及创建矩阵OD并显示期望线)
- 前后端分离 获取客户端ip_前后端分离交互
- win10怎么添加打印机
- linux rs,Linux中的RS, ORS, FS, OFS
- 2011年国庆2天厦门到平潭岛湄洲岛自驾游
- stable diffusion--二次元福利
- 解决我的驱动无法卸载的问题
- 电影资源详细信息爬取
- Android手电筒开发
- Python各种包学习
- 写博客--用文字整理生命