【wiki维基百科中文数据集】抽取wiki数据集—

参考

【https://blog.csdn.net/wangyangzhizhou/article/details/78348949】

【另外一篇参考处理wiki数据】

　　【1】【https://blog.csdn.net/sinat_26917383/article/details/79462107】

　　　　【上述代码】【https://github.com/mattzheng/ChineseWiki/blob/master/README.md】

　　【2】【https://blog.csdn.net/jdbc/article/details/59483767】

　　一、下载数据集

　　到【https://dumps.wikimedia.org/zhwiki/latest/】下载最新的中文wiki百科数据集【zhwiki-latest-pages-articles.xml.bz2】。

　　也就是【https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2】

　　二、提取原始语料库数据（新词汇：语料库（corpus —— corpora【复数】））

　　（一）节点信息

　　据说xml节点信息类似如下：（待验证）

<page><title></title><id></id><timestamp></timestamp><username></username><comment></comment><text xml:space="preserve"></text>
</page>

　　（二）抽取数据

　　【抽取数据工具】：使用Wikipedia的extractor抽取工具。

# 克隆下载wikipedia的Extractor工具
git clone https://github.com/attardi/wikiextractor.git wikiextractor

# 进入提取工具目录。我的该目录和语料文件.xml.bz2在同一个目录下
cd wikiextractor# 提示了权限问题 记得要在前面sudo一下
python setup.py install# 注意这里.xml.bz2文件在.py文件的上一级 需要对.xml.bz2文件的位置改动 改为相对路径 即 ../xxxx.xml.bz2
python WikiExtractor.py -b 1024M -o ../extracted zhwiki-latest-pages-articles.xml.bz2# 然后提取了好久 等着吧 等啊等

=====================

　　记录了一下时间，刷屏太快只能靠截图手算估计。(372w-365w)/min=7w条目/min。

　　不知道为何其他博主都是几十w条的数据量，我下载的这个数据包目前还在解压中已经过了426w条了额……

=====================

　　（三）原始语料文件内容——实例

转载于:https://www.cnblogs.com/anno-ymy/p/10510791.html

【wiki维基百科中文数据集】抽取wiki数据集——实操相关推荐

wiki维基百科各种语料数据下载
wiki维基百科常用语料下载路径英文语料路径: https://dumps.wikimedia.org/enwiki/ 中文语料路径: https://dumps.wikimedia.org/zhw ...
【NLP】维基百科中文数据训练word2vec词向量模型——基于gensim库
前言本篇主要是基于gensim 库中的 Word2Vec 模型,使用维基百科中文数据训练word2vec 词向量模型,大体步骤如下: 数据预处理模型的训练模型的测试准备条件: Window ...
Python Djang 搭建自动词性标注网站（基于Keras框架和维基百科中文预训练词向量Word2vec模型，分别实现由GRU、LSTM、RNN神经网络组成的词性标注模型）
引言本文基于Keras框架和维基百科中文预训练词向量Word2vec模型,分别实现由GRU.LSTM.RNN神经网络组成的词性标注模型,并且将模型封装,使用python Django web框架搭建 ...
用Python3.6来做维基百科中文语料
首先介绍一下word2vec 参考http://www.cnblogs.com/iloveai/p/word2vec.html 2013年,Google开源了一款用于词向量计算的工具--word2ve ...
维基百科中文创始人_维基百科的创始人正在建立一个社区运营的新闻网站
维基百科中文创始人 Back in 2001, Jimmy Wales co-founded Wikipedia with the mission of "empowering and en ...
wiki维基百科上logo中字母的意思是什么？
努力成为一名Geek. 偶尔看到wiki中的logo中的字母,用过好多次了,也没太注意.只看到有中文"维"字.作为一个国际的知识性网站,它的logo设计应该让大多数人都感受到知识的 ...
九大PHP开源Wiki(维基百科)程序评测
维基百科(wiki)是Web2.0的代表产物,跟博客.digg.视频分享等一样同样强调用户参与,分享互联网的精神.如果想自己编写一本百科全书,跟建一个博客一样,有已经开发好的程序可以使用,而且是开源的 ...
windows下使用word2vec训练维基百科中文语料全攻略！（二）
全文共454个字,3张图,预计阅读时间5分钟. 训练一个聊天机器人的很重要的一步是词向量训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为词向量,时下最火的词向量训练模型是word2 ...
windows下使用word2vec训练维基百科中文语料全攻略！（三
全文共1552个字,7张图,预计阅读时间8分钟. 训练一个聊天机器人的很重要的一步是词向量训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为词向量,时下最火的词向量训练模型是word ...

【wiki维基百科中文数据集】抽取wiki数据集——实操

【wiki维基百科中文数据集】抽取wiki数据集——实操相关推荐

最新文章

热门文章