【wiki维基百科中文数据集】抽取wiki数据集——实操
参考
【https://blog.csdn.net/wangyangzhizhou/article/details/78348949】
【另外一篇参考处理wiki数据】
【1】【https://blog.csdn.net/sinat_26917383/article/details/79462107】
【上述代码】【https://github.com/mattzheng/ChineseWiki/blob/master/README.md】
【2】【https://blog.csdn.net/jdbc/article/details/59483767】
一、下载数据集
到【https://dumps.wikimedia.org/zhwiki/latest/】下载最新的中文wiki百科数据集【zhwiki-latest-pages-articles.xml.bz2】。
也就是【https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2】
二、提取原始语料库数据(新词汇:语料库(corpus —— corpora【复数】))
(一)节点信息
据说xml节点信息类似如下:(待验证)
<page><title></title><id></id><timestamp></timestamp><username></username><comment></comment><text xml:space="preserve"></text> </page>
(二)抽取数据
【抽取数据工具】:使用Wikipedia的extractor抽取工具。
# 克隆下载wikipedia的Extractor工具 git clone https://github.com/attardi/wikiextractor.git wikiextractor # 进入提取工具目录。我的该目录和语料文件.xml.bz2在同一个目录下 cd wikiextractor# 提示了权限问题 记得要在前面sudo一下 python setup.py install# 注意这里.xml.bz2文件在.py文件的上一级 需要对.xml.bz2文件的位置改动 改为相对路径 即 ../xxxx.xml.bz2 python WikiExtractor.py -b 1024M -o ../extracted zhwiki-latest-pages-articles.xml.bz2# 然后提取了好久 等着吧 等啊等
=====================
记录了一下时间,刷屏太快只能靠截图手算估计。(372w-365w)/min=7w条目/min。
不知道为何其他博主都是几十w条的数据量,我下载的这个数据包目前还在解压中已经过了426w条了额……
=====================
(三)原始语料文件内容——实例
转载于:https://www.cnblogs.com/anno-ymy/p/10510791.html
【wiki维基百科中文数据集】抽取wiki数据集——实操相关推荐
- wiki维基百科各种语料数据下载
wiki维基百科常用语料下载路径 英文语料路径: https://dumps.wikimedia.org/enwiki/ 中文语料路径: https://dumps.wikimedia.org/zhw ...
- 【NLP】维基百科中文数据训练word2vec词向量模型——基于gensim库
前言 本篇主要是基于gensim 库中的 Word2Vec 模型,使用维基百科中文数据训练word2vec 词向量模型,大体步骤如下: 数据预处理 模型的训练 模型的测试 准备条件: Window ...
- Python Djang 搭建自动词性标注网站(基于Keras框架和维基百科中文预训练词向量Word2vec模型,分别实现由GRU、LSTM、RNN神经网络组成的词性标注模型)
引言 本文基于Keras框架和维基百科中文预训练词向量Word2vec模型,分别实现由GRU.LSTM.RNN神经网络组成的词性标注模型,并且将模型封装,使用python Django web框架搭建 ...
- 用Python3.6来做维基百科中文语料
首先介绍一下word2vec 参考http://www.cnblogs.com/iloveai/p/word2vec.html 2013年,Google开源了一款用于词向量计算的工具--word2ve ...
- 维基百科中文创始人_维基百科的创始人正在建立一个社区运营的新闻网站
维基百科中文创始人 Back in 2001, Jimmy Wales co-founded Wikipedia with the mission of "empowering and en ...
- wiki维基百科上logo中字母的意思是什么?
努力成为一名Geek. 偶尔看到wiki中的logo中的字母,用过好多次了,也没太注意.只看到有中文"维"字.作为一个国际的知识性网站,它的logo设计应该让大多数人都感受到知识的 ...
- 九大PHP开源Wiki(维基百科)程序评测
维基百科(wiki)是Web2.0的代表产物,跟博客.digg.视频分享等一样同样强调用户参与,分享互联网的精神.如果想自己编写一本百科全书,跟建一个博客一样,有已经开发好的程序可以使用,而且是开源的 ...
- windows下使用word2vec训练维基百科中文语料全攻略!(二)
全文共454个字,3张图,预计阅读时间5分钟. 训练一个聊天机器人的很重要的一步是词向量训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为词向量,时下最火的词向量训练模型是word2 ...
- windows下使用word2vec训练维基百科中文语料全攻略!(三
全文共1552个字,7张图,预计阅读时间8分钟. 训练一个聊天机器人的很重要的一步是词向量训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为词向量,时下最火的词向量训练模型是word ...
最新文章
- 一种用于三维物体建模的精确、鲁棒的距离图像配准算法
- R语言PCA主成分分析(Principle Component Analysis)与线性回归结合实战
- 蓝桥杯“基础练习:特殊回文数
- Visual Studio 批量注释 快捷键
- GDCM:处理(各种操作处理)DICOM图像文件的测试程序
- html 清除浮动怎么写,清除浮动的css写法有哪些
- 化繁为简 - 腾讯计费高一致TDXA的实践之路
- 抓取手机https_python爬虫入门02:教你通过 Fiddler 进行手机抓包
- 面型对象 (接口与类的区别)
- 3 HTMLJS等前端知识系列之javascript的基础
- Javaweb第三周作业
- 三、VueJs 填坑日记之项目文件认识
- 宝塔建站 mysql在哪_宝塔面板安装LAMP,创建网站,创建数据库
- kali linux 添加字体,在kali linux之下安装wps之后 报错字体缺失
- 【生活】深圳驾考经历
- 服务器 战地4 无限载入,战地4卡在loading界面无限载入_战地4无限载入解决方法...
- PPT模板下载100套欧美风云盘下载
- OSI 7层的简单讲解
- thinkphp开发流程之四 ——数据库的配置以及表模型的创建和使用
- 香港必理痛儿童退烧止痛药水 用量详解 (Panadol)