参考

【https://blog.csdn.net/wangyangzhizhou/article/details/78348949】

【另外一篇参考处理wiki数据】

  【1】【https://blog.csdn.net/sinat_26917383/article/details/79462107】

    【上述代码】【https://github.com/mattzheng/ChineseWiki/blob/master/README.md】

  【2】【https://blog.csdn.net/jdbc/article/details/59483767】

  一、下载数据集

  到【https://dumps.wikimedia.org/zhwiki/latest/】下载最新的中文wiki百科数据集【zhwiki-latest-pages-articles.xml.bz2】。

  也就是【https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2】


  

  二、提取原始语料库数据(新词汇:语料库(corpus —— corpora【复数】))

  (一)节点信息

  据说xml节点信息类似如下:(待验证)

<page><title></title><id></id><timestamp></timestamp><username></username><comment></comment><text xml:space="preserve"></text>
</page>

  (二)抽取数据

  【抽取数据工具】:使用Wikipedia的extractor抽取工具。

# 克隆下载wikipedia的Extractor工具
git clone https://github.com/attardi/wikiextractor.git wikiextractor

# 进入提取工具目录。我的该目录和语料文件.xml.bz2在同一个目录下
cd wikiextractor# 提示了权限问题 记得要在前面sudo一下
python setup.py install# 注意这里.xml.bz2文件在.py文件的上一级 需要对.xml.bz2文件的位置改动 改为相对路径 即 ../xxxx.xml.bz2
python WikiExtractor.py -b 1024M -o ../extracted zhwiki-latest-pages-articles.xml.bz2# 然后提取了好久 等着吧 等啊等

  

=====================

  记录了一下时间,刷屏太快只能靠截图手算估计。(372w-365w)/min=7w条目/min。

  不知道为何其他博主都是几十w条的数据量,我下载的这个数据包目前还在解压中已经过了426w条了额……

=====================

  (三)原始语料文件内容——实例

转载于:https://www.cnblogs.com/anno-ymy/p/10510791.html

【wiki维基百科中文数据集】抽取wiki数据集——实操相关推荐

  1. wiki维基百科各种语料数据下载

    wiki维基百科常用语料下载路径 英文语料路径: https://dumps.wikimedia.org/enwiki/ 中文语料路径: https://dumps.wikimedia.org/zhw ...

  2. 【NLP】维基百科中文数据训练word2vec词向量模型——基于gensim库

    前言   本篇主要是基于gensim 库中的 Word2Vec 模型,使用维基百科中文数据训练word2vec 词向量模型,大体步骤如下: 数据预处理 模型的训练 模型的测试 准备条件: Window ...

  3. Python Djang 搭建自动词性标注网站(基于Keras框架和维基百科中文预训练词向量Word2vec模型,分别实现由GRU、LSTM、RNN神经网络组成的词性标注模型)

    引言 本文基于Keras框架和维基百科中文预训练词向量Word2vec模型,分别实现由GRU.LSTM.RNN神经网络组成的词性标注模型,并且将模型封装,使用python Django web框架搭建 ...

  4. 用Python3.6来做维基百科中文语料

    首先介绍一下word2vec 参考http://www.cnblogs.com/iloveai/p/word2vec.html 2013年,Google开源了一款用于词向量计算的工具--word2ve ...

  5. 维基百科中文创始人_维基百科的创始人正在建立一个社区运营的新闻网站

    维基百科中文创始人 Back in 2001, Jimmy Wales co-founded Wikipedia with the mission of "empowering and en ...

  6. wiki维基百科上logo中字母的意思是什么?

    努力成为一名Geek. 偶尔看到wiki中的logo中的字母,用过好多次了,也没太注意.只看到有中文"维"字.作为一个国际的知识性网站,它的logo设计应该让大多数人都感受到知识的 ...

  7. 九大PHP开源Wiki(维基百科)程序评测

    维基百科(wiki)是Web2.0的代表产物,跟博客.digg.视频分享等一样同样强调用户参与,分享互联网的精神.如果想自己编写一本百科全书,跟建一个博客一样,有已经开发好的程序可以使用,而且是开源的 ...

  8. windows下使用word2vec训练维基百科中文语料全攻略!(二)

    全文共454个字,3张图,预计阅读时间5分钟. 训练一个聊天机器人的很重要的一步是词向量训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为词向量,时下最火的词向量训练模型是word2 ...

  9. windows下使用word2vec训练维基百科中文语料全攻略!(三

    全文共1552个字,7张图,预计阅读时间8分钟. 训练一个聊天机器人的很重要的一步是词向量训练,无论是生成式聊天机器人还是检索式聊天机器人,都需要将文字转化为词向量,时下最火的词向量训练模型是word ...

最新文章

  1. 一种用于三维物体建模的精确、鲁棒的距离图像配准算法
  2. R语言PCA主成分分析(Principle Component Analysis)与线性回归结合实战
  3. 蓝桥杯“基础练习:特殊回文数
  4. Visual Studio 批量注释 快捷键
  5. GDCM:处理(各种操作处理)DICOM图像文件的测试程序
  6. html 清除浮动怎么写,清除浮动的css写法有哪些
  7. 化繁为简 - 腾讯计费高一致TDXA的实践之路
  8. 抓取手机https_python爬虫入门02:教你通过 Fiddler 进行手机抓包
  9. 面型对象 (接口与类的区别)
  10. 3 HTMLJS等前端知识系列之javascript的基础
  11. Javaweb第三周作业
  12. 三、VueJs 填坑日记之项目文件认识
  13. 宝塔建站 mysql在哪_宝塔面板安装LAMP,创建网站,创建数据库
  14. kali linux 添加字体,在kali linux之下安装wps之后 报错字体缺失
  15. 【生活】深圳驾考经历
  16. 服务器 战地4 无限载入,战地4卡在loading界面无限载入_战地4无限载入解决方法...
  17. PPT模板下载100套欧美风云盘下载
  18. OSI 7层的简单讲解
  19. thinkphp开发流程之四 ——数据库的配置以及表模型的创建和使用
  20. 香港必理痛儿童退烧止痛药水 用量详解 (Panadol)

热门文章

  1. 动手写操作系统系列-前言
  2. 计算机网络实验1·**路由器基本配置**
  3. WOS(五)——字段标识
  4. k8s----------各种证书配置参数
  5. 淘宝京东APP节日更新布局 实现方式
  6. 单核浏览器和双核浏览器有什么区别,哪个好用?
  7. 剑指Offer —— 面试题(十六)
  8. Word 2010 中的 VBA 入门
  9. 推荐系统基础03:矩阵分解与FM
  10. pq分解法matlab程序,基于MATLAB软件的PQ分解法潮流计算