参考链接: 使用Python从Wikipedia的信息框中获取文本

英文维基百科

https://dumps.wikimedia.org/enwiki/

中文维基百科

https://dumps.wikimedia.org/zhwiki/

全部语言的列表

https://dumps.wikimedia.org/backup-index.html

提取处理可以使用 wikiextractor提取正文(由于网页数量太多,结构又很纷乱,提取出来的会有少许瑕疵,再处理即可)

https://github.com/attardi/wikiextractor

运行命令:  python WikiExtractor.py -b 500M -o output_file_name  input_file_name.xml

Notice:

1. 建议处理解压后的文件

2. 如果在windows 下面跑,需要设置  fileinput.FileInput() 参数使用 utf-8 编码,如下:

input = fileinput.FileInput(input_file, openhook=fileinput.hook_encoded("utf-8"))

会冲掉原来的设置(跟压缩文件类型相关?):fileinput.FileInput(openhook=fileinput.hook_compressed)

参考:https://docs.python.org/3.5/library/fileinput.html

转载于:https://www.cnblogs.com/squirrel2300/p/7745088.html

[转载] wikipedia 维基百科 语料 获取 与 提取 处理 by python3.5相关推荐

  1. NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量

    NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量 目录 输出结果 设计思路 1.Wikipedia Text语料来源 2.维基 ...

  2. 中英文维基百科语料上的Word2Vec实验

    本文网址为:http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91%E8%AF%AD%E ...

  3. 中文维基百科语料上的Word2Vec实验

    说明:此文主要参考52nlp-中英文维基百科语料上的Word2Vec实验,按照上面的步骤来做的,略有改动,因此不完全是转载的.这里,为了方便大家可以更快地运行gensim中的word2vec模型,我提 ...

  4. Windows下基于python3使用word2vec训练中文维基百科语料资料汇总

    Windows下基于python3使用word2vec训练中文维基百科语料(一):https://www.cnblogs.com/gaofighting/p/9055674.html Windows下 ...

  5. Windows下基于python3使用word2vec训练中文维基百科语料(一)

    在进行自然语言处理之前,首先需要一个语料,这里选择维基百科中文语料,由于维基百科是 .xml.bz2文件,所以要将其转换成.txt文件,下面就是相关步骤: 步骤一:下载维基百科中文语料 https:/ ...

  6. python中文近义词工具_Windows10下python3.5对维基百科语料用word2vec进行训练寻找同义词相似度...

    首先把需要下载的东西都列出来 1. 语料:下载地址是https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml ...

  7. wikipedia 维基百科架构

    维基百科(WikiPedia.org)位列世界十大网站,目前排名第八位.这是开放的力量. 来点直接的数据: 峰值每秒钟3万个 HTTP 请求 每秒钟 3Gbit 流量, 近乎375MB 350 台 P ...

  8. Windows下基于python3使用word2vec训练中文维基百科语料(三)

    对前两篇获取到的词向量模型进行使用: 代码如下: 1 import gensim 2 model = gensim.models.Word2Vec.load('wiki.zh.text.model') ...

  9. 利用Gensim训练关于英文维基百科的Word2Vec模型(Training Word2Vec Model on English Wikipedia by Gensim)

    Training Word2Vec Model on English Wikipedia by Gensim 更新:发现另一篇译文:中英文维基百科语料上的Word2Vec实验,该译文还提供了中文维基百 ...

最新文章

  1. C# 如何实现pfx与snk密钥文件的转换
  2. 环境变量PATH、mv命令、cp命令、文档查看命令(cat、more、less、head、tail)
  3. c语言 void**类型转换,void *和其他指针的转化
  4. satd残差_RDO、SAD、SATD、λ相关概念【转】
  5. python乐观锁代码实现_Django的乐观锁与悲观锁实现
  6. python安装anaconda ubuntu_Ubuntu 16.4 安装anaconda 详细教程
  7. 单片机ADC采样算法----一阶低通滤波
  8. 为什么说“大公司的技术顽疾根本挽救不了”?
  9. 超市管理系统连接服务器失败,国内超市管理系统的使用现状
  10. c语言void调用不可作为,C语言的选择题.pdf
  11. 算法训练 完数 C语言
  12. 用.bat文件切换固定IP地址和自动IP地址
  13. JavaWeb 过滤敏感词汇
  14. python和html和css什么关系什么区_Python 【第七章】:Html 和 CSS
  15. Docker创建容器后无法update更新以及Job for docker.service failed because the control……错误
  16. Java初学者都必须理解的六大问题
  17. 架构-Android Studio利用 sourceSet独立出UI资源
  18. linux系统磁盘分区查看,linux下磁盘查看和分区
  19. UVA140回溯法剪枝剪多少的讨论
  20. 设置顺序表L是个递增的有序表,试写一算法将number插入L中,并使L任是一个有序表。

热门文章

  1. 【编辑器】在VSCode中使用JetBrains Clion主题
  2. 用iTunes管理iPhone
  3. Android 6.0 for X86
  4. 对java并发性的理解,【图片】你了解过Java并发编程:性能、扩展性和响应的高端操作吗?【java吧】_百度贴吧...
  5. python 正则表达式 re.sub_Python 正则表达式 re.match/re.search/re.sub的使用解析
  6. 网络虚拟化有几种实现方式_机械零件表面实现镜面的几种加工方式
  7. matlab求临界稳定时的k,MATLAB自动控制原理仿真
  8. URL地址 问号传参解析
  9. LuaForUnity5:Lua的字符串
  10. Unity3D之NGUI基础6:UIButton按钮