获取语料

下载链接

处理语料

直接下载下来的维基百科语料是一个带有html和markdown标记的文本压缩包,基本不能直接使用。目前主流的开源处理工具主要有两个:1、Wikipedia Extractor;2、gensim的wikicorpus库。

然而,这两个主流的处理方法都不能让人满意。Wikipedia Extractor提取出来的结果,会去掉{{}}标记的内容,这样会导致下面的情形

西方语言中“数学”(;)一词源自于古希腊语的()

这是因为括号里的词带有{{}}标记,被清空了;而按照网上的教程,直接用gensim.corpora.wikicorpus.WikiCorpus处理,问题更严重,因为它连所有标点都去掉了。想要得到一份高质量语料库,光依靠这些库是做不到的。因此,结合gensim和苏神的文章,处理脚本如下。

处理代码

from gensim.corpora.wikicorpus import extract_pages,filter_wiki
import bz2file
import re
import opencc
from tqdm import tqdm
import codecswiki = extract_pages(bz2file.open('zhwiki-latest-pages-articles.xml.bz2'))def wiki_replace(d):s = d[1]s = re.sub(':*{\|[\s\S]*?\|}', '', s)s = re.sub('<gallery>[\s\S]*?</gallery>', '', s)s = re.sub('(.){{([^{}\n]*?\|[^{}\n]*?)}}', '\\1[[\\2]]', s)s = filter_wiki(s)s = re.sub('\* *\n|\'{2,}', '', s)s = re.sub('\n+', '\n', s)s = re.sub('\n[:;]|\n +', '\n', s)s = re.sub('\n==', '\n\n==', s)s = u'【' + d[0] + u'】\n' + sreturn opencc.convert(s).strip()i = 0
f = codecs.open('wiki.txt', 'w', encoding='utf-8')
w = tqdm(wiki, desc=u'已获取0篇文章')
for d in w:if not re.findall('^[a-zA-Z]+:', d[0]) and d[0] and not re.findall(u'^#', d[1]):s = wiki_replace(d)f.write(s+'\n\n\n')i += 1if i % 100 == 0:w.set_description(u'已获取%s篇文章'%i)f.close()

代码解释

代码的主要部分是正则表达式。首先通过bz2file直接不解压来读取下载下来的语料,然后用gensim的extract_pages来提取每个页面,提取后,先处理页面的一些特殊的、非文本的标记,然后将部分有用的{{}}标记替换为[[]],因为[[]]标记不会被完全清空,然后用gensim的filter_wiki函数直接清理,接着再处理一下换行的问题,最后通过opencc将繁体转化为简体。

后面的循环中,re.findall('^[a-zA-Z]+:', d[0])这个条件是去掉那些帮助页面,re.findall(u'^#', d[1])这个条件是去掉重定向的页面,最后得到大概就是91.9万个页面。tqdm是用来显示进度的,这个必须有。程序在我的机器上运行了大概40分钟,得到了1.5G左右的纯文本语料。运行时间不重要,因为预处理是一次性的。

值得注意的是,opencc不能用sudo apt-get install opencc来安装,这个默认版本太低,要用源码编译安装,然后pip install opencc安装python接口,这时候在python中调用opencc可能会报“段错误”,这时候要运行cp /usr/lib/libopencc.so.1.0.0 /usr/lib/x86_64-linux-gnu/

获取并处理中文维基百科语料相关推荐

  1. NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量

    NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量 目录 输出结果 设计思路 1.Wikipedia Text语料来源 2.维基 ...

  2. Windows下基于python3使用word2vec训练中文维基百科语料资料汇总

    Windows下基于python3使用word2vec训练中文维基百科语料(一):https://www.cnblogs.com/gaofighting/p/9055674.html Windows下 ...

  3. 中文维基百科语料上的Word2Vec实验

    说明:此文主要参考52nlp-中英文维基百科语料上的Word2Vec实验,按照上面的步骤来做的,略有改动,因此不完全是转载的.这里,为了方便大家可以更快地运行gensim中的word2vec模型,我提 ...

  4. Windows下基于python3使用word2vec训练中文维基百科语料(一)

    在进行自然语言处理之前,首先需要一个语料,这里选择维基百科中文语料,由于维基百科是 .xml.bz2文件,所以要将其转换成.txt文件,下面就是相关步骤: 步骤一:下载维基百科中文语料 https:/ ...

  5. Windows下基于python3使用word2vec训练中文维基百科语料(三)

    对前两篇获取到的词向量模型进行使用: 代码如下: 1 import gensim 2 model = gensim.models.Word2Vec.load('wiki.zh.text.model') ...

  6. 使用中文维基百科训练word2vec模型

    一.下载原始数据 数据下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ,或者在这 ...

  7. 预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载

    中文预训练词向量--基于中文维基百科语料训练 英文预训练词向量--斯坦福glove预训练的词向量 百度云分享:https://pan.baidu.com/s/1UpZeuqlNMl6XtTB5la53 ...

  8. [转载] wikipedia 维基百科 语料 获取 与 提取 处理 by python3.5

    参考链接: 使用Python从Wikipedia的信息框中获取文本 英文维基百科 https://dumps.wikimedia.org/enwiki/ 中文维基百科 https://dumps.wi ...

  9. 中英文维基百科语料上的Word2Vec实验

    本文网址为:http://www.52nlp.cn/%E4%B8%AD%E8%8B%B1%E6%96%87%E7%BB%B4%E5%9F%BA%E7%99%BE%E7%A7%91%E8%AF%AD%E ...

  10. 基于中文维基百科的词向量构建及可视化

    你将使用Gensim和维基百科获得你的第一批中文词向量,并且感受词向量训练的基本过程. 词向量原理详解请参考: 词向量技术原理及应用详解(一) 词向量技术原理及应用详解(二) 词向量技术原理及应用详解 ...

最新文章

  1. WinSock五种I/O模型的性能分析
  2. Python词云学习之旅
  3. 【Round #36 (Div. 2 only) B】Safe Spots
  4. graph driver-device mapper-04libdevmapper基本操作
  5. 单张表超过30个字段_拉链表
  6. Servlet请求和响应总结
  7. 创建DataTable并把列默认值
  8. AJAX 状态值(readyState)与状态码(status)详解
  9. bootstrap基础学习【菜单、按钮、导航】(四)
  10. Computer Systems A Programmer's Perspective(深入理解计算机系统)第一章读书笔记
  11. 简单的俄罗斯方块代码(Java)
  12. PwnLnX:针对Linux系统的渗透测试工具
  13. python爬虫,以某小说网站为例
  14. 触摸屏驱动学习并移植
  15. postgreSQL 中raise notice用法
  16. nginx安装部署ssl证书
  17. the system clock has been set more than 24 hours
  18. 微信小程序—带qq表情的评论输入框
  19. 《黑白团团队》第六次作业:团队项目系统设计改进与详细设计
  20. 软件研发管理最佳实践(2012-10-20 深圳)

热门文章

  1. select XX.nextval from dual
  2. Excel单元格引用方式
  3. pycharm无法import本地安装好的第三方库问题
  4. favi.icon是什么?
  5. 主机电源供电端口-24PIN
  6. 机器学习6:单层感知器
  7. mybatis报错:Could not find resource com/**/dao/Mapper.xml
  8. 无人车之美——技术要点速览
  9. 计算机英语专业摘要,推荐:计算机毕业论文英文摘要的写作方法
  10. 箱形图、盒须图、盒式图、箱线图