维基百科的语料库下载以及后续操作(一)2020年6月

写在前面的话:
我并不是专业的,都是逼的
这里都是我自己踩的坑,一点点找到的解答方法,
如果你有更好地方法,请一定要留言

(一)下载维基语料库

https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2
打开连接会很慢,我是用迅雷接管了之后下的(PS:买的会员)
放在D盘合适位置就好,下载好的文件名默认就是“zhwiki-latest-pages-articles.xml.bz2”

(二)下载之后需要对其进行提取txt文件,并且进行繁体字转化,以及去除一些帮助页面和重定向的页面,处理程序为:参考了站内一位大神——残月飞雪的代码,但是因为我的python是3.7以上的版本,稍微修改了一些地方就可以正常使用了。真的超级感谢!
这里是原文链接:
https://blog.csdn.net/majinlei121/article/details/83183603?utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase&depth_1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.nonecase
需要把这一块进行修改

import sys
reload(sys)
sys.setdefaultencoding('utf8')

改成如下即可(PS:我是用的Geany运行)

import imp
import sys
imp.reload(sys)

其他的具体代码除了第三步讲到的opencc就没有需要更改的了。(PS:我会在第四部分写全代码,不要怕)

(三)opencc避雷,这真的是一个大坑,
首先这个第三方库是真的太好了夸一波,因为wiki的语料库太大了,整理下来的txt文件是大约1.5G,记事本根本打不开,现有的繁简体在线转换和Word转换都不行。
但是这个库的下载真的是大坑,我试了得有半天,终于找到啦一个能用的命令行。
如下所示

pip install opencc-python-reimplemented==0.1.4

我从接触python开始就不是正常学的,很匆忙一些基础的知识掌握的都不是很好,这是我的CMD显示pip安装成功的提示,我也用三两句代码实现了简繁转换,如下所示

这是我找的一个代码测试看opencc能不能用,结果是肯定的。

from opencc import OpenCC
cc = OpenCC('s2t')
# convert from Simplified Chinese to Traditional Chinese(可以看一下自己下载的包里面会有这个s2t.json文件,代表简体转繁体,t2s代表繁体到简体)
to_convert = '开放中文转换'
converted = cc.convert(to_convert)
print(converted)

(四)全部代码如下
一定记得要把所有需要的第三方库都自己安装好
除了上面第二部分修改的,第三部分opencc也进行一些修改,我是Geany运行的,可以实现。

# -*- coding: utf-8 -*-
#!/usr/bin/env python
#import sys
#reload(sys)
#import importlib
#importlib.reload(sys)
import imp
import sys
imp.reload(sys)
#sys.setdefaultencoding('utf8')from gensim.corpora.wikicorpus import extract_pages,filter_wiki
import bz2file####记得安装呀!!!
import re
from opencc import OpenCC####修改过
from tqdm import tqdm
import codecswiki = extract_pages(bz2file.open('./zhwiki-latest-pages-articles.xml.bz2'))
cc = OpenCC('t2s')###修改过
def wiki_replace(d):s = d[1]s = re.sub(':*{\|[\s\S]*?\|}', '', s)s = re.sub('<gallery>[\s\S]*?</gallery>', '', s)s = re.sub('(.){{([^{}\n]*?\|[^{}\n]*?)}}', '\\1[[\\2]]', s)s = filter_wiki(s)s = re.sub('\* *\n|\'{2,}', '', s)s = re.sub('\n+', '\n', s)s = re.sub('\n[:;]|\n +', '\n', s)s = re.sub('\n==', '\n\n==', s)s = u'【' + d[0] + u'】\n' + sreturn cc.convert(s).strip()####修改过i = 0
f = codecs.open('00000wiki.txt', 'w', encoding='utf-8')####自己改名字就好了!叫狗蛋都行
w = tqdm(wiki, desc=u'已获取0篇文章')
for d in w:if not re.findall('^[a-zA-Z]+:', d[0]) and d[0] and not re.findall(u'^#', d[1]):s = wiki_replace(d)f.write(s+'\n\n\n')i += 1if i % 100 == 0:w.set_description(u'已获取%s篇文章'%i)f.close()

维基百科的语料库下载以及后续操作(一)2020年6月【包括opencc下载避雷,繁转简】相关推荐

  1. 中文维基百科的语料库下载和繁体转换为简体的操作

    中文维基百科的语料库下载和繁体转换为简体的操作 维基百科数据下载源https://dumps.wikimedia.org/backup-index.html] # from gensim.corpor ...

  2. 2020年7月最新加速下载百度网盘文件方法

    苏生不惑第151 篇原创文章,将本公众号设为星标,第一时间看最新文章. 关于百度网盘之前已经写过了: 2020 年 3 月最新加速下载百度网盘文件方法 2020 年 4 月使用 Aria2 加速下载百 ...

  3. 最新Modis影像数据下载完整流程---以MOD13Q1 NDVI数据下载为例(2020年12月2日更新)

    本文详细讲解Modis数据的下载流程,以MOD13Q1影像为例,该数据为16天合成的空间分辨率为250m的NDVI产品,原始数据的投影为正弦曲线投影. Modis数据MRT和ArcGIS处理方法集锦: ...

  4. 维基百科(wikipedia)数据下载(含地理数据)

    维基百科的资料非常不错,所以准备下载一些下来,本来以为都要自己抓取,但结果维基百科自己开放了所有的数据给你下载,具体可以参见这个页面: 维基百科的开放的态度是出乎我的意料的: 维基百科提供所有完整内容 ...

  5. 使用中文维基百科训练word2vec模型

    一.下载原始数据 数据下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ,或者在这 ...

  6. 维基百科:互动的乌托邦?[zt]

    http://www.nanfangdaily.com.cn/southnews/tszk/nfdsb/whzg/200403230427.asp 你能想像自己编写百科全书吗?听起来不可思议,但你确实 ...

  7. 维基百科诞生,它是一个自由、免费、内容开放的网络百科全书,是世界第五大网站...

    吉米·多纳尔·威尔士(英语:Jimmy Donal "Jimbo" Wales,亦译卫詹美,1966年8月7日-)是一位美国互联网企业家.维基百科的创始人之一,现为维基媒体基金会理 ...

  8. 创立了维基百科的人,竟然要颠覆维基百科?| 独家

    硅谷Live / 实地探访 / 热点探秘 / 深度探讨 "维基百科里很多词条的质量,实在太一般了!" "几亿用户的网站,真正贡献文章的竟然只有一千多个人,为什么不能找更多 ...

  9. 2021年4月如何加速下载百度网盘文件,分享个不限速的内部体验版

    苏生不惑第240 篇原创文章,将本公众号设为星标,第一时间看最新文章. 关于百度网盘之前分享过很多文章了: 2020 年 3 月最新加速下载百度网盘文件方法 2020 最全百度网盘搜索,找电影资源不再 ...

  10. 把一个dataset的表放在另一个dataset里面_使用中文维基百科语料库训练一个word2vec模型并使用说明...

    ​本篇主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/ WikiExtr ...

最新文章

  1. python一千行入门代码-Python 有哪些一千行左右的经典练手项目?
  2. php饼图只有一个小方块_如何做出PHP数据饼图
  3. BZOJ3040:最短路——题解
  4. python将txt读入矩阵_Python3 把txt数据文件读入到矩阵中
  5. a king读后感 love of the_A华语电影高清合集
  6. CMD命令行下编译.Net Visual Studio 项目
  7. window xp系统安装php环境_在Windows XP下安装Apache+MySQL+PHP环境
  8. 时间复杂度和空间复杂度 如何计算?
  9. 2016年总结:教师路的开启,爱情味的初尝 (下)
  10. Python 预测孩子身高
  11. 计算机主机拆装ppt模板,计算机拆装步骤222.ppt
  12. python中如何输出空格换行_Python将文件中空格变成换行的方法如何做
  13. 腾讯面试--测试工程师职位
  14. 《ZigBee开发笔记》第五部分 外设篇 - 基础实验 第2章 CC2530温湿度传感器DHT11
  15. e5408fc4a618ed2a663d0306def2cec3 (学生实验,谢谢)
  16. js中时间戳的各种用法
  17. js 判断视频编码格式是不是avc格式的
  18. 论文阅读笔记《Matching Images With Multiple Descriptors: An Unsupervised Approach for Locally Adaptive》
  19. xhr是什么缩写_微博上xhr和fsr是什么意思 饭圈里指黄新淳毕雯珺
  20. Python实现Label Propagation社区划分算法

热门文章

  1. centos8修改主机名称
  2. 微信存储空间占用问题
  3. c语言程序设计的删除函数,详解C语言中的rename()函数和remove()函数的使用方法
  4. word 方框内打勾√或打叉×
  5. 中望3d快捷键命令大全_中望3D快捷键设置
  6. 模拟与仿真两个词的区别
  7. 笔记(一)Home Assistant简介
  8. 微信中怎么打开apk文件 微信跳转打开外部浏览器打开apk文件
  9. 计算某个日期是一年的第几天
  10. Excel做多元线性回归