中文维基百科的语料库下载和繁体转换为简体的操作
中文维基百科的语料库下载和繁体转换为简体的操作
- 维基百科数据下载源https://dumps.wikimedia.org/backup-index.html】
# from gensim.corpora.wikicorpus import extract_pages,filter_wiki
# import bz2file
# import sys
# import re
# import opencc # 中文繁转简
# from tqdm import tqdm
# import codecs
import time
from gensim.corpora.wikicorpus import extract_pages,filter_wiki
import bz2file
import re
import opencc
from tqdm import tqdm
import codecswiki = extract_pages(bz2file.open('zhwiki-20220820-pages-articles.xml.bz2'))
print("读取压缩包成功")
# cc=opencc('t2s')
def wiki_replace(d,converter):s = d[1]s = re.sub(':*{\|[\s\S]*?\|}', '', s)s = re.sub('<gallery>[\s\S]*?</gallery>', '', s)s = re.sub('(.){{([^{}\n]*?\|[^{}\n]*?)}}', '\\1[[\\2]]', s)s = filter_wiki(s)s = re.sub('\* *\n|\'{2,}', '', s)s = re.sub('\n+', '\n', s)s = re.sub('\n[:;]|\n +', '\n', s)s = re.sub('\n==', '\n\n==', s)s = u'【' + d[0] + u'】\n' + sreturn converter.convert(s).strip()
if __name__ == '__main__':i = 0f = codecs.open('zhwiki.txt', 'w', encoding='utf-8')w = tqdm(wiki, desc=u'已获取0篇文章')converter=opencc.OpenCC('t2s.json')for dd in w:if not re.findall('^[a-zA-Z]+:', dd[0]) and dd[0] and not re.findall(u'^#', dd[1]):# s = wiki_replace(d)s=wiki_replace(dd,converter)f.write(s+'\n\n\n')i += 1w.set_description(u'已获取%s篇文章' % i)# if i % 100 == 0:# w.set_description(u'已获取%s篇文章'%i)print(i)time.sleep(5);f.close()
中文维基百科的语料库下载和繁体转换为简体的操作相关推荐
- 使用中文维基百科训练word2vec模型
一.下载原始数据 数据下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ,或者在这 ...
- 把一个dataset的表放在另一个dataset里面_使用中文维基百科语料库训练一个word2vec模型并使用说明...
本篇主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/ WikiExtr ...
- 使用中文维基百科语料库训练一个word2vec模型
本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/20180720 ...
- 使用中文维基百科语料库训练一个word2vec模型 12.1
转自:https://blog.csdn.net/sinat_29957455/article/details/81432846 本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模 ...
- 预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载
中文预训练词向量--基于中文维基百科语料训练 英文预训练词向量--斯坦福glove预训练的词向量 百度云分享:https://pan.baidu.com/s/1UpZeuqlNMl6XtTB5la53 ...
- Windows下基于python3使用word2vec训练中文维基百科语料(一)
在进行自然语言处理之前,首先需要一个语料,这里选择维基百科中文语料,由于维基百科是 .xml.bz2文件,所以要将其转换成.txt文件,下面就是相关步骤: 步骤一:下载维基百科中文语料 https:/ ...
- NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量
NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量 目录 输出结果 设计思路 1.Wikipedia Text语料来源 2.维基 ...
- 使用中文维基百科训练word2vec模型的最新方法!
网上看了很多其他博客,发现有些部分都太老旧了,以至于现在套用都错误百出...这里总结了一下使用中文维基百科训练word2vec模型的最新方法. 参考链接: https://blog.csdn.net/ ...
- 中文维基百科语料上的Word2Vec实验
说明:此文主要参考52nlp-中英文维基百科语料上的Word2Vec实验,按照上面的步骤来做的,略有改动,因此不完全是转载的.这里,为了方便大家可以更快地运行gensim中的word2vec模型,我提 ...
最新文章
- 资源 | 4天学会PyTorch!香港科技大学开放PyTorch机器学习课件资源
- 基于GPU加速全局紧耦合的激光-IMU融合SLAM算法(ICRA2022)
- Python正则表达式-2
- Python的time库的一些简单函数以及用法
- js callback promise async await 几种异步函数处理方式
- 在双向链表存储结构中,删除p所指的结点时,须修改指针()【选择题】
- zabbix mysql.status_Zabbix 监控 Mysql 状态
- 8.4-中断系统小结(cpu中断七个问题)
- 验证码颜色、字母、数字、线条、圆点、位置都随机,点击切换验证码
- MNIST的AlexNet实现
- jquery.autocomplete自动补齐和自定义格式
- 面向对象编程(三):重载运算符和重载函数
- 免费不加密:C++基础教程完整版视频(黑马程序员)
- 网站开发执行文档(页面界面和功能说明文档)编写方法
- 第三方自动投票软件制作教程
- 4K工业级高清4进1出HDMI自动USB KVM多电脑切换器(MT-HK401)
- 菜鸟入门_Python_机器学习(1)_线性可分的双月实验
- 商城-折扣活动设计方案
- 全新MN梦奈宝塔主机系统V1.5版本源码
- css样式写一个公告通知