中文维基百科的语料库下载和繁体转换为简体的操作

  • 维基百科数据下载源https://dumps.wikimedia.org/backup-index.html】
# from gensim.corpora.wikicorpus import extract_pages,filter_wiki
# import bz2file
# import sys
# import re
# import opencc   # 中文繁转简
# from tqdm import tqdm
# import codecs
import time
from gensim.corpora.wikicorpus import extract_pages,filter_wiki
import bz2file
import re
import opencc
from tqdm import tqdm
import codecswiki = extract_pages(bz2file.open('zhwiki-20220820-pages-articles.xml.bz2'))
print("读取压缩包成功")
# cc=opencc('t2s')
def wiki_replace(d,converter):s = d[1]s = re.sub(':*{\|[\s\S]*?\|}', '', s)s = re.sub('<gallery>[\s\S]*?</gallery>', '', s)s = re.sub('(.){{([^{}\n]*?\|[^{}\n]*?)}}', '\\1[[\\2]]', s)s = filter_wiki(s)s = re.sub('\* *\n|\'{2,}', '', s)s = re.sub('\n+', '\n', s)s = re.sub('\n[:;]|\n +', '\n', s)s = re.sub('\n==', '\n\n==', s)s = u'【' + d[0] + u'】\n' + sreturn converter.convert(s).strip()
if __name__ == '__main__':i = 0f = codecs.open('zhwiki.txt', 'w', encoding='utf-8')w = tqdm(wiki, desc=u'已获取0篇文章')converter=opencc.OpenCC('t2s.json')for dd in w:if not re.findall('^[a-zA-Z]+:', dd[0]) and dd[0] and not re.findall(u'^#', dd[1]):# s = wiki_replace(d)s=wiki_replace(dd,converter)f.write(s+'\n\n\n')i += 1w.set_description(u'已获取%s篇文章' % i)# if i % 100 == 0:#     w.set_description(u'已获取%s篇文章'%i)print(i)time.sleep(5);f.close()

中文维基百科的语料库下载和繁体转换为简体的操作相关推荐

  1. 使用中文维基百科训练word2vec模型

    一.下载原始数据 数据下载地址:https://dumps.wikimedia.org/zhwiki/latest/zhwiki-latest-pages-articles.xml.bz2 ,或者在这 ...

  2. 把一个dataset的表放在另一个dataset里面_使用中文维基百科语料库训练一个word2vec模型并使用说明...

    ​本篇主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/ WikiExtr ...

  3. 使用中文维基百科语料库训练一个word2vec模型

    本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模型. 相关资料下载: 中文维基百科下载地址:https://dumps.wikimedia.org/zhwiki/20180720 ...

  4. 使用中文维基百科语料库训练一个word2vec模型 12.1

    转自:https://blog.csdn.net/sinat_29957455/article/details/81432846 本篇文章主要介绍如何通过中文维基百科语料库来训练一个word2vec模 ...

  5. 预训练词向量中文维基百科,英文斯坦福glove预训练的词向量下载

    中文预训练词向量--基于中文维基百科语料训练 英文预训练词向量--斯坦福glove预训练的词向量 百度云分享:https://pan.baidu.com/s/1UpZeuqlNMl6XtTB5la53 ...

  6. Windows下基于python3使用word2vec训练中文维基百科语料(一)

    在进行自然语言处理之前,首先需要一个语料,这里选择维基百科中文语料,由于维基百科是 .xml.bz2文件,所以要将其转换成.txt文件,下面就是相关步骤: 步骤一:下载维基百科中文语料 https:/ ...

  7. NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量

    NLP之word2vec:利用 Wikipedia Text(中文维基百科)语料+Word2vec工具来训练简体中文词向量 目录 输出结果 设计思路 1.Wikipedia Text语料来源 2.维基 ...

  8. 使用中文维基百科训练word2vec模型的最新方法!

    网上看了很多其他博客,发现有些部分都太老旧了,以至于现在套用都错误百出...这里总结了一下使用中文维基百科训练word2vec模型的最新方法. 参考链接: https://blog.csdn.net/ ...

  9. 中文维基百科语料上的Word2Vec实验

    说明:此文主要参考52nlp-中英文维基百科语料上的Word2Vec实验,按照上面的步骤来做的,略有改动,因此不完全是转载的.这里,为了方便大家可以更快地运行gensim中的word2vec模型,我提 ...

最新文章

  1. 资源 | 4天学会PyTorch!香港科技大学开放PyTorch机器学习课件资源
  2. 基于GPU加速全局紧耦合的激光-IMU融合SLAM算法(ICRA2022)
  3. Python正则表达式-2
  4. Python的time库的一些简单函数以及用法
  5. js callback promise async await 几种异步函数处理方式
  6. 在双向链表存储结构中,删除p所指的结点时,须修改指针()【选择题】
  7. zabbix mysql.status_Zabbix 监控 Mysql 状态
  8. 8.4-中断系统小结(cpu中断七个问题)
  9. 验证码颜色、字母、数字、线条、圆点、位置都随机,点击切换验证码
  10. MNIST的AlexNet实现
  11. jquery.autocomplete自动补齐和自定义格式
  12. 面向对象编程(三):重载运算符和重载函数
  13. 免费不加密:C++基础教程完整版视频(黑马程序员)
  14. 网站开发执行文档(页面界面和功能说明文档)编写方法
  15. 第三方自动投票软件制作教程
  16. 4K工业级高清4进1出HDMI自动USB KVM多电脑切换器(MT-HK401)
  17. 菜鸟入门_Python_机器学习(1)_线性可分的双月实验
  18. 商城-折扣活动设计方案
  19. 全新MN梦奈宝塔主机系统V1.5版本源码
  20. css样式写一个公告通知

热门文章

  1. Mysql 存在则修改 不存在则新增的两种实现方法
  2. mysql8找不到bir_beetlsql.adoc
  3. 我的眉画得浓淡可合时兴?打起黄莺儿,莫教枝上啼。
  4. Windows 程序设计 相关的经典好书(备忘)
  5. PHP类实例教程(四):PHP5类中的方法
  6. 基于matlab的bp神经网络,基于MATLAB的BP神经网络建模及系统仿真 (1)
  7. Facebook分享使用
  8. java8 stream map flatMap
  9. 汉字验证码、英文数字验证码字符集
  10. 电影《可可西里》散记