Wiki数据数据下载

下载地址 https://dumps.wikimedia.org/kowiki/
下载其他语种数据可更改语种代码,如:kowiki 改为 zhwiki
下载数据文件:kowiki-20201001-pages-articles.xml.bz2

数据解析

  1. 安装python 扩展包 Wikiextractor, pip install wikiextractor
    (github地址:https://github.com/attardi/wikiextractor)
  2. 解析数据,

python -m wikiextractor.WikiExtractor ./kowiki-20201001-pages-articles.xml.bz2 -o ./output_dir -b 10M --json --processes n
-o 输出文件夹
-b 输出文件大小限制,超出后存入新的文件
–json 输出文件数据存储方式
–processes 进程数
其他参数可参见github

读取数据

读取所有解析后的文件,将字典格式的数据读取到一个列表中

import os
import jsonwikidata_dir = './kowiki'def load_wikidata(file_dir):wiki_data = []# 获取文件名for file in os.listdir(file_dir):file_path = os.path.join(file_dir, file)# 读取文件数据with open(file_path, 'r', encoding='utf-8') as f:data = f.readlines()for i in data:# 每行末尾有个‘\n’,所以i[:-1]wiki_data.append(json.loads(i[:-1]))return wiki_datadata = load_wikidata(wikidata_dir)

获取到的数据如下图:

解析wiki数据(带标点,保留格式)相关推荐

  1. PHP解析JSON数据的源代码

    2019独角兽企业重金招聘Python工程师标准>>> 与大多数流行的 Web 服务如 twitter 通过开放 API 来提供数据一样,它总是能够知道如何解析 API 数据的各种传 ...

  2. 【Python使用】Python解析JSON数据的基本方法/用MATLAB解析json格式数据

    一 JSON数据格式介绍 JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式. JSON建构于两种结构:json是Javascript中的对象和数组中的对象, ...

  3. Python|excel表格数据一键转json格式小工具|支持xlsx、xls格式转json|【源码+解析】

    背景    最近在使用JavaScript编写一些浏览器RPA脚本,脚本使用过程中遇到一些问题,脚本使用的数据往往存放在excel表,但运行时只能读取json数据,导致频繁人工excel转json,效 ...

  4. 超大数据量的xlsx格式的excel文件的读取和解析,解决了POI方式的内存溢出和性能问题

    在之前的博文< POI读取并解析xlsx格式的excel文件>中,在小数据量的情况下是可以轻松愉快的处理的,但是当excel文件的数据量达到百万级的时候, InputStream is = ...

  5. php 读取 js json格式数据,js读取和解析JSON数据的方法

    JSON(JavaScript Object Notation) 是一种轻量级的数据交换格式,采用完全独立于语言的文本格式,是理想的数据交换格式.同时,JSON是 JavaScript 原生格式,这意 ...

  6. 如何快速把mkv转为mp4格式,并带(保留)字幕!可在iPhone上播放

    mkv文件其实属于封装格式,包括视频.音频.字幕等文件,像一些PR等剪辑软件就不能直接调用,而且很多播放器在识别这些文件时也可能因为兼容性问题导致不能播放.解决办法很简单,把mkv文件转为mp4格式就 ...

  7. python 读取excel格式xml,读取xml格式的xls文件、解析其中数据

    1.python 读取excel格式xml,解析其中数据 当excel文件的格式是xml的时候,window系统是可以正常打开的,但是使用pandas直接读取则会报错,原因就是现在已经是xml文件了, ...

  8. Ajax获取数据的几种格式和解析方式

    一.什么是ajax AJAX的全称是Asynchronous JavaScript and XML(是异步的 JavaScript 和 XML). ajax不是新的编程语言,而是一种使用现有标准的新方 ...

  9. python带货_Python解析罗永浩直播带货背后的数据秘密!

    原标题:Python解析罗永浩直播带货背后的数据秘密! 作为手机界最会说相声的罗永浩,已经正式加盟抖音,全身心投入直播行业了!按罗永浩的话说,是因为看了招商证券的调研报告,也为了偿还之前做手机留下来的 ...

最新文章

  1. iOS开发:Objective-C优雅的语法
  2. Linux 将文件夹下的所有文件复制到另一个文件里
  3. ABAP如何检查字符串是否为日期或时间格式
  4. 某度网盘转存限制500个文件?这个软件帮你搞定!
  5. python爬虫和医学数据_医学论文中的数据有什么软件可以对之进行收集和处理吗?爬虫?...
  6. idea的maven project消失解决方案
  7. 网上看到的一个百度实习生笔试题
  8. 5个能提高你工作效率的Excel技巧
  9. 已然是身份的象征了?Coach品牌再入天猫 只有目标用户才有机会看到
  10. 按钮固定在页面底端html,css实现按钮固定在底部
  11. 微信支付开发(2) 扫码支付模式一
  12. excel diy工具箱_我是工具控:excel最酷工具箱 — 方方格子
  13. 错误代码:1120 当前Hsql数据库已被另一线程锁定
  14. uniapp Android离线打包Activity class {com.xxx.yyy/io.dcloud.PandoraEntry} does not exist.
  15. oracle clob 导出csv,在Apex把csv导入数据库Clob字段再导入到各自对应列的解决方法...
  16. 浅谈估值模型:相对估值模型中的变形金刚——PE指标I
  17. Docker部署应用案例
  18. Gmail服务器拒绝发送邮件,向Gmail发送邮件被退信,其他均正常,请协助,谢谢大家...
  19. SD3038B高效率恒流限流白光LED驱动IC
  20. 阿里云的PolarDB要开源了?这个数据库到底强在哪?

热门文章

  1. 快速原型设计工具(Axure)的简单使用
  2. SRTM、ASTER、ALOS、TanDEM-X等常用免费数字高程模型(DEM)基本信息汇总
  3. @Valid和@Validated注解校验List<Object>
  4. 对连续值/离散值进行预处理的两种方式(标准化/one-hot化)、反标准化/逆标准化、字符串预处理
  5. suse linux zypper iso,SUSE Linux的zypper命令详解
  6. NLP初学-文本预处理
  7. python工作任务流flow实时框架:prefect
  8. 查找两个数储存在二进制中相同的个数
  9. 购买企业邮箱价格多少钱?企业邮箱注册申请哪个好?
  10. 力扣(LeetCode)904. 水果成篮(C语言)