python实现arxiv论文数据解析处理
今天搞了一个小项目,就是从网络上爬取下来了一些arxiv论文数据,然后想着后面对这些数据进行建模处理,然后实现论文的主题分类,早上完成了arxiv论文数据爬虫,也从网上爬取下来的需要的论文数据,截图如下:
一共是六个大类别,这里面数据格式比较奇怪,需要用到一个叫做shelve的第三方库才能完成数据的读取操作,这里的目的是将这些不可以直接使用的数据转化为json数据对象,然后存储本地,内容很简单,这里就不再多解释了,具体实现如下:
#!usr/bin/env python
#encoding:utf-8
from __future__ import division'''
__Author__:沂水寒城
功能: 论文数据处理
'''import os
import json
import shelve#论文类别数据列表
category_list=['q-fin_2018-1-1','cs_2019-3-25','econ_2017-1-1','eess_2019-3-25','math_2019-3-25','stat_2019-3-25']def dataProcess(dataDir='data/',saveDir='json/'):'''加载原始数据,存储为json格式'''if not os.path.exists(saveDir):os.makedirs(saveDir)for one_cate in category_list:one_cate_path=dataDir+one_cateone_json_path=saveDir+one_cate+'.json'data=shelve.open(one_cate_path,protocol=2)print 'data_num: ',len(data.keys())res_dict={}for one_key in data:res_dict[one_key]={}one_data=data[one_key]one_author,one_id=one_data['author'],one_data['id']one_sub,one_title=one_data['subject'],one_data['title']print 'one_author: ',one_authorprint 'one_id: ',one_idprint 'one_sub: ',one_subprint 'one_title: ',one_titleres_dict[one_key]['author']=one_authorres_dict[one_key]['subject']=one_subres_dict[one_key]['title']=one_titlewith open(one_json_path,'w') as f:f.write(json.dumps(res_dict))if __name__=='__main__':print 'paperHelper!!!'#将原始不可读的数据解析处理为json对象dataProcess(dataDir='data/',saveDir='json/')
经过处理后,结果数据截图如下:
我们打开eess_2019-3-25.json数据对象内容数据截图如下:
python实现arxiv论文数据解析处理相关推荐
- 数据分析---arXiv论文数据统计
这里写目录标题 1.论文数据统计 1.1 任务说明 1.2 数据集介绍 1.3 arxiv论文类别介绍 1.4 具体代码实现以及讲解 1.4.1 导入package并读取原始数据 1.4.2 数据预处 ...
- Python实现OSM地图数据解析——OSM2Rail
目录 1. 简介 2. 功能特色 2.1 自动下载OpenStreetMap地图数据包 2.2 提供更精确的铁路网络数据解析 2.3 扩展GMNS标准 3. 快速上手 4. 效果展示 5. 相关阅读 ...
- Python实现OSM地图数据解析——OSM2GMNS
转载 OSM2GMNS相关说明文档: 详细用户文档:https://osm2gmns.readthedocs.io: Github链接:https://github.com/jiawei92/OSM2 ...
- Python网络爬虫之数据解析篇
对于爬虫中的数据解析,简单理解就是在通用爬虫获取到的响应数据中,进一步提取出我们需要的某些特定数据,例如一段文字,一张图片. 聚焦爬虫:爬取页面中指定的页面内容. --编码流程 1.指定url 2.发 ...
- Python网络爬虫之数据解析(二)
学习笔记,续上篇 八.正则表达式解析HTML网页 8.1 正则表达式介绍 什么是正则表达式: 通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据,这个规则就是正则表达式. 标准答案:https: ...
- Python爬虫编程4——数据解析模块之bs4
目录 一.bs4简介 1.基本概念 2.源码分析 二.bs4的使用 1.快速开始 2.bs4的对象种类 三.遍历文档树 遍历子节点 1.contents children desc ...
- Python爬虫对json数据解析爬取
使用工具 PyCharm 2018.2.3 Anaconda Navigator Python 3.6 解析目标 [{"导航鸭 ♪(^∀^●)ノ": [{"name&qu ...
- Python实现OSM地图数据解析——Pydriosm
目录 1. Pydriosm简介 2. 安装 3. 使用方法 3.1 下载数据 3.2 解析文件 3.3 不同geometry 类型及其数据结构 4. 总结 参考 1. Pydriosm简介 Pydr ...
- python抓取websocket_python--websocket数据解析
ws = new WebSocket("ws://localhost:8080/"); //如果连接成功,会打印下面这句话,否则不会打印 ws.onopen = function ...
- c# 解析gprmc数据_Windows下VLP16激光雷达数据解析
最近,实验室有一个对VLP16数据解析的需求,要求在Windows系统下单独把VLP16的数据解析整理出来,作为后期多传感器融合的一个必要基础准备.无奈从ROS转战Windows,网上查了查Windo ...
最新文章
- app.vue 跳转页面_独立站如何提高产品页面转化呢?
- mysql 存储过程月单拆天单_为部门整理的mysql_db使用军规
- VC/MFC Combo Box控件的用法
- 170405、java版MD5工具类
- Linus Torvalds的安全性,Facebook的AI工具等
- 青岛职业技术学院计算机专业宿舍,青岛职业技术学院宿舍条件,宿舍图片和环境空调及分配方法...
- python练习题及答案-python编程练习题和答案.doc
- HITS 算法(Hypertext Induced TopicSelection)
- softmax ce loss_从Softmax到AMSoftmax(附可视化代码和实现代码)
- 利用VBB仿真——实现24小时电子钟
- drools规则引擎源码解析
- 京东零售2021年度表彰大会
- 台计算机的本地打印机 并且,您在计算机上安装一台本地打印机。您共享这台打印机。您需要确保只有名为Grou..._考试资料网...
- 不动产登记收费一览表
- gold storm翔_牙狼GOLD STORM翔的人物简介
- js 如何获取浏览器的高度和宽度
- 每日写题分享--包含min函数的栈/双栈实现
- linux rhel unix centos FreeBSD 查看CPU核数使用率 系统 位 内存大小 硬盘 HBA光纤卡号 常用命令
- 4.计算机网络与信息安全
- Java发邮件(详解+源代码)