python实现arxiv论文数据解析处理

今天搞了一个小项目，就是从网络上爬取下来了一些arxiv论文数据，然后想着后面对这些数据进行建模处理，然后实现论文的主题分类，早上完成了arxiv论文数据爬虫，也从网上爬取下来的需要的论文数据，截图如下：

一共是六个大类别，这里面数据格式比较奇怪，需要用到一个叫做shelve的第三方库才能完成数据的读取操作，这里的目的是将这些不可以直接使用的数据转化为json数据对象，然后存储本地，内容很简单，这里就不再多解释了，具体实现如下：

#!usr/bin/env python
#encoding:utf-8
from __future__ import division'''
__Author__:沂水寒城
功能： 论文数据处理
'''import os
import json
import shelve#论文类别数据列表
category_list=['q-fin_2018-1-1','cs_2019-3-25','econ_2017-1-1','eess_2019-3-25','math_2019-3-25','stat_2019-3-25']def dataProcess(dataDir='data/',saveDir='json/'):'''加载原始数据，存储为json格式'''if not os.path.exists(saveDir):os.makedirs(saveDir)for one_cate in category_list:one_cate_path=dataDir+one_cateone_json_path=saveDir+one_cate+'.json'data=shelve.open(one_cate_path,protocol=2)print 'data_num: ',len(data.keys())res_dict={}for one_key in data:res_dict[one_key]={}one_data=data[one_key]one_author,one_id=one_data['author'],one_data['id']one_sub,one_title=one_data['subject'],one_data['title']print 'one_author: ',one_authorprint 'one_id: ',one_idprint 'one_sub: ',one_subprint 'one_title: ',one_titleres_dict[one_key]['author']=one_authorres_dict[one_key]['subject']=one_subres_dict[one_key]['title']=one_titlewith open(one_json_path,'w') as f:f.write(json.dumps(res_dict))if __name__=='__main__':print 'paperHelper!!!'#将原始不可读的数据解析处理为json对象dataProcess(dataDir='data/',saveDir='json/')

经过处理后，结果数据截图如下：

我们打开eess_2019-3-25.json数据对象内容数据截图如下：

python实现arxiv论文数据解析处理相关推荐

数据分析---arXiv论文数据统计
这里写目录标题 1.论文数据统计 1.1 任务说明 1.2 数据集介绍 1.3 arxiv论文类别介绍 1.4 具体代码实现以及讲解 1.4.1 导入package并读取原始数据 1.4.2 数据预处 ...
Python实现OSM地图数据解析——OSM2Rail
目录 1. 简介 2. 功能特色 2.1 自动下载OpenStreetMap地图数据包 2.2 提供更精确的铁路网络数据解析 2.3 扩展GMNS标准 3. 快速上手 4. 效果展示 5. 相关阅读 ...
Python实现OSM地图数据解析——OSM2GMNS
转载 OSM2GMNS相关说明文档: 详细用户文档:https://osm2gmns.readthedocs.io: Github链接:https://github.com/jiawei92/OSM2 ...
Python网络爬虫之数据解析篇
对于爬虫中的数据解析,简单理解就是在通用爬虫获取到的响应数据中,进一步提取出我们需要的某些特定数据,例如一段文字,一张图片. 聚焦爬虫:爬取页面中指定的页面内容. --编码流程 1.指定url 2.发 ...
Python网络爬虫之数据解析（二）
学习笔记,续上篇八.正则表达式解析HTML网页 8.1 正则表达式介绍什么是正则表达式: 通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据,这个规则就是正则表达式. 标准答案:https: ...
Python爬虫编程4——数据解析模块之bs4
目录一.bs4简介 1.基本概念 2.源码分析二.bs4的使用 1.快速开始 2.bs4的对象种类三.遍历文档树遍历子节点 1.contents children desc ...
Python爬虫对json数据解析爬取
使用工具 PyCharm 2018.2.3 Anaconda Navigator Python 3.6 解析目标 [{"导航鸭 ♪(^∀^●)ﾉ": [{"name&qu ...
Python实现OSM地图数据解析——Pydriosm
目录 1. Pydriosm简介 2. 安装 3. 使用方法 3.1 下载数据 3.2 解析文件 3.3 不同geometry 类型及其数据结构 4. 总结参考 1. Pydriosm简介 Pydr ...
python抓取websocket_python--websocket数据解析
ws = new WebSocket("ws://localhost:8080/"); //如果连接成功,会打印下面这句话,否则不会打印 ws.onopen = function ...
c# 解析gprmc数据_Windows下VLP16激光雷达数据解析
最近,实验室有一个对VLP16数据解析的需求,要求在Windows系统下单独把VLP16的数据解析整理出来,作为后期多传感器融合的一个必要基础准备.无奈从ROS转战Windows,网上查了查Windo ...

python实现arxiv论文数据解析处理

python实现arxiv论文数据解析处理相关推荐

最新文章

热门文章