今天搞了一个小项目,就是从网络上爬取下来了一些arxiv论文数据,然后想着后面对这些数据进行建模处理,然后实现论文的主题分类,早上完成了arxiv论文数据爬虫,也从网上爬取下来的需要的论文数据,截图如下:

一共是六个大类别,这里面数据格式比较奇怪,需要用到一个叫做shelve的第三方库才能完成数据的读取操作,这里的目的是将这些不可以直接使用的数据转化为json数据对象,然后存储本地,内容很简单,这里就不再多解释了,具体实现如下:

#!usr/bin/env python
#encoding:utf-8
from __future__ import division'''
__Author__:沂水寒城
功能: 论文数据处理
'''import os
import json
import shelve#论文类别数据列表
category_list=['q-fin_2018-1-1','cs_2019-3-25','econ_2017-1-1','eess_2019-3-25','math_2019-3-25','stat_2019-3-25']def dataProcess(dataDir='data/',saveDir='json/'):'''加载原始数据,存储为json格式'''if not os.path.exists(saveDir):os.makedirs(saveDir)for one_cate in category_list:one_cate_path=dataDir+one_cateone_json_path=saveDir+one_cate+'.json'data=shelve.open(one_cate_path,protocol=2)print 'data_num: ',len(data.keys())res_dict={}for one_key in data:res_dict[one_key]={}one_data=data[one_key]one_author,one_id=one_data['author'],one_data['id']one_sub,one_title=one_data['subject'],one_data['title']print 'one_author: ',one_authorprint 'one_id: ',one_idprint 'one_sub: ',one_subprint 'one_title: ',one_titleres_dict[one_key]['author']=one_authorres_dict[one_key]['subject']=one_subres_dict[one_key]['title']=one_titlewith open(one_json_path,'w') as f:f.write(json.dumps(res_dict))if __name__=='__main__':print 'paperHelper!!!'#将原始不可读的数据解析处理为json对象dataProcess(dataDir='data/',saveDir='json/')

经过处理后,结果数据截图如下:

我们打开eess_2019-3-25.json数据对象内容数据截图如下:

python实现arxiv论文数据解析处理相关推荐

  1. 数据分析---arXiv论文数据统计

    这里写目录标题 1.论文数据统计 1.1 任务说明 1.2 数据集介绍 1.3 arxiv论文类别介绍 1.4 具体代码实现以及讲解 1.4.1 导入package并读取原始数据 1.4.2 数据预处 ...

  2. Python实现OSM地图数据解析——OSM2Rail

    目录 1. 简介 2. 功能特色 2.1 自动下载OpenStreetMap地图数据包 2.2 提供更精确的铁路网络数据解析 2.3 扩展GMNS标准 3. 快速上手 4. 效果展示 5. 相关阅读 ...

  3. Python实现OSM地图数据解析——OSM2GMNS

    转载 OSM2GMNS相关说明文档: 详细用户文档:https://osm2gmns.readthedocs.io: Github链接:https://github.com/jiawei92/OSM2 ...

  4. Python网络爬虫之数据解析篇

    对于爬虫中的数据解析,简单理解就是在通用爬虫获取到的响应数据中,进一步提取出我们需要的某些特定数据,例如一段文字,一张图片. 聚焦爬虫:爬取页面中指定的页面内容. --编码流程 1.指定url 2.发 ...

  5. Python网络爬虫之数据解析(二)

    学习笔记,续上篇 八.正则表达式解析HTML网页 8.1 正则表达式介绍 什么是正则表达式: 通俗理解:按照一定的规则,从某个字符串中匹配出想要的数据,这个规则就是正则表达式. 标准答案:https: ...

  6. Python爬虫编程4——数据解析模块之bs4

    目录 一.bs4简介 1.基本概念 2.源码分析 二.bs4的使用 1.快速开始 2.bs4的对象种类 三.遍历文档树 遍历子节点 1.contents      children      desc ...

  7. Python爬虫对json数据解析爬取

    使用工具 PyCharm 2018.2.3 Anaconda Navigator Python 3.6 解析目标 [{"导航鸭 ♪(^∀^●)ノ": [{"name&qu ...

  8. Python实现OSM地图数据解析——Pydriosm

    目录 1. Pydriosm简介 2. 安装 3. 使用方法 3.1 下载数据 3.2 解析文件 3.3 不同geometry 类型及其数据结构 4. 总结 参考 1. Pydriosm简介 Pydr ...

  9. python抓取websocket_python--websocket数据解析

    ws = new WebSocket("ws://localhost:8080/"); //如果连接成功,会打印下面这句话,否则不会打印 ws.onopen = function ...

  10. c# 解析gprmc数据_Windows下VLP16激光雷达数据解析

    最近,实验室有一个对VLP16数据解析的需求,要求在Windows系统下单独把VLP16的数据解析整理出来,作为后期多传感器融合的一个必要基础准备.无奈从ROS转战Windows,网上查了查Windo ...

最新文章

  1. app.vue 跳转页面_独立站如何提高产品页面转化呢?
  2. mysql 存储过程月单拆天单_为部门整理的mysql_db使用军规
  3. VC/MFC Combo Box控件的用法
  4. 170405、java版MD5工具类
  5. Linus Torvalds的安全性,Facebook的AI工具等
  6. 青岛职业技术学院计算机专业宿舍,青岛职业技术学院宿舍条件,宿舍图片和环境空调及分配方法...
  7. python练习题及答案-python编程练习题和答案.doc
  8. HITS 算法(Hypertext Induced TopicSelection)
  9. softmax ce loss_从Softmax到AMSoftmax(附可视化代码和实现代码)
  10. 利用VBB仿真——实现24小时电子钟
  11. drools规则引擎源码解析
  12. 京东零售2021年度表彰大会
  13. 台计算机的本地打印机 并且,您在计算机上安装一台本地打印机。您共享这台打印机。您需要确保只有名为Grou..._考试资料网...
  14. 不动产登记收费一览表
  15. gold storm翔_牙狼GOLD STORM翔的人物简介
  16. js 如何获取浏览器的高度和宽度
  17. 每日写题分享--包含min函数的栈/双栈实现
  18. linux rhel unix centos FreeBSD 查看CPU核数使用率 系统 位 内存大小 硬盘 HBA光纤卡号 常用命令
  19. 4.计算机网络与信息安全
  20. Java发邮件(详解+源代码)

热门文章

  1. 3.2. 开始入住实验
  2. 常用iOS游戏开发工具与SDK
  3. Step by Step-构建自己的ORM系列-ORM改进方案思考(上)
  4. 找出最耗资源的sql ----没明白
  5. LeetCode 343. 整数拆分(Integer Break) 25
  6. 交叉熵反向求导计算过程
  7. java的IO操作之--RandomAccessFile
  8. 项目中libevent几个问题
  9. Asp.Net中获取 字符串中中英字符的长度
  10. poj 3253 哈夫曼树 经典 运用了优先队列 总和最少