目录

一、前言

二、难点

三、提取难点解决思路

四、源代码


一、前言

小编最近遇到需求了:

<1>从PDF提取出关键数据;

<2>将关键数据整理到对应的Excel文件;

<3>要求批处理,可以处理多个类似的内容的PDF文件;

<4>重点还是提取上市公司年报的财务数据。

小编看到这个需求,首先想到用python,应了那句“人生苦短,必须python”。是的,python确实是一门好用的工具语言。问问度娘,还真有用于处理PDF文件的Package,列示如下:

(1)PDFMiner;(2)PyPDF2; (3)Tabula; (4)pdfplumber

每个包的侧重点不同,小编这里细说,伙伴们自行百度/谷歌/Bing。经过一番对比,小编最终选择了pdfplumber,其综合表现最佳。使用教程可以参考这篇博客

二、难点

这里先贴出Pdfplumber使用的一些关键说明,关键操作基本有这两张表就OK了。

初步测试了一篇PDF年报,指定页提取表格数据,是一个3维的list,表格table2维,1维表示当前页面的表数量。感觉还不错,正当小编开始跃跃欲试之际,难点遇到了:

<1>当页码不知道的时候,怎么提取所需的数据,依据什么关键词判断页面包含关键数据;

<2>对于上市公司而言,不同公司的年报数据格式不一样,年报的关键词表述也不一致,有的1列,有的2列,甚至更多,表格还存在跨页的现象;

<3>同一公司不同年份的数据也出现和<2>中一致的情况,这就对工具提出了考验啊。

三、提取难点解决思路

1、关于<1>中的难点,基本没啥特别的办法,一方面关键词要选对,但又不能太具体化,要模糊,具备范化能力的关键词,大白话就是几乎所有的PDF文件涉及到这类数据的时候都包含这个关键词,如果有其他情况,那就需要关键词多个组合考虑,基本就是统计组合的思想加上过滤条件。

2、关于<2><3>中的情况,那就比较复杂,这里不好展开讲,小编经过一番探索,也可以提取了,但是发现像同花顺这样的网站有年报的数据了,直接爬就好了。但是小编对比发现很多数据和年报中的有差异。于是乎决定自己提取。

四、源代码

经过几天的摸索,终于出来了可以提取数据的工具。效果展示:

这是提取的万科投资理财产品中的银行理财数据,还蛮准确的,而这些数据,一些股票软件中是看不到的。如果需要提取别的数据,那么只需更改year和key这两行数据就好了。比如衍生数据的

源代码分享链接:https://pan.baidu.com/s/1xshkG8cjAyH6NUWqT72UdQ 提取码:5mrd 。批处理只需要一份上市公司目录即可。

谢谢您的阅读,欢迎交流!!!

金融数据分析之pdfplumber提取年报PDF关键数据(其他PDF数据通用)相关推荐

  1. 案例1:金融数据分析----code知识点详解版

    案例1:金融数据分析----code详解版 1.引言 1.1案例分析目标 1.2涉及知识点 1.3案例分析流程 2.数据获取 `涉及知识点:` 2.1安装*tushare*库 2.2获取Token 2 ...

  2. 天池项目金融数据分析赛题1:银行客户认购产品预测

    赛题简介 本次教学赛是陈博士发起的数据分析系列赛事第1场 -- 银行客户认购产品预测 赛题以银行产品认购预测为背景,想让你来预测下客户是否会购买银行的产品.在和客户沟通的过程中,我们记录了和客户联系的 ...

  3. 金融数据分析之公司年报会计师事务所信息批量提取

    金融数据分析之PDF年报中词频率统计 阅读本文之前可以看浏览一下上面这篇文章,对大数据分析和年报处理有一个大概的了解. 目录 一.前言 二.需求分析 三.数据特征分析 四.代码实现 五.提取结果示列 ...

  4. 金融数据分析之PDF年报中词频率统计

    目录 一.前言 二.词频统计概述 三.词频率统计技术路线 四.具体实现 >>>环境搭建 >>>代码实现 五.分词测试结果 六.致谢 一.前言 近年来,大数据金融越来 ...

  5. python金融数据分析电子版_python 金融大数据分析 pdf

    书籍:Python金融大数据分析 Python for Finance_ Mastering Data-Driven Finance 2nd - 2019.pdf 简介 金融业最近以极高的速度采用了P ...

  6. 每天一个小实例——使用pdfplumber提取pdf表格及文本,并保存到excel

    pdfplumber简介 (1)可以方便地获取pdf的各种信息,包括文本.表格.图表.尺寸等,它不支持修改或生成pdf,也不支持对pdf扫描件的处理 (2)pdfplumber中有两个基础类,PDF和 ...

  7. ajax从mysql提取数据在html中_Python骚操作,提取pdf文件中的表格数据!

    在实际研究中,我们经常需要获取大量数据,而这些数据很大一部分以pdf表格的形式呈现,如公司年报.发行上市公告等.面对如此多的数据表格,采用手工复制黏贴的方式显然并不可取.那么如何才能高效提取出pdf文 ...

  8. Python金融数据分析入门到实战-视频课程

    大家好!很荣幸能够在CSDN上和各位同学分享这门课程. 本课程的核心为Python金融数据的分析,首先课程提取了数据分析工具NumPy.Pandas及可视化工具Matplotlib的关键点进行详细讲解 ...

  9. python 提取pdf表格_用Python提取pdf文件中的表格数据

    本文作者:杨慧琳 本文编辑:周聪聪 技术总编:张学人有问题,不要怕!访问 http://www.wuhanstring.com/uploads/5_aboutus/爬虫俱乐部-用户问题登记表.docx ...

最新文章

  1. c# Process类使用小例
  2. Nginx 502 bad gateway的解决方案
  3. linux笔记第一章--基本命令记载
  4. Java并发编程-并发工具包(java.util.concurrent)使用指南(全)
  5. Windows下资源泄漏检测
  6. 舆情监测系统成为网络利器
  7. Ajax 1.0 中使用web控件调用后台方法的用法.
  8. 三阶矩阵求特征值的快速算法
  9. scratch中的植物大战僵尸之豌豆射手收集豌豆
  10. app store账号申请和证书申请发布app
  11. 如何培养自己的赚钱能力
  12. RMVB格式介绍,如何播放该格式视频,以及将RMVB转换成MP4?
  13. 无法打开“×××”,因为无法确认开发者的身份——解决办法
  14. facebook用户数量
  15. webp图片怎么批量转换成jpg等常用格式
  16. 入门Python必备100道练习题
  17. Android安全检测 - 动态注册Receiver风险
  18. MySQL索引type级别意思
  19. 北京MaaS平台助力冬奥期间市民出行
  20. 等你爱我的伤感QQ日志:听说,喜欢隐身的人都有一种伤

热门文章

  1. 业界 | 从未卜先知的信号灯说起,阿里城市大脑的智慧交通实践
  2. 二叉搜索树,和红黑树,
  3. 面向.Net程序员的Sql版本管理
  4. OpenFile基于浏览器的免费网络存储管理
  5. Android自定义类似ProgressDialog效果的Dialog
  6. MSSQL sum()计算expression转化为数据类型int时发生算术溢出错误解决
  7. 使用MySQL自带工具mysqlhotcopy快速备份MyISAM引擎的MySQL数据库
  8. WCF中的REST是什么
  9. php的前端环境,PHP中的环境变量
  10. 答案对程序不对matlab,程序结果不对