今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样:

python读取PDF无非就是三种方式(我所了解的),pdfminer、pdf2htmlEX 和 Tabula。综合考虑后,选择了最后一种。下面对三种方式分别介绍:

pdfminer

该方式从网上搜索的结果是,可以提取pdf文本数据,但是提取后表格信息就乱了。所以本人没有亲自实验,就果断放弃了实验该方法。如果只是提取pdf里面的文本内容,该方式可能是比较合适的。

pdf2htmlEX

#-*- conding: utf-8 -*-

import subprocess

subprocess.call('"D:\Program Files (x86)\pdf2htmlEX-win32-0.14.6-upx-with-poppler-data\pdf2htmlEX.exe" --dest-dir E:\\test\extract\\2017gq\\out E:\\test\extract\\2017gq\\a53277ce525547088780c4b94accb7b5.pdf', shell=True)

执行以上代码,会在指定目录 E:\test\extract\2017gq\out 下生成对应html文件,浏览器中查看效果:

可以看到整体转换的效果非常不错,但是转换后的标签没有特点,使数据的提取变得非常困难。多番尝试后,感觉该方法不够通用,没法解决我的需求。也许对于单纯的pdf转html,该方式可能是最好的选择。

Tabula

Tabula是专门用来提取PDF表格数据的,同时支持PDF导出为CSV、Excel格式。

官网: http://tabula.technology/

Github: https://github.com/chezou/tabula-py

首先安装tabula-py: pip install tabula-py

tabula-py依赖库包括java、pandas、numpy,所以需保证运行环境中安装了这些库。

#-*- conding: utf-8 -*-

import tabula

df = tabula.read_pdf("E:\\test\\extract\\2017gq\\a53277ce525547088780c4b94accb7b5.pdf", encoding='gbk', pages='all')

print(df)

for indexs in df.index:

# 遍历打印企业名称

print(df.loc[indexs].values[1].strip())

执行以上代码,成功打印出表格中的所有企业名称,查看打印的 df 的结构,如下图:

总结

以上三种方式中,最后一种方式完美的解决了我的从PDF表格中提取数据的需求,希望能抛砖引玉,大家在使用时选择最适合自己的方法,如有介绍不当之处,望留言中指正,谢过。

利用python第三方库提取PDF文件的表格内容

小爬最近接到一个棘手任务:需要提取手机话费电子发票PDF文件中的数据.接到这个任务的第一时间,小爬决定搜集各个地区各个时间段的电子发票文件,看看其中的差异点.粗略统计下来,PDF文件的表格框架是统一的 ...

python提取分析表格数据

#/bin/python3.4# -*- coding: utf-8 -*- import xlrd def open_excel(file="file.xls"): try: d ...

python:字符串中提取特定的数据

在日志文件中有一大堆,格式相同的文本,需要提取出接口耗时的时间 >>> 运单号:71742507538566,快递100接口耗时:8,返回结果:[{"lengthPre&q ...

个人永久性免费-Excel催化剂功能第88波-批量提取pdf文件信息(图片、表格、文本等)

日常办公场合中,除了常规的Excel.Word.PPT等文档外,还有一个不可忽略的文件格式是pdf格式,而对于想从pdf文件中获取信息时,常规方法将变得非常痛苦和麻烦.此篇给大家送一pdf文件提取信息 ...

另类爬虫:从PDF文件中爬取表格数据

简介   本文将展示一个稍微不一样点的爬虫.   以往我们的爬虫都是从网络上爬取数据,因为网页一般用HTML,CSS,JavaScript代码写成,因此,有大量成熟的技术来爬取网页中的各种数据.这次, ...

python提取网页表格并保存为csv

0. 1.参考 W3C HTML 表格 表格标签 表格 描述

干货--Excel的表格数据的一般处理和常用python模块。

写在前面: 本文章的主要目的在于: 介绍了python常用的Excel处理模块:xlwt,xlrd,xllutils,openpyxl,pywin32的使用和应用场景. 本文只针对于Excel表中常用 ...

selenium+python对表格数据的操作

一.直接获取整个表格数据,包含表头 def table_info(self): tr_data=[] table_data=[] css='id=>useradmin'#根据表格id找到表格 s ...

深入学习Python解析并解密PDF文件内容的方法

前面学习了解析PDF文档,并写入文档的知识,那篇文章的名字为深入学习Python解析并读取PDF文件内容的方法. 链接如下:https://www.cnblogs.com/wj-1314/p/9429 ...

随机推荐

Memcache基本使用

Memcache是一个高性能的分布式的内存对象缓存系统,通过在内存里维护一个统一的巨大的hash表,它能够用来存储各种格式的数据,包括图像.视频.文件以及数据库检索的结果等.简单的说就是将数据调用到内 ...

AngularJs $anchorScroll、$controller、$document

$anchorScroll 根据HTML5的规则,当调用这个函数时,它检查当前的url的hash值并且滚动到相应的元素. 监听$location.hash()并且滚动到url指定的锚点的地方.可以通过 ...

CODEVS1533 互斥的数(哈希表)

给定一个集合,要求一个最大子集,满足两两之间不互斥.对两个数x,y互斥的定义是,y=p*x. 先对集合中的数从小到大排序后线性扫,若一个数x可以取则取,取完之后p*x这个数不可取.由于数字较大,使用哈 ...

C++ 对象没有显式初始化

C++ 对象没有显式初始化,结果是什么? 首先考虑非静态对象 1.方法内的局部对象: a.类类型:调用default构造方法 b.基本类型:值不确定 2.类中的数据成员: a.类类型:调用defaul ...

关于socket阻塞与非阻塞情况下的recv、send、read、write返回值(转载)

1.阻塞模式与非阻塞模式下recv的返回值各代表什么意思?有没有区别?(就我目前了解阻塞与非阻塞recv返回值没有区分,都是 <0:出错,=0:连接关闭,>0接收到数据大小,特别:返回值  ...

Logstash 介绍

Logstash 介绍: Logstash 是一个开源的数据收集引擎具有实时管道能力, Logstash 可以动态的统一数据从不同的来源和使数据规范化到你选择的目的地. 当Logstash 起初驾驭创 ...

c&plus;&plus;中,size&lowbar;typt&comma; size&lowbar;t&comma; ptrdiff&lowbar;t 简介

size_type 类型 从逻辑上来讲,size() 成员函数似乎应该返回整形数值,或如 2.2 节“建议”中所述的无符号整数.但事实上,size 操作返回的是 string::size_type 类 ...

VMware小记

博主最近不知道为啥,有点手贱,折腾虚拟机. 然后某天,突然发现虚拟机连不上网,ping物理机,返回结果是不可达. 后来尝试各种手段,注意到VMware Network Adapter VMnet8和  ...

sbt安裝與配置

官方下載地址:https://www.scala-sbt.org/download.html?spm=a2c4e.11153940.blogcont238365.9.42d147e0iF8dhv 解压 ...

python读取pdf表格_Python使用Tabula提取PDF表格数据相关推荐

  1. python tabula 使用方法_Python使用Tabula提取PDF表格数据

    今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样: python读取PDF无非就是三种方式(我所了解的),pdfminer.pdf2htmlEX 和 Tabula.综合考虑后,选择了 ...

  2. java tika 解析pdf,tika提取pdf信息异常,tika提取pdf信息

    tika提取pdf信息异常,tika提取pdf信息org.apache.tika.sax.WriteOutContentHandler$WriteLimitReachedException: Your ...

  3. python怎么读文件里的某一行-python读取txt文件并取其某一列数据的示例

    菜鸟笔记 首先读取的txt文件如下: AAAAF110 0003E818 0003E1FC 0003E770 0003FFFC 90 AAAAF110 0003E824 0003E208 0003E7 ...

  4. python读取指定路径txt文件-python读取txt文件并取其某一列数据的示例

    菜鸟笔记 首先读取的txt文件如下: AAAAF110 0003E818 0003E1FC 0003E770 0003FFFC 90 AAAAF110 0003E824 0003E208 0003E7 ...

  5. java读取pdf多表格_在Java中使用tabula提取PDF中的表格数据

    问题:如何将pdf文件中指定的表格数据提取出来? 尝试过的工具包有:pdfbox.tabula.最终选用tabula 两种工具的比较 pdfbox 其中,pdfbox能将pdf中的内容直接提取成Str ...

  6. Python新工具:用三行代码提取PDF表格数据

    点击上方"视学算法",星标公众号 重磅干货,第一时间送达 项目作者:vinayak mehta 参与:一鸣 从 PDF 表格中获取数据是一项痛苦的工作.不久前,一位开发者提供了一个 ...

  7. python批量分析表格_Python环境下百度Ocr表格批量识别

    参考代码:(Python对代码行缩进要求比较高,复制下列的代码请注意这一点,参考上图) # ---------------------------------------- # Python环境下百度 ...

  8. python pdf报告_Python实现html转换为pdf报告(生成pdf报告)功能示例

    本文实例讲述了Python实现html转换为pdf报告(生成pdf报告)功能.分享给大家供大家参考,具体如下: 1.先说下html转换为pdf:其实支持直接生成,有三个函数pdfkit.f 安装pyt ...

  9. python读取手机文件_python 读取 网络 文件

    Python之pandas数据加载.存储 Python之pandas数据加载.存储 0. 输入与输出大致可分为三类: 0.1 读取文本文件和其他更好效的磁盘存储格式 2.2 使用数据库中的数据 0.3 ...

最新文章

  1. 中国电信打造“三朵云”战略 助力互联网+医疗发展
  2. static final public synchronized abstract
  3. 抓取html 中文乱码,利用代码抓取网页数据,出现中文乱码问题
  4. 浅谈 FTP、FTPS 与 SFTP
  5. ITK读取CT DICOM,如何设置窗位和窗宽?
  6. LeetCode(38): 报数
  7. CF611F. New Year and Cleaning
  8. html post前md5加密,post提交及MD5加密
  9. pycharm 中HTML代码的对齐
  10. python传中文参数_解决Python传递中文参数的问题
  11. Java - 计算不同字符或数字的个数
  12. 高性能Javascript HTML集合访问的学习笔记
  13. Flink查询关联Hbase输出
  14. 在 kali 中下载使用 Nessus
  15. 亿晟科技人脸识别门禁系统方案整体解决办法
  16. DBCO-PEG4-SUE DBCO-PEG4-蔗糖
  17. P1359 租用游艇
  18. 计算机毕业设计Android手机微博系统客户端app(源码+系统+mysql数据库+Lw文档)
  19. php 配置 error_reporting,PHP中error_reporting()用法详解 技术分享
  20. 计算机发展史图,图说计算机发展史

热门文章

  1. 【泰安网站优化公司】SEO如何做优化?
  2. 广西科技大学计算机专业分数,广西科技大学2020年本科专业录取分数统计(广西)...
  3. inpho 处理卫星数据流程
  4. 股票内交易略(源码)
  5. win10安装python包imgaug报错Command python setup.py egg_info failed with error code 1 in C:\Users\admi
  6. TPR、FPR、TNR、FNR的理解
  7. 《算法导论3rd第十三章》红黑树
  8. 停车场管理系统 php,C语言源码实现停车场管理系统
  9. 青蛙上楼梯matlab,一个小青蛙,可以一次跳两节楼梯,也可以一次跳一节楼梯,请问他如果要跳101节楼梯,一共有几种跳法方案? - 菲波那切数列...
  10. 注册美区ID付款方式如何选择无?