文章目录

  • 前言
  • 一、pdfplumber库是什么?
  • 二、安装pdfplumber库
  • 三、查看pdfplumber库版本
  • 四、提取pdf中表格数据
    • 1.引入库
    • 2.定义pdf文件路径
    • 3.打开pdf文件
    • 4.获取pdf文件中的页数
    • 5.遍历每一页
    • 6.获取当前页内容
    • 7.提取表格数据
    • 8.输出表格数据
    • 9.效果
  • 总结

前言

大家好,我是空空star,本篇给大家分享一下《通过Python的pdfplumber库提取pdf中表格数据》

一、pdfplumber库是什么?

pdfplumber是一个用于从PDF文档中提取文本和表格数据的Python库。它可以帮助用户轻松地从PDF文件中提取有用的信息,例如表格、文本、元数据等。pdfplumber库的特点包括:简单易用、速度快、支持多种PDF文件格式、支持从多个页面中提取数据等。pdfplumber库还提供了一些方便的方法来处理提取的数据,例如排序、过滤和格式化等。它是一个非常有用的工具,特别是在需要从大量PDF文件中提取数据时。

二、安装pdfplumber库

pip install pdfplumber

三、查看pdfplumber库版本

pip show pdfplumber

Name: pdfplumber
Version: 0.9.0
Summary: Plumb a PDF for detailed information about each char, rectangle, and line.
Home-page: https://github.com/jsvine/pdfplumber
Author: Jeremy Singer-Vine
Author-email: jsvine@gmail.com
License:
Requires: pdfminer.six, Pillow, Wand
Required-by:

四、提取pdf中表格数据

1.引入库

import pdfplumber

2.定义pdf文件路径

local = '/Users/kkstar/Downloads/'

3.打开pdf文件

with pdfplumber.open(local+"demo_table.pdf") as pdf:

4.获取pdf文件中的页数

    num_pages = len(pdf.pages)

5.遍历每一页

    for page_num in range(num_pages):

6.获取当前页内容

        page = pdf.pages[page_num]

7.提取表格数据

        table = page.extract_table(table_settings={"vertical_strategy": "lines","horizontal_strategy": "lines","intersection_x_tolerance": 15,"intersection_y_tolerance": 15})

8.输出表格数据

        for row in table:print(row)

9.效果

[‘username’, ‘nickname’, ‘article’]
[‘weixin_38093452’, ‘空空 star’, ‘130889268’]
[‘weixin_38093452’, ‘空空 star’, ‘130852811’]
[‘weixin_38093452’, ‘空空 star’, ‘130815851’]
Process finished with exit code 0

总结

通过Python的pdfplumber库提取pdf中表格数据相关推荐

  1. 通过Python的fitz库提取pdf中的图片

    文章目录 前言 一.fitz库是什么? 二.安装fitz库 三.查看fitz库版本 四.pymupdf库是什么? 五.安装pymupdf库 六.查看pymupdf库版本 七.fitz和pymupdf是 ...

  2. 【python自动化办公(10)】python利用pdfplumber库提取PDF文字以及表格内容(复杂表格字段数据的处理)

    利用pdfplumber提取文字 pdfplumber.open(pdf路径)/pdf.pages[页数]/page.extract_text() import os os.chdir('D:\\py ...

  3. 通过Python的pdfplumber库将pdf转为图片

    文章目录 前言 一.pdfplumber库是什么? 二.安装pdfplumber库 三.查看pdfplumber库版本 四.pdf素材 五.将pdf转为图片 1.引入库 2.定义pdf路径 3.打开P ...

  4. 人口普查分析:利用python+百度文字识别提取图片中的表格数据

    今天发布了最新的人口普查结果,笔者拿到的文件是pdf格式(网上应该有).之前就一直想实现从pdf提取表格数据,输出为excel.正好这次有公开数据,因此打算用来练个手. 尝试了两种方法: 1.pyth ...

  5. 利用python中pdfplumber库提取PDF文件中文字

    pdfplumber库中提供了一个extract_text()方法来帮助我们提取PDF文件中的文字.我们只需要使用pdfplumber中的open()方法打开我们希望提取文字的PDF文件,然后对所需提 ...

  6. iText如何提取PDF中的数据——1. 总览

    作者:CuteXiaoKe 微信公众号:CuteXiaoKe | 原文   最近收到大家很多的私信提问,也是大家比较关心的问题:如果我有一个PDF,我该如何使用iText获取PDF里面的内容呢,比如文 ...

  7. python提取网页中表格数据_Python2 BeautifulSoup 提取网页中的表格数据及连接

    网址:http://quote.eastmoney.com/ce- 要做的是提取网页中的表格数据(如:板块名称,及相应链接下的所有个股,依然是个表格) 暂时只写了这些代码: import urllib ...

  8. Python实现Excel与Word文件中表格数据的导入导出

    封面图片:<Python程序设计实验指导书>(ISBN:9787302525790),董付国,清华大学出版社 图书详情(京东): ============= 问题描述:Excel文件&qu ...

  9. 使用 docx 库读取 Word 中表格数据

    需求如下图: 从下图Word表格中,读取填入的数据,并进行判断选项,最终将数据填入客户系统. 代码处理如下: import docxfrom docx import Document #导入库path ...

最新文章

  1. luogu P2365 任务安排(FJOI2019 batch)
  2. [DP]【最大全零矩阵】【2015.7.9TEST】E
  3. 使用window.performance分析web前端性能
  4. 编译原理题练习题测试题
  5. 《MySQL——38道查询练习(无连接查询)》
  6. 树莓派环境处理_一种基于树莓派的便携式的环境监测系统的制作方法
  7. 万条留言!这本Python凭啥火爆程序员的朋友圈?
  8. 3ds Max Graphic Device Error 怎么解决(设置问题)
  9. 190628每日一句
  10. 从程序设计方法学的角度比较 SP 方法与OOP 方法
  11. noip2017棋盘(超级详细)
  12. Easy UI中combobox利用拼音进行筛选
  13. Spring实战(使用数据)
  14. 远程高效办公指南,每天都是能量满满的workaholism!
  15. LC-恢复二叉搜索树(JavaScript实现)
  16. Android编译Skia库
  17. 不同的打法,相同的内核,BAT车联网谁也不比谁更强
  18. 商品打折程序 java_Java 为超市打折水果编写一个购物程序
  19. 微信媒体服务器推流,干货:“微信+直播”成新媒体营销新方式
  20. php个人编程词典,【编程词典】php htmlentities()函数

热门文章

  1. Maven学习总结(60)—— Maven 作用域 Scope 属性详解
  2. matlab约束非线性规划,MATLAB中用遗传算法求解约束非线性规划问题
  3. 基于STM32的机器学习(手势识别)
  4. Nacos无法选举leader
  5. 看完这篇 教你玩转渗透测试靶机vulnhub——Source:1
  6. python 23 selenium高级和使用代理
  7. 原生态Ajax价绍与使用方法
  8. 编程语言之争?多出实在的东西吧,不要在B站XBB
  9. 人力资源副总裁 HRVP 的 OKR 案例
  10. java 正则 大括号_java正则表达式获取大括号之间的内容