python办公自动化——提取pdf中的文字和表格

一、提取pdf中的文字

  • 编码流程:

    • 1.导入包:import pdfplumber
    • 2.找到pdf路径:pdf_path = ‘xxx.pdf’
    • 3.打开pdf :pdf = pdfplumber.open(pdf_path)
    • 4.获取页面
      • 获取某一页:parse_page = pdf.pages[n]
      • 获取所有页面:parse_page = pdf.pages
    • 5.获取所有页面的文字:parse_page.extract_text()
    • 6.存储文字:with open("./存储路径.txt",‘a’,encoding = ‘utf-8’) as f:
      f.write(text+’\n’)
  • 代码:

    • 获取某个页面
import pdfplumberpdf_path = './XXX预算.pdf'pdf = pdfplumber.open(pdf_path)with open("./提取pdf文字.txt", 'a', encoding='utf-8') as f:parse_page = pdf.pages[0]#提取第一页文字text = parse_page.extract_text()f.write(text+'\n')
  • 获取所有页面
import pdfplumberpdf_path = './XXX预算.pdf'pdf = pdfplumber.open(pdf_path)with open("./提取pdf文字.txt", 'a', encoding='utf-8') as f:for page in pdf.pages:text = page.extract_text()f.write(text+'\n')

二、获取pdf中的所有表格

  • 1.导入包:import xlwt , import pdfplumber
  • 2.定义保存Excel的路径:workbook = xlwt.Workbook()
  • 3.新建一个工作表存放表格:sheet = workbook.addsheet(“XXX”)
  • 4.找到pdf路径:pdf_path = “./XXX.pdf”
  • 5.打开pdf文件:pdf = pdfplumber.open(pdf_path)
  • 6.for循环
    • 6-1 获取网页中的所有信息,包括表格

      • for page in pdf.pages
    • 6-2 获取页面中的所有表格
      • for table in page.extract_tables()
    • 6-3 获取表格中的每一行
      • for row in table
    • 6-4 获取每一行中的每一列
      • for j in range(len(row))
  • 7.写入sheet中:sheet.write(i,j,row[j])
  • 8.关闭pdf:pdf.close()
  • 9.保存EXCEL表格:workbook.save("./XXX.xls")
import xlwt
import pdfplumber
#定义保存Excel的位置
workbook = xlwt.Workbook()
sheet = workbook.add_sheet("XXX摘要表格")pdf_path = './XXX.pdf'
pdf = pdfplumber.open(pdf_path)i = 0
for page in pdf.pages:#获取页面中的所有信息for table in page.extract_tables():#获取页面的所有表格for row in table:#遍历表格中的每一行print(row)for j in range(len(row)):sheet.write(i, j, row[j])i = i + 1
pdf.close()workbook.save("./XXX摘要表格.xls")
print('\n')
print('写入成功!!!')

python办公自动化——提取pdf中的文字和表格相关推荐

  1. Python办公自动化——提取pdf文件中表格并到Excel

    Python办公自动化--提取pdf文件中表格合并到Excel 需求描述 现有一 pdf 文件内容如下,文件中内容主要是表格形式的获奖名单,共158页.现要读取这些表格信息并保存到 excel 文件中 ...

  2. Python提取PDF中的文字和图片

    一,使用Python提取PDF中的文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) ...

  3. Spring Boot 提取pdf中的文字

    Spring Boot 提取pdf中的文字 提取pdf中的文字,由于字体不同,可能会提取出来乱码.(友情提示:建议先pdf文件转成图片,然后调用百度api提取文字,准确率高.跳转链接:https:// ...

  4. python提取pdf中的文字和图片_Python操作PDF-文本和图片提取(使用PyPDF2和PyMuPDF)...

    PDF文件格式 如今,可移植文档格式(PDF)属于最常用的数据格式.在1990年,PDF文档的结构由Adobe定义.PDF格式的思想是,对于通信过程中涉及的双方(创建者,作者或发送者以及接收者)而言, ...

  5. 三种方法,用Python轻松提取PDF中的全部图片

    作者 | 陈熹.刘早起 来源 | 早起Python 头图 | 下载于视觉中国 有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用 ...

  6. 三种方法,Python轻松提取PDF中全部图片

    有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用Python也可以轻松搞定! 今天就跟大家系统分享几种Python提取 PDF ...

  7. python 处理pdf文件 转成txt 批量提取pdf中的文字

    用到的包 pdfminer3k 代码 import os import refrom pdfminer.pdfinterp import PDFResourceManager,process_pdf ...

  8. 【办公自动化】使用Python一键提取PDF中的表格到Excel(文末送书5本)

  9. 一招教你免费提取PDF中的文字

    转换PDF文档的时候,我们会发现一个问题:有的PDF文档转成Word可编辑,有的PDF文档转出来却还是图片,无法编辑. 针对这类可编辑的PDF文档,小编有个既简单又省钱的方法教给大家. 第一步 首先需 ...

  10. 使用PDFBOX提取PDF中的文字

    PDDocument pdf = PDDocument.load(new File(srcFilePath));PDPageTree pageTree = pdf.getPages();int cou ...

最新文章

  1. python怎么发送邮件_python中是如何借助smtp协议发送邮件的?
  2. 如何快速解决繁杂的国际化替换
  3. wxWidgets:Sizer 概览
  4. DM8 jdbc调用存储过程传参list<实体类>
  5. CSDN Markdown编辑设置图片大小
  6. 并发重复请求及幂等场景的实现总结
  7. 《CUDA C编程权威指南》——2.2 给核函数计时
  8. 【备忘录】word利用mathtype进行公式分章节编号和引用
  9. 网友发来ifeng网址,打开后却是QQ空间,总提示QQ未登录?原来是一个阴险的诱骗网页...
  10. 入门级Pytorch+MINIST数据集实现手写数字识别
  11. 数学建模笔记-斜抛运动建模
  12. 题目0073-双十一
  13. 教你用 CSS 实现超真实的 3D 相册,让你的照片立体感 UPUP
  14. Unable to attach or mount volumes ... timed out waiting for the condition
  15. 计算机窗口置顶,将想要的窗口一直置顶的具体操作步骤介绍
  16. 软件流程和管理(二):SDLCs — Process Formal
  17. Python修改私有变量、统计访问次数、华摄氏度转换
  18. 蔡徐坤打篮球and源码
  19. es 去重统计_es 去重查询(聚合、分组、分页、求和统计等)
  20. 【在线学习站点汇总】

热门文章

  1. FPS通用的方框透视公式的原理
  2. RouterOS(ROS)软路由端口映射转发回流
  3. js实现table中td单元格合拼并求和
  4. apk反编译 (com.googlecode.d2j.DexException: not support version问题解决)
  5. 联想微型计算机m8000u配置,联想的产品介绍-20210412075714.pdf-原创力文档
  6. pychart绘制中国地图用英文省名
  7. VMware ESXi 8.0 SLIC 2.6 macOS Unlocker (Oct 2022 GA)
  8. 导出(合并)手机QQ浏览器下载的视频
  9. 电脑连手机热点DNS服务器无响应,电脑连接手机热点无法上网解决方法有哪些
  10. 分子量-算法竞赛习题3-2:给出一种物质的分子式(不带括号),求分子量。本题中的分子式只包含4种原子,分别为C, H, O, N,原子量分别为12.01, 1.008, 16.00, 14.01。