python办公自动化——提取pdf中的文字和表格

一、提取pdf中的文字

编码流程：
- 1.导入包：import pdfplumber
- 2.找到pdf路径:pdf_path = ‘xxx.pdf’
- 3.打开pdf :pdf = pdfplumber.open(pdf_path)
- 4.获取页面
  - 获取某一页：parse_page = pdf.pages[n]
  - 获取所有页面:parse_page = pdf.pages
- 5.获取所有页面的文字:parse_page.extract_text()
- 6.存储文字:with open("./存储路径.txt",‘a’,encoding = ‘utf-8’) as f:
  f.write(text+’\n’)
代码：
- 获取某个页面

import pdfplumberpdf_path = './XXX预算.pdf'pdf = pdfplumber.open(pdf_path)with open("./提取pdf文字.txt", 'a', encoding='utf-8') as f:parse_page = pdf.pages[0]#提取第一页文字text = parse_page.extract_text()f.write(text+'\n')

获取所有页面

import pdfplumberpdf_path = './XXX预算.pdf'pdf = pdfplumber.open(pdf_path)with open("./提取pdf文字.txt", 'a', encoding='utf-8') as f:for page in pdf.pages:text = page.extract_text()f.write(text+'\n')

二、获取pdf中的所有表格

1.导入包：import xlwt , import pdfplumber
2.定义保存Excel的路径：workbook = xlwt.Workbook()
3.新建一个工作表存放表格:sheet = workbook.addsheet(“XXX”)
4.找到pdf路径：pdf_path = “./XXX.pdf”
5.打开pdf文件：pdf = pdfplumber.open(pdf_path)
6.for循环
- 6-1 获取网页中的所有信息，包括表格
  - for page in pdf.pages
- 6-2 获取页面中的所有表格
  - for table in page.extract_tables()
- 6-3 获取表格中的每一行
  - for row in table
- 6-4 获取每一行中的每一列
  - for j in range(len(row))
7.写入sheet中:sheet.write(i,j,row[j])
8.关闭pdf：pdf.close()
9.保存EXCEL表格：workbook.save("./XXX.xls")

import xlwt
import pdfplumber
#定义保存Excel的位置
workbook = xlwt.Workbook()
sheet = workbook.add_sheet("XXX摘要表格")pdf_path = './XXX.pdf'
pdf = pdfplumber.open(pdf_path)i = 0
for page in pdf.pages:#获取页面中的所有信息for table in page.extract_tables():#获取页面的所有表格for row in table:#遍历表格中的每一行print(row)for j in range(len(row)):sheet.write(i, j, row[j])i = i + 1
pdf.close()workbook.save("./XXX摘要表格.xls")
print('\n')
print('写入成功!!!')

python办公自动化——提取pdf中的文字和表格相关推荐

Python办公自动化——提取pdf文件中表格并到Excel
Python办公自动化--提取pdf文件中表格合并到Excel 需求描述现有一 pdf 文件内容如下,文件中内容主要是表格形式的获奖名单,共158页.现要读取这些表格信息并保存到 excel 文件中 ...
Python提取PDF中的文字和图片
一,使用Python提取PDF中的文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) ...
Spring Boot 提取pdf中的文字
Spring Boot 提取pdf中的文字提取pdf中的文字,由于字体不同,可能会提取出来乱码.(友情提示:建议先pdf文件转成图片,然后调用百度api提取文字,准确率高.跳转链接:https:// ...
python提取pdf中的文字和图片_Python操作PDF-文本和图片提取（使用PyPDF2和PyMuPDF）...
PDF文件格式如今,可移植文档格式(PDF)属于最常用的数据格式.在1990年,PDF文档的结构由Adobe定义.PDF格式的思想是,对于通信过程中涉及的双方(创建者,作者或发送者以及接收者)而言, ...
三种方法，用Python轻松提取PDF中的全部图片
作者 | 陈熹.刘早起来源 | 早起Python 头图 | 下载于视觉中国有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用 ...
三种方法，Python轻松提取PDF中全部图片
有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用Python也可以轻松搞定! 今天就跟大家系统分享几种Python提取 PDF ...
python 处理pdf文件转成txt 批量提取pdf中的文字
用到的包 pdfminer3k 代码 import os import refrom pdfminer.pdfinterp import PDFResourceManager,process_pdf ...
【办公自动化】使用Python一键提取PDF中的表格到Excel（文末送书5本）
一招教你免费提取PDF中的文字
转换PDF文档的时候,我们会发现一个问题:有的PDF文档转成Word可编辑,有的PDF文档转出来却还是图片,无法编辑. 针对这类可编辑的PDF文档,小编有个既简单又省钱的方法教给大家. 第一步首先需 ...
使用PDFBOX提取PDF中的文字
PDDocument pdf = PDDocument.load(new File(srcFilePath));PDPageTree pageTree = pdf.getPages();int cou ...

python办公自动化——提取pdf中的文字和表格

python办公自动化——提取pdf中的文字和表格

python办公自动化——提取pdf中的文字和表格相关推荐

最新文章

热门文章