利用python的pdfplumber库可以实现转换,一些常用的方法

.extract_text() 用来提页面中的文本,将页面的所有字符对象整理为的那个字符串
.extract_words() 返回的是所有的单词及其相关信息
.extract_tables() 提取页面的表格

1、pdf转txt

import pdfplumber as pbfile_handle=open('out.txt',mode='w',encoding='utf-8')
# 读取PDF文档
pdf = pb.open("需求文档.pdf")
# 绝对路径也可以这么写,下同
#    path = 'D:\\GKProject\\需求文档.pdf'
# 获取页数
a= len(pdf.pages)
print("当前页:",a)
print("-----------------------------------------")i=0
for i in range(0, a):first_page = pdf.pages[i]print("本页:",first_page.page_number)print("-----------------------------------------")# 导出当前页文本text = first_page.extract_text()# print(text)file_handle.write(text)

2、pdf转word

import pdfplumber as pb
import docx
from docx import Documentdoc = docx.Document()
paragraph3 = doc.add_paragraph()
# 读取PDF文档
pdf = pb.open("需求文档.pdf")# 获取页数
a= len(pdf.pages)
print("当前页:",a)
print("-----------------------------------------")i=0
for i in range(0, a):first_page = pdf.pages[i]print("本页:",first_page.page_number)print("-----------------------------------------")# 导出当前页文本text = first_page.extract_text()paragraph3.add_run(text)doc.save("输出结果.docx")

3、pdf转excel

import pdfplumber
import pandas as pd
import xlwtdef toEcel():workbook = xlwt.Workbook()  # 定义workbooksheet = workbook.add_sheet('Sheet1')  # 添加sheeti = 0  # Excel起始位置pdf = pdfplumber.open("需求文档.pdf")print('开始读取数据')for page in pdf.pages[0:20]: #这里的page[0:20]可以根据实际pdf的页数来进行扩大# 获取当前页面的全部文本信息,包括表格中的文字for table in page.extract_tables():# print(table)for row in table:# print(row)for j in range(len(row)):sheet.write(i, j, row[j])i += 1pdf.close()# 保存Excel表workbook.save('输出结果.xls')print('写入excel成功')
if __name__ == '__main__':print("开始")toEcel()

————————————————
版权声明:本文为CSDN博主「牧文山」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/weixin_42750611/article/details/112004816

如何用python将pdf转换为txt、docx、excel相关推荐

  1. Python实现PDF转换为TXT

    文章目录 一.环境配置 二.代码实现 三.代码实现结果 一.环境配置 在实现转换之前需要我们配置好相关环境配置: 如果您是Python3.X版本的话,需要安装pdfminer.six 第三方库 pip ...

  2. python批量将pdf转成word_如何用Python把pdf转换成word

    很多时候,我们需要把文件的形式来回转换.那么学了编程的小伙伴,我们该如何用Python把pdf转换成word呢? 一.下载所需要的库 1.pdfminer 安装库命令pip install pdfmi ...

  3. 如何把pdf转换为txt文档,pdf转txt的好方法

    如何把pdf转换为txt文档,pdf转txt的好方法.txt文档是每个电脑都自带的文字编辑工具.而pdf文件的缺点就是在于文件本身无法进行编辑.修改.当pdf文件中的内容产生错误时,就需要将pdf文件 ...

  4. Word处理控件Aspose.Words功能演示:在 Python 中将 PDF 转换为 JPG

    PDF文件以文档.发票.收据.文章等形式随处可见.它是打印和共享文档最方便的格式之一.在某些情况下,您必须将 PDF 文件转换为JPG图像以生成缩略图或嵌入到您的前端应用程序中.为此,本文介绍了如何在 ...

  5. 扫描的图片PDF转换为txt

    虽然pdf文档在诺基亚E61上能看,不过,扫描的图片的pdf缩放貌似不管用,放大1000%还是看不清楚. 以下是我尝试把pdf转换为txt的过程: 1,扫描的pdf不能直接用转换工具转换为txt的,必 ...

  6. 免费利用python把pdf格式转docx

    免费利用python把pdf格式转docx,再也不用wps等要钱办公软件转文档了,不多说,直接上代码 1.首先导入pdf包,通过pip安装 pip install pdfplumber 2.开发代码上 ...

  7. 如何用Python语言编写源程序,读取Excel中数据,并画出柱状图?

    现在,随着计算机的普及,以及数据量的增多,对大型数据的分析已经是我们手算不能解决的了,必须借助计算机:那么,学习计算机其实也和我们学习中文.英文一样,要学习他们的写作规则,掌握其中原理.所以,我们首先 ...

  8. 如何用python修改pdf内容_如何利用python将pdf文件转化为txt文件?

    https://www.wukong.com/answer/6579491774144708872/?iid=15906422033&app=news_article&share_an ...

  9. 如何使用Python将PDF转换为Word文档?

    PDF是一种常用的文件格式,用于共享和打印文档.但是,在某些情况下,PDF 文件会转换为 Word DOCX或DOC格式以解析文本或使文档可编辑.对于此类场景,本文介绍了如何使用 Python 将 P ...

最新文章

  1. 操作系统(二十九)预防死锁
  2. [Java基础]Random
  3. 1分钟了解基于内容的推荐,pm又懂了
  4. echarts 仪表盘 文字位置_方法 | 用notion打造个人仪表盘
  5. 无限法则无法连接服务器内容,无限法则链接不了服务器
  6. FPGA资源评估方法
  7. ————————————————————————动态规划——————————————————————1003——————————...
  8. 使用mysqlimport导入包含主键自增长属性的表
  9. CDMA,GSM,WCDMA,TD-SCDMA,CDMA2000,3G的区别
  10. MATLAB中的Hough变换
  11. 原码一位乘法和补码一位乘法
  12. 【第8题】求 s=a+aa+aaa+aaaa+aa...a 的值
  13. UE4 记录 UE4 中贴图
  14. 用python提取字符串的中英文——建议收藏反复观看
  15. rundown of the Objective-C Type Encodings
  16. malloc挖掘---动态存储器分配深入了解
  17. R统计笔记(二):投影运算与转换
  18. HTML5期末大作业:动漫网页主题设计——卡通漫画教育首页HTML+CSS+JavaScript 动漫网页HTML代码 学生网页课程设计期末作业下载 动漫大学生网页设计制作成...
  19. 前端系列 | 2015年双11手淘前端技术巡演 - 前言
  20. 整数划分问题 递归 动态规划 openjudge 百练 python

热门文章

  1. android palette组件用法,Android--Palette基本使用
  2. 程序人生之我们的故事:十年如歌(5)
  3. C语言实战项目【1】猜数字
  4. html如何避免360自动填充账号密码,解决浏览器会自动填充密码的问题
  5. 0037-量化第七天:PythonGo-入门机制介绍
  6. java测试(java测试主要做哪些工作)
  7. 做P2C必须了解的二维码知识
  8. 传说中听了会自杀的歌--(Gloomy Sunday)黑色星期天
  9. python常用数据类型转换(str、list、tuple、set、dict)方法编码与解码字符串格式化处理时间格式化
  10. 毕业设计实验日志2021.0304