首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。

import os

import sys

import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:

pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')

os.rename(pdf1, pdf)

print('='*30)

print(pdf)

txt = pdf[:-4] + '.txt'

exe = '"' + sys.executable + '" "'

pdf2txt = os.path.dirname(sys.executable)

pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '

try:

#调用命令行工具pdf2txt.py进行转换

#如果pdf加密过可以改写下面的代码

#在-o前面使用-P来指定密码

cmd = exe + pdf2txt + txt + ' ' + pdf

os.popen(cmd)

#转换需要一定时间,一般小文件2秒钟足够了

time.sleep(2)

#输出转换后的文本,前200个字符

with open(txt, encoding='utf8') as fp:

print(fp.read(200))

except:

pass

Python批量提取PDF文件中的文本相关推荐

  1. python批量提取pdf的数据_Python批量提取PDF文件中文本的脚本

    本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下 首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库. import ...

  2. Python工具源码,Python批量提取PPT文件中的图片

    在办公场景当中,同样也有这样一个需求,那就是快速批量把PPT文件中的图片提取出来,毕竟一个个点击另存为太过于繁琐,以及耗费时间,前面本渣渣分享过如何应用Python批量提取PDF文件中的图片,而这一篇 ...

  3. 利用Python提取PDF文件中的文本信息

    如何利用Python提取PDF文件中的文本信息 日常工作中我们经常会用到pdf格式的文件,大多数情况下是浏览或者编辑pdf信息,但有时候需要提取pdf中的文本,如果是单个文件的话还可以通过复制粘贴来直 ...

  4. Python使用pdfminer3k提取PDF文件中的文本

    推荐教材: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020年6月第1次印刷,2021年12月第11次印刷,山东省一流 ...

  5. Python办公自动化——提取pdf文件中表格并到Excel

    Python办公自动化--提取pdf文件中表格合并到Excel 需求描述 现有一 pdf 文件内容如下,文件中内容主要是表格形式的获奖名单,共158页.现要读取这些表格信息并保存到 excel 文件中 ...

  6. Python脚本工具,PyMuPDF批量提取PDF文件中的图片

    如何批量快速提取出PDF中的图片文件,你是否遇到这样的一个问题,尤其是PPT文件转换为PDF文件,需要快速提取其中的图片文件,如果你恰好会那么一点py,同时复制粘贴没问题的话,那么相信你也能够很轻松的 ...

  7. Python批量提取Excel文件中文本框组件里的文本

    开学第一课:拜托,一定不要这样问Python问题 中国大学MOOC"Python程序设计基础"免费学习地址 2020年秋季学期Python教材推荐与选用参考 推荐图书: <P ...

  8. Python批量提取PowerPoint文件中所有幻灯片标题和备注文本

    小知识: 在制作PowerPoint演示文档时,可以在幻灯片下面添加备注,在双屏播放PPT并设置了演讲者视图时可以给讲者提供一些提示信息,防止忘词,也可以提示下一页幻灯片的内容是什么使得讲者能够完美过 ...

  9. Python批量提取Excel文件中的图片

    推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020年6月第1次印刷,2021年7月第9次印刷,山东省一流本科 ...

最新文章

  1. Centos下源码安装git
  2. win32汇编定时器简单Demo
  3. 成功解决ImportError: [joblib] Attempting to do parallel computing without protecting your import on a sy
  4. 原生JS动态计算输入框文本内容的宽度,当内容宽度超过输入框的宽度时可控
  5. oracle创建用户及授权等相关操作
  6. k8s redis集群_容器:K8S核心组件介绍
  7. 浏览器userAgent大全
  8. 字母c语言ascii码,c语言ascii码对照表
  9. PHP使用Socket发送字节流
  10. MATLAB | 全网唯一,双变量及三变量映射图表的MATLAB绘制
  11. MySQL数据库 学习笔记 零基础入门 面试 整理
  12. 数电快速入门(二)(复合逻辑运算和逻辑代数的基本定律的介绍)
  13. Lua性能优化—Lua内存优化
  14. 克劳士比:有用的和可信赖的组织的核心是什么?
  15. 19条优雅Python编程技巧
  16. BIGEMAP APP行车(走路)轨迹记录
  17. 走进VR游戏开发的世界
  18. sdcard sdhci 中 L11 和 L12 长开的方法:
  19. [UE4]epic/UE4关于win7报错缺失api-ms-win-downlevel-kernel32-l2-1-0
  20. 膜拜,华为内部都在强推的783页大数据处理系统:Hadoop源代码pdf

热门文章

  1. c语言程序设计省考是什么,省考C语言程序设计题附答案..doc
  2. python断言assert实例_Python 拓展之断言(assert)
  3. 云计算机的优点,介绍云的优点和注意事项
  4. html 甘特图_工具项目管理工具详解——甘特图
  5. mysql跨服务器链表_MySQL 源码链表的实现
  6. php 清除指定session,PHP如何操作指定的session?
  7. linux一切皆是文件_LINUX一切皆文件
  8. python绘制散点图的函数_Python用PyQt5绘制多彩随机散点图,基本控件之QPainter使用详解...
  9. mysql5.6数据库执行mysqldump备份,报1862密码过期的处理方法。
  10. hpux 11.11 连接HDS 存储,采用HDLM管理带来的麻烦,需重启。