本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下

首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。

import os

import sys

import time

pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))

for pdf1 in pdfs:

pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')

os.rename(pdf1, pdf)

print('='*30)

print(pdf)

txt = pdf[:-4] + '.txt'

exe = '"' + sys.executable + '" "'

pdf2txt = os.path.dirname(sys.executable)

pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '

try:

#调用命令行工具pdf2txt.py进行转换

#如果pdf加密过可以改写下面的代码

#在-o前面使用-P来指定密码

cmd = exe + pdf2txt + txt + ' ' + pdf

os.popen(cmd)

#转换需要一定时间,一般小文件2秒钟足够了

time.sleep(2)

#输出转换后的文本,前200个字符

with open(txt, encoding='utf8') as fp:

print(fp.read(200))

except:

pass

来源:python小屋

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。

本文标题: Python批量提取PDF文件中文本的脚本

本文地址: http://www.cppcns.com/jiaoben/python/222570.html

python批量提取pdf的数据_Python批量提取PDF文件中文本的脚本相关推荐

  1. python从mysql导出大量数据_python批量导出导入MySQL用户的方法

    数据库迁移(A -> B),需要把用户也迁移过去,而用户表(mysql.user)有上百个用户.有2种方法进行快速迁移: 1,在同版本的条件下,直接备份A服务器的mysql数据库,还原到B服务器 ...

  2. python抽取某个时间段的数据_python 批量提取excel 指定时间段的数据

    [Python] 纯文本查看 复制代码import pandas as pd import os import datetime path = r'C:\Users\plm\Desktop\text1 ...

  3. python调用api接口获取数据_python批量爬取NCBI基因注释并调用谷歌API批量翻译

    作者:沙雕学习小组 这里有视频教程:https://www.bilibili.com/video/av87724182 今天想实现这个功能: 差异分析得到了200多个基因(甚至更多) 我要一个一个把基 ...

  4. python docx 合并文档 图片_Python+pymupdf处理PDF文档案例6则

    推荐图书:<Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),清华大学出版社,2020年6月第1次印刷,7月第2次印刷 京东购买链接:https://it ...

  5. Python批量设置pptx文件中文本框边框与填充样式(含20分钟视频讲解)

    近期会议: 10月30-11月1日 全国高校Python课程高级研修班(苏州) 推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清 ...

  6. html让文本框左剧中对齐_Python批量设置pptx文件中文本框边框与填充样式(含20分钟视频讲解)...

    近期会议:10月30-11月1日 全国高校Python课程高级研修班(苏州)推荐图书:<Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学 ...

  7. python从txt拿取数据_python requests + xpath 获取分页详情页数据存入到txt文件中

    直接代码,如有不懂请加群讨论 # *-* coding:utf-8 *-* # import json import requests import pytesseract import time i ...

  8. python对excel表统计视频教程_Python实现对excel文件列表值进行统计的方法

    本文实例讲述了Python实现对excel文件列表值进行统计的方法.分享给大家供大家参考.具体如下: #!/usr/bin/env python #coding=gbk #此PY用来统计一个execl ...

  9. 练习:selenium 爬取京东的电脑商品100页的数据并保存到csv文件中

    练习:selenium 爬取京东的电脑商品100页的数据并保存到csv文件中 from selenium.webdriver import Chrome, ChromeOptions import t ...

最新文章

  1. linux xampp eclipse xdebug 无法进入断点
  2. 深度学习技术在美图个性化推荐的应用实践
  3. PHP 通过数组判断数组顺序输出是否是二叉排序树的后序遍历结果
  4. 电气论文实现:对大规模用户负荷曲线进行聚类
  5. 洛谷 - P4755 Beautiful Pair(笛卡尔树+主席树)
  6. python内存池机制_看过来啦!教你用Python进行内存管理
  7. conda创建环境及激活环境失败问题
  8. 舒尔特注意力训练表格_用微信小程序里训练提升你的专注力
  9. latex 两行 大括号_用laTeX排版大括号的三种方法
  10. JavaScript实战——打气球游戏
  11. PSP Skype 使用国内卡
  12. 欧式空间与酉空间——概念区分
  13. OBS/直播姬获取显示器黑屏解决方法
  14. 上海租房房源数据分析(基于R的案例分析)(一)
  15. 什么是Activity,详细介绍Activity
  16. 地震捕手--通过传感器技术和计算机网络检测地震
  17. 2014版SEO工具集最新最全收集
  18. 集成聚类之EAC方法
  19. 什么是灵活的软件授权模式,如何选择软件加密狗?
  20. 网络程序设计-WeTalk聊天程序

热门文章

  1. 【VB.NET】VB.NET面向对象技术问题的解答
  2. docker-compose配置固定IP各种问题
  3. eos 源代码学习笔记一
  4. 背水一战 Windows 10 (55) - 控件(集合类): SemanticZoom, ISemanticZoomInformation
  5. 电商领域中SKU和SPU区别比较
  6. cocos2dx基础篇(26)——场景切换CCTransitionScene
  7. DDD~DDD从零起步架构说明
  8. 分享一种中小企业的文件服务器方案
  9. 编程神回复:数学不好能学编程吗?网友的回复令人满怀信心!
  10. 在webLogic 10.3中部署Hibernate 3.5出现 ClassNotFoundException解决办法