python批量提取pdf的数据_Python批量提取PDF文件中文本的脚本
本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下
首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库。
import os
import sys
import time
pdfs = (pdfs for pdfs in os.listdir('.') if pdfs.endswith('.pdf'))
for pdf1 in pdfs:
pdf = pdf1.replace(' ', '_').replace('-', '_').replace('&', '_')
os.rename(pdf1, pdf)
print('='*30)
print(pdf)
txt = pdf[:-4] + '.txt'
exe = '"' + sys.executable + '" "'
pdf2txt = os.path.dirname(sys.executable)
pdf2txt = pdf2txt + '\\scripts\\pdf2txt.py" -o '
try:
#调用命令行工具pdf2txt.py进行转换
#如果pdf加密过可以改写下面的代码
#在-o前面使用-P来指定密码
cmd = exe + pdf2txt + txt + ' ' + pdf
os.popen(cmd)
#转换需要一定时间,一般小文件2秒钟足够了
time.sleep(2)
#输出转换后的文本,前200个字符
with open(txt, encoding='utf8') as fp:
print(fp.read(200))
except:
pass
来源:python小屋
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持我们。
本文标题: Python批量提取PDF文件中文本的脚本
本文地址: http://www.cppcns.com/jiaoben/python/222570.html
python批量提取pdf的数据_Python批量提取PDF文件中文本的脚本相关推荐
- python从mysql导出大量数据_python批量导出导入MySQL用户的方法
数据库迁移(A -> B),需要把用户也迁移过去,而用户表(mysql.user)有上百个用户.有2种方法进行快速迁移: 1,在同版本的条件下,直接备份A服务器的mysql数据库,还原到B服务器 ...
- python抽取某个时间段的数据_python 批量提取excel 指定时间段的数据
[Python] 纯文本查看 复制代码import pandas as pd import os import datetime path = r'C:\Users\plm\Desktop\text1 ...
- python调用api接口获取数据_python批量爬取NCBI基因注释并调用谷歌API批量翻译
作者:沙雕学习小组 这里有视频教程:https://www.bilibili.com/video/av87724182 今天想实现这个功能: 差异分析得到了200多个基因(甚至更多) 我要一个一个把基 ...
- python docx 合并文档 图片_Python+pymupdf处理PDF文档案例6则
推荐图书:<Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),清华大学出版社,2020年6月第1次印刷,7月第2次印刷 京东购买链接:https://it ...
- Python批量设置pptx文件中文本框边框与填充样式(含20分钟视频讲解)
近期会议: 10月30-11月1日 全国高校Python课程高级研修班(苏州) 推荐图书: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清 ...
- html让文本框左剧中对齐_Python批量设置pptx文件中文本框边框与填充样式(含20分钟视频讲解)...
近期会议:10月30-11月1日 全国高校Python课程高级研修班(苏州)推荐图书:<Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学 ...
- python从txt拿取数据_python requests + xpath 获取分页详情页数据存入到txt文件中
直接代码,如有不懂请加群讨论 # *-* coding:utf-8 *-* # import json import requests import pytesseract import time i ...
- python对excel表统计视频教程_Python实现对excel文件列表值进行统计的方法
本文实例讲述了Python实现对excel文件列表值进行统计的方法.分享给大家供大家参考.具体如下: #!/usr/bin/env python #coding=gbk #此PY用来统计一个execl ...
- 练习:selenium 爬取京东的电脑商品100页的数据并保存到csv文件中
练习:selenium 爬取京东的电脑商品100页的数据并保存到csv文件中 from selenium.webdriver import Chrome, ChromeOptions import t ...
最新文章
- linux xampp eclipse xdebug 无法进入断点
- 深度学习技术在美图个性化推荐的应用实践
- PHP 通过数组判断数组顺序输出是否是二叉排序树的后序遍历结果
- 电气论文实现:对大规模用户负荷曲线进行聚类
- 洛谷 - P4755 Beautiful Pair(笛卡尔树+主席树)
- python内存池机制_看过来啦!教你用Python进行内存管理
- conda创建环境及激活环境失败问题
- 舒尔特注意力训练表格_用微信小程序里训练提升你的专注力
- latex 两行 大括号_用laTeX排版大括号的三种方法
- JavaScript实战——打气球游戏
- PSP Skype 使用国内卡
- 欧式空间与酉空间——概念区分
- OBS/直播姬获取显示器黑屏解决方法
- 上海租房房源数据分析(基于R的案例分析)(一)
- 什么是Activity,详细介绍Activity
- 地震捕手--通过传感器技术和计算机网络检测地震
- 2014版SEO工具集最新最全收集
- 集成聚类之EAC方法
- 什么是灵活的软件授权模式,如何选择软件加密狗?
- 网络程序设计-WeTalk聊天程序
热门文章
- 【VB.NET】VB.NET面向对象技术问题的解答
- docker-compose配置固定IP各种问题
- eos 源代码学习笔记一
- 背水一战 Windows 10 (55) - 控件(集合类): SemanticZoom, ISemanticZoomInformation
- 电商领域中SKU和SPU区别比较
- cocos2dx基础篇(26)——场景切换CCTransitionScene
- DDD~DDD从零起步架构说明
- 分享一种中小企业的文件服务器方案
- 编程神回复:数学不好能学编程吗?网友的回复令人满怀信心!
- 在webLogic 10.3中部署Hibernate 3.5出现 ClassNotFoundException解决办法