使用Python识别/提取PDF中的字符、文字
1.升级Python
之前win10 x64操作系统上安装的是python3.7.0版本(此版本也能进行本文的工作)。出于后续识别图片中文字的需要,还是将其升级到了python 3.8版本。
Python官方下载地址
并不用卸载旧的 python3.7.0版本,在官网下载python-3.8.10-amd64.exe文件后,安装,将安装目录添加至Path环境变量。同时屏蔽(或删除)之前 python3.7.0版本的环境变量即可。
重启PC,新的环境变量生效。
2.使用Python识别PDF中字符、文字
声明: 所使用的PDF不能是图片扫描件或者是直接由图片生成的PDF,否则无法识别。PDF文件中的文字必须满足鼠标可拖选高亮、且可复制。
2.1 依赖模块安装
先安装pdfplumber:
pip install pdfplumber
第二个是fitz, 它是pymupdf中的一个模块,pip轻松安装。
pip install pymupdf
2.2 文字信息提取思路
A)先用pdfplumber打开一个 PDF 文件。
B)获取指定的页,例如page = pdf.pages[0]便是获取第1页。或者遍历所有页。
C)利用.extract_text()方法提取当前页的文字。
2.3 代码案例
import pdfplumber
file_path = r’C:\Users\Curry\Desktop\1234.pdf’
with pdfplumber.open(file_path) as pdf:
page = pdf.pages[0]
print(page.extract_text())
2.4 表格信息提取
提取单个表格与提取单页文字代码类似,用.extract_table().
要注意的是.extract_table()默认提取指定页面第一个表格,如需提取当前页面的多个表格,则使用.extract_tables()。
import pdfplumber
file_path = r'C:\xxxx\12345.PDF'
with pdfplumber.open(file_path) as pdf:page = pdf.pages[0]print(page.extract_table())
注:参照https://blog.csdn.net/weixin_39599081/article/details/111196131
使用Python识别/提取PDF中的字符、文字相关推荐
- 在线提取PDF中图片和文字
无需下载软件,你就可以在线提取PDF中图片和文字,http://www.extractpdf.com/不仅可以获取本地PDF文档的图片和文字,还能获取远程PDF文档的图片和文字. 结果本人测试,该工具 ...
- 三种方法,用Python轻松提取PDF中的全部图片
作者 | 陈熹.刘早起 来源 | 早起Python 头图 | 下载于视觉中国 有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用 ...
- 三种方法,Python轻松提取PDF中全部图片
有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用Python也可以轻松搞定! 今天就跟大家系统分享几种Python提取 PDF ...
- 【办公自动化】使用Python一键提取PDF中的表格到Excel(文末送书5本)
- python批量提取pdf的数据_Python批量提取PDF文件中文本的脚本
本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下 首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库. import ...
- Python办公自动化——提取pdf文件中表格并到Excel
Python办公自动化--提取pdf文件中表格合并到Excel 需求描述 现有一 pdf 文件内容如下,文件中内容主要是表格形式的获奖名单,共158页.现要读取这些表格信息并保存到 excel 文件中 ...
- Python提取PDF中的文字和图片
一,使用Python提取PDF中的文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) ...
- python提取字符串中的字符
一.取单个字符 可以使用 Python 的字符串索引来提取字符串中的字符.索引从 0 开始,可以使用方括号 [] 来访问字符串中的单个字符. # 取单个字符,索引从 0 开始 path = 'FLX_ ...
- python分析pdf年报 货币现金_如何用Python从大量pdf 中提取表格中的数据进行分析?...
根据一楼答案@森林的建议 说说我的处理经验 我也是借助开源项目tabula,不得不说tabula的功能确实很强大. 我是用Python来处理数据,但是没有用tabula-py,因为表格跨列跨行等情况比 ...
- 通过Python的pdfplumber库提取pdf中表格数据
文章目录 前言 一.pdfplumber库是什么? 二.安装pdfplumber库 三.查看pdfplumber库版本 四.提取pdf中表格数据 1.引入库 2.定义pdf文件路径 3.打开pdf文件 ...
最新文章
- 一个html文件放到服务器访问,访问云服务器里面的html文件
- [知识储备]用RequireJS +zepto开发微信公众号
- QluOJ2018NewCode计算几何(寄蒜几盒)
- ELF格式文件特点的简单说明
- jconsole工具检测堆内存变化
- 链接Mysql的api mysqli和pdo
- 【Java】格式化的文件I/O
- python 之 ------- 协程(微线程)
- Ubuntu 安装 Eclipse C/C++开发环境
- 取消centOS7虚拟机锁屏
- ES6 javascript 实用开发技巧 1
- java动态分区分配_动态分区分配--最先适应分配算法
- 希捷srd0nf1移动硬盘是叠瓦盘吗_最值得买的固态移动硬盘推荐-最佳固态移动硬盘排行榜【2020年10月】...
- 9.郝斌C语言笔记——变量的作用域和存储方式
- javascript的数组和数组元素的遍历,实现全国省份和城市一览表
- 【数据分析案例】如何定义你的“亲密关系”
- Windows11 出现桌面管理器dwm.exe占用内存过高的解决方法
- 非肿瘤体细胞突变可能是临床基因检测新赛道
- NLP 前置知识2 —— 深度学习算法
- 最火Android开源项目LoopViewPage使用
热门文章
- Linux下sopcast
- 常见电平信号、RS232与RS485相关知识总结
- 《SAP CRM管理与实施指南》一一2.1 SAP CRM基础数据管理
- 用c语言制作简易的个人通讯录管理系统
- java7 xp版下载64位,xp32位系统可用最高版本jdk64位系统win10 64位系统
- sklearn 1.0.1官方文档教程
- 测度论与概率论笔记6:符号测度
- HIKSDK/大华SDK协议视频融合平台EasyCVR移动侦测录像功能无法在后台显示优化过程
- win11家庭版安装时如何跳过联网设置 windows11家庭版跳过联网设置的步骤方法
- 【C语言】二维数组指针,字符数组指针输出程序实例(注释详细)