1.升级Python

之前win10 x64操作系统上安装的是python3.7.0版本(此版本也能进行本文的工作)。出于后续识别图片中文字的需要,还是将其升级到了python 3.8版本。

Python官方下载地址
并不用卸载旧的 python3.7.0版本,在官网下载python-3.8.10-amd64.exe文件后,安装,将安装目录添加至Path环境变量。同时屏蔽(或删除)之前 python3.7.0版本的环境变量即可。

重启PC,新的环境变量生效。

2.使用Python识别PDF中字符、文字

声明: 所使用的PDF不能是图片扫描件或者是直接由图片生成的PDF,否则无法识别。PDF文件中的文字必须满足鼠标可拖选高亮、且可复制。

2.1 依赖模块安装

先安装pdfplumber:

pip install pdfplumber

第二个是fitz, 它是pymupdf中的一个模块,pip轻松安装。

pip install pymupdf

2.2 文字信息提取思路

A)先用pdfplumber打开一个 PDF 文件。
B)获取指定的页,例如page = pdf.pages[0]便是获取第1页。或者遍历所有页。
C)利用.extract_text()方法提取当前页的文字。

2.3 代码案例

import pdfplumber
file_path = r’C:\Users\Curry\Desktop\1234.pdf’
with pdfplumber.open(file_path) as pdf:
page = pdf.pages[0]
print(page.extract_text())

2.4 表格信息提取

提取单个表格与提取单页文字代码类似,用.extract_table().

要注意的是.extract_table()默认提取指定页面第一个表格,如需提取当前页面的多个表格,则使用.extract_tables()。

import pdfplumber
file_path = r'C:\xxxx\12345.PDF'
with pdfplumber.open(file_path) as pdf:page = pdf.pages[0]print(page.extract_table())

注:参照https://blog.csdn.net/weixin_39599081/article/details/111196131

使用Python识别/提取PDF中的字符、文字相关推荐

  1. 在线提取PDF中图片和文字

    无需下载软件,你就可以在线提取PDF中图片和文字,http://www.extractpdf.com/不仅可以获取本地PDF文档的图片和文字,还能获取远程PDF文档的图片和文字. 结果本人测试,该工具 ...

  2. 三种方法,用Python轻松提取PDF中的全部图片

    作者 | 陈熹.刘早起 来源 | 早起Python 头图 | 下载于视觉中国 有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用 ...

  3. 三种方法,Python轻松提取PDF中全部图片

    有时我们需要将一份或者多份PDF文件中的图片提取出来,如果采取在线的网站实现的话又担心图片泄漏,手动操作又觉得麻烦,其实用Python也可以轻松搞定! 今天就跟大家系统分享几种Python提取 PDF ...

  4. 【办公自动化】使用Python一键提取PDF中的表格到Excel(文末送书5本)

  5. python批量提取pdf的数据_Python批量提取PDF文件中文本的脚本

    本文实例为大家分享了Python批量提取PDF文件中文本的具体代码,供大家参考,具体内容如下 首先需要执行命令pip install pdfminer3k来安装处理PDF文件的扩展库. import ...

  6. Python办公自动化——提取pdf文件中表格并到Excel

    Python办公自动化--提取pdf文件中表格合并到Excel 需求描述 现有一 pdf 文件内容如下,文件中内容主要是表格形式的获奖名单,共158页.现要读取这些表格信息并保存到 excel 文件中 ...

  7. Python提取PDF中的文字和图片

    一,使用Python提取PDF中的文字 # 只能处理包含文本的PDF文件 #coding=utf-8 import sys import importlib importlib.reload(sys) ...

  8. python提取字符串中的字符

    一.取单个字符 可以使用 Python 的字符串索引来提取字符串中的字符.索引从 0 开始,可以使用方括号 [] 来访问字符串中的单个字符. # 取单个字符,索引从 0 开始 path = 'FLX_ ...

  9. python分析pdf年报 货币现金_如何用Python从大量pdf 中提取表格中的数据进行分析?...

    根据一楼答案@森林的建议 说说我的处理经验 我也是借助开源项目tabula,不得不说tabula的功能确实很强大. 我是用Python来处理数据,但是没有用tabula-py,因为表格跨列跨行等情况比 ...

  10. 通过Python的pdfplumber库提取pdf中表格数据

    文章目录 前言 一.pdfplumber库是什么? 二.安装pdfplumber库 三.查看pdfplumber库版本 四.提取pdf中表格数据 1.引入库 2.定义pdf文件路径 3.打开pdf文件 ...

最新文章

  1. 一个html文件放到服务器访问,访问云服务器里面的html文件
  2. [知识储备]用RequireJS +zepto开发微信公众号
  3. QluOJ2018NewCode计算几何(寄蒜几盒)
  4. ELF格式文件特点的简单说明
  5. jconsole工具检测堆内存变化
  6. 链接Mysql的api mysqli和pdo
  7. 【Java】格式化的文件I/O
  8. python 之 ------- 协程(微线程)
  9. Ubuntu 安装 Eclipse C/C++开发环境
  10. 取消centOS7虚拟机锁屏
  11. ES6 javascript 实用开发技巧 1
  12. java动态分区分配_动态分区分配--最先适应分配算法
  13. 希捷srd0nf1移动硬盘是叠瓦盘吗_最值得买的固态移动硬盘推荐-最佳固态移动硬盘排行榜【2020年10月】...
  14. 9.郝斌C语言笔记——变量的作用域和存储方式
  15. javascript的数组和数组元素的遍历,实现全国省份和城市一览表
  16. 【数据分析案例】如何定义你的“亲密关系”
  17. Windows11 出现桌面管理器dwm.exe占用内存过高的解决方法
  18. 非肿瘤体细胞突变可能是临床基因检测新赛道
  19. NLP 前置知识2 —— 深度学习算法
  20. 最火Android开源项目LoopViewPage使用

热门文章

  1. Linux下sopcast
  2. 常见电平信号、RS232与RS485相关知识总结
  3. 《SAP CRM管理与实施指南》一一2.1 SAP CRM基础数据管理
  4. 用c语言制作简易的个人通讯录管理系统
  5. java7 xp版下载64位,xp32位系统可用最高版本jdk64位系统win10 64位系统
  6. sklearn 1.0.1官方文档教程
  7. 测度论与概率论笔记6:符号测度
  8. HIKSDK/大华SDK协议视频融合平台EasyCVR移动侦测录像功能无法在后台显示优化过程
  9. win11家庭版安装时如何跳过联网设置 windows11家庭版跳过联网设置的步骤方法
  10. 【C语言】二维数组指针,字符数组指针输出程序实例(注释详细)