python自动化系列之提取pdf文字和图片
在python中有许多开源的库可以处理Pdf文档,最常用的Pypdf2库可以读取文档,合并,分割pdf文档,但是也有局限性:
无法提取文档中的文字
提取PDF文字需要使用另外的库,如pdfplumbe
提取PDF中的图片需要使用fitz库
使用pdfplumbe提取文字
pdfplumbe使用可以用来解析PDF文件,获取其文本内容、标题、表格等的开源工具;
开源代码地址:https://github.com/jsvine/pdfplumber
安装pdfplumbe:
pip install pdfplumbe
引入:
import pdfplumbe
简单使用代码示例:
filepath = 'H:/test_w.pdf'def extract_text_info(filepath):"""提取PDF中的文字@param filepath:文件路径@return:"""with pdfplumber.open(filepath) as pdf:# 获取第2页数据page = pdf.pages[3]print(page.extract_text()) #提取文字table = page.extract_tables() #提取表格print(table)for row in table:
python自动化系列之提取pdf文字和图片相关推荐
- 通过Python的fitz库提取pdf中的图片
文章目录 前言 一.fitz库是什么? 二.安装fitz库 三.查看fitz库版本 四.pymupdf库是什么? 五.安装pymupdf库 六.查看pymupdf库版本 七.fitz和pymupdf是 ...
- python自动化提取pdf表格_[Python] 自动化办公 多种提取PDF图片的方法
转载请注明:陈熹 chenx6542@foxmail.com (简书号:半为花间酒) 若公众号内转载请联系公众号:早起Python 这篇文章能学到的主要内容: 基于 fitz 库和正则搜索提取图片 基 ...
- 【python自动化办公(10)】python利用pdfplumber库提取PDF文字以及表格内容(复杂表格字段数据的处理)
利用pdfplumber提取文字 pdfplumber.open(pdf路径)/pdf.pages[页数]/page.extract_text() import os os.chdir('D:\\py ...
- python提取pdf文字_python基于pdfminer库提取pdf文字代码实例
安装pdfminer 库 windows 下安装pdfminer3k pip install pdfminer3k Liunx 下安装pdfminer pip install pdfminer 代码 ...
- python 生成pdf 文字和图片_Python系列—PDF文本与图片抽取
PDF是人们日常使用最多的跨平台文档.其是一种用独立于应用程序.硬件.操作系统的方式呈现文档的文件格式.每个PDF文件包含固定布局的平面文档的完整描述,包括文本.字形.图形及其他需要显示的信息.具有良 ...
- 工具:通过Python fitz 提取PDF内的图片
通过Python fitz 提取PDF内的图片 # 打开pdf读取文本和图片内容 # pip install PyMuPDFimport fitzpdf_document = "1.pdf& ...
- python自动化 html 翻译转 pdf
python自动化 html 翻译转 pdf 帮别人做的 python的自动化工具,带有界面,通过交互界面选择html文件,自动开启浏览器,操控浏览器的翻译插件和打印功能可实现html任意语言翻译和转 ...
- 通过Python的pdfplumber库提取pdf中表格数据
文章目录 前言 一.pdfplumber库是什么? 二.安装pdfplumber库 三.查看pdfplumber库版本 四.提取pdf中表格数据 1.引入库 2.定义pdf文件路径 3.打开pdf文件 ...
- python在线学习pdf_扣丁学堂Python在线学习之将pdf转成图片的方法
扣丁学堂Python在线学习之将pdf转成图片的方法 2018-05-23 11:29:01 1266浏览 Python将pdf转成图片的方法,不论是参加 本篇文章记录如何使用python将pdf文件 ...
最新文章
- php面向对象实践,【技术产品】PHP中的面向对象实践-基本实践案例
- 220V电容启动交流电机
- oracle 内置函数(三)日期函数
- [MATLAB粒子模拟笔记]粒子坐标速度初始化
- documentElement vs body区别
- 世纪前线网络质量测试工具 是什么_成为一名软件测试工程师有什么前途?
- ib网卡命令_infiniband网卡安装、使用总结
- 关于小程序授权地理位置(wx.getLocation + 用户体验)
- python设置字符间距_python字符串处理以及字符串格式化
- Google Xpath Helper
- 第7讲 视觉里程计1
- 拖拽动态生成网页-VvvebJs
- LaTex 英文期刊论文模板
- WGS84经纬度坐标转化成UTM坐标
- lnmp 一键安装
- 12v电瓶20安时是什么意思
- macos 升级ruby
- 十二黄金圣斗士-合辑-修复版-3D打印图纸
- 学习乐器的好处(1)
- rpm mysql nokey_rpm包时遇到Header V3 DSA signature: NOKEY时解决办法