在python中有许多开源的库可以处理Pdf文档,最常用的Pypdf2库可以读取文档,合并,分割pdf文档,但是也有局限性:

无法提取文档中的文字

提取PDF文字需要使用另外的库,如pdfplumbe
提取PDF中的图片需要使用fitz库

使用pdfplumbe提取文字

pdfplumbe使用可以用来解析PDF文件,获取其文本内容、标题、表格等的开源工具;
开源代码地址:https://github.com/jsvine/pdfplumber

安装pdfplumbe:

pip install pdfplumbe

引入:

import pdfplumbe

简单使用代码示例:

filepath = 'H:/test_w.pdf'def extract_text_info(filepath):"""提取PDF中的文字@param filepath:文件路径@return:"""with pdfplumber.open(filepath) as pdf:# 获取第2页数据page = pdf.pages[3]print(page.extract_text()) #提取文字table = page.extract_tables() #提取表格print(table)for row in table:

python自动化系列之提取pdf文字和图片相关推荐

  1. 通过Python的fitz库提取pdf中的图片

    文章目录 前言 一.fitz库是什么? 二.安装fitz库 三.查看fitz库版本 四.pymupdf库是什么? 五.安装pymupdf库 六.查看pymupdf库版本 七.fitz和pymupdf是 ...

  2. python自动化提取pdf表格_[Python] 自动化办公 多种提取PDF图片的方法

    转载请注明:陈熹 chenx6542@foxmail.com (简书号:半为花间酒) 若公众号内转载请联系公众号:早起Python 这篇文章能学到的主要内容: 基于 fitz 库和正则搜索提取图片 基 ...

  3. 【python自动化办公(10)】python利用pdfplumber库提取PDF文字以及表格内容(复杂表格字段数据的处理)

    利用pdfplumber提取文字 pdfplumber.open(pdf路径)/pdf.pages[页数]/page.extract_text() import os os.chdir('D:\\py ...

  4. python提取pdf文字_python基于pdfminer库提取pdf文字代码实例

    安装pdfminer 库 windows 下安装pdfminer3k pip install pdfminer3k Liunx 下安装pdfminer pip install pdfminer 代码 ...

  5. python 生成pdf 文字和图片_Python系列—PDF文本与图片抽取

    PDF是人们日常使用最多的跨平台文档.其是一种用独立于应用程序.硬件.操作系统的方式呈现文档的文件格式.每个PDF文件包含固定布局的平面文档的完整描述,包括文本.字形.图形及其他需要显示的信息.具有良 ...

  6. 工具:通过Python fitz 提取PDF内的图片

    通过Python fitz 提取PDF内的图片 # 打开pdf读取文本和图片内容 # pip install PyMuPDFimport fitzpdf_document = "1.pdf& ...

  7. python自动化 html 翻译转 pdf

    python自动化 html 翻译转 pdf 帮别人做的 python的自动化工具,带有界面,通过交互界面选择html文件,自动开启浏览器,操控浏览器的翻译插件和打印功能可实现html任意语言翻译和转 ...

  8. 通过Python的pdfplumber库提取pdf中表格数据

    文章目录 前言 一.pdfplumber库是什么? 二.安装pdfplumber库 三.查看pdfplumber库版本 四.提取pdf中表格数据 1.引入库 2.定义pdf文件路径 3.打开pdf文件 ...

  9. python在线学习pdf_扣丁学堂Python在线学习之将pdf转成图片的方法

    扣丁学堂Python在线学习之将pdf转成图片的方法 2018-05-23 11:29:01 1266浏览 Python将pdf转成图片的方法,不论是参加 本篇文章记录如何使用python将pdf文件 ...

最新文章

  1. php面向对象实践,【技术产品】PHP中的面向对象实践-基本实践案例
  2. 220V电容启动交流电机
  3. oracle 内置函数(三)日期函数
  4. [MATLAB粒子模拟笔记]粒子坐标速度初始化
  5. documentElement vs body区别
  6. 世纪前线网络质量测试工具 是什么_成为一名软件测试工程师有什么前途?
  7. ib网卡命令_infiniband网卡安装、使用总结
  8. 关于小程序授权地理位置(wx.getLocation + 用户体验)
  9. python设置字符间距_python字符串处理以及字符串格式化
  10. Google Xpath Helper
  11. 第7讲 视觉里程计1
  12. 拖拽动态生成网页-VvvebJs
  13. LaTex 英文期刊论文模板
  14. WGS84经纬度坐标转化成UTM坐标
  15. lnmp 一键安装
  16. 12v电瓶20安时是什么意思
  17. macos 升级ruby
  18. 十二黄金圣斗士-合辑-修复版-3D打印图纸
  19. 学习乐器的好处(1)
  20. rpm mysql nokey_rpm包时遇到Header V3 DSA signature: NOKEY时解决办法

热门文章

  1. RMAN冗余备份概念与方法
  2. html中main标签什么意思,html5main标签是什么意思?html5main标签作用的详细介绍-
  3. 自定义LinearLayout并搭配流式布局,实现商城app商品规格选择View
  4. splice()、slice()、split()函数的区分
  5. 未来6项技术越来越重要
  6. 不知道照片滤镜调节怎么调?快进来,查收这份滤镜调色攻略
  7. 网页中邮箱点击直接进入发送邮件页面的样式
  8. sim插拔识别时间_手机SIM卡卡槽插拔测试
  9. Android开源框架【集合】
  10. 机器人开发相关参考文档