python 读取PDF内容(推荐pdfplumber)
环境python2.7
# coding=utf-8
import PyPDF2def read_pdf_test1(file_path):with open(file_path, 'rb') as f:reader = PyPDF2.PdfFileReader(f)if reader.isEncrypted:reader.decrypt('')page_num = reader.getNumPages()contents = ''for page_num in xrange(page_num):contents += reader.getPage(page_num).extractText()contents = contents.replace('\n', '').replace(' ', '').replace('\r', '')print("contents = {}".format(contents))def test2(file_path):import pdfplumber # pdfplumber==0.5.13contents = ''with pdfplumber.open(file_path) as pdf:# page_count = len(pdf.pages)# print(page_count) # 得到页数for page in pdf.pages:print('---------- 第[%d]页 ----------' % page.page_number)# 获取当前页面的全部文本信息,包括表格中的文字contents += page.extract_text()print("contents = {}".format(contents))if __name__ == "__main__":# file_path = './dlp_dengxian.pdf'# file_path = './dlp_yuanyue.pdf'file_path = './dlp_yuanyue2.pdf'# read_pdf_test1(file_path)passtest2(file_path)
python 读取PDF内容(推荐pdfplumber)相关推荐
- Python读取PDF内容
1,引言 晚上翻看<Python网络数据采集>这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓 ...
- python读取pdf内容转word_Python实现PDF转Word
"阅读此篇需要三分钟" 首先来看看来个PDF文件 我们来选择其中一个论文摘要: 使用我们的python代码转化后: 是不是很神奇? 现在网络上大部分的PDF转Word都是收费的,基 ...
- PDFMiner:python 读取 pdf 内容
PDF的格式不是规范的,很多情况下没有逻辑结构,不能自适应页面大小的调整.PDFMiner是通过尝试猜测PDF的布局来重建其结构,有时候效果并不理想. import importlib import ...
- python读取pdf内容转word_【python】python实现PDF转word
又是美好的一天,如果大家因为PDF转word而烦恼的话可以尝试用用Python的PDFMiner3K,这是一个非常好用的库,下面是把任意PDF读成字符串,然后用stingio转化成文件对象: #!/u ...
- python爬虫读取pdf_Python读取PDF内容
1,引言 晚上翻看<Python网络数据采集>这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓 ...
- python读取pdf文件_深入学习python解析并读取PDF文件内容的方法
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...
- 数据导入与预处理-第4章-数据获取python读取pdf文档
数据导入与预处理-第4章-数据获取Python读取PDF文档 1 PDF简介 1.1 pdf是什么 2 Python操作PDF 2.1 pdfplumber库 2.2 pdfplumber基本操作 2 ...
- python读取pdf表格_Python使用Tabula提取PDF表格数据
今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样: python读取PDF无非就是三种方式(我所了解的),pdfminer.pdf2htmlEX 和 Tabula.综合考虑后,选择了 ...
- Python读取PDF文档(或TXT)
字符串在Python内部的表示是Unicode编码,首先我们来认识Python中encode()和decode()的作用与区别: 在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的 ...
- python读取pdf文件
使用python读取pdf文件的内容 读取第1页的内容: import PyPDF2 pdfFileObj = open('a.pdf', 'rb') pdfReader = PyPDF2.PdfFi ...
最新文章
- ESLint问题记录
- 招聘|青岛旭升招聘高级软件工程师、3D视觉算法工程师
- 购物车的实现 ajax
- 16年寒假随笔(2)
- 领域设计基本理论知识总结(转)
- Keil uVision2 简介
- ACCESS 文本文件导入和导出指定字段类型的方法
- c语言数字排列和算法思路,冒泡排序、快速排序算法理解及C程序实现
- python求圆柱体的体积_Python 常见优化技巧,让你的程序溜溜的跑起来!
- C++智能指针的实现与使用(详解)
- 为什么做网站一般不用服务端控件?
- processing一个作品_当你触摸到一束光| 交互灯光装置课程学员作品回顾
- Spring中定义Bean的6种方式(声明式+编程式)
- html网页设计优秀作品和代码,优秀的网页设计作品(一)
- linux向苹果手机传文件,堪比 AirDrop,iPhone 与 Windows 电脑互传文件的三种方式
- 计算机论文格式要求吗,计算机论文格式(写作要求详细介绍)
- C++ friend和protected
- 手机屏幕材料区别 TFT和OLED
- JavaScript实例-文字特效1-文字滚动
- org.wltea.analyzer.lucene.IKAnalyzer(IK分词器)