python 读取PDF内容（推荐pdfplumber）

环境python2.7

# coding=utf-8
import PyPDF2def read_pdf_test1(file_path):with open(file_path, 'rb') as f:reader = PyPDF2.PdfFileReader(f)if reader.isEncrypted:reader.decrypt('')page_num = reader.getNumPages()contents = ''for page_num in xrange(page_num):contents += reader.getPage(page_num).extractText()contents = contents.replace('\n', '').replace(' ', '').replace('\r', '')print("contents = {}".format(contents))def test2(file_path):import pdfplumber  # pdfplumber==0.5.13contents = ''with pdfplumber.open(file_path) as pdf:# page_count = len(pdf.pages)# print(page_count)  # 得到页数for page in pdf.pages:print('---------- 第[%d]页 ----------' % page.page_number)# 获取当前页面的全部文本信息，包括表格中的文字contents += page.extract_text()print("contents = {}".format(contents))if __name__ == "__main__":# file_path = './dlp_dengxian.pdf'# file_path = './dlp_yuanyue.pdf'file_path = './dlp_yuanyue2.pdf'# read_pdf_test1(file_path)passtest2(file_path)

python 读取PDF内容（推荐pdfplumber）相关推荐

Python读取PDF内容
1,引言晚上翻看<Python网络数据采集>这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓 ...
python读取pdf内容转word_Python实现PDF转Word
"阅读此篇需要三分钟" 首先来看看来个PDF文件我们来选择其中一个论文摘要: 使用我们的python代码转化后: 是不是很神奇? 现在网络上大部分的PDF转Word都是收费的,基 ...
PDFMiner：python 读取 pdf 内容
PDF的格式不是规范的,很多情况下没有逻辑结构,不能自适应页面大小的调整.PDFMiner是通过尝试猜测PDF的布局来重建其结构,有时候效果并不理想. import importlib import ...
python读取pdf内容转word_【python】python实现PDF转word
又是美好的一天,如果大家因为PDF转word而烦恼的话可以尝试用用Python的PDFMiner3K,这是一个非常好用的库,下面是把任意PDF读成字符串,然后用stingio转化成文件对象: #!/u ...
python爬虫读取pdf_Python读取PDF内容
1,引言晚上翻看<Python网络数据采集>这本书,看到读取PDF内容的代码,想起来前几天集搜客刚刚发布了一个抓取网页pdf内容的抓取规则,这个规则能够把pdf内容当成html来做网页抓 ...
python读取pdf文件_深入学习python解析并读取PDF文件内容的方法
这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...
数据导入与预处理-第4章-数据获取python读取pdf文档
数据导入与预处理-第4章-数据获取Python读取PDF文档 1 PDF简介 1.1 pdf是什么 2 Python操作PDF 2.1 pdfplumber库 2.2 pdfplumber基本操作 2 ...
python读取pdf表格_Python使用Tabula提取PDF表格数据
今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样: python读取PDF无非就是三种方式(我所了解的),pdfminer.pdf2htmlEX 和 Tabula.综合考虑后,选择了 ...
Python读取PDF文档（或TXT）
字符串在Python内部的表示是Unicode编码,首先我们来认识Python中encode()和decode()的作用与区别: 在做编码转换时,通常需要以unicode作为中间编码,即先将其他编码的 ...
python读取pdf文件
使用python读取pdf文件的内容读取第1页的内容: import PyPDF2 pdfFileObj = open('a.pdf', 'rb') pdfReader = PyPDF2.PdfFi ...

python 读取PDF内容（推荐pdfplumber）

python 读取PDF内容（推荐pdfplumber）相关推荐

最新文章

热门文章