python怎么读取pdf文件_Python解析并读取PDF文件内容的方法

本文实例讲述了Python解析并读取PDF文件内容的方法。分享给大家供大家参考，具体如下：

一、问题描述

利用python，去读取pdf文本内容。

二、效果

三、运行环境

python2.7

四、需要安装的库

pip install pdfminer

五、实现源代码

代码1(win64)

# coding=utf-8

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

import time

time1=time.time()

import os.path

from pdfminer.pdfparser import PDFParser,PDFDocument

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LTTextBoxHorizontal,LAParams

from pdfminer.pdfinterp import PDFTextExtractionNotAllowed

result=[]

class CPdf2TxtManager():

def __init__(self):

'''''

Constructor

'''

def changePdfToText(self, filePath):

file = open(path, 'rb') # 以二进制读模式打开

#用文件对象来创建一个pdf文档分析器

praser = PDFParser(file)

# 创建一个PDF文档

doc = PDFDocument()

# 连接分析器与文档对象

praser.set_document(doc)

doc.set_parser(praser)

# 提供初始化密码

# 如果没有密码就创建一个空的字符串

doc.initialize()

# 检测文档是否提供txt转换，不提供就忽略

if not doc.is_extractable:

raise PDFTextExtractionNotAllowed

# 创建PDf 资源管理器来管理共享资源

rsrcmgr = PDFResourceManager()

# 创建一个PDF设备对象

laparams = LAParams()

device = PDFPageAggregator(rsrcmgr, laparams=laparams)

# 创建一个PDF解释器对象

interpreter = PDFPageInterpreter(rsrcmgr, device)

pdfStr = ''

# 循环遍历列表，每次处理一个page的内容

for page in doc.get_pages(): # doc.get_pages() 获取page列表

interpreter.process_page(page)

# 接受该页面的LTPage对象

layout = device.get_result()

for x in layout:

if hasattr(x, "get_text"):

# print x.get_text()

result.append(x.get_text())

fileNames = os.path.splitext(filePath)

with open(fileNames[0] + '.txt','wb') as f:

results = x.get_text()

print(results)

f.write(results + '\n')

if __name__ == '__main__':

'''''

解析pdf 文本，保存到txt文件中

'''

path = u'C:/data3.pdf'

pdf2TxtManager = CPdf2TxtManager()

pdf2TxtManager.changePdfToText(path)

# print result[0]

time2 = time.time()

print u'ok,解析pdf结束!'

print u'总共耗时：' + str(time2 - time1) + 's'

代码2(win32)

# coding=utf-8

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

import time

time1=time.time()

import os.path

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter

from pdfminer.converter import PDFPageAggregator

from pdfminer.layout import LAParams

from pdfminer.pdfpage import PDFTextExtractionNotAllowed

from pdfminer.pdfparser import PDFParser

from pdfminer.pdfdocument import PDFDocument

from pdfminer.pdfpage import PDFPage

result=[]

class CPdf2TxtManager():

def __init__(self):

'''''

Constructor

'''

def changePdfToText(self, filePath):

file = open(path, 'rb') # 以二进制读模式打开

#用文件对象来创建一个pdf文档分析器

praser = PDFParser(file)

# 创建一个PDF文档

doc = PDFDocument(praser)

# 检测文档是否提供txt转换，不提供就忽略

if not doc.is_extractable:

raise PDFTextExtractionNotAllowed

# 创建PDf 资源管理器来管理共享资源

rsrcmgr = PDFResourceManager()

# 创建一个PDF设备对象

laparams = LAParams()

device = PDFPageAggregator(rsrcmgr, laparams=laparams)

# 创建一个PDF解释器对象

interpreter = PDFPageInterpreter(rsrcmgr, device)

pdfStr = ''

# 循环遍历列表，每次处理一个page的内容

for page in PDFPage.create_pages(doc): # doc.get_pages() 获取page列表

interpreter.process_page(page)

# 接受该页面的LTPage对象

layout = device.get_result()

for x in layout:

if hasattr(x, "get_text"):

# print x.get_text()

result.append(x.get_text())

fileNames = os.path.splitext(filePath)

with open(fileNames[0] + '.txt','wb') as f:

results = x.get_text()

print(results)

f.write(results + '\n')

if __name__ == '__main__':

'''''

解析pdf 文本，保存到txt文件中

'''

path = u'C:/36.pdf'

pdf2TxtManager = CPdf2TxtManager()

pdf2TxtManager.changePdfToText(path)

# print result[0]

time2 = time.time()

print u'ok,解析pdf结束!'

print u'总共耗时：' + str(time2 - time1) + 's'

python怎么读取pdf文件_Python解析并读取PDF文件内容的方法相关推荐

python处理xml文件_Python解析并修改XML文件
XML 本质上只是一种数据格式,它的本意并不是管理数据,因此,在 XML 应用中,数据的管理仍然要借助数据库,尤其是当数据量很大.性能要求很高的时候. XML数据库具有以下优势: XML数据库能够对半 ...
多个html合成txt,Python - 将多个HTML页解析为单个TXT文件
我试图从X个HTML文件解析特定内容到单个TXT文件.Python - 将多个HTML页解析为单个TXT文件我已经dirtily编码如下: #!/usr/bin/python import sys, ...
python读取pdf表格_Python 解析 PDF 表格？
需要该公司的PDF年报包含了各种表,这些表需要在一些特定字幕下解析,称为数据结构. 解决方案通过查看别人写的博客,我们发现在Python中通常有四种PDF解析: Pdfminer善于分析文字,这种 ...
python读取pdf表格_Python使用Tabula提取PDF表格数据
今天遇到一个批量读取pdf文件中表格数据的需求,样式大体是以下这样: python读取PDF无非就是三种方式(我所了解的),pdfminer.pdf2htmlEX 和 Tabula.综合考虑后,选择了 ...
python的openpyxl模块下载_python解析.xls/.xlsx文件–openpyxl模块（第三方）
围观人数: 7 标签:book set tle 命令行文件中不能 charm 读取 pen 第一part:Excel文件的介绍 Microsoft Excel是Mi ...
python处理pdf实例_python 使用pdfminer3k 读取PDF文档的例子
1.安装 pdfminer3k 通过pip安装: pip install pdfminer3k 下载安装:在网页 https://pypi.org/project/pdfminer3k/1.3.1/# ...
python抓取表格数据_Python如何实现从PDF文件中爬取表格数据（代码示例）
本篇文章给大家带来的内容是关于Python如何实现从PDF文件中爬取表格数据(代码示例),有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 本文将展示一个稍微不一样点的爬虫. 以往我们的 ...
python扫描目录下文件_Python扫描目录读取文件，不考虑子目录
这篇文章主要为大家详细介绍了Python扫描目录读取文件,不考虑子目录,具有一定的参考价值,可以用来参考一下. 感兴趣Python扫描目录读取文件,不考虑子目录的小伙伴,下面一起跟随512笔记的小编罗 ...
python读取所有txt文件_python如何批量读取txt文件
python批量读取txt文件的方法:首先导入系统模块:然后将文件夹路径更改为需要批量读取的txt文件存放的路径:再调用系统模块得到该文件夹下的所有文件名称:最后遍历文件夹,读取txt文件. 如果文件 ...

python怎么读取pdf文件_Python解析并读取PDF文件内容的方法

python怎么读取pdf文件_Python解析并读取PDF文件内容的方法相关推荐

最新文章

热门文章