所使用python环境为最新的3.6版本

一、安装pdfminer模块
安装anaconda后,直接可以通过pip安装

pip install pdfminer3k


如上图所示安装成功。

二、在IDE中进行编码

#!/usr/bin/env python
# encoding: utf-8"""
@author: wugang
@software: PyCharm
@file: prase_pdf.py
@time: 2017/3/3 0003 11:16
"""
import sys
import importlib
importlib.reload(sys)from pdfminer.pdfparser import PDFParser,PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal,LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed'''解析pdf 文本,保存到txt文件中
'''
path = r'../../data/pdf/阿里巴巴Java开发规范手册.pdf'
def parse():fp = open(path, 'rb') # 以二进制读模式打开#用文件对象来创建一个pdf文档分析器praser = PDFParser(fp)# 创建一个PDF文档doc = PDFDocument()# 连接分析器 与文档对象praser.set_document(doc)doc.set_parser(praser)# 提供初始化密码# 如果没有密码 就创建一个空的字符串doc.initialize()# 检测文档是否提供txt转换,不提供就忽略if not doc.is_extractable:raise PDFTextExtractionNotAllowedelse:# 创建PDf 资源管理器 来管理共享资源rsrcmgr = PDFResourceManager()# 创建一个PDF设备对象laparams = LAParams()device = PDFPageAggregator(rsrcmgr, laparams=laparams)# 创建一个PDF解释器对象interpreter = PDFPageInterpreter(rsrcmgr, device)# 循环遍历列表,每次处理一个page的内容for page in doc.get_pages(): # doc.get_pages() 获取page列表interpreter.process_page(page)# 接受该页面的LTPage对象layout = device.get_result()# 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性,for x in layout:if (isinstance(x, LTTextBoxHorizontal)):with open(r'../../data/pdf/1.txt', 'a') as f:results = x.get_text()print(results)f.write(results + '\n')if __name__ == '__main__':parse()

Python 3.6 中使用pdfminer解析pdf文件相关推荐

  1. python 读取pdf cid_python使用pdfminer解析pdf文件的方法示例

    最近要做个从 pdf 文件中抽取文本内容的工具,大概查了一下 python 里可以使用 pdfminer 来实现.下面就看看怎样使用吧. PDFMiner是一个可以从PDF文档中提取信息的工具.与其他 ...

  2. python处理pdf实例_python使用pdfminer解析pdf文件的方法示例

    最近要做个从 pdf 文件中抽取文本内容的工具,大概查了一下 python 里可以使用 pdfminer 来实现.下面就看看怎样使用吧. PDFMiner是一个可以从PDF文档中提取信息的工具.与其他 ...

  3. python pdfminer解析pdf文件的每一行,得到每一行的坐标与每个字符的坐标

    pdfminer的基本用法请参考:https://blog.csdn.net/weixin_35757704/article/details/121621559 一句话(用变量line表示)相对于页面 ...

  4. python pdfminer读取pdf表格_使用Python中的PDFMiner从PDF文件提取文本?

    富国沪深 DuckPuncher的出色回答,对于Python3,请确保您安装pdfminer2并执行以下操作:import iofrom pdfminer.pdfinterp import PDFRe ...

  5. [299]python实现批量解析PDF文件提取内容并写入到Excel中

    摘要:最近需要将一批PDF文件中的某些数据整理到Excel中,因为文件数量接近20w+,手动更新几乎不现实,于是就提取关键词和内容动手写了个Python小工具,以实现自动完成上述目标. 要求: 读取P ...

  6. Python编程--使用PyPDF解析PDF文件中的元数据

    Python编程–使用PyPDF解析PDF文件中的元数据 元数据 作为一种文件里非常明显可见的对象,元数据可以存在于文档.电子表格.图片.音频和视频文件中.创建这些文件的应用程序可能会把文档的作者.创 ...

  7. python如何解析PDF文件

    python如何解析PDF文件 python中读取pdf的方法:使用python第三方库pdfminerk3k 1.使用pdfminer库 pdfminer是一个主流的分析pdf的库.如果是pytho ...

  8. python解析pdf文件

    加载pdf文件,获取pdf的每一页对象: import pdfplumber path = "" with pdfplumber.open(path) as pdf_obj:pag ...

  9. python解析pdf中文乱码_解析PDF文件以及解决编码问题

    1.解析pdf文件 最近需要将pdf中文本提取出来,于是就了解了一下pdfminer 首先安装:pip3 install pdfminer3k 之后就是用pdfminer解析,不多说,直接上代码,这些 ...

最新文章

  1. 图灵科普系列丛书封面有奖征集(贴图送书)
  2. 【 MATLAB 】xlim 、 ylim 、zlim简介
  3. 英特尔CFO:裁员为加速转型 是艰难但正确的决定
  4. FreeRTOS的信号量和互斥量
  5. 2018.02.26 9周4次课
  6. 2019-2020-1 20175313 《信息安全系统设计基础》第一周学习总结
  7. C++11中容器迭代器操作总结
  8. H3C 路由过滤与路由引入
  9. 象棋软件最强手机版_我说它是地表手机最强清理软件,没意见吧
  10. android中的actionbar,android中开启actionbar的两种方法
  11. 深入浅出SSD--5.1PCIE基础知识
  12. Ubuntu15安装RabbitVCS(SVN)客户端
  13. 微信文章爬虫demo -- 综合实验和练习
  14. 产品经理自学资料/UI交互设计/产品相关电子书/求职招聘/案例资料免费领取
  15. 官宣!辛保安任国家电网有限公司董事长、党组书记
  16. 在网吧敲代码是种什么体验?网友神评论:在挨打的边缘疯狂试探
  17. SQL语句习题总练习
  18. 动态规划系列——原理与思想
  19. 软件测试实用教程答案,软件测试实用教程
  20. win10配置 异地连接 遇到809错误提示

热门文章

  1. jQuery源码分析之$.ajax方法
  2. 文件上传,搞懂这8种场景就够了
  3. linux 中find命令下的-type f 代表什么意思
  4. 原生js实现简易版消消乐
  5. 钟汉良日记:改变心态了,回武平待3年
  6. Mac 序列号不可用导致超时代视频加密视频播放失败
  7. win10安装Geany编辑器
  8. Opencv实现击中击不中
  9. 【数据可视化】360度教你如何全面学习可视化——上篇
  10. 为什么你的网速一直快不起来?