安装pdfminer

python3安装pdfminer3k, python2安装pdfminer2k

具体实现

def extract_layout_by_page(pdf_path):# 提取页面布局#  创建pdf设备对象laparams = LAParams()fp = open(pdf_path, 'rb')  # 以二進制的模式打開# 用文件对象来创建一个pdf文档分析器parser = PDFParser(fp)# 创建一个pdf文档document = PDFDocument(parser)# 连接分析器 与文档对象parser.set_document(document)document.set_parser(parser)document.initialize()# 检查文档是否提供txt装换,不提供就忽略if not document.is_extractable:raise PDFTextExtractionNotAllowed# 创建PDF资源管理器 来共享资源rsrcmgr = PDFResourceManager()device = PDFPageAggregator(rsrcmgr, laparams=laparams)# 创建一个pdf解释器对象interpreter = PDFPageInterpreter(rsrcmgr, device)layouts = []# 循环遍历列表,每次处理page的内容for page in document.get_pages():interpreter.process_page(page)layouts.append(device.get_result())return layoutsdef pdf_to_txt(pdf_path, newname1):page_layouts = extract_layout_by_page(pdf_path)with open(newname1, 'w', encoding='utf-8') as f:for current_page in page_layouts:# 获取文本for x in current_page:if hasattr(x, "get_text"):# result.append(x.get_text())results = x.get_text()# print(type(results))if results == ' \n':continue# results=list(results)# with open(newname1, 'a', encoding='utf-8') as f:f.write(results)# f.close()# 恢复文本原来换行with open(newname1, 'r', encoding='UTF-8-sig') as f:content = f.readlines()print(content)pattern = re.compile(r'\s{1,2}\n')newcontent = []for i in content:if bool(re.search(pattern, i)) is False:j = i.replace('\n', '').replace(' \n', '')newcontent.append(j)else:newcontent.append(i)f.close()print(newcontent)with open(newname1, 'w', encoding='UTF-8') as f:for i in newcontent:f.write(i)f.close()return newname1

用pdfminer把PDF文件转化为文本文件相关推荐

  1. python 读取pdf cid_python使用pdfminer解析pdf文件的方法示例

    最近要做个从 pdf 文件中抽取文本内容的工具,大概查了一下 python 里可以使用 pdfminer 来实现.下面就看看怎样使用吧. PDFMiner是一个可以从PDF文档中提取信息的工具.与其他 ...

  2. windows下用Python把pdf文件转化为图片(png高清)

    windows下python3实现PDF转png图片,高清!!!希望可以帮到大家 windows下用Python将pdf文件转化为图片(png高清) 不扯没用的,直接上代码 1.环境:windows( ...

  3. python处理pdf实例_python使用pdfminer解析pdf文件的方法示例

    最近要做个从 pdf 文件中抽取文本内容的工具,大概查了一下 python 里可以使用 pdfminer 来实现.下面就看看怎样使用吧. PDFMiner是一个可以从PDF文档中提取信息的工具.与其他 ...

  4. 使用 pdfminer 读取 pdf 文件

    Python 语言读取 pdf 文件是一个令人头疼的事情,本文将使用的代码包 pdfminer 的文档中就曾评价 "PDF is evil". 本文提供使用该代码包读取 pdf 文 ...

  5. windows下用Python把pdf文件转化为图片

    windows下用Python把png图片转化为pdf文件:https://blog.csdn.net/apollo_miracle/article/details/111915070 不扯没用的,直 ...

  6. 业务问题:用java将加密的pdf文件转化为图片问题,支持png,jpg,pdf互转

    项目业务描述: 内部的一些pdf文件是加密的,要把pdf解密并进行转图片操作,并且像素不能受影响. 看了一些网页上好像没有太好的方法,一般都用spire这种第三方的库,超过10页还要收费.决定自己实现 ...

  7. python pdfminer解析pdf文件的每一行,得到每一行的坐标与每个字符的坐标

    pdfminer的基本用法请参考:https://blog.csdn.net/weixin_35757704/article/details/121621559 一句话(用变量line表示)相对于页面 ...

  8. Python 3.6 中使用pdfminer解析pdf文件

    所使用python环境为最新的3.6版本 一.安装pdfminer模块 安装anaconda后,直接可以通过pip安装 pip install pdfminer3k 如上图所示安装成功. 二.在IDE ...

  9. python pdfminer读取pdf表格_使用Python中的PDFMiner从PDF文件提取文本?

    富国沪深 DuckPuncher的出色回答,对于Python3,请确保您安装pdfminer2并执行以下操作:import iofrom pdfminer.pdfinterp import PDFRe ...

最新文章

  1. 局部特征(local feature)
  2. NoSQL还是SQL?这一篇讲清楚
  3. 自学Java编程要做好哪些准备?
  4. netfilter que_QUE的完整形式是什么?
  5. java 好和不好的形容词 英语怎么说_java必会的英语单词
  6. plsql修改表名称_Excel教程:常见的工作表技巧(内有冻结拆分窗格)Excel神技巧...
  7. Java基础---File类,就是这么简单
  8. 百度推广为什么出现在右侧
  9. 微信:进一步规范财经类自媒体帐号内容发布
  10. python保存模型与参数_Pytorch - 模型和参数的保存与恢复
  11. java list 遍历查找_Java用list储存,遍历,查询指定信息过程详解
  12. maya 替换名称_maya替换对象,MAYA
  13. 【智能优化算法】基于黑寡妇优化算法求解单目标优化问题含Matlab源码
  14. matlab频谱分析中振幅的物理意义,频谱图分析的意义,频谱图的物理意义是什么呢,频率的振幅能够反映什么物理意义呢?(例如下图)请哪位大师指点,不胜感激!...
  15. 金士顿固态硬盘不认盘修复_上海金士顿固态硬盘维修 上海台电固态硬盘不识别数据恢复中心...
  16. PHP网站打开太慢,如何解决!
  17. 从 0-1 构建指标体系
  18. TDK 小型冗余模拟 TMR 角度传感器。
  19. Java高效开发框架Nutz:是SSH的轮子?还是新神器?
  20. 【python练习题 03】高矮个子排队

热门文章

  1. 有关于成长的七个关键词
  2. WIN10家庭版增加本地安全策略
  3. 哥本哈根大学计算机科学,2020年哥本哈根大学有哪些优势专业
  4. linux tuxedo查看服务进程数,tuxedo管理命令之tmboot与tmshutdown
  5. 佳能Canon MF9200 Series 一体机驱动
  6. 某选秀比赛的晋级规则是:如果7个评委中,有4个及以上评委投赞成票。试用数组编写程序判断某选手是否晋级
  7. C语言输出100以内能被7整除的正整数
  8. Webstorm 分屏操作
  9. Oracle 层次查询、递归
  10. 如何识破钓鱼邮件攻击