#完成pdf到TXT转变了,无法完成TXT到Excel转变import xlwt  # 写入文件
import xlrd  # 打开excel文件
from xlutils.copy import copyimport os
import re
import sys
import importlib
import threadingimportlib.reload(sys)
from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowedimport logging# 解析PDF文件,转为txt格式
def parsePDF(PDF_path, TXT_path):with open(PDF_path, 'rb')as fp:  # 以二进制读模式打开praser = PDFParser(fp)  # 用文件对象来创建一个pdf文档分析器doc = PDFDocument()  # 创建一个PDF文档praser.set_document(doc)  # 连接分析器与文档对象doc.set_parser(praser)# 提供初始化密码# 如果没有密码 就创建一个空的字符串doc.initialize()# 检测文档是否提供txt转换,不提供就忽略if not doc.is_extractable:raise PDFTextExtractionNotAllowedelse:rsrcmgr = PDFResourceManager()  # 创建PDf 资源管理器 来管理共享资源laparams = LAParams()  # 创建一个PDF设备对象device = PDFPageAggregator(rsrcmgr, laparams=laparams)interpreter = PDFPageInterpreter(rsrcmgr, device)  # 创建一个PDF解释器对象# 循环遍历列表,每次处理一个page的内容for page in doc.get_pages():  # doc.get_pages() 获取page列表interpreter.process_page(page)layout = device.get_result()  # 接受该页面的LTPage对象# 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等 想要获取文本就获得对象的text属性,for x in layout:#print(x)if isinstance(x, LTTextBoxHorizontal):with open(TXT_path, 'a', encoding='UTF-8', errors='ignore') as f:results = x.get_text()#print(results)f.write(results + '\n')
PDF_path = '/Users/apple/Documents/ST/python/简历.pdf'TXT_path = '/Users/apple/Documents/ST/python/简历.txt'parsePDF(PDF_path, TXT_path)

解析后格式不对,需要调整

Python解析pdf转为TXT格式相关推荐

  1. 使用python将pdf转为eps格式

    使用目的:码论文,往Latex中插入eps格式文件 # 方法一:Anaconda 命令行 pdf 转为 eps 在命令行下cd到该目录下,执行该命令:pdf2ps input.pdf output.e ...

  2. 【Python小技巧】将pdf转为txt,并使用edge-tts将txt批量转为MP3(不想看书想听书的转过来,送源代码)

    文章目录 前言 一.PDF转为MP3 ? 二.准备工作 1. 安装pdfplumber包,用于将pdf转为txt 2. 安装edge-tts包,用于将txt转为音频 三.代码很简单 四.变更播音员 总 ...

  3. python解析pdf,读取文字,可识别两栏pdf等

    python解析pdf,读取文字,可识别两栏pdf等 一.解析我们的pdf文件,首先第一步是解析普通类别的pdf(只有一栏) 代码中包含注释(不懂得可以留言) 二.处理拥有两栏等类型的pdf 为什么要 ...

  4. 用Python把PDF转为Word方法总结

    先讲一下为啥要写这个文章,网上其实很多这种PDF转化的代码和软件.我一直想用Python做,但是网上搜到的代码很多都不能用,很多是2.7版本的代码,再就是PDF需要用到的库在导入的时候,很多的报错,解 ...

  5. 利用python将PDF转为PPT(课件专用)

    利用python将PDF转为PPT(课件专用) 前言:课程中老师经常会将课件作为PDF发放而非PPT,而现有的PDF阅读器一般不支持添加修改等操作,所以显得十分麻烦,考虑将PDF转换为PPT格式,方便 ...

  6. python读取pdf表格_[转]Python 解析 PDF 文本和表格的四大方法介绍

    Python 解析 PDF 文本和表格的四大方法介绍 == code for paper and NSFC Proj. parsing==: https://gitee.com/sonica/pdf_ ...

  7. 微信小程序 语音录制功能和文件(ppt、word、excel、pdf、txt格式)上传

    语音录制 提醒:因为开发者工具不能接收语音文件,所以要使用真机调试测试噢~ 思路:使用小程序API wx.startRecord .wx.stopRecord 方法(调用前 记得 app.js 添加 ...

  8. 批量将 PDF 转为 ePub 格式文档

    概要:PDF 格式文档转为 ePub 格式的需求是我们经常会碰到的,网上的各种工具效果也是良莠不齐,经常会出现格式错乱.字体丢失等各种问题.今天给大家介绍的是一种非常简单的方式完成将多个 PDF 文档 ...

  9. PDF转TXT格式软件有什么?推荐这三款软件给你

    想必大家对PDF文件格式并不陌生,它的优点就是可以使文件内容以及排版不会错乱,方便存储.不过当我们在网上下载的小说大部分都是PDF格式的文件,而电子阅读器是不支持查看PDF格式的电子书,从而导致我们无 ...

最新文章

  1. 动态规划套路在最长公共子串、最长公共子序列和01背包问题中的应用
  2. APIGEE:用于API代理的CI / CD管道
  3. 新浪微博后台服务器架构
  4. Golang并发读取超大文件
  5. Tomcat启动与关闭事件监听
  6. 计算机发展与应用说课,计算机的发展与应用说课稿.doc
  7. python web开发框架 支持windows_基于Python的Web开发框架研究_曾浩
  8. Server 2008 R2远程桌面授权
  9. 【土壤分类】基于matlab GUI多类SVM土壤分类【含Matlab源码 1398期】
  10. 《逻辑学导论》(第11版)学习(一)
  11. 杨校老师课堂之Hadoop环境搭建(一)
  12. 计算机拼音排序怎么操作,Excel如何按笔画和拼音进行排序,并且以下数字也会随之改变...
  13. html页面不能放大缩小,互联网常识:html怎么禁止页面放大缩小
  14. Vue过滤器的几种用法
  15. 《工程伦理与学术道德》之《工程活动中的环境伦理》
  16. IT人常用网站推荐!
  17. Windows10独立显卡+核心显卡的三屏扩展输出
  18. x86服务器部署kylin v10(arm版)虚拟机
  19. linux php pdo oci,linux centos centos7 安装oci8和pdo_oci扩展
  20. Android-->Log系统logger保存日志到本地

热门文章

  1. Mysql之慢查询日志详解
  2. dubbo通信协议之对比
  3. java并发初探ConcurrentHashMap
  4. 根据函数名称调用函数
  5. Qt常用类——QWidget
  6. 【转载】谷歌是如何做代码审查的
  7. 使用ARGV在命令行里接收参数
  8. 麦库:盛大的知识管理软件
  9. 数据科学和人工智能技术笔记 二十一、统计学
  10. NumPy Cookbook 带注释源码 五、NumPy 音频和图像处理