将pdf文件转换成txt文件

官网
文档
中英文pdf都可以,而且处理速度很快,一秒可以处理10页左右
python2:

pip install pdfminer

python3:

pip install pdfminer3k

pdf2txt.py

from pdfminer.pdfparser import PDFParser, PDFDocument
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import PDFPageAggregator
from pdfminer.layout import LTTextBoxHorizontal, LAParams
from pdfminer.pdfinterp import PDFTextExtractionNotAllowed
import logging# 不显示warning
logging.propagate = False
logging.getLogger().setLevel(logging.ERROR)pdf_filename = "1.pdf"
txt_filename = "out.txt"device = PDFPageAggregator(PDFResourceManager(), laparams=LAParams())
interpreter = PDFPageInterpreter(PDFResourceManager(), device)doc = PDFDocument()
parser = PDFParser(open(pdf_filename, 'rb'))
parser.set_document(doc)
doc.set_parser(parser)
doc.initialize()# 检测文档是否提供txt转换,不提供就忽略
if not doc.is_extractable:raise PDFTextExtractionNotAllowed
else:with open(txt_filename, 'w', encoding="utf-8") as fw:print("num page:{}".format(len(list(doc.get_pages()))))for page in doc.get_pages():interpreter.process_page(page)# 接受该页面的LTPage对象layout = device.get_result()# 这里layout是一个LTPage对象 里面存放着 这个page解析出的各种对象# 一般包括LTTextBox, LTFigure, LTImage, LTTextBoxHorizontal 等等# 想要获取文本就获得对象的text属性,for x in layout:if isinstance(x, LTTextBoxHorizontal):results = x.get_text()fw.write(results)

python读取pdf文件并转换成txt文件相关推荐

  1. Veri-776数据集处理 xml文件提取转换成txt文件

    Veri-776数据集处理 xml文件提取转换成txt文件 最近在做重识别工作,数据处理时需要进行文件格式转换,这里将代码记录下来 from os import getcwd import os fr ...

  2. pdf转txt java_pdf转换txt怎么操作?pdf文件可以转换成txt文件吗?

    虽说PDF文件看起来很华丽,包含的信息很多,有文字.有图片,甚至还能有附加的网页信息和视频内容,但是看起来舒服的PDF文件其实使用起来却非常的麻烦,其中可能会有各种各样的格式,二次利用的时候,还需要将 ...

  3. python 读取excel失败 可以转换成csv文件

    os.rename('sample_file.xls', 'sample_file.csv') csv = pd.read_csv("sample_file.csv", error ...

  4. PDF文件如何批量转换成txt文件

    将PDF文件批量转换成txt文件,很简单,使用okfone PDF转换大师  PDF转换大师---下载地址 就可以批量转换文件 打开PDF转换大师,点击进入[PDF转文件] 在操作类型中选择[PDF转 ...

  5. 如何把PDF文档转换成TXT格式文件

    在日常学习和日常工作中,如何将PDF文件转换为TXT文本? 尽管PDF文件的用户数量正在增加,但是TXT文本格式的接受度将会更高. 毕竟,TXT文本格式是任何设备都可以打开的格式.那么如何将PDF文件 ...

  6. java将office文档,word,ppt,pdf文档转换成swf文件在线预览

    java将office文档pdf文档转换成swf文件在线预览 第一步,安装openoffice.org openoffice.org是一套sun的开源office办公套件,能在widows,linux ...

  7. 目标跟踪评估绘图(1):Windows10环境将pycharm跑出来的OTB100数据集的.txt结果文件,转换成.mat文件

    本文的视频讲解目标跟踪_OTB数据集和VOT数据集评估图的绘制 一.准备工作 在GitHub上面下载下载一个SiamFC的代码,自己配置好深度学习环境,然后运行获得测试结果. 准备好pycharm跑出 ...

  8. 如何将xlsx表格文件转换成txt文件?

    #第二次写CSDN的文章,排版见谅. #主要的目的还是为了给自己留个纪念,十年二十年回过头来看,也是一件不错的事,能够看到自己的点滴成长,回首过往,如何从小菜鸟一步一步变成老菜鸟. #另一个目的就是现 ...

  9. PDF怎么批量转换成TXT格式?

    现在大部分人都有阅读电子书的习惯,通常电子书的文件格式都是TXT文件形式,TXT文件是微软在操作系统上附带的一种最常见文本格式,它体积小.存储简单方便,所以我们通常会使用这种格式文档.有时候我们在网上 ...

最新文章

  1. word取消“在页面视图中显示页面间空白”后,关闭打开又自动勾上
  2. c++ 程序执行时间
  3. 7款Flash和Javascript网页视频播放器
  4. 你没有看错,爬网页数据,C# 也可以像 Jquery 那样
  5. 书评:Mockito Essentials
  6. python源码文件以什么格式结尾结尾_查看python源码,发现里面的函数都以pass结尾,那么意义何在?...
  7. python打包的exe如何免杀_如何使用Python进行Payload免杀
  8. 一些算法题,欢迎来改进
  9. zookeeper 客户端配置_ZooKeeper安装配置如何操作
  10. html怎么让字体自动变色,html怎么给字体设置颜色
  11. PCIE5.0英文版协议
  12. 大数据技术原理与应用:期末考点总结
  13. Java毕设项目宠物医院管理系统计算机(附源码+系统+数据库+LW)
  14. 微信公众号 | 适合程序员的公众号排版
  15. matlab画伯德图(带谐振点和-3dB带宽)
  16. 苹果手机各种尺寸详细表以及iPhoneX、iPhone 11、iPhone 12、iPhone 13 屏幕适配,状态栏高度问题
  17. CentOS6.5服务器端口捆绑
  18. 怎么通过网络快速赚钱,无非是这4种方式!
  19. 第九届CDA数据分析师认证考试报考指南
  20. go语言的类型之间的相互转化和float保留小数时的四舍五入

热门文章

  1. PHP实现word文档转html以及pdf
  2. unwallet奖金制度解析
  3. Elo Rating System 简介及其在游戏中的运用
  4. win7笔记本外接显示器html,笔记本接显示屏如何设置_笔记本外接显示屏的图文教程-win7之家...
  5. 电路板中的常见电子元器件种类汇总
  6. oracle 10g alter system reset,《深入浅出Oracle》勘误表
  7. 秋冬饮品研发没思路?带你看新品5大趋势!
  8. AI(人工智能:一种现代的方法)学习之:无信息搜索(uninformed search)算法——广度优先搜索、深度优先搜索、Uniform-cost search
  9. 【转】我们从来都不是我们自己。
  10. 安卓在GooglePlay上线后同时平板也能搜到