学习python,不用再为pdf无法转换为word而烦恼。下面我们介绍python读取pdf文件(主要是针对文字部分)。

安装需要的包:

pip install pdfminer
pip install pdfminer3k


如上图所示,安装成功!

导入相关的包:

from io import StringIO
from pdfminer.pdfinterp import PDFResourceManager
from pdfminer.pdfinterp import process_pdf
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
import re

读取PDF文件:

def read_from_pdf(file_path):"""读取pdf文件"""with open(file_path,'rb') as file:resource_manager = PDFResourceManager()return_str = StringIO()lap_params = LAParams()device = TextConverter(resource_manager,return_str,laparams=lap_params)process_pdf(resource_manager,device,file)device.close()content = return_str.getvalue()return_str.close()return re.sub('\s+','',content)

测试算法:

首先我们找到一个PDF:


我们的输出结果为:

print(read_from_pdf('poem.pdf'))
正月:兰蕙芬。瑞香烈。樱桃始葩。径草绿。望春初放。百花萌动。二月:桃始夭。玉兰解。紫荆繁。杏花饰其靥。梨花溶。李花白。三月:蔷薇蔓。木笔书空。棣萼韡韡。杨入大水为萍。海棠睡。绣球落。四月:牡丹王。芍药相于阶。罂粟满。木香上升。杜鹃归。荼穈香梦。五月:榴花照眼。萱北乡。夜合始交。薝匐有香。锦葵开。山丹赪。六月:桐花馥。菡萏为莲。茉莉来宾。凌霄结。凤仙绛于庭。鸡冠环户。七月:葵倾日。玉簪搔头。紫薇浸月。木槿朝荣。蓼花红。菱花乃实。八月:槐花黄。桂香飘。断肠始娇。白蘋开。金钱夜落。丁香紫。九月:菊有英。芙蓉冷。汉宫秋老。芰荷化为衣。橙橘登。山药乳。十月:木叶落。芳草化为薪。苔枯萎。芦始荻。朝菌歇。花藏不见。十一月:蕉花红。枇杷蕊。松柏秀。蜂蝶蛰。剪綵时行。花信风至。十二月:蜡梅坼。茗花发。水仙负冰。梅香绽。山茶灼。雪花六出。

输出成功!

Python3如何读取pdf文件并输出文本内容?相关推荐

  1. itextsharp 获取文本_利用iTextSharp提取PDF文件中的文本内容

    最近测试中需要对比两个PDF文件的内容,当然只是文字没有图表的,但是没有现成的工具可用.于是我的想法是先把PDF转换为Text,然后再对比Text的内容.现在问题的关键变成了如何提取PDF中的文本,在 ...

  2. Python使用pdfminer3k提取PDF文件中的文本

    推荐教材: <Python程序设计(第3版)>,(ISBN:978-7-302-55083-9),董付国,清华大学出版社,2020年6月第1次印刷,2021年12月第11次印刷,山东省一流 ...

  3. python下载网页中的pdf文件_Python读取网页上的pdf文件,输出字符串

    读取一个本地pdf文件,输出字符串 # -*- coding: UTF-8 -*from urllib import urlopenfrom pdfminer.pdfinterp import PDF ...

  4. python读取中文txt文本-Python3 解决读取中文文件txt编码的问题

    问题描述 尝试用Python写一个Wordcloud的时候,出现了编码问题. 照着网上某些博客的说法添添改改后,结果是变成了"UnicodeDecodeError: "utf-8' ...

  5. python解析并读取PDF文件:函数总结

    目录 1.PyPDF2 2. pdfminer & pdfminer3k 3. pdfplumber 4. Camelot 虽然PDF文件对文本布局非常好,容易打印并阅读,但软件要将它们解析为 ...

  6. python 读取文件读出来是什么格式-深入学习python解析并读取PDF文件内容的方法...

    这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...

  7. python中读取文件内容-深入学习python解析并读取PDF文件内容的方法

    这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...

  8. python读取pdf文件_深入学习python解析并读取PDF文件内容的方法

    这篇文章主要学习了python解析并读取PDF文件内容的方法,包括对学习库的应用,python2.7和python3.6中python解析PDF文件内容库的更新,包括对pdfminer库的详细解释和应 ...

  9. python实现:读取PDF文件中的英文单词,并将前二十个高频词储存到一个docx文档中

    总体思路如下: 1.读取PDF文件,将其中的英文单词提取出来 2.获得每个英文单词的词频,通过字典将英文单词及其词频配对 3.将英文单词按照词频由大到小排序 4.创建并写入docx文档 首先打开PDF ...

最新文章

  1. 竞赛报名 | AI时代数据库交互怎么玩?首届中文NL2SQL挑战赛开战
  2. Python -day 9
  3. numpy 数组抽取_Python 关于NumPy的用法介绍
  4. dwarf调试信息格式入门
  5. 初二模拟赛总结(2019.8.7)
  6. java实体类设计_java实验1 实体类的设计-答案
  7. Minix的系统调用
  8. 1177: 按要求排序(指针专题)_排序算法之快速排序
  9. PHP项目性能优化-总览
  10. 动态规划: 投资分配问题
  11. 渗透测试基础-XSS漏洞简析
  12. 计算机基础---01入门篇(标点符号,快捷键,文件删除与恢复,软件安装与卸载,截图,电脑隐私,文件隐藏与搜索,文件压缩解压,qq邮箱格式)
  13. 玩转MAC OS!实测DIY兼容机装苹果系统
  14. 短期python培训机构
  15. Junit单元测试报错Class not found可能原因
  16. 中国式焦虑,都是比出来的!
  17. 合肥工业大学宣城校区Java技术实验二 基于GUI的网络通信程序设计
  18. 免疫算法Python实现
  19. 立创开源 |ESP32-PICO-D4开发板
  20. pystrich生成code128、ean13、qrcode二维码

热门文章

  1. 基于数字孪生的城市地下智慧管网
  2. Unity3D-鼠标打飞碟
  3. Linux下的C语言编程——买鸡问题
  4. ben we_​Ben结婚 WE选手Ben女友个人资料微博照片介绍
  5. 万事开头难? 喵小DI玩“羊了个羊”可不难
  6. 南邮计算机专业考什么,南京邮电大学计算机考情分析与经验分享
  7. ubuntu下安装UltraEdit 与Ubuntu/Linux下7款轻量级编辑器推荐
  8. 关闭selinux的方法以及遇到的问题
  9. 老吴网站优化辛酸历程之初涉SEO培训,初识网络营销
  10. 往Iphone里添加歌曲通过91助手