pdf exe如何提取pdf文件_python应用:如何用python提取pdf文件中的文字
从pdf中提取文字,相信很多人都干过这事,怎么在python中实现呢,今天带大家看看。
第一步导入库
import PyPDF2
第二步导入pdf文件
pdf_file =open('dataset/laban.1027.pdf', 'rb')
第三步读取pdf并检查加密情况
read_pdf = PyPDF2.PdfFileReader(pdf_file)read_pdf.getIsEncrypted()read_pdf.numPages
在上面的代码中我首先建立了一个pdf阅读器read_pdf,然后通过.getIsEncrypted方法检查这个pdf的加密情况。然后我们再看了看我们这个pdf到底有几页,结果如下:
我们得到的结果是Flase,页码数为1,说明我们的pdf是没有加密的,要注意如果是加密的pdf我们在之后的提取文字过程可能会报错。
第4步提取文字
提取文字的代码如下:
page1 = read_pdf.getPage(0)page1.extractText()
解释一下上面的代码,首先还是要指定提取的pdf的页码,我这儿指定的是0也就是第一页,运行以上代码会得到如下结果:
可以看到,文字虽然被提取出来了,但是文字并没有自动换行,相应的换行符号都被“”替代了,此时我们需要做的就是将提取出来的原始文本正常换行,很简单直接用处理字符串的.split方法即可。代码如下:
page1.extractText().split('')
运行代码得到结果:
可以看到,现在文字都进行了正常换行,但是因为原始pdf的排版问题,这个表现并不是很好,大家可以换一个pdf看一看效果。
结语
今天给大家介绍了用python从pdf文件中提取文字的方法,这个只是提取方法的一小部分演示,还有很多库都可以进行pdf文字的提取,之后再给大家写。感谢大家耐心看完。发表这些东西的主要目的就是督促自己,希望大家关注评论指出不足,一起进步。内容我都会写的很细,用到的数据集也会在原文中给出链接,你只要按照文章中的代码自己也可以做出一样的结果,一个目的就是零基础也能懂,因为自己就是什么基础没有从零学Python的,加油。
(数据链接发不了,请关注后私信回复“数据链接”获取本头条号所有使用数据,包括本文的pdf文件)
pdf exe如何提取pdf文件_python应用:如何用python提取pdf文件中的文字相关推荐
- python提取pdf文件内容_如何用Python批量提取PDF文本内容?
本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来,并且整理存储到数据框中,以便于后续的数据分析. 问题 最近,读者们在后台的留言,愈发五花八门了. 写了几篇关于自然语言处理的文章 ...
- python批量将pdf转成word_如何用Python把pdf转换成word
很多时候,我们需要把文件的形式来回转换.那么学了编程的小伙伴,我们该如何用Python把pdf转换成word呢? 一.下载所需要的库 1.pdfminer 安装库命令pip install pdfmi ...
- python如何读取中文文件-如何用Python提取中文关键词?
本文一步步为你演示,如何用Python从中文文本中提取关键词.如果你需要对长文"观其大略",不妨尝试一下. 2017-12-07-20-38-22-7-426487.png 需求 ...
- python怎么读取csv的一部分数据_python批量读取csv文件 如何用python将csv文件中的数据读取成数组...
如何用python把多个csv文件数据处理后汇总到新csv文件你看这月光多温柔,小编转头还能看见你,一切从未坍塌. 可以用pandas读取数据,首先把文件方同一个文件价里,然后对当前文件价的所有内容循 ...
- 如何使用python-如何用Python提取中文关键词?
本文一步步为你演示,如何用Python从中文文本中提取关键词.如果你需要对长文"观其大略",不妨尝试一下. 2017-12-07-20-38-22-7-426487.png 需求 ...
- python中文模糊关键词提取_如何用Python提取中文关键词?
本文一步步为你演示,如何用Python从中文文本中提取关键词.如果你需要对长文"观其大略",不妨尝试一下. 需求 好友最近对自然语言处理感兴趣,因为他打算利用自动化方法从长文本里提 ...
- 如何用Python判断一个文件是否被占用?
今天有同学问,用os模块的access()能否判断一个文件是否被占用?直觉上,这是行不通的,因为access()返回的是文件的读写属性.为了确认这一点,我简单测试了一下. >>> i ...
- 如何用python打开mat文件
目录 程序实现 本文主要将如何用python打开mat文件 在平时的学习中,经常会接触到各种文件,且文件的格式也是各色不一.小编在学习的过程中,接触到了以.mat文件结尾的文件,如果没有安装matla ...
- c++代码整洁之道pdf_别再问如何用python提取PDF内容了
作者:陈熹 来源:早起Python 大家好,在之前的办公自动化系列文章中我们已经详细介绍了如何使用python批量处理PDF文件,包括合并.拆分.水印.加密等操作. 今天我们再次回到PDF,详细讲解如 ...
最新文章
- 范数介绍及C++/OpenCV/Eigen的三种实现
- php签名是做什么用的,这个签名在PHP中意味着什么()?
- python本地文件上传到网页_如何将文件上传到pythonweb服务器?
- Know more about CBO Index Cost
- pl/sql dev连接报错Access violation at address 67614F04 in module 'oranls11.dll'
- python3下载手机安卓版-QPython3下载
- shsh验证服务器,SHSH(Signature HaSH blobs)是由Apple验证服务器根据iOS设备ECID和固件版本产生的一个签名证书...
- haroopad夜间模式与数学公式显示
- 现实世界的Windows Azure:采访InishTech的销售及市场部主管Andrew O’Connor
- 基于heartbeat v1配置mysql和httpd的高可用双主模型
- 【资料整理】cisco [acl]
- win11搜索栏无法输入 Windows11搜索栏无法输入的解决方法
- python电脑版-python
- es6 模板字变量和字符串占位符
- mysql 打印_揭秘MySQL 主从环境中大事务的传奇事迹
- PS_02_大师之路
- RESCN.NET全站系统 [重量级全源码发布][原创]
- Redis-keys命令
- 直播六脉神剑,练好这几招才能行走江湖
- ZUFE 2017院赛 - Problem K: Jelly与狗头人的地下世界 (DP)
热门文章
- linux内核笔记-内核同步
- linux6.0 SVN 服务搭建
- RedHat Enterprise AS4安装步骤
- Prince2与PMP的区别
- sqldeveloper创建账号_用oralce 自带工具sql developer 创建表空间,用户,权限
- java中null是常量吗_C_NULL Julia中的常量
- 树1 树的同构_检查树是否同构
- matplotlib画图_漂亮,超详细的matplotlib画图基础
- fakeapp2.2.0下载_软件下载 | SuperCuger 测量平差系统 V1.0
- html图片多边形怎么写,使用CSS3构建的图像多边形裁剪动画特效