从pdf中提取文字,相信很多人都干过这事,怎么在python中实现呢,今天带大家看看。

第一步导入库

import PyPDF2

第二步导入pdf文件

pdf_file =open('dataset/laban.1027.pdf', 'rb')

第三步读取pdf并检查加密情况

read_pdf = PyPDF2.PdfFileReader(pdf_file)read_pdf.getIsEncrypted()read_pdf.numPages

在上面的代码中我首先建立了一个pdf阅读器read_pdf,然后通过.getIsEncrypted方法检查这个pdf的加密情况。然后我们再看了看我们这个pdf到底有几页,结果如下:

我们得到的结果是Flase,页码数为1,说明我们的pdf是没有加密的,要注意如果是加密的pdf我们在之后的提取文字过程可能会报错。

第4步提取文字

提取文字的代码如下:

page1 = read_pdf.getPage(0)page1.extractText()

解释一下上面的代码,首先还是要指定提取的pdf的页码,我这儿指定的是0也就是第一页,运行以上代码会得到如下结果:

可以看到,文字虽然被提取出来了,但是文字并没有自动换行,相应的换行符号都被“”替代了,此时我们需要做的就是将提取出来的原始文本正常换行,很简单直接用处理字符串的.split方法即可。代码如下:

page1.extractText().split('')

运行代码得到结果:

可以看到,现在文字都进行了正常换行,但是因为原始pdf的排版问题,这个表现并不是很好,大家可以换一个pdf看一看效果。

结语

今天给大家介绍了用python从pdf文件中提取文字的方法,这个只是提取方法的一小部分演示,还有很多库都可以进行pdf文字的提取,之后再给大家写。感谢大家耐心看完。发表这些东西的主要目的就是督促自己,希望大家关注评论指出不足,一起进步。内容我都会写的很细,用到的数据集也会在原文中给出链接,你只要按照文章中的代码自己也可以做出一样的结果,一个目的就是零基础也能懂,因为自己就是什么基础没有从零学Python的,加油。

(数据链接发不了,请关注后私信回复“数据链接”获取本头条号所有使用数据,包括本文的pdf文件)

pdf exe如何提取pdf文件_python应用:如何用python提取pdf文件中的文字相关推荐

  1. python提取pdf文件内容_如何用Python批量提取PDF文本内容?

    本文为你展示,如何用Python把许多PDF文件的文本内容批量提取出来,并且整理存储到数据框中,以便于后续的数据分析. 问题 最近,读者们在后台的留言,愈发五花八门了. 写了几篇关于自然语言处理的文章 ...

  2. python批量将pdf转成word_如何用Python把pdf转换成word

    很多时候,我们需要把文件的形式来回转换.那么学了编程的小伙伴,我们该如何用Python把pdf转换成word呢? 一.下载所需要的库 1.pdfminer 安装库命令pip install pdfmi ...

  3. python如何读取中文文件-如何用Python提取中文关键词?

    本文一步步为你演示,如何用Python从中文文本中提取关键词.如果你需要对长文"观其大略",不妨尝试一下. 2017-12-07-20-38-22-7-426487.png 需求 ...

  4. python怎么读取csv的一部分数据_python批量读取csv文件 如何用python将csv文件中的数据读取成数组...

    如何用python把多个csv文件数据处理后汇总到新csv文件你看这月光多温柔,小编转头还能看见你,一切从未坍塌. 可以用pandas读取数据,首先把文件方同一个文件价里,然后对当前文件价的所有内容循 ...

  5. 如何使用python-如何用Python提取中文关键词?

    本文一步步为你演示,如何用Python从中文文本中提取关键词.如果你需要对长文"观其大略",不妨尝试一下. 2017-12-07-20-38-22-7-426487.png 需求 ...

  6. python中文模糊关键词提取_如何用Python提取中文关键词?

    本文一步步为你演示,如何用Python从中文文本中提取关键词.如果你需要对长文"观其大略",不妨尝试一下. 需求 好友最近对自然语言处理感兴趣,因为他打算利用自动化方法从长文本里提 ...

  7. 如何用Python判断一个文件是否被占用?

    今天有同学问,用os模块的access()能否判断一个文件是否被占用?直觉上,这是行不通的,因为access()返回的是文件的读写属性.为了确认这一点,我简单测试了一下. >>> i ...

  8. 如何用python打开mat文件

    目录 程序实现 本文主要将如何用python打开mat文件 在平时的学习中,经常会接触到各种文件,且文件的格式也是各色不一.小编在学习的过程中,接触到了以.mat文件结尾的文件,如果没有安装matla ...

  9. c++代码整洁之道pdf_别再问如何用python提取PDF内容了

    作者:陈熹 来源:早起Python 大家好,在之前的办公自动化系列文章中我们已经详细介绍了如何使用python批量处理PDF文件,包括合并.拆分.水印.加密等操作. 今天我们再次回到PDF,详细讲解如 ...

最新文章

  1. 范数介绍及C++/OpenCV/Eigen的三种实现
  2. php签名是做什么用的,这个签名在PHP中意味着什么()?
  3. python本地文件上传到网页_如何将文件上传到pythonweb服务器?
  4. Know more about CBO Index Cost
  5. pl/sql dev连接报错Access violation at address 67614F04 in module 'oranls11.dll'
  6. python3下载手机安卓版-QPython3下载
  7. shsh验证服务器,SHSH(Signature HaSH blobs)是由Apple验证服务器根据iOS设备ECID和固件版本产生的一个签名证书...
  8. haroopad夜间模式与数学公式显示
  9. 现实世界的Windows Azure:采访InishTech的销售及市场部主管Andrew O’Connor
  10. 基于heartbeat v1配置mysql和httpd的高可用双主模型
  11. 【资料整理】cisco [acl]
  12. win11搜索栏无法输入 Windows11搜索栏无法输入的解决方法
  13. python电脑版-python
  14. es6 模板字变量和字符串占位符
  15. mysql 打印_揭秘MySQL 主从环境中大事务的传奇事迹
  16. PS_02_大师之路
  17. RESCN.NET全站系统 [重量级全源码发布][原创]
  18. Redis-keys命令
  19. 直播六脉神剑,练好这几招才能行走江湖
  20. ZUFE 2017院赛 - Problem K: Jelly与狗头人的地下世界 (DP)

热门文章

  1. linux内核笔记-内核同步
  2. linux6.0 SVN 服务搭建
  3. RedHat Enterprise AS4安装步骤
  4. Prince2与PMP的区别
  5. sqldeveloper创建账号_用oralce 自带工具sql developer 创建表空间,用户,权限
  6. java中null是常量吗_C_NULL Julia中的常量
  7. 树1 树的同构_检查树是否同构
  8. matplotlib画图_漂亮,超详细的matplotlib画图基础
  9. fakeapp2.2.0下载_软件下载 | SuperCuger 测量平差系统 V1.0
  10. html图片多边形怎么写,使用CSS3构建的图像多边形裁剪动画特效