我只想用我写的这个小脚本来解析PDF文件中的数据。在

但是,我似乎遇到了python的问题,更具体地说,PyPDF2模块无法从pdf文件中读取文本。打印出来的数据都是模糊的,基本上不可读。然而,当我打开我试图阅读的pdf文件时,我可以简单地click drag and ctrl+c来复制内容,然后当我将其粘贴到纯txt文档中时,它可以完美地工作。当我手动复制和粘贴这个过程时,数据是可读的。在

所以我要做的是模拟这个步骤,但是要自动执行,而不是让我在执行上述步骤时遍历pdf文件中的所有页面。在

或者,如果有人建议我还能做些什么来达到这个目的,我将非常感激。我尝试过将pdf文件转换成docx和纯文本文件,但是文件的内容完全重新安排了格式import PyPDF2

pdfFileObj = open('sjsuclassdata.pdf', 'rb')

pdfReader = PyPDF2.PdfFileReader(pdfFileObj)

pdfReader.numPages

pageObj = pdfReader.getPage(4)

print(pageObj.extractText())

编辑

实际上,我现在要做的就是简单地编写一个脚本来执行以下操作。在

1.)阅读pdf文件

2.)复制整页内容(ctrl+a)

3.)将整页内容粘贴到纯文本文件中(ctrl+v)

4.)阅读pdf文件直到文件结束

python自动粘贴文字_在python中自动将文件内容复制到剪贴板并粘贴到纯文本文件中...相关推荐

  1. python蟒蛇绘制文字_【Python】蟒蛇绘制

    来画一只你的小蛇吧! 1. 2. 3.了解turtle库 Turtle,也叫海龟渲染器,使用Turtle库画图也叫海龟作图.Turtle库是Python语言中一个很流行的绘制图像的函数库.海龟渲染器, ...

  2. python怎么处理文字_使用python进行简单的文本处理

    涉及到如下方面 txt文本的读取,utf8的处理 字符串的基本操作 dict的基本操作 list(数组)的基本操作 #!/usr/bin/python #print "Hello World ...

  3. python 语音转文字_基于python将音频文件转化为文本输出

    实验目的:学习利用python进行音频转文本文件 实验环境:已正确安装python3.5 1.需要安装的第三方库 (1)安装speechrecognition speechrecognition集合了 ...

  4. 五种方式让你在java中读取properties文件内容不再是难题

    2019独角兽企业重金招聘Python工程师标准>>> 方式1.通过context:property-placeholder加载配置文件jdbc.properties中的内容 < ...

  5. java中读取properties文件内容五种方式

    一.背景 最近,在项目开发的过程中,遇到需要在properties文件中定义一些自定义的变量,以供java程序动态的读取,修改变量,不再需要修改代码的问题.就借此机会把Spring+SpringMVC ...

  6. python tab键自动补全_设置python中TAB键自动补全方法

    设置python中TAB键自动补全方法 一.创建自动补全脚本如下: vi /tmp/python/tab.py #!/usr/bin/python # python tab file import s ...

  7. python docx 替换文字_在.docx文件-Python中查找和替换文本

    我一直在寻找一种方法来查找和替换docx文件中的文本,但运气不好.我试过docx模块,但没能成功.最后,我使用zipfile模块并替换docx存档中的document.xml文件,得出了下面描述的方法 ...

  8. python docx 替换文字_查找并替换.docx文件中的文本 - Python

    我一直在寻找一种方法来查找和替换docx文件中的文本而运气不佳 . 我已经尝试过docx模块而无法使用它 . 最后,我使用zipfile模块计算了下面描述的方法,并替换了docx存档中的documen ...

  9. python图片转文字_【收藏】图片转成文字的方法总结,python批量图片转文字信息参考源码...

    在日常办公或者学习中,往往存在这样一个工作场景,比如,"老王,我这里有一张图片,你把里面的文字信息给我整理出来",都2021年了,你真的还在手敲图片文字信息么?那么还不赶紧收藏这篇 ...

最新文章

  1. 2022-2028年中国塑料制品行业投资分析及前景预测报告(全卷)
  2. 将不确定变为确定~Flag特性的枚举是否可以得到Description信息
  3. Microsoft Visual Studio 2005 Beta 2 下载地址
  4. 解决RabbitMQ消息丢失问题和保证消息可靠性
  5. Generator执行步骤浅析
  6. 前端学习(2179):vue-router-router的由来和vue-router
  7. 【Eclipse】Eclipse常用操作
  8. ltp-ddt qspi_mtd_dd_rw error can't read superblock on /dev/mtdblock0
  9. php 多维数组 列,总结PHP实现提取多维数组指定一列的方法
  10. 为什么国内的网盘公司都在 TB 的级别上竞争,成本会不会太高?
  11. 元数据--MySQL获取元数据的方法
  12. “人大女神”事件思考网络事件背后的教育文化
  13. HDU1426(DFS)
  14. 音视频转换常用基础术语全解
  15. 传授化学反应方程式的书写技巧
  16. R语言遍历字符串再拼接复原
  17. 计算机科学导论(原书第三版)框架总结
  18. 南邮计算机实验报告合集【非常全】
  19. Android 之路44---四大组件之ContentProvider
  20. BEA WebLogic Workshop 8.1中文语言包

热门文章

  1. 小米笔记本Pro安装Win+Mac双系统,时间同步不一致问题!
  2. 嵌入式Linux开发(转载)
  3. pygame游戏_小蝌蚪吃蚊子幼虫成长
  4. MySQL非交互式查询
  5. poweroff命令
  6. SQL教程——order by语法
  7. android盒子 avchd,闪电AVCHD格式转换器
  8. python键盘怎么输入双引号_python三引号如何输入
  9. 【家长需知】心田花开:孩子注意力不集中训练方法有哪些?
  10. 护士站之log4net