手上有一批pdf的文件大约6万份需要转成txt,尝试了很多方法。列出来供参考:

1. 利用付费软件转换

使用了迅捷PDF转换器,买了永久会员,该转换方法的好处是操作简单,缺点在于免费一次只能转5页,买了会员之后也一次只能转换200个文件,小批量文件比较适合。

2. 利用python进行转换

python转换主要利用了王树义老师提供的方法PDF批量转换,该方法基于python3中的pdfminer.six包进行提取,可以做到批量转换。但是由于我的PDF文件可能有点问题总是报错说文件格式不是PDF。也查了一些其他的转换包,好像对中文支持都不好,没有进一步尝试。

anaconda在装上pdfminer.six包之后按照王树义老师给出的代码导入包时出现ModuleNotFoundError,检查后发现以前装了pdfminer3k的包,其实两个包代码功能都差不多,但是个别模块名字有差异。如果一直出现ModuleNotFoundError,可以尝试卸载两个包后再重新按照。

3. 在linux系统中转换

实在走投无路之后,偶然在知乎上看到一个方法,并利用这种方法成功转换。

由于我使用的是windows10系统,因此首先安装了vmware以及ubuntu的虚拟机,之后在终端执行以下命令即可:

```

for f in `ls *.pdf`

do pdftotext "$f"

done

```

以上为尝试的三种比较方便的转换方法,当然如果只是转单个文件直接右击PDF文件利用word2016以上版本打开,即可转换。

linux pdf to txt,PDF转换为TXT相关推荐

  1. Linux下如何实现将txt文本文件转换为pdf

    在linux下编辑文档,txt格式的方便很多.如果有很多很大的txt文档,为了方便阅读和保存,转换为pdf格式的文件也是一种很不错的方法. 1.工具介绍: enscript: https://www. ...

  2. 三招教您pdf转换为txt

    在很多办公过程中,我们需要将PDF文件转换为TXT格式,从而提高工作效率.那么,为何要将PDF文件转换为TXT格式呢?首先,将PDF文件转换为TXT格式方便文本编辑和修改,PDF文件是一种静态文件格式 ...

  3. 如何把pdf转换为txt文档,pdf转txt的好方法

    如何把pdf转换为txt文档,pdf转txt的好方法.txt文档是每个电脑都自带的文字编辑工具.而pdf文件的缺点就是在于文件本身无法进行编辑.修改.当pdf文件中的内容产生错误时,就需要将pdf文件 ...

  4. java pdf 转txt文件怎么打开_使用iText将TXT文件转换为PDF(保留格式)

    我正在尝试使用iText库将.txt文件转换为.pdf文件.我面临的问题如下: 我在txt文件中有清晰的格式,与此类似: TEXT ******************* Other text her ...

  5. 扫描的图片PDF转换为txt

    虽然pdf文档在诺基亚E61上能看,不过,扫描的图片的pdf缩放貌似不管用,放大1000%还是看不清楚. 以下是我尝试把pdf转换为txt的过程: 1,扫描的pdf不能直接用转换工具转换为txt的,必 ...

  6. java pdf 转txt文件_java – 使用iText将TXT文件转换为PDF(保持格式化)

    我正在尝试使用iText库将.txt文件转换为.pdf文件. 我面临的问题如下: 我在txt文件中有一个清晰的格式,类似于: TEXT ******************* Other text h ...

  7. Word处理控件Aspose.Words功能演示:在 Python 中将 TXT 文件转换为 PDF

    各种人使用记事本以TXT格式记下重点或快速创建笔记.此外,TXT 文件用于在各种应用程序中存储纯文本.但是,由于记事本不提供高级功能,因此 TXT 文件通常会转换为PDF.为了以编程方式自动将 TXT ...

  8. Word处理控件Aspose.Words功能演示:在 C# 中将 TXT 文件转换为 PDF

    记事本提供了最简单快捷的方式来记下重点或创建笔记.此外,各种应用程序以TXT文件的形式生成有用的信息.由于 TXT 文件不支持高级功能,例如注释等,您可能需要将它们转换为PDF格式.为了在 .NET ...

  9. PDFBox下载及将pdf提取转换为txt文档

    下载网址: http://sourceforge.net/projects/pdfbox/ 最新版本为0.7.3 从解压包中的external目录复制以下jar包: bcmail-jdk*.jar b ...

  10. 如何用python将pdf转换为txt、docx、excel

    利用python的pdfplumber库可以实现转换,一些常用的方法 .extract_text() 用来提页面中的文本,将页面的所有字符对象整理为的那个字符串 .extract_words() 返回 ...

最新文章

  1. win合适做服务器的系统,win系统做云服务器
  2. [原创]分布式系统之缓存的微观应用经验谈(三)【数据分片和集群篇】
  3. 厦大复试计算机科学系,2019年厦门大学计算机系经验分享,复试篇!逆袭!
  4. ConcurrentHashMap深入分析
  5. TensorFlow 1.2正式发布,新增Python 3.6支持
  6. 返回结果的HTTP状态码——《图解http》第四章
  7. 基于鸿蒙Hi3861和华为云平台的烟雾报警器
  8. (42)css特异性
  9. 44 年前的今天,改变世界的 TA 诞生了!
  10. es分片及source字段小结
  11. Java多线程(三)——多线程实现同步
  12. S3C6410 SD卡启动uboot分析(详细)
  13. 【快讯】中国首个开源协议----木兰隆重发布
  14. 一款用来下载pdf word zip img各种文件的js插件
  15. git stach储藏功能(SourceTree 使用方法,Visual studio 2019 中使用
  16. 字符串_字符串的复制
  17. c++ 原子操作 赋值_请问c++如何实现原子性操作?
  18. 石油大--2020年秋季组队训练赛第十二场----J、Greedy Termite(线段树)
  19. 修改ssh命令行[root@xxx]#颜色
  20. 成功解决:双击eclispe安装文件后没反应

热门文章

  1. 【操作系统】笔记6 java基本类型及运算
  2. oracle truncate闪回数据库恢复
  3. javascript调用服务端验证控件
  4. 为Windows Phone SDK 模拟器安装应用
  5. python 引用文件中的类 报错_Python学习笔记7 头文件的添加规则(转载)
  6. 微信公众号自动回复html,[.NET] 简单接入微信公众号开发:实现自动回复
  7. 添加mysql组合主键_mysql怎么添加复合主键?
  8. c语言程序设计实践教程编程题8.3,C语言程序设计教程(21世纪计算机科学与技术实践型教程)...
  9. 序列化_SpreadJS序列化与反序列化表格Serialization+Deserialization
  10. UI设计灵感|挑战经典!不一样的注册登录页