pdf有转换,如果是非扫描的,转换很快,识别率100%,很多软件可以转;如果是扫描的,就比较麻烦需要用到OCR技术(文字识别)。

在linux下:

依赖包  poppler-utils  tesseract tesseract-ocr-chi-sim

情况一:pdftotxt 命令 可以转换非扫描版,免费又方便,只是格式、字体都没了

情况二:pdftoppm + tesseracr 可以实现扫面版的转换

情况一操作 pdftotxt  name.pdf   new.txt

情况二操作 第一步:pdftoppm name.pdf new   会生成new-1.ppm new-2.ppm 每页一个;

第二步: tesseracr new-1.ppm  result    会生成result.txt;可通过写脚本逐个转换,最后合到一个txt里

我的脚本如下:

第一步:pdftoppm test.pdf b -r 450 -freetype yes   ;经过我测试 当DPI为450是识别效果较好,ppm文件也不是很大,单个在60M左右

第二步:脚本

for i in `ls b-*.ppm`  #注意路径

do

n=1

while [ $n -eq 1 ]   #监测任务

do

num=`ps aux|grep tesser|wc -l`  #并发任务不超过四个,可自行修改,注意内存和CPU

if  [ $num -le 4 ]

then

tesseract $i $i -l chi_sim &   #任务  -l chi_sim是指定内容是中文,会生成很多txt,最后不要忘了合并。

n=0

else

sleep 3

fi

done

done

linux pdf 转 txt文件,linux 下 pdf 转换成txt(示例代码)相关推荐

  1. arcgis分隔图层重复出文件_已知坐标点txt文件在ArcGIS中转换成shp数据的两种方法...

    在平时工作中,经常会遇到只有txt坐标的勘测定界图等数据,通过以下操作步骤可将txt数据转换成shp数据. 方法一 1.打开txt数据,如下图所示,该数据为面数据,坐标系为西安80,投影方式是3度分带 ...

  2. Html读取本地文件夹下图片并显示的示例代码

    一 目的 在Html上选择本地文件夹,自动读取文件夹及子文件夹下的所有图片并显示在页面. 技术分析: 存在问题 Html中file标签获取到的路径时相对的. Html中Img指定源时需要的是绝对路径. ...

  3. 怎样快速将pdf转换成txt格式

    还在为PDF怎样转换成TXT文字而发愁吗?工作中每次遇到这个问题我总是绞尽了脑汁也找不到便捷的方法解答它,怎么办?最近在百度文库中查找资料时发现有一篇名为<PDF如何转换成TXT>让我找到 ...

  4. pdf转txt java_pdf转换txt怎么操作?pdf文件可以转换成txt文件吗?

    虽说PDF文件看起来很华丽,包含的信息很多,有文字.有图片,甚至还能有附加的网页信息和视频内容,但是看起来舒服的PDF文件其实使用起来却非常的麻烦,其中可能会有各种各样的格式,二次利用的时候,还需要将 ...

  5. 批量的pdf怎么转换成txt格式的文件

    工作中每次遇到为PDF转换成TXT的问题我总是绞尽了脑汁也找不到便捷的方法解答它,怎么办?最近在百度文库中查找资料时发现有一篇名为<PDF如何转换成TXT>让我找到了答案,并且亲自尝试后, ...

  6. 如何将pdf文件转换成txt格式

    工作中会遇到很多pdf格式的文件,有的是自己查找的资料,有的是客户发来的文件,针对这些pdf文件想要进行二次编辑,只能将其转换成可编辑的其他格式,比如txt,那么如何将pdf文件转换成txt格式呢? ...

  7. linux怎么复制文件夹全部内容,linux局域网怎么复制文件夹下的全部文件到另外文件夹...

    在Linux系统局域网中复制或拷贝文件我们可以用cp或者copy命令,但要对一个文件夹中的全部文件复制到另外一个文件夹中去,如何进行操作呢?linux局域网复制文件夹下的全部文件到另外文件夹的方法其实 ...

  8. 如何将PDF文件转换成TXT文档

    相信大家都知道什么是PDF文件,可是在使用PDF文件的时候我们常常会碰到一个难题,就是将 PDF文件转换成TXT或者Word文档进行编辑,今天就给大家分享一种简单的转换方法. 1.先打开手机,可借助手 ...

  9. python读取pdf文件并转换成txt文件

    将pdf文件转换成txt文件 官网 文档 中英文pdf都可以,而且处理速度很快,一秒可以处理10页左右 python2: pip install pdfminer python3: pip insta ...

  10. PDF文件如何转换成txt文本文档

    想要将PDF文件转换成txt文本文档,需要用到PDF转换器的帮助,比如奥凯丰 PDF转换大师将PDF文件格式转换一下. [PDF转换大师]转为word_excel_ppt_txt_jpg等格式-奥凯丰 ...

最新文章

  1. 【TensorFlow篇】--Tensorflow框架实现SoftMax模型识别手写数字集
  2. [ASP.NET Core 3框架揭秘] 跨平台开发体验: Windows [上篇]
  3. 2015蓝桥杯省赛---java---A---9(垒筛子)
  4. Spring Boot 学习笔记--整合Thymeleaf
  5. C++最新使用开源openssl实现输入是文件,输出是文件的AES加解密的代码
  6. Ubuntu9.04更新源
  7. 禁掉或启用firefox 的 javascript 脚本
  8. Apache AB 性能测试
  9. matlab绘制xy色度图函数
  10. Translate插件的有道翻译
  11. Spark开发:Spark大数据开发编程示例
  12. excel表格如何不需鼠标往下拖动而自动往下填
  13. C# 版 EXE捆绑器
  14. 分布式部署 Zabbix 监控平台
  15. 【HTML】-- 用户注册表单
  16. 5G时代的一个杀手级应用,可能是“云上电脑”?
  17. 【避坑指“难”】react-dnd引入后,.mjs文件解析错误
  18. OSError: Could not find kaggle.json. Make sure it‘s located in /home/user/.kaggle.
  19. Super-Resolution Mapping of Impervious Surfaces from Remotely Sensed Imagery with Points-of-Interest
  20. html div缩放

热门文章

  1. 用Python写个小程序,Excel内合同到期前,发送邮件提醒,避免遗漏处理
  2. 文件服务器碎片,服务器磁盘整理碎片
  3. 计算机二级考试word没做完,2019年全国计算机二级考试Office问题解答三
  4. win10iis服务器如何配置虚拟目录,win10系统iis6部署网站时配置虚拟目录的操作方法...
  5. request method
  6. 最小计算机主板,主板板型有哪几种?大主板和小主板的区别在哪?
  7. vuejs笔记(初学,有错请指出)
  8. 【颜色】Web 颜色记录
  9. PHP脚本有什么用,脚本是什么 脚本有什么用的简单说明
  10. 获取qq号码性别 接口_用户诉QQ浏览器违法获取个人隐私!实测发现好友列表被自动提取...