更多代码在 Github

使用 ocrmypdf ,根据官方教程安装。Linux系统(包含MacOS,WSL)会简单一点,Windows复杂一点。

使用方法:直接在命令行执行

ocrmypdf --pages 1 --optimize 0 --output-type none --sidecar output.txt input.pdf -

–pages 1 是仅处理 pdf 的第一页,–optimize 0 禁用页面优化,–output-type none是不输出额外的一个pdf(需要配合最后的 -)

还可以加上 --quiet 不让打印过程

会在本地保存一个 output.txt 里面存有识别的文字。

默认的是英文,可以替换为其他语言

如果想要写入python,注意如果简单加进去会报一个错误 python stdout is connected to a terminal. Please redirect stdout to a file.下面的程序中已经修复了。

import os
import subprocess
import shlexfile = 'test.pdf'
command = f"ocrmypdf --deskew --rotate-pages --rotate-pages-threshold 5 --output-type none --sidecar ocr_output.txt {file} -"
command_args = shlex.split(command)with open('log', "w") as outfile:subprocess.run(command_args, stdout=outfile)
os.remove('log')

【方法】 PDF OCR识别相关推荐

  1. PDF/OCR识别提取工具:Readiris Pro 17 for Mac

    readiris pro mac破解版是一款专业级别的光学识别OCR软件,可对PDF和OCR等图文内容进行识别提取,能够快速精准的将您的PDF.图像和纸质文档转换为能够编辑的文字.而无需执行所有繁琐的 ...

  2. html5 ocr图片识别,OCR识别控件LEADTOOLS HTML5案例:整页OCR识别

    由于移动设备的处理能力和储存空间限制,在移动设备上执行光学字符识别(OCR)一直以来都是一项较大的挑战.随着LEADTOOLS HTML5的出现,在移动设备上执行光学字符识别(OCR)变成可能.凭借L ...

  3. Enolsoft PDF Converter with OCR Mac(PDF格式转换及OCR识别软件)

    Enolsoft PDF Converter with OCR Mac是一款专为Mac用户所设计的PDF格式转换及OCR识别软件,PDF Converter with OCR Mac特别版支持将PDF ...

  4. PDF怎么识别提取文字?这个方法轻松提取

    随着信息技术的发展,很多小伙伴已经不满足于对PDF文档的简单浏览和阅读.相反,很多时候我们需要将一些PDF文档中的内容提取出来,但是由于PDF不像Word文档这样开放,不能随意编辑提取内容.那么小伙伴 ...

  5. PDF Converter OCR for Mac(PDF转换器和OCR识别工具)

    PDF Converter OCR for Mac是Mac平台上的一款非常实用的PDF转换器和OCR识别工具,PDF Converter OCR Mac激活版能够帮助你进行打字和格式调整,操作非常的简 ...

  6. Cisdem PDF Converter OCR for Mac(PDF文字识别转换工具)

    Cisdem PDF Converter OCR Mac特别版是Mac平台上一款功能非常强大的PDF文字识别转换工具,用户可以通过Cisdem PDF Converter OCR for Mac将任何 ...

  7. PHP PDF内容识别 抓取信息 方法

    PHP PDF内容识别 抓取信息 方法 PDF Parser 使用 PDF Parser 参考:http://www.pdfparser.org/ (注意:composer.json 更新 pdfpa ...

  8. [软件工具][windows]pdf指定区域OCR识别重命名工具使用教程

    首先我们打开软件,界面如下: 如上图,使用非常简单,步骤如下: (1)选择工具-取模板选择一个pdf文件划定自己需要识别的区域,如果你选择第2页指定区域则软件统一识别所有pdf第2页指定区域 取模板截 ...

  9. 【万能工具箱】PDF转word/去水印/编辑+图片处理+OCR识别,60+功能,一个软件搞定!

    PDF转word,PDF去水印,PDF编辑,图片处理,OCR识别,屏幕录制,截图,文字转语音,音频格式转换--在我们日常办公中,这是经常碰到的问题. 问题虽小,但有时候却很折腾人,花几个小时找软件的经 ...

  10. PDF批量识别OCR,Adobe acrobat pro批量识别pdf

    搜索了很久也没有找到批量识别海量pdf文件的方法,结果在adobe的官方找到了"动作" 这个功能. adobe acrobat pro是全世界最好的识别中文的软件,没有之一. 走的 ...

最新文章

  1. SDWebImage使用——一个可管理远程图片加载的类库
  2. 拼多多面试|如何用 Redis 统计独立用户访问量?
  3. HALCON双目三维重建实验
  4. 移相全桥 matlab仿真,MATLAB中的SISOTOOL在数字式移相全桥中的应用
  5. 趣味问题:你能用Reflection.Emit生成这段代码吗?
  6. Winform混合式开发框架的特点总结
  7. linux c之遍历字符串数组
  8. 【转】医学图像之DICOM格式解析
  9. Jsp之我遇到过的中文乱码问题和解决方法
  10. android textview doubleclick,Android的TextView的双击事件监听
  11. 送给程序员:关于性格内向者的10个误解(转)
  12. 【ADNI】数据预处理(6)ADNI_slice_dataloader ||| show image
  13. 毕业设计,微信小程序-购物小程序
  14. [ 网络协议篇 ] IGP 详解之 OSPF 详解(一)--- 基础知识
  15. 大数据基础数据之中国法定节假日API
  16. 【转载】Vue -- 获取点击元素的兄弟元素
  17. 网站使用手机相机_手机如何修改证件照片大小和分辨率
  18. Note For Linux By Jes(7)-学习 shell scripts
  19. AKM项目轶事之Flyback遭遇航班取消
  20. ToString数据如何反序列化

热门文章

  1. 重置win10 恢复原厂设置
  2. vnpy 查询持仓量_Vnpy 中增加TD指标计算及BOLL指标的运行情况
  3. C++ google code style.
  4. ET199加密狗是如何复制
  5. 东芝电视linux系统刷安卓,东芝wt8成功刷入7.1.1
  6. 我的未来式计算机简谱,我的未来式简谱-爱情公寓歌曲-孙世彦曲谱
  7. iPhone 12面容ID解锁设置
  8. 怎样用计算机命令提高网速,老司机教你电脑网速慢怎么办
  9. Highcharts exporting属性实现图表导出为图片、PDF
  10. 如何正确下载安全无毒的局域网、内网即时通讯软件