【方法】 PDF OCR识别
更多代码在 Github
使用 ocrmypdf ,根据官方教程安装。Linux系统(包含MacOS,WSL)会简单一点,Windows复杂一点。
使用方法:直接在命令行执行
ocrmypdf --pages 1 --optimize 0 --output-type none --sidecar output.txt input.pdf -
–pages 1 是仅处理 pdf 的第一页,–optimize 0 禁用页面优化,–output-type none是不输出额外的一个pdf(需要配合最后的 -)
还可以加上 --quiet 不让打印过程
会在本地保存一个 output.txt 里面存有识别的文字。
默认的是英文,可以替换为其他语言
如果想要写入python,注意如果简单加进去会报一个错误 python stdout is connected to a terminal. Please redirect stdout to a file.
下面的程序中已经修复了。
import os
import subprocess
import shlexfile = 'test.pdf'
command = f"ocrmypdf --deskew --rotate-pages --rotate-pages-threshold 5 --output-type none --sidecar ocr_output.txt {file} -"
command_args = shlex.split(command)with open('log', "w") as outfile:subprocess.run(command_args, stdout=outfile)
os.remove('log')
【方法】 PDF OCR识别相关推荐
- PDF/OCR识别提取工具:Readiris Pro 17 for Mac
readiris pro mac破解版是一款专业级别的光学识别OCR软件,可对PDF和OCR等图文内容进行识别提取,能够快速精准的将您的PDF.图像和纸质文档转换为能够编辑的文字.而无需执行所有繁琐的 ...
- html5 ocr图片识别,OCR识别控件LEADTOOLS HTML5案例:整页OCR识别
由于移动设备的处理能力和储存空间限制,在移动设备上执行光学字符识别(OCR)一直以来都是一项较大的挑战.随着LEADTOOLS HTML5的出现,在移动设备上执行光学字符识别(OCR)变成可能.凭借L ...
- Enolsoft PDF Converter with OCR Mac(PDF格式转换及OCR识别软件)
Enolsoft PDF Converter with OCR Mac是一款专为Mac用户所设计的PDF格式转换及OCR识别软件,PDF Converter with OCR Mac特别版支持将PDF ...
- PDF怎么识别提取文字?这个方法轻松提取
随着信息技术的发展,很多小伙伴已经不满足于对PDF文档的简单浏览和阅读.相反,很多时候我们需要将一些PDF文档中的内容提取出来,但是由于PDF不像Word文档这样开放,不能随意编辑提取内容.那么小伙伴 ...
- PDF Converter OCR for Mac(PDF转换器和OCR识别工具)
PDF Converter OCR for Mac是Mac平台上的一款非常实用的PDF转换器和OCR识别工具,PDF Converter OCR Mac激活版能够帮助你进行打字和格式调整,操作非常的简 ...
- Cisdem PDF Converter OCR for Mac(PDF文字识别转换工具)
Cisdem PDF Converter OCR Mac特别版是Mac平台上一款功能非常强大的PDF文字识别转换工具,用户可以通过Cisdem PDF Converter OCR for Mac将任何 ...
- PHP PDF内容识别 抓取信息 方法
PHP PDF内容识别 抓取信息 方法 PDF Parser 使用 PDF Parser 参考:http://www.pdfparser.org/ (注意:composer.json 更新 pdfpa ...
- [软件工具][windows]pdf指定区域OCR识别重命名工具使用教程
首先我们打开软件,界面如下: 如上图,使用非常简单,步骤如下: (1)选择工具-取模板选择一个pdf文件划定自己需要识别的区域,如果你选择第2页指定区域则软件统一识别所有pdf第2页指定区域 取模板截 ...
- 【万能工具箱】PDF转word/去水印/编辑+图片处理+OCR识别,60+功能,一个软件搞定!
PDF转word,PDF去水印,PDF编辑,图片处理,OCR识别,屏幕录制,截图,文字转语音,音频格式转换--在我们日常办公中,这是经常碰到的问题. 问题虽小,但有时候却很折腾人,花几个小时找软件的经 ...
- PDF批量识别OCR,Adobe acrobat pro批量识别pdf
搜索了很久也没有找到批量识别海量pdf文件的方法,结果在adobe的官方找到了"动作" 这个功能. adobe acrobat pro是全世界最好的识别中文的软件,没有之一. 走的 ...
最新文章
- SDWebImage使用——一个可管理远程图片加载的类库
- 拼多多面试|如何用 Redis 统计独立用户访问量?
- HALCON双目三维重建实验
- 移相全桥 matlab仿真,MATLAB中的SISOTOOL在数字式移相全桥中的应用
- 趣味问题:你能用Reflection.Emit生成这段代码吗?
- Winform混合式开发框架的特点总结
- linux c之遍历字符串数组
- 【转】医学图像之DICOM格式解析
- Jsp之我遇到过的中文乱码问题和解决方法
- android textview doubleclick,Android的TextView的双击事件监听
- 送给程序员:关于性格内向者的10个误解(转)
- 【ADNI】数据预处理(6)ADNI_slice_dataloader ||| show image
- 毕业设计,微信小程序-购物小程序
- [ 网络协议篇 ] IGP 详解之 OSPF 详解(一)--- 基础知识
- 大数据基础数据之中国法定节假日API
- 【转载】Vue -- 获取点击元素的兄弟元素
- 网站使用手机相机_手机如何修改证件照片大小和分辨率
- Note For Linux By Jes(7)-学习 shell scripts
- AKM项目轶事之Flyback遭遇航班取消
- ToString数据如何反序列化
热门文章
- 重置win10 恢复原厂设置
- vnpy 查询持仓量_Vnpy 中增加TD指标计算及BOLL指标的运行情况
- C++ google code style.
- ET199加密狗是如何复制
- 东芝电视linux系统刷安卓,东芝wt8成功刷入7.1.1
- 我的未来式计算机简谱,我的未来式简谱-爱情公寓歌曲-孙世彦曲谱
- iPhone 12面容ID解锁设置
- 怎样用计算机命令提高网速,老司机教你电脑网速慢怎么办
- Highcharts exporting属性实现图表导出为图片、PDF
- 如何正确下载安全无毒的局域网、内网即时通讯软件