linux系统下的ocr软件,【工具类】Linux安装OCR识别工具tesseract
1 安装依赖
yum install -y libpng-devel libjpeg-devel libtiff-devel
2 安装leptonica
tar -xzvf leptonica-1.78.0.tar.gz
cd leptonica-1.78.0
./configure
make && make install
安装完成后,配置环境变量
在 /etc/profile文件尾部添加
export LD_LIBRARY_PATH=/usr/local/lib
export LIBLEPT_HEADERSDIR=/usr/local/include
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
或者利用如下命令向 /etc/profile文件添加内容
echo "export LD_LIBRARY_PATH=/usr/local/lib" >> /etc/profile
echo "export LIBLEPT_HEADERSDIR=/usr/local/include" >> /etc/profile
echo "export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig" >> /etc/profile
使配置立即生效
source /etc/profile
3 安装tesseract-ocr
tar -xzf tesseract-4.0.0.tar.gz
cd tesseract-4.0.0
./autogen.sh
./configure
make && make install
ldconfig
下载OCR识别字符集
cd /usr/local/share/tessdata
wget https://hub.fastgit.org/tesseract-ocr/tessdata/raw/master/eng.traineddata
wget https://hub.fastgit.org/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata
wget https://hub.fastgit.org/tesseract-ocr/tessdata/raw/master/chi_sim_vert.traineddata
测试tesseract-ocr4.0是否可用,分别输入tesseract --version、tesseract和tesseract --list-langs,如果能出现如下界面,则说明tesseract安装成功。
tesseract版本
tesseract帮助文档
tesseract已安装语言包
4 安装pytesseract
pip install pytesseract
安装完成后,我们就可以利用python调用tesseract-ocr接口来识别图片了。
import pytesseract
from PIL import Image
img=Image.open('test.png')
print(pytesseract.image_to_string(img,lang='chi_sim'))
image.png
5.可能遇到的错误
5.1.字符集错误
【错误描述】
错误描述如下
[root@localhost nsimtest]# tesseract --list-langs
Error opening data file /usr/local/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
【解决方案】
如果出现该错误,说明在默认的字符集路径中,未找到任何可用的字符集,此时就需要手动下载字符集,可参考安装步骤3来下载字符集。
【错误描述】
错误描述如下
[root@localhost nsimtest]# tesseract --list-langs
Error opening data file /usr/local/share/tessdata/eng.traineddata
Please make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.
Failed loading language 'eng'
Tesseract couldn't load any languages!
List of available languages (5):
chi_sim
chi_sim_vert
chi_tra
chi_tra_vert
eng
【解决方案】
如果出现该错误,说明在默认的字符集路径中,有字符集,但是字符集有问题,笔者出现这个错误是因为直接复制Github上的链接到服务器直接下载的,结果下载下来的字符集都是85k左右,刚开始还未注意到这个问题,浪费较多时间。重新根据安装步骤3来下载字符集即可。
异常字符集
正常字符集
5.2.leptonica错误
【错误描述】
leptonica错误
【解决方案】
出现该错误的原因是安装完leptonica后,未配置环境变量导致的,可安装安装步骤2配置leptonica的环境变量即可解决,如果在安装tesseract的过程中遇到该错误,则需要重新执行安装步骤3
6. 参考
linux系统下的ocr软件,【工具类】Linux安装OCR识别工具tesseract相关推荐
- linux系统下的编程软件,四款linux操作系统总有一款适合你
转为使用Linux可谓是开启了一扇新工具和新技术的大门,它使你对计算环境的体验更为轻松.但是根据你所选择的Linux操作系统的不同,有时你甚至是浏览桌面环境也可能会充满了挑战,因此在客观上还是多少存在 ...
- linux时序图工具,在Linux系统下通过IAuto.deb或星火商店安装IAuto流程图工具
以下将提供针对Linux系统的IAuto.deb包下载,也可以通过星火应用商店来安装IAuto,亲测在Deepin 20系统中可用.其实IAuto流程图软件可以解决Linux没有Visio软件的问题, ...
- linux服务器视频转换,Linux系统下视频转换软件使用方法
Linux系统下视频转换软件使用方法 Linux下的视频转换:mencoder 制作适合在智能手机和PDA上观看的mpeg4视频. Linux上有一个很强大的视频音频转换软件,就是Mplayer自带的 ...
- 61-20210407华为海思Hi3516DV300的linux系统下控制GPIO口(标准linux模式点亮LED灯)
61-20210407华为海思Hi3516DV300的linux系统下控制GPIO口(标准linux模式点亮LED灯) 2021/4/7 15:13 https://xueqiu.com/797071 ...
- kali linux wps 2019 删除_良心推荐!Linux系统下常用办公软件大盘点
今天来给大家来盘点一下, Linux 系统下那些好用的办公软件!如果大家有更好的心水软件,也可以留言和大家分享哦~ WPS 办公套件 优秀的国产办公软件,打开文档迅速,相比 Windows 下的版本, ...
- 良心推荐!Linux系统下常用办公软件大盘点
今天来给大家来盘点一下, Linux 系统下那些好用的办公软件!如果大家有更好的心水软件,也可以留言和大家分享哦~ WPS 办公套件 优秀的国产办公软件,打开文档迅速,相比 Windows 下的版本, ...
- linux系统可以玩星际争霸吧,能在Linux系统下运行Windows软件的Wine
Wine,是一款优秀的Linux系统平台下的模拟器软件,用来将Windows系统下的软件在Linux系统下稳定运行,如何配置请看下文 大家看看下面这幅图图1),你一定会惊奇地问:"哇!这不是 ...
- linux系统下Qt应用程序重启,嵌入式Linux重启QT应用程序的简单办法(基于QT4.8 qws)...
嵌入式Linux重启QT应用程序的简单办法(基于QT4.8 qws) 应用软件一般都有这样的业务需求: 当有新版本的APP,则程序就需要执行更新,更新完毕后(所谓的更新大多就是以覆盖的方式),不需要关 ...
- 在linux系统下忘记了root密码,在linux系统下,忘记了root密码,可以到()模式下修改找回root密码()...
在linux系统下,忘记了root密码,可以到()模式下修改找回root密码() 更多相关问题 某分部工程双代号网络图如下图所示,其作图错误表现为().A.有多个起点节点B.有多个终点节 鉴于资源有限 ...
- linux系统下监控录像软件,Linux安装使用监控软件Collectl的方法
作为Linux系统监控工具,Collectl是款值得推荐的软件,使用Collectl能够及时掌握系统的运行状况,还能像iotop命令一样使用collectl进行智能统计,下面小编就给大家介绍下Coll ...
最新文章
- JavaScript中十种一步拷贝数组的方法
- Linux之时钟中断
- 使用mysql做saas_一种SaaS企业平台数据库系统及其连接方法与流程
- 【模式识别】特征评价和可分性判据实验报告及MATLAB仿真
- 案例:实现在购物车中添加商品和删除购物车中指定商品的功能
- 如何查看服务器数据库型号,如何查看服务器里的数据库
- STM32系列单片机向量表和向量表重新定位
- 怎么用追 MM 来理解 23 种设计模式?
- ubuntu安装锐捷客户端
- FATF发布数字资产反洗钱指南
- 易语言计算机设备获取,易语言获取混音设备名称
- (原创)二十一天定律
- 投影矩阵(投影变换)解惑
- refactoring的思考
- AD10中创建材料清单(BOM表)
- win8下去除QQ聊天窗口的广告
- 设计模式GOF23之-------------------结构型模式(适配器模式、代理模式、桥接模式、装饰模式、组合模式、外观模式、享元模式)
- python No handlers could be found for logger错误的解决
- 前端项目,看我在这里管理全局后台初始化的数据,就问你飒不飒?
- NASA完成审查 下周三宇航员搭SpaceX载人龙飞船升空
热门文章
- excel求和为什么是0_90后小姐姐面试想拿7K,老板说:连这个求和公式都看不懂,只值3K!【Excel教程】...
- RH124(8.0)-介绍及第一章课后习题
- php连接impala,Impala ODBC/JDBC性能不佳 - 与NN相比,远程服务器的行提取速度很慢
- Python 子类继承多个父类属性
- LightningChart出现闪电图全黑问题应该如何解决
- 人脸检测需要的xml文件下载
- 微信小程序授权登录报错encryted_data或iv不合法,前端坑^-^~~
- mac safari浏览器打不开网页肿么办
- 2014中学教师资格证视频下载 教育学 教育心理学 全真模拟
- android 图片叠加效果