java ocr linux_linux系统如何使用tess4j(java)进行ocr图片文字识别
最近研究百度指数的采集,需要用到ocr,在网上找了很多材料,发现tesseract比较容易上手,而且可以自己训练,最重要的是,可以通过tess4j实现Java的JNA调用,如此一来,不但性能有保障,而且还可以跨平台。于是就在我的Windows机器上面创建了工程,参考着百度指数采集这篇博文的思路,写了代码,自己训练了数据样本,实现了百度指数的采集,感觉很开心。于是就想往Linux上面部署试试。结果遇到了问题。
首先,tess4j默认带有win32-x86-64 和win32-86 两个文件夹分别存放着64位和32位动态链接库,但是唯独没有Linux的动态链接库。于是我习惯性地从网上找相关材料,找了很久,只找到tess4j linux需要的so文件 - 下载频道 - CSDN.NET,以及
也安装了Tesseract环境,却出现了glibc版本不兼容,缺少libjpg.so这样的错误。我尝试一一解决这些问题(包括安装各种依赖包、安装和升级gcc、glibc),但是坑越挖越大,最后,发现这篇博文
1、安装GCC开发环境,从而支持后续程序的编译安装:
yum groupinstall "Development Tools"
2、安装tesseract所需的依赖库
yum -y install libjpeg* libpng* freetype* gd* giflib* libtiff* zlib*
3、安装tesseract和leptonica
注意: 安装完成后,将/usr/local/lib/ 目录下的so文件拷贝到 /usr/lib64/
cp /usr/local/lib/*.so.* /usr/lib64/
4、测试和验证
通过上述3步,就完成了tesseract所需的环境配置,你的tess4j相关的应用,就可以在本Linux系统上面溜溜的运行了。
百度指数的原始图片数据,百度对数据做了打乱和混淆处理:
百度指数经过拼接后还原的图片数据(其中图片文件名即为tess4j识别的结果):
完美!
非常感谢上述博主的无私分享,也希望转载本文时注明出处!
java ocr linux_linux系统如何使用tess4j(java)进行ocr图片文字识别相关推荐
- 【图片识别】java 图片文字识别 ocr (转)
http://www.cnblogs.com/inkflower/p/6642264.html 最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为 ...
- Java调用百度OCR文字识别API实现图片文字识别软件
java_baidu_ocr Java调用百度OCR文字识别API实现图片文字识别软件 这是一款小巧方便,强大的文字识别软件,由Java编写,配上了窗口界面 调用了百度ocr文字识别API 识别精度高 ...
- 阿里云 OCR 图片文字识别接口使用案例(java)
阿里云 OCR 图片文字识别接口使用案例(java) 阿里云官方接口文档 前期需要完成 购买阿里云服务 购买服务 可以购买测试服务.每个阿里云用户可以购买1次免费的500次接口请求进行测试 购买完成之 ...
- java ocr api_Java调用百度OCR文字识别API实现图片文字识别软件
Java调用百度OCR文字识别API实现图片文字识别软件 原创isinple 发布于2019-01-06 13:35:59 阅读数 1296 收藏 展开 java_baidu_ocr Java调用百度 ...
- Java 使用开源类库 Tesseract 实现图片文字识别
Tesseract-OCR支持中文识别,并且开源和提供全套的训练工具,是快速低成本开发的首选.Tess4J则是Tesseract在Java上的应用.Tess4J的官网地址为:http://tess4j ...
- python图像识别系统_Python图像处理之图片文字识别功能(OCR)
OCR与Tesseract介绍 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同的几 ...
- python批量识别图片中文字_python实现中文图片文字识别--OCR about chinese text--tesseract...
0.我的环境: win7 32bits python 3.5 pycharm 5.0 1.相关库 安装pillow: pip install pillow 安装tesseract: 自带了英文语言包, ...
- 吴恩达《机器学习》第十八章:图片文字识别OCR
文章目录 十八.应用实例:图片文字识别OCR 18.1 问题描述和流程图 18.2 滑动窗口 18.3 获取大量数据和人工数据 18.4 上限分析:下一步工作 十八.应用实例:图片文字识别OCR 18 ...
- Android 图片文字识别DEMO(基于百度OCR)
前言 OCR 是 Optical Character Recognition 的缩写,翻译为光学字符识别,指的是针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,通过识别 ...
最新文章
- 共建网络安全 共享网络文明 2015福建网络安全日开幕在即
- 软件工程综合实践阶段小结(2)
- mybaits十五:使用trim自定义字符串的截取规则
- 论文笔记:ShuffleNet v2
- sevlet表单处理无法相应问题及web.xml配置.
- boost::fusion::push_front用法的测试程序
- 实现iOS App的在线安装
- linux编译c 优化,Linux编译选项
- 匹配yyyy-mm-dd日期格式的的正则表达式
- 4020-基于链地址法的散列表的插入(C++,附思路以及头插法,尾插法两种代码)
- mybatis plus 日志打印_Mybatis-plus常用API全套教程,看完没有不懂的
- 软件启动时关于启动兼容问题汇总
- mysql多条件模糊查询语句_实现多条件模糊查询SQL语句
- “变速齿轮”研究手记
- 不用安装Wincap程序实现ARP广播包的发送和接收
- 偏差(bias)和方差(variance)及其与K折交叉验证的关系
- VLOOKUP函数常用套路大全
- 为什么我会性格懦弱?如何改变懦弱的性格?
- 【问】SQL 2012中如何还原数据库?
- lol无限火力服务器瘫痪,LOL无限火力:玩家找到秒进“BUG”,现在还未修复赶紧去...
热门文章
- sql慢查询问题排查
- java 枚举的实现原理
- flask如何连接mysql数据库_flask连接mysql数据库
- Springboot与Ajax整合练习?
- Docker镜像常用命令(三)
- listdir在python3_Python3 os.listdir() 方法
- 连点器安卓手机版_鼠大侠手机版下载-鼠大侠鼠标连点器手机版下载 v1.4 安卓版...
- MySQL 函数 —— GROUP_CONCAT
- 第19章,运维自动化之系统安装
- Excel教程一:将Excel中一列转换成多行