最近研究百度指数的采集,需要用到ocr,在网上找了很多材料,发现tesseract比较容易上手,而且可以自己训练,最重要的是,可以通过tess4j实现Java的JNA调用,如此一来,不但性能有保障,而且还可以跨平台。于是就在我的Windows机器上面创建了工程,参考着百度指数采集这篇博文的思路,写了代码,自己训练了数据样本,实现了百度指数的采集,感觉很开心。于是就想往Linux上面部署试试。结果遇到了问题。

首先,tess4j默认带有win32-x86-64 和win32-86 两个文件夹分别存放着64位和32位动态链接库,但是唯独没有Linux的动态链接库。于是我习惯性地从网上找相关材料,找了很久,只找到tess4j linux需要的so文件 - 下载频道 - CSDN.NET,以及

也安装了Tesseract环境,却出现了glibc版本不兼容,缺少libjpg.so这样的错误。我尝试一一解决这些问题(包括安装各种依赖包、安装和升级gcc、glibc),但是坑越挖越大,最后,发现这篇博文

1、安装GCC开发环境,从而支持后续程序的编译安装:

yum groupinstall "Development Tools"

2、安装tesseract所需的依赖库

yum -y install libjpeg* libpng* freetype* gd* giflib* libtiff* zlib*

3、安装tesseract和leptonica

注意: 安装完成后,将/usr/local/lib/ 目录下的so文件拷贝到 /usr/lib64/

cp /usr/local/lib/*.so.* /usr/lib64/

4、测试和验证

通过上述3步,就完成了tesseract所需的环境配置,你的tess4j相关的应用,就可以在本Linux系统上面溜溜的运行了。

百度指数的原始图片数据,百度对数据做了打乱和混淆处理:

百度指数经过拼接后还原的图片数据(其中图片文件名即为tess4j识别的结果):

完美!

非常感谢上述博主的无私分享,也希望转载本文时注明出处!

java ocr linux_linux系统如何使用tess4j(java)进行ocr图片文字识别相关推荐

  1. 【图片识别】java 图片文字识别 ocr (转)

    http://www.cnblogs.com/inkflower/p/6642264.html 最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为 ...

  2. Java调用百度OCR文字识别API实现图片文字识别软件

    java_baidu_ocr Java调用百度OCR文字识别API实现图片文字识别软件 这是一款小巧方便,强大的文字识别软件,由Java编写,配上了窗口界面 调用了百度ocr文字识别API 识别精度高 ...

  3. 阿里云 OCR 图片文字识别接口使用案例(java)

    阿里云 OCR 图片文字识别接口使用案例(java) 阿里云官方接口文档 前期需要完成 购买阿里云服务 购买服务 可以购买测试服务.每个阿里云用户可以购买1次免费的500次接口请求进行测试 购买完成之 ...

  4. java ocr api_Java调用百度OCR文字识别API实现图片文字识别软件

    Java调用百度OCR文字识别API实现图片文字识别软件 原创isinple 发布于2019-01-06 13:35:59 阅读数 1296 收藏 展开 java_baidu_ocr Java调用百度 ...

  5. Java 使用开源类库 Tesseract 实现图片文字识别

    Tesseract-OCR支持中文识别,并且开源和提供全套的训练工具,是快速低成本开发的首选.Tess4J则是Tesseract在Java上的应用.Tess4J的官网地址为:http://tess4j ...

  6. python图像识别系统_Python图像处理之图片文字识别功能(OCR)

    OCR与Tesseract介绍 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同的几 ...

  7. python批量识别图片中文字_python实现中文图片文字识别--OCR about chinese text--tesseract...

    0.我的环境: win7 32bits python 3.5 pycharm 5.0 1.相关库 安装pillow: pip install pillow 安装tesseract: 自带了英文语言包, ...

  8. 吴恩达《机器学习》第十八章:图片文字识别OCR

    文章目录 十八.应用实例:图片文字识别OCR 18.1 问题描述和流程图 18.2 滑动窗口 18.3 获取大量数据和人工数据 18.4 上限分析:下一步工作 十八.应用实例:图片文字识别OCR 18 ...

  9. Android 图片文字识别DEMO(基于百度OCR)

    前言   OCR 是 Optical Character Recognition 的缩写,翻译为光学字符识别,指的是针对印刷体字符,采用光学的方式将纸质文档中的文字转换成为黑白点阵的图像文件,通过识别 ...

最新文章

  1. 共建网络安全 共享网络文明 2015福建网络安全日开幕在即
  2. 软件工程综合实践阶段小结(2)
  3. mybaits十五:使用trim自定义字符串的截取规则
  4. 论文笔记:ShuffleNet v2
  5. sevlet表单处理无法相应问题及web.xml配置.
  6. boost::fusion::push_front用法的测试程序
  7. 实现iOS App的在线安装
  8. linux编译c 优化,Linux编译选项
  9. 匹配yyyy-mm-dd日期格式的的正则表达式
  10. 4020-基于链地址法的散列表的插入(C++,附思路以及头插法,尾插法两种代码)
  11. mybatis plus 日志打印_Mybatis-plus常用API全套教程,看完没有不懂的
  12. 软件启动时关于启动兼容问题汇总
  13. mysql多条件模糊查询语句_实现多条件模糊查询SQL语句
  14. “变速齿轮”研究手记
  15. 不用安装Wincap程序实现ARP广播包的发送和接收
  16. 偏差(bias)和方差(variance)及其与K折交叉验证的关系
  17. VLOOKUP函数常用套路大全
  18. 为什么我会性格懦弱?如何改变懦弱的性格?
  19. 【问】SQL 2012中如何还原数据库?
  20. lol无限火力服务器瘫痪,LOL无限火力:玩家找到秒进“BUG”,现在还未修复赶紧去...

热门文章

  1. sql慢查询问题排查
  2. java 枚举的实现原理
  3. flask如何连接mysql数据库_flask连接mysql数据库
  4. Springboot与Ajax整合练习?
  5. Docker镜像常用命令(三)
  6. listdir在python3_Python3 os.listdir() 方法
  7. 连点器安卓手机版_鼠大侠手机版下载-鼠大侠鼠标连点器手机版下载 v1.4 安卓版...
  8. MySQL 函数 —— GROUP_CONCAT
  9. 第19章,运维自动化之系统安装
  10. Excel教程一:将Excel中一列转换成多行