Tesseract介绍
Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文)。 Tesseract最初由HP公司开发,后来由Google维护,目前发布在Googel Project上。

需要提前安装java运行环境。

1.引入tess4j.jar包

       <dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>3.4.0</version></dependency>

2.代码案例

public  void OCR1(){File imageFile = new File("C:\\1.png");ITesseract instance = new Tesseract();  // JNA Interface Mapping//如果采用的不是使用包默认的testdata建议加上一下一行代码:
//        instance.setDatapath("D:\\soft\\OCR\\Tesseract-OCR\\tessdata");//         ITesseract instance = new Tesseract1(); // JNA Direct Mappinstance.setLanguage("chi_sim");//添加中文字库try {String result = instance.doOCR(imageFile);System.out.println(result);long startTime = System.currentTimeMillis();long endTime = System.currentTimeMillis();System.out.println("Time is:" + (endTime - startTime) + " 毫秒");} catch (TesseractException e) {e.printStackTrace();}}

3.图片效果



识别准确率不是很高,需要针对场景自行训练字库
注意:

Java Runtime Environment, JNA, and JAI-ImageIO are required. Apache Maven and JUnit are used for program building and unit testing. The Tesseract DLLs were built with VS2015 and therefore depend on the Visual C++ 2015 Redistributable Packages.
需要 Java 运行时环境、 JNA和JAI-ImageIO 。Apache Maven和 JUnit用于程序构建和单元测试。Tesseract DLL 是用 VS2015 构建的,因此依赖于 Visual C++ 2015 Redistributable Packages。

编译jar包时如果报错则需要安装Visual C++ 2015 Redistributable Packages。不同版本的jar包根据具体的安装链接库。可以将jar解压查看其中的readme.html文件


Microsoft Visual C++ 2013 Redistributable安装地址:https://download.csdn.net/download/weixin_47142014/25898225?spm=1001.2014.3001.5503
Visual C++ 2015 Redistributable Packages安装地址:https://download.csdn.net/download/weixin_47142014/25897406?spm=1001.2014.3001.5503

JAVA文字识别tess4j使用相关推荐

  1. java文字识别技术(亲测,识别率很高)

    java文字识别程序的关键是寻找一个可以调用的OCR引擎.tesseract-ocr就是一个这样的OCR引擎,在1985年到1995年由HP实验室开发,现在在Google.tesseract-ocr ...

  2. [文字识别-tess4j]java文字识别之tess4j

    1.tess4j使用 先说结论,不好用.文字识别还是需要训练. 无法做到单图多语言识别 tess4j依赖语言包文件做OCR,语言选择需要在有语言包文件时在代码中 setLanguage,默认eng , ...

  3. Java的开源文字识别Tess4j与Tesseract-OCR

    提示:本文中部分内容图片节选自互联网,无意冒犯.如有侵权请私信联系作者即可删除.更改. 原因 由于项目需要,要求项目可以识别简单的图片,客户不想使用付费的大厂接口,于是我在查看资料后决定使用Tesse ...

  4. Java Maven Tomcat使用Tesseract-OCR文字识别(Tess4j)

    由于项目中需要用到简单的图片识别技术,所以就选择了开源的Tesseract-OCR.可是本地在使用官网demo能正常运行,但是部署到tomcat后,就报java.lang.Error: Invalid ...

  5. Java图片识别技术

    一.技术介绍 OCR(Optical Character Recognition):光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别 ...

  6. java使用tess4j实现图片上的文字识别

    最近在研究tesseract实现文字识别,废话不多说,研究新技术,首先要百度.百度一下相关的文章还不少,基本都是这样的 代码很简单,也没有什么注意事项,然后我建了测试项目,抄了代码,然后...... ...

  7. java图片片识别中文_Java中使用tess4J进行图片文字识别(支持中文)

    Java 版本:建议JDK1.8 使用的软件是tesseractocr3.02,3以后的版本才支持中文, 这个软件需要安装在本地电脑中,安装的过程中全部都按照默认进行安装(以便于Java直接调用) 代 ...

  8. Java中使用tess4J进行图片文字识别(支持中文)

    Java 版本:建议JDK1.8  使用的软件是tesseractocr3.02,3以后的版本才支持中文, 这个软件需要安装在本地电脑中,安装的过程中全部都按照默认进行安装(以便于Java直接调用) ...

  9. 图像文字识别(二):java调用tesseract 识别图片文字

      在JAVA中调用tesseract识别图片的文字内容,主要有两种方式:cmd方式,tess4j方式.在这篇博客中,主要记录一下通过cmd命令行的方式.cmd方式,就是通过在java中调用命令行,来 ...

最新文章

  1. R语言把dataframe中的NA值替换为0
  2. python getchar_system(“pause”)和getchar()
  3. 自制“低奢内”CSS3注册表单,包含JS验证哦。请别嫌弃,好吗?。
  4. tnsnames.ora配置未生效_1分钟了解网络交换机的6种命令配置模式
  5. 避坑 | 早跟你说了不要写 hardcode!
  6. Win7 64 NVMe驱动安装
  7. 微型计算机控制技术 潘新民 ppt,微型计算机控制技术期末复习参考-潘新民.ppt...
  8. 用Python做一个变态版的《超级玛丽》游戏
  9. 传冯德伦获邀进军好莱坞拍片 希望舒淇加盟
  10. 三升序列20210314-20210413
  11. Node.js 网站内容抓取及Mysql存取Demo
  12. MongoDB循序渐进之[入门]
  13. Deep Anomaly Detection with Deviation Networks 论文笔记
  14. 首师大附中科创教育平台 我的刷题记录 0313 50111117海岛帝国:诞辰之日
  15. SMT 常用术语解释
  16. 如何选择负载均衡设备?
  17. 英语音频翻译软件哪个好?有什么能把英语音频翻译出来的软件?
  18. 脉冲函数、阶跃函数和斜坡函数
  19. Cadence allegro移动、旋转、镜像器件
  20. python爬取上海期货交易所数据

热门文章

  1. VBA如何遍历文件夹下面的所有文件
  2. B站数据解读「回形针」
  3. MySQL存储过程的IN / OUT / INOUT详解
  4. IPFS未来替代不了HPPT? FIL币不是黄金也将会是数字白银?
  5. spring cloud gateway routes加载顺序的研究
  6. router、routes、route的区别
  7. 招人不易留人更难——创业团队要闯哪些关?
  8. C++11 in Qt
  9. 涨姿势:10 大主宰世界的牛逼算法!
  10. Jquery添加与移除元素