JAVA文字识别tess4j使用
Tesseract介绍
Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文)。 Tesseract最初由HP公司开发,后来由Google维护,目前发布在Googel Project上。
需要提前安装java运行环境。
1.引入tess4j.jar包
<dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>3.4.0</version></dependency>
2.代码案例
public void OCR1(){File imageFile = new File("C:\\1.png");ITesseract instance = new Tesseract(); // JNA Interface Mapping//如果采用的不是使用包默认的testdata建议加上一下一行代码:
// instance.setDatapath("D:\\soft\\OCR\\Tesseract-OCR\\tessdata");// ITesseract instance = new Tesseract1(); // JNA Direct Mappinstance.setLanguage("chi_sim");//添加中文字库try {String result = instance.doOCR(imageFile);System.out.println(result);long startTime = System.currentTimeMillis();long endTime = System.currentTimeMillis();System.out.println("Time is:" + (endTime - startTime) + " 毫秒");} catch (TesseractException e) {e.printStackTrace();}}
3.图片效果
识别准确率不是很高,需要针对场景自行训练字库
注意:
Java Runtime Environment, JNA, and JAI-ImageIO are required. Apache Maven and JUnit are used for program building and unit testing. The Tesseract DLLs were built with VS2015 and therefore depend on the Visual C++ 2015 Redistributable Packages.
需要 Java 运行时环境、 JNA和JAI-ImageIO 。Apache Maven和 JUnit用于程序构建和单元测试。Tesseract DLL 是用 VS2015 构建的,因此依赖于 Visual C++ 2015 Redistributable Packages。
编译jar包时如果报错则需要安装Visual C++ 2015 Redistributable Packages。不同版本的jar包根据具体的安装链接库。可以将jar解压查看其中的readme.html文件
Microsoft Visual C++ 2013 Redistributable安装地址:https://download.csdn.net/download/weixin_47142014/25898225?spm=1001.2014.3001.5503
Visual C++ 2015 Redistributable Packages安装地址:https://download.csdn.net/download/weixin_47142014/25897406?spm=1001.2014.3001.5503
JAVA文字识别tess4j使用相关推荐
- java文字识别技术(亲测,识别率很高)
java文字识别程序的关键是寻找一个可以调用的OCR引擎.tesseract-ocr就是一个这样的OCR引擎,在1985年到1995年由HP实验室开发,现在在Google.tesseract-ocr ...
- [文字识别-tess4j]java文字识别之tess4j
1.tess4j使用 先说结论,不好用.文字识别还是需要训练. 无法做到单图多语言识别 tess4j依赖语言包文件做OCR,语言选择需要在有语言包文件时在代码中 setLanguage,默认eng , ...
- Java的开源文字识别Tess4j与Tesseract-OCR
提示:本文中部分内容图片节选自互联网,无意冒犯.如有侵权请私信联系作者即可删除.更改. 原因 由于项目需要,要求项目可以识别简单的图片,客户不想使用付费的大厂接口,于是我在查看资料后决定使用Tesse ...
- Java Maven Tomcat使用Tesseract-OCR文字识别(Tess4j)
由于项目中需要用到简单的图片识别技术,所以就选择了开源的Tesseract-OCR.可是本地在使用官网demo能正常运行,但是部署到tomcat后,就报java.lang.Error: Invalid ...
- Java图片识别技术
一.技术介绍 OCR(Optical Character Recognition):光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗.亮的模式确定其形状,然后用字符识别 ...
- java使用tess4j实现图片上的文字识别
最近在研究tesseract实现文字识别,废话不多说,研究新技术,首先要百度.百度一下相关的文章还不少,基本都是这样的 代码很简单,也没有什么注意事项,然后我建了测试项目,抄了代码,然后...... ...
- java图片片识别中文_Java中使用tess4J进行图片文字识别(支持中文)
Java 版本:建议JDK1.8 使用的软件是tesseractocr3.02,3以后的版本才支持中文, 这个软件需要安装在本地电脑中,安装的过程中全部都按照默认进行安装(以便于Java直接调用) 代 ...
- Java中使用tess4J进行图片文字识别(支持中文)
Java 版本:建议JDK1.8 使用的软件是tesseractocr3.02,3以后的版本才支持中文, 这个软件需要安装在本地电脑中,安装的过程中全部都按照默认进行安装(以便于Java直接调用) ...
- 图像文字识别(二):java调用tesseract 识别图片文字
在JAVA中调用tesseract识别图片的文字内容,主要有两种方式:cmd方式,tess4j方式.在这篇博客中,主要记录一下通过cmd命令行的方式.cmd方式,就是通过在java中调用命令行,来 ...
最新文章
- R语言把dataframe中的NA值替换为0
- python getchar_system(“pause”)和getchar()
- 自制“低奢内”CSS3注册表单,包含JS验证哦。请别嫌弃,好吗?。
- tnsnames.ora配置未生效_1分钟了解网络交换机的6种命令配置模式
- 避坑 | 早跟你说了不要写 hardcode!
- Win7 64 NVMe驱动安装
- 微型计算机控制技术 潘新民 ppt,微型计算机控制技术期末复习参考-潘新民.ppt...
- 用Python做一个变态版的《超级玛丽》游戏
- 传冯德伦获邀进军好莱坞拍片 希望舒淇加盟
- 三升序列20210314-20210413
- Node.js 网站内容抓取及Mysql存取Demo
- MongoDB循序渐进之[入门]
- Deep Anomaly Detection with Deviation Networks 论文笔记
- 首师大附中科创教育平台 我的刷题记录 0313 50111117海岛帝国:诞辰之日
- SMT 常用术语解释
- 如何选择负载均衡设备?
- 英语音频翻译软件哪个好?有什么能把英语音频翻译出来的软件?
- 脉冲函数、阶跃函数和斜坡函数
- Cadence allegro移动、旋转、镜像器件
- python爬取上海期货交易所数据