Tesseract-Ocr介绍

需要一个简单的识别对应一类图片中的金额，发现这个实现和应用非常简单，就此记录一下。

Tesseract 是一种开源文本识别 (OCR)引擎，在Apache 2.0 许可下可用。.

Tesseract 可以通过命令行直接使用，或者（对于程序员）通过使用API从图像中提取打印文本。它支持多种语言。Tesseract 包括外部工具、包装器和培训项目。

官网：https://github.com/tesseract-ocr
训练工具：https://github.com/tesseract-ocr/tesseract/wiki/AddOns
训练数据仓库：

https://github.com/tesseract-ocr/tessdata
https://github.com/tesseract-ocr/tessdata_best
https://github.com/tesseract-ocr/tessdata_fast

java调用

maven

     <dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>4.1.1</version></dependency>

下载训练库

下载训练库及配置

直接将对应源码中的tessdata文件夹给加入工程根目录

调用api

public static String readImgNum(String url) {ITesseract instance = new Tesseract();// 如果未将tessdata放在根目录下需要指定绝对路径// instance.setDatapath("the absolute path of tessdata");// 如果需要识别英文之外的语种，需要指定识别语种，并且需要将对应的语言包放进项目中instance.setDatapath("tessdata");instance.setLanguage("eng");
//      instance.setLanguage("chi_sim");//chi_sim代表中文库// 指定识别图片String ocrResult = "";try {BufferedImage image = ImageIO.read(new URL("https:" + url));ocrResult = instance.doOCR(image);} catch (Exception e) {e.printStackTrace();}return ocrResult;}

eng库源码中带的识别不了数字，也是很尴尬，找这个问题也是找了挺久。

可以直接使用网上的url，或者本地的文件都行

异常解决

read_params_file: parameter not found: enable_new_segsearch

直接下载的eng库是有问题的，还是需要去git上重新下载。

java.lang.Error: Invalid memory access

对应的data库没有找到，检查对应的库地址

附录

整个工程的资源包下载
中文库
英文库

Tesseract-Ocr图片内容识别相关推荐

Tesseract Ocr文字识别实战（新版本，扩展手写文字识别）
目录 1.Tesseract Ocr文字识别 1.1 运行环境 1.2 python模块 1.3 配置tesseract运行文件 1.4 代码识别 2. 手写汉字识别 2.1 下载库 2.2 代码 1 ...
iOS实践：OpenCV、Tesseract OCR结合识别图片中文字
前言: 前天领导问,类似扫描文件识别图中文字的功能如何实现,找一下第三方的开源库,尝试下,于是有了这篇文章: 分析: 识别场景中,识别身份证信息当属典型,查阅了几篇文章,后续的实现中也多导入了其代码: ...
Tesseract Ocr文字识别
Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一.2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于G ...
关于Tesseract OCR 中文训练识别小试（java调用Tess4j）
2017.9.20日小结最近接到是关于消防系统协议解析仪器的项目,目的是从协议解析仪器获取有效数据,并解析数据(目的是不希望消防主机的数据信息再传给主机厂商而是最后能给自己收集调用).由于各个消防器 ...
手写数字识别实现课设cnsd博客_使用Tesseract轻松实现OCR字体识别
本教程翻译自PyImageSearch英文原文实现效果今天的博客文章是安装和是用Tesseract library 进行OCR识别的两章系列中的第一部分. OCR可以自动对手写或者印刷字体进行类型 ...
Windows下使用Tesseract进行OCR文字识别
Windows下使用Tesseract进行OCR文字识别 Tesseract最初由惠普实验室支持,用于电子版文字识别,1996年被移植到Windows上,1998年进行了C++化,在2005年Tess ...
android自动识别文字,Android文字识别tesseract ocr -训练样本库识别字库
目录安装tesseract ocr引擎和jTessBoxEditor 安装jTessBoxEditor 开始制作box 准备好训练的图片将图片转为tif格式的样本图片合并样本图片修改box文件 ...
Tesseract OCR与文本智能识别
博主简介博主是一名大二学生,主攻人工智能研究.感谢让我们在CSDN相遇,博主致力于在这里分享关于人工智能,c++,Python,爬虫等方面知识的分享. 如果有需要的小伙伴可以关注博主,博主会继续更新 ...
用Tesseract OCR识别图片文字
用tesseract ocr识别图片中的文字准备 OCR与Tesseract介绍将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以 ...
Android百度文字识别bitmap,Android集成Tesseract OCR实现图片文字识别
最近项目需要做图片上的文字识别,在网上找了很久,这方面的知识挺多的,但是很杂.将最近学习到的东西整理一下,仅供参考. 1.Tesseract OCR 介绍我就不说了,自行百度,或者访问:https:/ ...

Tesseract-Ocr图片内容识别