Tesseract-Ocr介绍

需要一个简单的识别对应一类图片中的金额,发现这个实现和应用非常简单,就此记录一下。

Tesseract 是一种开源文本识别 (OCR)引擎,在Apache 2.0 许可下可用。.

Tesseract 可以通过命令行直接使用,或者(对于程序员)通过使用API从图像中提取打印文本。它支持多种语言。Tesseract 包括外部工具、包装器和培训项目。

官网:https://github.com/tesseract-ocr
训练工具:https://github.com/tesseract-ocr/tesseract/wiki/AddOns
训练数据仓库:

https://github.com/tesseract-ocr/tessdata
https://github.com/tesseract-ocr/tessdata_best
https://github.com/tesseract-ocr/tessdata_fast

java调用

maven

     <dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>4.1.1</version></dependency>

下载训练库

下载训练库及配置

直接将对应源码中的tessdata文件夹给加入工程根目录

调用api

public static String readImgNum(String url) {ITesseract instance = new Tesseract();// 如果未将tessdata放在根目录下需要指定绝对路径// instance.setDatapath("the absolute path of tessdata");// 如果需要识别英文之外的语种,需要指定识别语种,并且需要将对应的语言包放进项目中instance.setDatapath("tessdata");instance.setLanguage("eng");
//      instance.setLanguage("chi_sim");//chi_sim代表中文库// 指定识别图片String ocrResult = "";try {BufferedImage image = ImageIO.read(new URL("https:" + url));ocrResult = instance.doOCR(image);} catch (Exception e) {e.printStackTrace();}return ocrResult;}

eng库源码中带的识别不了数字,也是很尴尬,找这个问题也是找了挺久。

可以直接使用网上的url,或者本地的文件都行

异常解决

  • read_params_file: parameter not found: enable_new_segsearch

直接下载的eng库是有问题的,还是需要去git上重新下载。

  • java.lang.Error: Invalid memory access

对应的data库没有找到,检查对应的库地址

附录

整个工程的资源包下载
中文库
英文库

Tesseract-Ocr图片内容识别相关推荐

  1. Tesseract Ocr文字识别实战(新版本,扩展手写文字识别)

    目录 1.Tesseract Ocr文字识别 1.1 运行环境 1.2 python模块 1.3 配置tesseract运行文件 1.4 代码识别 2. 手写汉字识别 2.1 下载库 2.2 代码 1 ...

  2. iOS实践:OpenCV、Tesseract OCR结合 识别图片中文字

    前言: 前天领导问,类似扫描文件识别图中文字的功能如何实现,找一下第三方的开源库,尝试下,于是有了这篇文章: 分析: 识别场景中,识别身份证信息当属典型,查阅了几篇文章,后续的实现中也多导入了其代码: ...

  3. Tesseract Ocr文字识别

    Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一.2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于G ...

  4. 关于Tesseract OCR 中文训练识别小试(java调用Tess4j)

    2017.9.20日小结 最近接到是关于消防系统协议解析仪器的项目,目的是从协议解析仪器获取有效数据,并解析数据(目的是不希望消防主机的数据信息再传给主机厂商而是最后能给自己收集调用).由于各个消防器 ...

  5. 手写数字识别实现课设cnsd博客_使用Tesseract轻松实现OCR字体识别

    本教程翻译自PyImageSearch英文原文 实现效果 今天的博客文章是安装和是用Tesseract library 进行OCR识别的两章系列中的第一部分. OCR可以自动对手写或者印刷字体进行类型 ...

  6. Windows下使用Tesseract进行OCR文字识别

    Windows下使用Tesseract进行OCR文字识别 Tesseract最初由惠普实验室支持,用于电子版文字识别,1996年被移植到Windows上,1998年进行了C++化,在2005年Tess ...

  7. android自动识别文字,Android文字识别tesseract ocr -训练样本库 识别字库

    目录 安装tesseract ocr引擎和jTessBoxEditor 安装jTessBoxEditor 开始制作box 准备好训练的图片 将图片转为tif格式的样本图片 合并样本图片 修改box文件 ...

  8. Tesseract OCR与文本智能识别

    博主简介 博主是一名大二学生,主攻人工智能研究.感谢让我们在CSDN相遇,博主致力于在这里分享关于人工智能,c++,Python,爬虫等方面知识的分享. 如果有需要的小伙伴可以关注博主,博主会继续更新 ...

  9. 用Tesseract OCR识别图片文字

    用tesseract ocr识别图片中的文字  准备 OCR与Tesseract介绍 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以 ...

  10. Android百度文字识别bitmap,Android集成Tesseract OCR实现图片文字识别

    最近项目需要做图片上的文字识别,在网上找了很久,这方面的知识挺多的,但是很杂.将最近学习到的东西整理一下,仅供参考. 1.Tesseract OCR 介绍我就不说了,自行百度,或者访问:https:/ ...

最新文章

  1. MySQL:讨人喜欢的 MySQL replace into 用法(insert into 的增强版)
  2. 使用Lucene分词
  3. echarts实时更新数据_虎牙为S10拼了8.0年度更新!随时回放实时数据,还能养柴犬...
  4. 图像处理理论(八)——Meanshift, Camshift, Optical flow
  5. js里面拼接代码和使用ModelAndView
  6. 国家网信办:所有网站应对传播内容承担法律责任
  7. 机器学习7/100天-K近邻算法
  8. JavaSE基础——Map集合、 Collections(集合工具类)
  9. Syncthing:开源 P2P 文件同步工具
  10. 温习古文之生于忧患,死于安乐
  11. 中国家庭收入调查(CHIP)数据88-13年
  12. javaSE探赜索隐四<数组>
  13. CAD偏移曲线(网页版)
  14. python项目练习四:新闻聚合
  15. linux配置yum源
  16. Proficy Historian介绍
  17. ml 系统_需要保护您的ml系统的5个原因
  18. TensorFlow基础之模型建立与训练:线性回归、MLP多层感知机、卷积神经网络
  19. alipay 证书 java_alipay-sdk-java
  20. 15分钟看完:悉尼科技大学入选 CVPR 2021 的 9 篇论文,都研究什么?

热门文章

  1. Unity 接入百度AI - 植物识别
  2. 怎么删除html下面多余的空白页,word怎么删除空白页面(word删掉多余空白页方法)...
  3. 我的世界服务器神秘修改节点,我的世界神秘节点指令 | 手游网游页游攻略大全...
  4. 转账到支付宝账户接口常见问题
  5. 身份认证技术基础知识
  6. Android Studio实现内容丰富的旅游App
  7. 开店选址分析(转自:https://www.sohu.com/a/228415364_167028)
  8. 【群晖nas】阿里域名DDNS 配置外网访问(华硕AC68U路由端口映射)
  9. Celery 分发任务
  10. 火遍抖音的3D旋转特效