Java ORC图片识别
Java ORC图片识别
背景
最近公司需要将一批登记表的图片,手动更名为编码 .jpg,而这个编码号可以在登记表中找到。于是,上网调研,发现具有现成简单的技术来做图片识别。
使用技术
java + tess4j + Tesseract-OCR
gitee 代码地址
实现步骤
步骤1:
首先安装 Tesseract-OCR 客户端。
客户端下载地址:https://digi.bib.uni-mannheim.de/tesseract/ <博主使用这个下载的客户端 使用版本为[v4.0.0-beta.4.20180912.exe]>
github项目地址:https://github.com/tesseract-ocr/ <博主使用这个查看的资料>
安装完成后的目录结构
其中重要的2个程序为 当前目录下的tesseract.exe
使用cmd可以直接使用 tesseract.exe 程序
tessdata/ 识别的语言库
步骤2:
新建一个java项目,引入依赖
<dependencies><dependency><groupId>net.sourceforge.tess4j</groupId><artifactId>tess4j</artifactId><version>4.0.1</version></dependency></dependencies>
tess4j 尽量和 Tesseract-OCR 版本相匹配。 <博主遇到一次问题,版本不匹配,tess4J 输出日志也十分简短,后来提高版本解决>
步骤3:
代码实现:
File srcFile = new File("C:\\Users\\a9747\\Desktop\\jpg2\\Y0523-0631\\Y0523-0631\\Image_00056.jpg");BufferedImage bufferedImage = ImageIO.read(srcFile);ITesseract instance =new Tesseract();//设置安装Tesseract-OCR目录下的 tessdata文件夹instance.setDatapath("D:\\orc5\\Tesseract-OCR\\tessdata");//选择语言instance.setLanguage("chi_sim");try{System.out.println("开始识别");//Rectangle 为识别图片的范围,可以不传这个参数String result = instance.doOCR(bufferedImage,new Rectangle(471,359,430,85));//识别到的文本内容System.out.println(result);Pattern pattern =Pattern.compile("(01[0-9]{10}|320[0-9]{9})");Matcher matcher = pattern.matcher(result);if(matcher.find()){String number = matcher.group();System.out.println("识别到编号:"+number);}}catch (Exception e){e.printStackTrace();}}
后记
github项目地址中有各国语言的训练数据,可以下载到本地。
如果发现识别出来的效果达不到自己需要的效果,可以选择:
* 切换使用语言库
* 更加精准的定义需要识别的区域
* 网上寻找更好的训练数据
* 自己训练语言数据
Java ORC图片识别相关推荐
- 使用Java做ORC图片识别
1. 下载训练库 下载地址:https://github.com/tesseract-ocr/tessdata 不用全部下载,中文识别下载那个chi_sim.traineddata即可. 2. 添加依 ...
- java 验证码图片识别_JavaSE图像验证码简单识别程序详解
本文为大家分享了JavaSE图像验证码简单识别程序,供大家参考,具体内容如下 首先你应该对图片进行样本采集,然后将样本进行灰度处理,也就是变成黑白两色. 然后你就可以使用该类,对目标文件进行分析.具体 ...
- java 数字图片识别_java – 识别图像中的数字
您很可能需要执行以下操作: >在整个页面上应用Hough Transform算法,这应该会产生一系列页面部分. >对于您获得的每个部分,请再次应用.如果当前部分产生2个元素,那么你应该处理 ...
- java tessbaseapi_图片识别 谷歌TessBaseAPI使用
权限配置 懒 没有写回调 第一遍点击允许 重进一遍就可以了 modul 包模式 tess-two 是一个ndk项目 所以下载一下ndk cmake 和lldb 如图 打开添加的tess-two的m ...
- java后端项目怎么实现图片预览_项目经验不重样!3个基于 SpringBoot 的图片识别处理系统送给你!...
最近看了太多读者小伙伴的简历,发现各种商城/秒杀系统/在线教育系统真的是挺多的.推荐一下昨晚找的几个还不错的基于 Java 的图片识别处理系统. 中药图片拍照识别系统 项目地址:https://git ...
- 我的世界java下载慢怎么办_只需要这三步,用Java也能图片识别
作者:不学无数的程序员 最近闲来无事研究了一下用 Java 如何模拟浏览器的行为,在实验登录的步骤时碰到了识别验证码的问题,于是在网上查找了关于 Java 如何进行图片识别验证码,由于根据网上查找的相 ...
- java+Tesseract-OCR实现图片识别
1.今天和同事研究如何用java实现图片识别.百度上大部分都是用tesseract去实现的.所以就做了一个demo (1).首先下载Tesseract-OCR 3.02,以及中文包chi_sim.tr ...
- vs添加系统环境变量不识别_项目经验不重样!3个基于SpringBoot 的图片识别处理系统送给你...
转载:https://mp.weixin.qq.com/s/WDMyIfOi2ogw0mKl3XxQdQ 最近看了太多读者小伙伴的简历,发现各种商城/秒杀系统/在线教育系统真的是挺多的.推荐一下昨晚找 ...
- 3个基于 Spring Boot 的图片识别处理系统
大家好,我是阿逛! 今天推荐一下昨晚找的几个还不错的基于 Java 的图片识别处理系统. 中药图片拍照识别系统 项目地址:https://gitee.com/xiaohaoo/chinese-medi ...
- springboot项目引入图片_项目经验不重样!3个基于SpringBoot 的图片识别处理系统送给你...
转载:https://mp.weixin.qq.com/s/WDMyIfOi2ogw0mKl3XxQdQ 最近看了太多读者小伙伴的简历,发现各种商城/秒杀系统/在线教育系统真的是挺多的.推荐一下昨晚找 ...
最新文章
- C#winform listbox多选的取值,采用DataRowView
- 文档和帮助创作工具提供商Innovasys实用教程(一)
- 利用任务调度特性检测Android模拟器
- 在 Ubuntu 14.04 中配置 PXE 服务器
- JDK8的JVM优化实操及部分原理加深理解
- java如何测controller层_用MockMvc对Spring mvc中的controller层进行单元测试
- java导出excel 客户端_java如何将导出的excel下载到客户端
- 【论文分享】ACL 2020 信息抽取与问答系统
- oracle索引如何提高效率,ORACLE用索引提高效率
- 前沿Perspective | 空间转录组数据分析方法最新进展
- 压缩文件解压密码破解之fcrackzip
- Tor出现需要控制密码的解决办法
- 2018智能计算机系统院士论坛,计算机学院成功举办“机器人与服务智能”高峰论坛(DEA 2018)...
- CNN | 00卷积神经网络应用
- MyExcel 2.1.3 发布,提供行级读取处理能力
- html怎么在表格中加虚线,html设置虚线边框的方法详细介绍
- mysql useing_mysql中using where,using index
- 常见的设计模式有哪些?实际开发中你用了什么设计模式?
- html博客设计论文,个人博客网站(论文).doc
- JSON树节点的增删查改
热门文章
- xampp 配置php运行环境
- ado控件 怎么链接mysql_使用ADO或ADO控件访问数据库
- 《人机交互技术》 第八章 移动界面设计
- MVC jQuery表单验证
- RuntimeError: NCCL error in:XXX,unhandled system error, NCCL version 2.7.8
- 人都“爆”了有这么好的东西《vtdakz.com》顶硬了!
- mysql初始化密码_MySQL5.7初始密码查看及重置
- Google正式收购SketchUp
- win10系统安装virtualbox虚拟机win7系统过程记录
- 【论文笔记】AutoML: A survey of the state-of-the-art(下篇)