java实现图片文字识别的两种方法
一、使用tesseract-ocr
1. https://github.com/tesseract-ocr/tesseract/wiki上下载安装包安装和简体中文训练文件
window64位安装包:tesseract-ocr-w64-setup-v4.1.0.20190314.exe
简体中文训练文件:chi_sim.traineddata 约40M
2. 将训练文件chi_sim.traineddata放入安装目录下的tessdata目录中
3. 配置环境变量,在path变量中加入tesseract安装目录,例如C:\Program Files\Tesseract-OCR
4. 添加系统环境变量TESSDATA_PREFIX,值为训练文件的目录,例如C:\Program Files\Tesseract-OCR\tessdata
5. 使用java调用命令行执行转换,命令格式例如:F:\pic> tesseract 6.png 66 -l chi_sim 即:在F:\pic目录下使用tesseract命令利用chi_sim训练文件把6.png文件转换成66.txt文件
二、使用tess4j
1. 使用maven下载所需jar包:
<dependency> <groupId>net.java.dev.jna</groupId> <artifactId>jna</artifactId> <version>4.1.0</version> </dependency><dependency> <groupId>net.sourceforge.tess4j</groupId> <artifactId>tess4j</artifactId> <version>3.4.0</version> <exclusions> <exclusion> <groupId>com.sun.jna</groupId> <artifactId>jna</artifactId> </exclusion> </exclusions> </dependency>
2.下载简体中文训练文件:chi_sim.traineddata
3.使用如下代码调用
//加载待读取图片File imageFile = new File("F://pic.png");//创建tess对象ITesseract instance = new Tesseract();//设置训练文件目录instance.setDatapath("F://tessdata");//设置训练语言instance.setLanguage("chi_sim");//执行转换String result = instance.doOCR(imageFile);
java实现图片文字识别的两种方法相关推荐
- 命名实体识别python_命名实体识别的两种方法
作者 | Walker [磐创AI导读]:本文主要介绍自然语言处理中的经典问题--命名实体识别的两种方法. 目录 一.什么是命名实体识别 二.基于NLTK的命名实体识别 三.基于Stanford的NE ...
- web自动化测试图片上传的两种方法
web自动化测试图片上传的两种方法: 通过input标签的,如: <!DOCTYPE html> <html lang="en"> <head> ...
- Java生成二维码的两种方法
本文介绍Java生成二维码的两种方法,这两种方法都依赖于google提供的二维码依赖包. 一种是自己写工具类,代码可以网上抄. 另一种是使用hutool第三方工具类的依赖包,不用自己抄代码. 一.自定 ...
- Java中的string定义的两种方法和区别
java中的String定义的两种方法和区别 第一种:new方式 String s1 = new String("hello world"); String s2 = new St ...
- vue 图片转base64的两种方法(包括h5+plus调取手机图片)
vue 图片转base64的两种方法(包括h5+plus调取手机图片) 1.获取图片文件对象进行转换(主要是对PC端的) 在main.js文件下添加全局方法 Vue.prototype.$base64 ...
- html+轮播图下标跳转代码,最简单的JavaScript图片轮播代码(两种方法)
通过改变每个图片的opacity属性: 素材图片: 代码一: 最简单的轮播广告 body, div, ul, li { margin: ; padding: ; } ul { list-style-t ...
- 怎么将图片内容转换成文字?这两种方法可以轻松实现
如何将图片的内容转换成文字呢?大家在使用图片文件的时候,遇到那种图片中包含一些有用的文字信息时,没有办法直接复制下来使用,只能对照着图片将文字信息给记录下来,这样会很耗费我们的时间.其实是有方法能够直 ...
- 环形文字拉直的两种方法:极坐标转换和薄板样条插值python代码示例
目录 引言 极坐标转换 方案一: 方案二: 薄板样条插值法 引言 针对环形文字识别,通过这几天调研,一般有两种方法,一是极坐标转换:二是薄板样条插值(TPS)法. 极坐标转换 方案一: 代码来源:Se ...
- 命名实体识别的两种方法
作者:Walker 目录 一.什么是命名实体识别 二.基于NLTK的命名实体识别 三.基于Stanford的NER 四.总结 一 .什么是命名实体识别? 命名实体识别( ...
最新文章
- 能够在Linux系统中运行的5款大型耐玩游戏
- Strict Mode (JavaScript)
- Web安全系列(二):XSS 攻击进阶(初探 XSS Payload)
- 2013ACM暑假集训总结-致将走上大三征途的我
- 让Nginx支持pathinfo
- 三十五例网络故障排除方法
- webstorm 10.0.4 注册码
- 医疗项目 开源_医疗保健受开源影响最大的行业之一
- FastReport studio 动态加载数据集 (zhuan)
- Java Duration格式
- register_chrdev_region、alloc_chrdev_region、register_chrdev区别
- Galera-MariaDB多主集群搭建
- 6-2 返回月份的英文全称(日历) (10分) java pta
- 2021第五届蓝帽杯初赛部分题目wp
- 2017华师在线计算机作业,2017年华师在线〈文学批评学〉100分作业
- C/OSⅡ内核的车载影音系统设计
- MTK6577+Android4.0背光点亮
- FCN(Fully Convolutional Network)全卷积网络笔记
- 五登博鳌,金领冠打造“世界品质”
- 美国学生在使用计算机小短文,美国中学生的一篇作文
热门文章
- Android:最全面详细的性能优化攻略(含内存优化、内存泄漏、绘制优化、布局优化、图片优化、APK优化、多线程优化、列表优化等)
- Pascal VOC数据格式转COCO数据格式脚本(Object Detection)
- dota数据集标注改coco标注
- WIFI基础入门--802.11--MAC基础--2
- 华为设备配置WLAN
- 人力资源机器下载方法
- 淘宝直播丨900W粉店铺夺行业周榜Top1,商家自播增长要素全解析
- 每天一篇Makefile(二)
- 深圳“蓬莱仙境”@东冲沙滩#深圳醉美海滩景点
- angular学习总结-路由和路由守卫