Java OCR tesseract 图像智能字符识别技术 Java代码实现

接着上一篇OCR所说的,上一篇给大家介绍了tesseract 在命令行的简单用法,当然了要继承到我们的程序中,还是需要代码实现的,下面给大家分享下java实现的例子。

拿代码扫描上面的图片,然后输出结果。主要思想就是利用Java调用系统任务。

下面是核心代码:

/*** */
package cn.jorcen.dropins.tesseract;import java.io.BufferedReader;
import java.io.File;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;
import java.util.LinkedList;
import java.util.List;import org.apache.commons.io.IOUtils;
import org.apache.log4j.Logger;/*** * * @author mjorcen* @email mjorcen@gmail.com* @dateTime Jun 19, 2014 3:42:16 PM* @version 1*/
public class TesseractOCRUtil {static Logger logger = Logger.getLogger(TesseractOCRUtil.class);static String path = "E:/data/Users/Administrator/Desktop/ocr/spelling";public static void main(String[] args) throws Exception {File file = new File(path);String[] strs = file.list();for (String string : strs) {File iFile = new File(path, string);if (iFile.isFile()) {parseImage(new File(file.getAbsolutePath(), string), new File(path + "/tmp", iFile.getName()));}}System.exit(0);}public static String parseImage(File file, File targetFile)throws Exception {ClearImageUtil.cleanImage(file, targetFile);return parseImageOnNoClear(targetFile);}public static String parseImageOnNoClear(File file) throws Exception {try {logger.debug("image is " + file.getAbsolutePath());// ClearImageHelper.cleanImage(file, filename);// 构造命令// List<String> cmd = new LinkedList<String>();// cmd.add("tesseract");// cmd.add(file.getAbsolutePath());// cmd.add(file.getAbsolutePath());// cmd.add(" ");// cmd.add("-l");// cmd.add(" ");// cmd.add("normal");// logger.debug(cmd);// System.out.println(cmd);// ProcessBuilder pb = new ProcessBuilder(cmd);// pb.redirectErrorStream(true);// pb.directory(new File(path));// Process p = pb.start();Runtime run = Runtime.getRuntime();Process p = run.exec("cmd.exe /c tesseract "+ file.getAbsolutePath() + " " + file.getAbsolutePath()+ " -l normal");getConsole(p);String sb = getResult(new File(file.getAbsolutePath() + ".txt"));return sb.toString();} catch (Exception e) {logger.error(e);return null;} finally {}}private static String getResult(File file) throws FileNotFoundException,UnsupportedEncodingException, IOException {StringBuilder sb = new StringBuilder();// 取得结果的输出流InputStream resultIs = new FileInputStream(file);// 用一个读输出流类去读InputStreamReader resultIsr = new InputStreamReader(resultIs, "utf-8");// 用缓冲器读行BufferedReader resultBr = new BufferedReader(resultIsr);String line;// 直到读完为止while ((line = resultBr.readLine()) != null) {logger.debug(line);sb.append(line);}return sb.toString();}private static void getConsole(Process p)throws UnsupportedEncodingException, IOException {// 取得命令结果的输出流InputStream fis = p.getInputStream();// 用一个读输出流类去读InputStreamReader isr = new InputStreamReader(fis, "utf-8");// 用缓冲器读行BufferedReader br = new BufferedReader(isr);String line = null;// 直到读完为止while ((line = br.readLine()) != null) {// System.out.println(line);
        }}public static void test() {try {List<String> cmd = new LinkedList<String>();cmd.add("javac");cmd.add("PB.java");ProcessBuilder pb = new ProcessBuilder(cmd);pb.redirectErrorStream(true);pb.directory(new File("E:/test"));Process p = pb.start();// 取得命令结果的输出流InputStream fis = p.getInputStream();// 用一个读输出流类去读InputStreamReader isr = new InputStreamReader(fis, "utf-8");// 用缓冲器读行BufferedReader br = new BufferedReader(isr);String line = null;// 直到读完为止while ((line = br.readLine()) != null) {logger.debug(line);}} catch (Exception e) {logger.error(e);}}
}

结果如下:

uHx7,IXQO,\1ZYP,ZVBO,3237,5SYQ~,,87YF,\8KDN,CGPC,\c\IG\N,F\Z TA,J 9pc,Lpza,NBGC,N QW8,onwz,ox XJ,\P9FM,P PR鈥楿,QRG\I\,,RAZ v\,504i,VGPH,VPCI,\\I\M I,鈥楳J1,Y6H9\,Y OGP,

对比第一张图片, 不是很完美~哈哈 ,当然了如果你只需要实现验证码的读写,那么上面就足够了。下面继续普及图像处理的知识。

-------------------------------------------------------------------我的分割线--------------------------------------------------------------------

当然了,有时候图片被扭曲或者模糊的很厉害,很不容易识别,所以下面我给大家介绍一个去噪的辅助类, 能稍做优化,先看下效果图。

package cn.c.test3;import java.awt.Color;
import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;import javax.imageio.ImageIO;public class ClearImageHelper {public static void main(String[] args) throws IOException {File testDataDir = new File("E:\\test\\code");final String destDir = testDataDir.getAbsolutePath() + "/tmp";for (File file : testDataDir.listFiles()) {cleanImage(file, destDir);}}/*** * @param sfile*            需要去噪的图像* @param destDir*            去噪后的图像保存地址* @throws IOException*/public static void cleanImage(File sfile, String destDir)throws IOException {File destF = new File(destDir);if (!destF.exists()) {destF.mkdirs();}BufferedImage bufferedImage = ImageIO.read(sfile);int h = bufferedImage.getHeight();int w = bufferedImage.getWidth();// 灰度化int[][] gray = new int[w][h];for (int x = 0; x < w; x++) {for (int y = 0; y < h; y++) {int argb = bufferedImage.getRGB(x, y);// 图像加亮(调整亮度识别率非常高)int r = (int) (((argb >> 16) & 0xFF) * 1.1 + 30);int g = (int) (((argb >> 8) & 0xFF) * 1.1 + 30);int b = (int) (((argb >> 0) & 0xFF) * 1.1 + 30);if (r >= 255) {r = 255;}if (g >= 255) {g = 255;}if (b >= 255) {b = 255;}gray[x][y] = (int) Math.pow((Math.pow(r, 2.2) * 0.2973 + Math.pow(g, 2.2)* 0.6274 + Math.pow(b, 2.2) * 0.0753), 1 / 2.2);}}// 二值化int threshold = ostu(gray, w, h);BufferedImage binaryBufferedImage = new BufferedImage(w, h,BufferedImage.TYPE_BYTE_BINARY);for (int x = 0; x < w; x++) {for (int y = 0; y < h; y++) {if (gray[x][y] > threshold) {gray[x][y] |= 0x00FFFF;} else {gray[x][y] &= 0xFF0000;}binaryBufferedImage.setRGB(x, y, gray[x][y]);}}// 矩阵打印for (int y = 0; y < h; y++) {for (int x = 0; x < w; x++) {if (isBlack(binaryBufferedImage.getRGB(x, y))) {System.out.print("*");} else {System.out.print(" ");}}System.out.println();}ImageIO.write(binaryBufferedImage, "jpg",new File(destDir, sfile.getName()));}public static boolean isBlack(int colorInt) {Color color = new Color(colorInt);if (color.getRed() + color.getGreen() + color.getBlue() <= 300) {return true;}return false;}public static boolean isWhite(int colorInt) {Color color = new Color(colorInt);if (color.getRed() + color.getGreen() + color.getBlue() > 300) {return true;}return false;}public static int isBlackOrWhite(int colorInt) {if (getColorBright(colorInt) < 30 || getColorBright(colorInt) > 730) {return 1;}return 0;}public static int getColorBright(int colorInt) {Color color = new Color(colorInt);return color.getRed() + color.getGreen() + color.getBlue();}public static int ostu(int[][] gray, int w, int h) {int[] histData = new int[w * h];// Calculate histogramfor (int x = 0; x < w; x++) {for (int y = 0; y < h; y++) {int red = 0xFF & gray[x][y];histData[red]++;}}// Total number of pixelsint total = w * h;float sum = 0;for (int t = 0; t < 256; t++)sum += t * histData[t];float sumB = 0;int wB = 0;int wF = 0;float varMax = 0;int threshold = 0;for (int t = 0; t < 256; t++) {wB += histData[t]; // Weight Backgroundif (wB == 0)continue;wF = total - wB; // Weight Foregroundif (wF == 0)break;sumB += (float) (t * histData[t]);float mB = sumB / wB; // Mean Backgroundfloat mF = (sum - sumB) / wF; // Mean Foreground// Calculate Between Class Variancefloat varBetween = (float) wB * (float) wF * (mB - mF) * (mB - mF);// Check if new maximum foundif (varBetween > varMax) {varMax = varBetween;threshold = t;}}return threshold;}
}

Java OCR tesseract 图像智能字符识别技术 Java实现相关推荐

  1. Java OCR tesseract 图像智能字符识别技术

    公司有需求啊,所以就得研究哈,最近公司需要读验证码,于是就研究起了图像识别,应该就是传说中的(OCR:光学字符识别OCR),下面把今天的收获整理一个给大家做个分享. 本人程序用的tesseract,官 ...

  2. java零碎要点---Tesseract 3.0,Java OCR 图像智能字符识别技术,可识别中文

    2.Java OCR 图像智能字符识别技术,可识别中文  几天一直在研究OCR技术,据我了解的情况,国内最专业的OCR软件只有2家,清华TH-OCR和汉王OCR,看了很多的OCR 技术发现好多对英文与 ...

  3. java ocr识别中文_java零碎要点—Tesseract 3.0,Java OCR 图像智能字符识别技术,可识别中文 | 学步园...

    2.Java OCR 图像智能字符识别技术,可识别中文 几天一直在研究OCR技术,据我了解的情况,国内最专业的OCR软件只有2家,清华TH-OCR和汉王OCR,看了很多的OCR 技术发现好多对英文与数 ...

  4. java ocr数字识别_Java OCR tesseract 图像智能文字字符识别技术实例代码

    接着上一篇OCR所说的,上一篇给大家介绍了tesseract 在命令行的简单用法,当然了要继承到我们的程序中,还是需要代码实现的,下面给大家分享下Java实现的例子. 拿代码扫描上面的图片,然后输出结 ...

  5. java整理软件--- Java OCR 图像智能字符识别技术,可识别中文,但是验证码不可以识别...已测识别中文效果很好...

    国内最专业的OCR软件只有2家,清华TH-OCR和汉王OCR,看了很多的OCR技术 发现好多对英文与数字的支持都很好,可惜很多都不支持中文字符.Asprise-OCR,Tesseract 3.0以前的 ...

  6. java整理软件--- Java OCR 图像智能字符识别技术,可识别中文,但是验证码不可以识别...已测识别中文效果很好

    国内最专业的OCR软件只有2家,清华TH-OCR和汉王OCR,看了很多的OCR技术发现好多对英文与数字的支持都很好,可惜很多都不支持中文字符.Asprise-OCR,Tesseract 3.0以前的版 ...

  7. Java OCR 图像智能字符识别技术,可识别中文

    几天一直在研究OCR技术,据我了解的情况,国内最专业的OCR软件只有2家,清华TH-OCR和汉王OCR,看了很多的OCR技术发现好多对英文与数字的支持都很好,可惜很多都不支持中文字符.Asprise- ...

  8. java ocr技术原理_Java OCR 图像智能字符识别技术,可识别中文

    几天一直在研究OCR技术,据我了解的情况,国内最专业的OCR软件只有2家,清华TH-OCR和汉王OCR,看了很多的OCR技术发现好多对英文与数字的支持都很好,可惜很多都不支持中文字符.Asprise- ...

  9. java ocr识别中文_[转]Java OCR 图像智能字符识别技术,可识别中文

    几天一直在研究OCR技术,据我了解的情况,国内最专业的OCR软件只有2家,清华TH-OCR和汉王OCR,看了很多的OCR技术发现好多对英文与数字的支持都很好,可惜很多都不支持中文字符.Asprise- ...

最新文章

  1. 极客新闻——10、Java工程师应该如何成长?
  2. matlab e 精确到,matlab中用0.618法求minf(x)=e^(-x)+x^2在区间(0,1)上的极小值,精确到0.03....
  3. ML之FE:数据处理—特征工程的简介、使用方法、案例应用之详细攻略
  4. SQL Server 2019安装教程
  5. 【JZOJ4307】喝喝喝
  6. 2017.7.27 bill的挑战 失败总结
  7. 孙正义在比特币上栽了?传其亏损超过1.3亿美元...
  8. python单片机编程软件下载_Python开发例程大全
  9. PHP 实现定时任务的几种方法
  10. Visual Studio 2015年预览设置: 辅助安装程序说明
  11. 前端拦截url参数xss攻击_闲庭信步聊前端 - 漫谈XSS
  12. pynq 环境搭建_蚂蚁S9矿板ZYNQ7010开发板移植PYNQ_2.5
  13. Linux下的Java虚拟机性能监控常用命令
  14. 看完这篇文章你就清楚的知道 ZooKeeper的 概念了
  15. mysql的db.opt文件_MySQL数据库的db.opt文件
  16. CSDN下载频道【2月热门资源TOP100】汇总
  17. linux:硬链接和软链接
  18. 微信公众号运营推广方案分享
  19. Ubuntu18.04下OpenCV调用笔记本摄像头
  20. LiveCharts心得

热门文章

  1. java过滤器对ext异步,拦截EXT请求的过滤器
  2. iframe调用父页面js方法_JS高级技巧
  3. oracle11g更改字符集AL32UTF8为ZHS16GBK及创建用户、删除用户
  4. AI又抢了人类职位,这回轮到银行销售人员了?
  5. Facebook又开两处AI实验室,在西雅图和匹兹堡招兵买马
  6. “花书”的佐餐,你的线性代数笔记
  7. 微信跳转浏览器--使用AugPush实现微信跳转手机浏览器
  8. C++中string::find()函数和string::npos函数的使用
  9. 【洛谷】NOIP2018原创模拟赛DAY1解题报告
  10. Leetcode 1.两数之和