最近有个需要,小程序端手写中文之后生成图像,后端需识别图片上中文..;刚开始想到第三方收费api试试,先用了百度AI开放平台的通用字体识别的API,后来又找到了Tessearct-OCR,参考了几篇文摘整合了一下

准备:

1.下载Tessearct-COR 3.0以上版本:https://download.csdn.net/download/qq_26161693/10646074

2. 在安装时选择chi_sim.traineddata 语言库;之后在程序中需加载安装目录tessdata下的中文包(chi_sim.traineddata );

maven依赖:

<dependency>
            <groupId>net.sourceforge.tess4j</groupId>
            <artifactId>tess4j</artifactId>
            <version>3.2.1</version>
        </dependency>

Demo:

/**
     * 
     * @param srImage 图片路径
     * @param ZH_CN 是否使用中文训练库,true-是
     * @return 识别结果
     */
    public static String discernWord(String imagePath) {
        try {
            File image = new File(imagePath);
            BufferedImage textImage = ImageIO.read(image);
            Tesseract instance = Tesseract.getInstance();
            instance.setDatapath("C:\\Program Files (x86)\\Tesseract-OCR\\tessdata");// 设置语言库
            instance.setLanguage("chi_sim");// 中文识别
            String words = null;
            words = instance.doOCR(textImage);
            return words;
        }
        catch (Exception e) {
            e.printStackTrace();
        }
    }

Test:

public static void main(String[] args) throws Exception {
        String words = discernWord("F:/test_used_url/ocr/originalPic/hotkidclub.jpg", true);//需识别的图文件路径
        System.out.println(words);
    }

ps:

在window开发环境下先安装了tesseract亲测可行,不过没试过不安装exe只加载语言包的情;况

随后在部署到Linux环境下运行会有种种的坑

解决:1)linux安装Tesseract-OCR之后,将.so相关文件复制到/usr/lib目录

2)在项目的根目录(maven的话就是resources)下添加:linux-86-64文件夹

3)配置Linux的语言环境变量

4)若访问量大的情况tomcat也容易崩掉,需设置好线程数或并发量;

详情参考:http://www.cnblogs.com/zlAurora/p/9266039.html;

Java 实现OCR 识别图像文字(手写中文)----tess4j相关推荐

  1. android app用百度ocr识别sdk实现手写扫描功能(二)

    目录 1.概述 2.百度ocr手写识别核心功能实现 2.1 新建项目引用手写文字识别功能

  2. android app用百度ocr识别sdk实现手写扫描功能(一)

    目录 1.概述 2.准备工作 3.sdk源码分析 3.1licence方式校验方式 3.2手写文字识别功能的分析

  3. java调用ocr识别api_Java文字识别软件-调用百度ocr实现文字识别

    java_baidu_ocr Java调用百度OCR文字识别API实现图片文字识别软件 项目源代码在文末,放到了GitHub上 - https://github.com/Ymy214/java_bai ...

  4. java 图片识别 tess4j_图像文字识别(四):java调用tess4j识别图像文字

    转自:https://blog.csdn.net/a745233700/article/details/80203340java java调用tess4j识别图像文字 Tesseract-OCR支持中 ...

  5. OCR字符识别,支持手写字体识别,中英文识别

    OCR字符识别,支持手写字体识别,中英文识别,基于深度学习,轻量级网络,检测进度高,支持python开发 编号:4199652712767280盐市口会玩的川乌

  6. 顶刊IJCV 2022!PageNet:面向端到端弱监督篇幅级手写中文文本识别

    点击下方卡片,关注"CVer"公众号 AI/CV重磅干货,第一时间送达 点击进入->CV微信技术交流群 转载自:CSIG文档图像分析与识别专委会 本文简要介绍2022年8月发 ...

  7. 深度学习--TensorFlow(项目)识别自己的手写数字(基于CNN卷积神经网络)

    目录 基础理论 一.训练CNN卷积神经网络 1.载入数据 2.改变数据维度 3.归一化 4.独热编码 5.搭建CNN卷积神经网络 5-1.第一层:第一个卷积层 5-2.第二层:第二个卷积层 5-3.扁 ...

  8. MATLAB从入门到精通:MATLAB识别 自带手写数字集的CNN(LeNet5)

    一.前言 以下是博主整理的精品专栏,喜欢的小伙伴可自行订阅 R语言实战应用精讲50篇  R语言函数解析及案例实战应用 MATLAB-30天带你从入门到精通 MATLAB入门知识,函数原理解析及案例解析 ...

  9. matlab朴素贝叶斯手写数字识别_从“手写数字识别”学习分类任务

    机器学习问题可以分为回归问题和分类问题,回归问题已经在线性回归讲过,本文学习分类问题.分类问题跟回归问题有明显的区别,回归问题是连续的数值,而分类问题是离散的类别,比如将性别分为[男,女],将图片分为 ...

最新文章

  1. 10万点击率的“干货”,其实人人都写得出来
  2. 从零学前端第十四讲:AngularJs进阶-作用域和控制器
  3. 【收藏】gitee:使用k8s部署nacos
  4. 走近OSSIM传感器(Sensor)插件
  5. 防止重复提交js jquery ajax
  6. 查询ElasticSearch:用SQL代替DSL
  7. jQuery:ajax调用成功后返回数据
  8. 评测网站的十个指标!
  9. JAVA课程设计(小游戏贪吃蛇)完整源码附素材(三)
  10. 一区期刊影响因子 2018 2019
  11. 知识图谱构建技术总述
  12. Windows: 如何调整C盘分区大小
  13. 微波射频学习笔记18-------偶极子天线和微波天线设计介绍
  14. 在网站上营销品牌故事的六种简单方法
  15. 紫光视频平台服务器系统,紫光展锐打造操作系统生态,赋能万物互联智能时代...
  16. 《STL》— NYOJ STL练习 习题汇总
  17. 清空计算机网络缓存,怎么清除DNS缓存 利用命令行清理dns缓存方法
  18. 语言-汉语-官话:官话
  19. ABP Vnext 扩展微信小程序授权登录
  20. 北理工嵩天Python语言程序设计笔记(10 Python计算生态概览)

热门文章

  1. 计算机无法连接富士网络打印机,网络打印机无法连接的解决方法是什么
  2. 昭阳区计算机学校,昭阳区高级职业中学
  3. codeforces 549F Yura and Developers(分治、启发式合并)
  4. 终于看完friends
  5. “财界奥斯卡”CGMA全球管理会计2021年度中国大奖榜单揭晓
  6. 根据文件路径区分文件的所属类型,并返回对应类型的文件路径
  7. 蒋勋:知识分子应具备怎样的美学修养
  8. 风清月明,山清水明,心清志明,思清念明
  9. jwt单点登录 和防重放攻击
  10. 正则校验:微信号,qq号,邮箱