tesseract是谷歌的一个对图片进行识别的开源框架,免费使用,现在已经支持中文,而且识别率非常高,这里简要来个helloworld级别的认识

下载地址:http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-3.01-1.exe&can=2&q=

下载之后进行安装,不再演示。

在tesseract目录下,有个tesseract.exe文件,主要调用这个执行文件,用cmd运行到这个目录下,在这个目录下同时放置一张需要识别的图片,这里是123.jpg

然后运行:tesseract 123.jpg result

会把123.jpg自动识别并转换为txt文件到result.txt

但是此时中文识别不好,要下载一个中文包:http://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz&can=2&q=

然后找到tessdata目录,把eng.traineddata替换为chi_sim.traineddata,并且把chi_sim.traineddata重命名为eng.traineddata

ok,现在中文识别基本达到90%以上了

测试下:

源文件(图片):此开卷第一回也。作者自云曾历过一番梦幻之后,故将真事隐去,

而借“通灵”说此《石头记》一书也,故曰“甄士隐”云云。但书中所记何事何人?

Tesseract release notes August 27 2007 - V2.01

Fixed UTF8 input problems with box file reader.

4-834578457384578-871238917238912739823749834789

输入:tesseract 123.jpg result

测试结果为:

此开卷第一回也. 作者酝曾历过一番梦幻之后, 故将真事隐去,

而借 “通灵" 说此 «石头记» 一书也, 故日 “甄士隐" 云云,但书中所记何事何人7

Tesseract re1ease notes August Z7 Z007 7 \「Z.O1

Fixed [二TFS input prob1ems \vit11 box fi1e reader.

4783457845738457S7871Z38917Z38912739S23749834789

识别率还是蛮高的,,,更详细的需要自己去钻研了。

tesseract 识别中文字符相关推荐

  1. Python爬虫识别中文字符和标点符号

    Python爬虫识别中文字符和标点符号,并且保存成txt文档 import requestshref_list = final_df["隐私政策"].values names = ...

  2. 使用unicode编码识别中文字符、字母和数字,包括生僻汉字

    查询网络上如何识别中文字符的帖子,发现大部分只判断了常用汉字,即Unicode范围为0x4E00 ~ 0x9FA5. unicode编码最新版本是2009年9月出版的5.2版,对汉字又进行了扩充.以往 ...

  3. php正则匹配中文冒号,识别中文字符和标点符号的正则表达

    匹配中文标点符号: String str='[u3002uff1buff0cuff1au201cu201duff08uff09u3001uff1fu300au300b]' 该表达式可以识别出: . : ...

  4. java零碎要点---Tesseract 3.0,Java OCR 图像智能字符识别技术,可识别中文

    2.Java OCR 图像智能字符识别技术,可识别中文  几天一直在研究OCR技术,据我了解的情况,国内最专业的OCR软件只有2家,清华TH-OCR和汉王OCR,看了很多的OCR 技术发现好多对英文与 ...

  5. java ocr识别中文_java零碎要点—Tesseract 3.0,Java OCR 图像智能字符识别技术,可识别中文 | 学步园...

    2.Java OCR 图像智能字符识别技术,可识别中文 几天一直在研究OCR技术,据我了解的情况,国内最专业的OCR软件只有2家,清华TH-OCR和汉王OCR,看了很多的OCR 技术发现好多对英文与数 ...

  6. Tesseract怎么识别中文

    前言 经过上一篇文章,我们已经成功安装了Tesseract4.0,并且可以识别出英文了 https://blog.csdn.net/qq_43576028/article/details/102907 ...

  7. Tesseract训练中文字体识别(转)

    原文地址:http://www.jianshu.com/p/31afd7fc5813 前言 网上已经有大量的tesseract的识别教程,但是主要有两个缺点: 大多数比较老,有部分内容已经不适用. 大 ...

  8. 关于Tesseract OCR 中文训练识别小试(java调用Tess4j)

    2017.9.20日小结 最近接到是关于消防系统协议解析仪器的项目,目的是从协议解析仪器获取有效数据,并解析数据(目的是不希望消防主机的数据信息再传给主机厂商而是最后能给自己收集调用).由于各个消防器 ...

  9. java整理软件--- Java OCR 图像智能字符识别技术,可识别中文,但是验证码不可以识别...已测识别中文效果很好...

    国内最专业的OCR软件只有2家,清华TH-OCR和汉王OCR,看了很多的OCR技术 发现好多对英文与数字的支持都很好,可惜很多都不支持中文字符.Asprise-OCR,Tesseract 3.0以前的 ...

最新文章

  1. C++类构造函数中的成员初始化
  2. Java中的接口命名[关闭]
  3. dedecms 制作模板中使用的全局标记介绍
  4. JavaFX 2.1:Toolkit not initialized
  5. 使用Travis-CI的SpringBoot应用程序的CI / CD
  6. 一道JS面试题目引发的思考
  7. 用深度学习来解析梦境中出现的物体
  8. linux 线程编译指令i,linux线程篇之(一):线程的创建与应用
  9. 数据库优化之简单理解
  10. Android 7.0后SettingProvider ContactsProvider TelephonyProvider MediaProvider数据库位置
  11. 基于vue的电商后台管理系统
  12. ​​​​​​​Carryon 数数字
  13. 有关SPSS中Fisher精确检验无法进行的解决方法(由于无法打开临时文件,因此无法进行计算)
  14. word文件做一半未响应_word文档未响应文件还没保存该怎么处理?
  15. 作业报告封面模版(物联20级)
  16. c++虚指针及相应对象的数据结构
  17. 怎样修心?不乱于心,不困于情。
  18. PearOS官网下载\梨子系统
  19. 音视频延时和抖动问题分析和解决
  20. unity3d FPS 枪的后座力

热门文章

  1. JavaScript - Closure
  2. python数据分析类库_python数据分析类库系列-Pandas入门之数据结构Series
  3. gateway java_基于SpringCloudGateway 实现的网关
  4. java之父求职_Java求职实战之继承和多态
  5. Qute模板与Quarkus
  6. docker下的mysql my.ini_Docker + MySQL 主从环境搭建
  7. 华为全面屏鸿蒙,华为P50pro最新确认:麒麟1020+立体全面屏+鸿蒙系统,这才是华为...
  8. 皮一皮:皇上,他在下毒!
  9. 皮一皮:你住的小区叫什么名字?
  10. 百度网盘的速度又又又又又又被黑了...侮辱性极强...