tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解

本文参考http://blog.sina.com.cn/s/blog_4aa166780101cji7.html实现,在这里感谢该文章的作者。

OCR(Optical Character Recognition):光学字符识别,是指对图片文件中的文字进行分析识别,获取的过程。

Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。当前版本为3.02

项目下载地址为:http://jaist.dl.sourceforge.net/project/tesseract-ocr-alt/tesseract-ocr-setup-3.02.02.exe

Windows cmd命令行使用Tesseract-OCR引擎识别手机号码和图片中的文字:

1、下载安装Tesseract-OCR引擎(3.0版本+才支持中文识别)

tesseract-ocr-setup-3.02-02.exe.

下载完后进行安装,默认情况下安装程序会给你配置系统环境变量,以指向安装目录(之后可以通过DOS界面在任意目录运行tesseract)。安装完成后目录如下:

附录:

tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。

如果想能识别中文,可以到http://code.google.com/p/tesseract-ocr/downloads/list下载对应的语言的字库文件.一般google访问不了,请到这里下载即可,

简体中文字库文件下载地址为:http://download.csdn.net/detail/wanghui2008123/7621567下载完成后解压,然后将该文件剪切到tessdata目录下去就可以了。

2、使用Tessract-OCR引擎识别验证码

打开DOS界面,输入tesseract:

如果出现如上输出,表示安装正常。

命令格式:

tesseract 图片名 输出文件名 -l 字库文件 -psm pagesegmode 配置文件

识别数字:

我准备了一张验证码123.png 手机号码的图片,放在F:\IDOL\a|目录下

运行的命令行如下,我自己的命令行工具做了属性调整背景是白色的。

表示识别后生成一个result123.txt 打开文件如下:

识别中文:

我准备了一张验证码234.png "中国识别测试"个字的图片,放在F:\IDOL\a\目录下如图:

运行的命令行如下:

表示识别后生成一个result234.txt 打开文件如下:

识别中文和英文:

网上找了一张图片,有中文有英文的图片:


运行命令如下:

结果如下:中文识别还不是太好啊!

例如:

tesseract OCR.jpg result -l chi_sim -psm 7 nobatch

-l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata)

-psm 7 表示告诉tesseract code.jpg图片是一行文本这个参数可以减少识别错误率. 默认为 3

configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录下的文件名.

tesseract-ocr识别英文和中文图片文字以及扫描图片实例讲解相关推荐

  1. 用Tesseract OCR识别图片文字

    用tesseract ocr识别图片中的文字  准备 OCR与Tesseract介绍 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以 ...

  2. Excel插入图片自动OCR识别成可编辑的文字

    今天要和大家分享的是:Excel插入图片自动OCR识别成可编辑的文字详见下图动态演示和步骤分解." ​ 1.首先打开Excel表格 ​ 2.然后选择diy工具箱 3.选择文字识别按钮 ​ 4 ...

  3. ps批量修改名片文字_怎么修改图片上的文字 修改图片文字比如名片图片上面的地址需要修改下...

    现在在网络上下载的图片是不是都对有文字水印的咧是不,那么怎么修改图片上的文字呢,修改图片文字比如名片图片上面的地址需要修改下这些怎么完成?OK ,今天就让小编来给大伙科普一下,其实要做到真正的无痕迹修 ...

  4. 【日常折腾】Python识别图片文字并对图片改名

    1.前言 接到一个任务,将图片格式的专利的命名改为专利名称,效果如下. 2. 前期准备 安装openCV以及tesseract插件,tesseract插件需要设置为中文,推荐直接在PyCharm平台使 ...

  5. html图片文字下方,css图片下边怎么加字

    css图片下边怎么加字 比较简单的做法就是,将他们放置在一个盒子内,让文字跟图片居中,只需要利用css样式的text-align属性即可,并且各个浏览器都会正常显示,代码如下: 这里是居中的文字 .b ...

  6. 修改Textview内图片文字间距和图片大小

    平常我们的 图片文字结合如图: 对于上面的这种布局,我们一般采用的一个ViewGroup嵌入一个ImageView和一个TextView.如下所示: <LinearLayoutandroid:i ...

  7. 复制英文和中文PDF文字到word并去除回车符

    从PDF中复制文字到word时,都会有回车符,要一个一个删掉回车符会非常麻烦,这里介绍一下怎么在word中整体替换掉回车符. 其实在word中替换掉回车符也挺麻烦的,因此我用python编写了一个ex ...

  8. 如何用计算机扫描图片变成文字,怎么扫描图片上的文字-华为手机黑科技"文字扫描仪",3秒就能将纸质文档转成电子档,牛...

    现如今,手机已经成为我们使用率最高的电子设备之一了.手机虽小,但是功能可是五花八门,很多手机的功能,可能我们使用几年,都没有发现过.今天就给大家介绍华为手机中,非常强大的一项黑科技"文字扫描 ...

  9. android textview设置图片大小,修改Textview内图片文字间距和图片大小

    1-1 布局 对于上面的这种布局,我们一般采用的一个ViewGroup嵌入一个ImageView和一个TextView.如下所示: android:id="@+id/layout_quest ...

  10. ug建模文本怎么竖着_UG编程文字加工,全方位实例讲解,文末有作业哦!

    文字加工常用于模具标记.零件装饰.简单文字雕刻等,如图6.1所示.文字加工一般在零件精加工之后进行.由于加工的刀具直径很小,很容易折断.因此文字加工切削量少,需要在转速高达10000~30000r/m ...

最新文章

  1. scala recursive value x$5 needs type
  2. UNIX重定向--dup(2)函数
  3. 分享--关于学习的一些事儿
  4. jquery中的attr()和prop()
  5. 【编程题目】输入一个已经按升序排序过的数组和一个数字,在数组中查找两个数,使得它们的和正好是输入的那个数字。...
  6. 在Forms验证模式下,实现多个站点(SubDomain相同)共享同一用户登录状态
  7. 详解C语言中 # 和 ## 的用法
  8. httping 2.2.1 发布,测试 HTTP 连接的工具
  9. Koa项目搭建过程详细记录
  10. 机器学习实现线性梯度算实现octave
  11. 阿里 20 亿美元收购网易考拉;苹果回应误发七倍工资;VS Code 1.38 发布 | 极客头条...
  12. centos 实现ssh远程连接docker
  13. chrome 打印布局_在打印预览模式下使用Chrome的Element Inspector?
  14. 傅里叶级数与复的傅里叶级数、傅里叶变换
  15. 计算机科学导论3000,计算机网络导论论文_大一计算机科学导论论文_计算机导论论文3000字...
  16. 最容易扩展的光立方程序设计
  17. 大数据应用能力层次模型
  18. Youtube 视频下载
  19. ShellExecuteEX打开iqy文件导致excel hang的原因分析
  20. 设计模式中,MVC模式与MVT模式的区别

热门文章

  1. markdown实心圆点空心圆点、层级
  2. “强方杯“首届北京高校概率篮球棋邀请赛收枰
  3. 聊斋志异中的《陆判》
  4. java重新温习基础笔记
  5. java说的tps pv是什么_面试官常问你项目的PV量或TPS,怎么说,给你一个概念
  6. SpringBoot实现简易支付宝网页支付
  7. Python函数初识
  8. 计算机专业java论文题目_计算机专业毕业设计题目选题
  9. 2 什么是计算机网络的拓扑结构,什么是网络拓扑?
  10. [转载] 百家讲坛——郦波评说曾国藩家训 上部(一)谁来拯救笨小孩