Atititi tesseract使用总结

消除bug,优化,重新发布。当前版本为3.02

项目下载地址为:http://code.google.com/p/tesseract-ocr。

Windows cmd命令行使用Tesseract-OCR引擎识别验证码:

1、下载安装Tesseract-OCR引擎(3.0版本+才支持中文识别)

tesseract-ocr-setup-3.01-1.exe.

下载完后进行安装,默认情况下安装程序会给你配置系统环境变量,以指向安装目录(之后可以通过DOS界面在任意目录运行tesseract)。安装完成后目录如下:

tessdata 目录存放的是语言字库文件,和在命令行界面中可能用到的参数所对应的文件. 这个安装程序默认包含了英文字库。

如果想能识别中文,可以到http://code.google.com/p/tesseract-ocr/downloads/list下载对应的语言的字库文件.

简体中文字库文件下载地址为:http://tesseract-ocr.googlecode.com/files/chi_sim.traineddata.gz下载完成后解压,然后将该文件剪切到tessdata目录下去就可以了。

附录:

Usage:tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
pagesegmode values are:
0 = Orientation and script detection (OSD) only.
1 = Automatic page segmentation with OSD.
2 = Automatic page segmentation, but no OSD, or OCR
3 = Fully automatic page segmentation, but no OSD. (Default)
4 = Assume a single column of text of variable sizes.
5 = Assume a single uniform block of vertically aligned text.
6 = Assume a single uniform block of text.
7 = Treat the image as a single text line.
8 = Treat the image as a single word.
9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.
-l lang and/or -psm pagesegmode must occur before anyconfigfile.

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

tesseract 图片名 输出文件名 -l 字库文件 -psm pagesegmode 配置文件

例如:

tesseract code.jpg result -l chi_sim -psm 7 nobatch

-l chi_sim 表示用简体中文字库(需要下载中文字库文件,解压后,存放到tessdata目录下去,字库文件扩展名为 .raineddata 简体中文字库文件名为: chi_sim.traineddata)

-psm 7 表示告诉tesseract code.jpg图片是一行文本 这个参数可以减少识别错误率. 默认为 3

configfile 参数值为tessdata\configs 和 tessdata\tessconfigs 目录下的文件名.

"C:\0workspace\Tesseract\tesseract.exe"  "D:\ati\dcim_mov22\IMG_0177.PNG" "D:\ati\dcim_mov22\IMG_0177"

cmd ext finish!

““- 中国联通 一÷、 1:36 AM @ 4 >B 64%庄〕

wapbaike.baidu.com

那样既闷热又不方便, 所以文暴走们就用书包代替保护

颈椎的护具, 不过这些书包少的几十, 贵的几百上干还

可以放东西真是一举两得。 不过可不要因此认为他们很

温柔, 和这些文暴走比速度, 因为在他们眼里就算兰博

墓启都只有屹灰的份。 排量 干以上的机车〇-wO提速

足以秒杀布加迪威龙以下的汽车, 也许正是因为这种对

提速的迷恋才是他们热爱机车的原因! 发展到今夭, 文

暴走里面又衍生出了炸街党。 田于对社会压力的释放已

不能通过飙车来满足, 文暴走们不再低调, 换掉原装排

气的重型机车, 咆哮的声音足够让整个市中心知道他的

存在。 在车流中的浑厚引擎声, 仿佛告诉人们, 生活中

你不在沉默中死亡, 就在沉默中胞晖, 他们正是这群沉

默的胞晖耆。 行云流水般的车技, 加上轰炸式的声音,

也就行成了炸街一词。 用咆晖的引擎让整条街的玻璃和

地板都为之震动, 百分之百的回头率, 告诉着你, 胯下

的巨物可不是闹着玩的, 它身价不菲, 同样它藐视所有

法则, 因为跨上去的那一刻, 就与世界脱离, 告诉你这

是 群有故事的人。

历史起源

硼 个

说起日本的暴走族% 就不能不提到广岛, 因加Ba

走凤气最盛行, 被日本媒体称为“广岛现象% 这认 ,、

走风’再次刮起, 广岛自然不甘落后。 -个朋友告诉笔

耆, 最近几夭, 他时常看到马力强劲的摩托车在广岛街

要不要转换tif,attilax测试,是一样的效果....

Java调用OCR进行图片识别 - conanswp的专栏 - 博客频道 - CSDN.NET.html

作者:: 绰号:老哇的爪子 ( 全名::Attilax Akbar Al Rapanui 阿提拉克斯 阿克巴 阿尔 拉帕努伊 )

汉字名:艾提拉(艾龙),   EMAIL:1466519819@qq.com

转载请注明来源: http://www.cnblogs.com/attilax/

Atiend

Atititi tesseract使用总结相关推荐

  1. Atitit q2016 qb doc list on home ntpc.docx

    Atitit q2016 qb doc list on home ntpc.docx 驱动器 D 中的卷是 p2soft 卷的序列号是 9AD0-D3C8 D:\ati ext notbek\q201 ...

  2. Python机器学习:训练Tesseract

    训练Tesseract 大多数其他的验证码都是比较简单的.例如,流行的 PHP 内容管理系统 Drupal 有一个著 名的验证码模块(https://www.drupal.org/project/ca ...

  3. Python:机器视觉与Tesseract介绍

    机器视觉 从 Google 的无人驾驶汽车到可以识别假钞的自动售卖机,机器视觉一直都是一个应用广 泛且具有深远的影响和雄伟的愿景的领域. 我们将重点介绍机器视觉的一个分支:文字识别,介绍如何用一些 P ...

  4. Windows安装用于OCR的Tesseract及使用命令行参数进行OCR

    Windows安装用于OCR的Tesseract及使用命令行参数进行OCR 1. 效果图 2. Tesseract 安装及验证 参考 这篇博客将介绍如何安装和使用光学字符识别(OCR Optical ...

  5. Tesseract 3 语言数据的训练方法

    OCR,光学字符识别 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业 ...

  6. 使用 OpenCV 和 Tesseract 对图像中的感兴趣区域 (ROI) 进行 OCR

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在这篇文章中,我们将使用 OpenCV 在图像的选定区域上应用 O ...

  7. Python Tesseract 图片识别-小操练

    小科普 光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息. Tesseract的OCR引擎最先由 ...

  8. ElectronOCR:基于Electron+React+Tesseract的MACOS下的OCR工具

    Github Repo 地址 文章地址 MAXOS Darwin x64下载 笔者一直在MacOS上没找到太顺心的OCR工具,导致看书的时候很多东西只能手打,略烦.正好前段时间用了Tesseract, ...

  9. C#用Tesseract进行OCR识别,可识别中英日韩所有语言

    源码下载:https://download.csdn.net/download/horseroll/10739546    源码下包含部分语言包,所以文件比较大 无积分付费下载地址:https://d ...

最新文章

  1. 浅析ado.net获取数据库元数据信息
  2. QIIME 2教程. 15样品分类和回归q2-sample-classifier(2021.2)
  3. linux进程间通讯-消息队列
  4. spring boot 项目源码_Spring Boot2 系列教程(三)理解 Spring Boot 项目中的 parent
  5. idea git 使用
  6. JS获取DOM元素的八种方法
  7. php和js操作数据库的区别,PHP基础与JS操作的区别
  8. python numpy库作用_python Numpy库
  9. 国产杀毒软件也开始支持虚拟化
  10. mac电脑LC_CTYPE: cannot change locale (UTF-8): No such file or directory
  11. distinct性能问题_Mysql性能优化:如何给字符串加索引?
  12. python类库26[web2py之介绍]
  13. Selenium TestNG Java环境搭建过程中所遇问题汇总
  14. 《信号与系统学习笔记》—周期信号的博里叶级数表示(二)
  15. 分计算iv值_【美股期權】多高的IV才算高?理解IV percentile
  16. 【论文笔记】DeepIGeoS:A Deep Interactive Geodesic Framework for Medical Image Segmentation
  17. jQuery 倒计时插件
  18. adb工具的使用方法详解
  19. c mysql trans_MYSQL STRICT_TRANS_TABLES使用图解教程
  20. MODBUS TCP/IP通信协议及测试方法

热门文章

  1. Maven中maven-source-plugin,maven-javadoc-plugin插件的使用:
  2. 全排列变种:限定 排列的差值范围 及 排列中的元素个数
  3. leetcode914. 卡牌分组
  4. leetcode116. 填充每个节点的下一个右侧节点指针
  5. leetcode94 二叉树的中序遍历
  6. 算法(7)-leetcode-explore-learn-数据结构-数组-小结
  7. 大数的四则运算(加法、减法、乘法、除法)
  8. 12无法使用otg_12个冷知识:或许只能看看而无法使用,但却真实存在着
  9. Linux strtol将十六进制转化为十进制
  10. 显卡天梯图:2014最新显卡性能天梯图