Tesseract是一个 由HP实验室开发 由Google维护的 开源的 光学字符识别 (OCR)引擎,可以在  Apache 2.0 许可 下获得。
它可以直接使用,或者(对于程序员)使用 API​​ 从图像中提取输入,包括手写的或打印的文本。

与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;

如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。

源码地址为:https://github.com/tesseract-ocr/tesseract;

你可以训练它

大体流程为:安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的 traineddata 放 入tessdata 中。

具体细节参考:光学字符识别引擎 tesseract-ocr 样体训练

它是跨平台的,支持:

Linux

macOS

Windows

Tesseract-OCR4.0 版本在 Win7 上的安装过程

Tesseract-OCR4.0版本在VS2015上的编译与运行

它支持很多种的语言,包括:

Lang Code Language 4.0 traineddata
afr Afrikaans afr.traineddata
amh Amharic amh.traineddata
ara Arabic ara.traineddata
asm Assamese asm.traineddata
aze Azerbaijani aze.traineddata
aze_cyrl Azerbaijani - Cyrillic aze_cyrl.traineddata
bel Belarusian bel.traineddata
ben Bengali ben.traineddata
bod Tibetan bod.traineddata
bos Bosnian bos.traineddata
bul Bulgarian bul.traineddata
cat Catalan; Valencian cat.traineddata
ceb Cebuano ceb.traineddata
ces Czech ces.traineddata
chi_sim Chinese - Simplified chi_sim.traineddata
chi_tra Chinese - Traditional chi_tra.traineddata
chr Cherokee chr.traineddata
cym Welsh cym.traineddata
dan Danish dan.traineddata
deu German deu.traineddata
dzo Dzongkha dzo.traineddata
ell Greek, Modern (1453-) ell.traineddata
eng English eng.traineddata
enm English, Middle (1100-1500) enm.traineddata
epo Esperanto epo.traineddata
est Estonian est.traineddata
eus Basque eus.traineddata
fas Persian fas.traineddata
fin Finnish fin.traineddata
fra French fra.traineddata
frk Frankish frk.traineddata
frm French, Middle (ca. 1400-1600) frm.traineddata
gle Irish gle.traineddata
glg Galician glg.traineddata
grc Greek, Ancient (-1453) grc.traineddata
guj Gujarati guj.traineddata
hat Haitian; Haitian Creole hat.traineddata
heb Hebrew heb.traineddata
hin Hindi hin.traineddata
hrv Croatian hrv.traineddata
hun Hungarian hun.traineddata
iku Inuktitut iku.traineddata
ind Indonesian ind.traineddata
isl Icelandic isl.traineddata
ita Italian ita.traineddata
ita_old Italian - Old ita_old.traineddata
jav Javanese jav.traineddata
jpn Japanese jpn.traineddata
kan Kannada kan.traineddata
kat Georgian kat.traineddata
kat_old Georgian - Old kat_old.traineddata
kaz Kazakh kaz.traineddata
khm Central Khmer khm.traineddata
kir Kirghiz; Kyrgyz kir.traineddata
kor Korean kor.traineddata
kur Kurdish kur.traineddata
lao Lao lao.traineddata
lat Latin lat.traineddata
lav Latvian lav.traineddata
lit Lithuanian lit.traineddata
mal Malayalam mal.traineddata
mar Marathi mar.traineddata
mkd Macedonian mkd.traineddata
mlt Maltese mlt.traineddata
msa Malay msa.traineddata
mya Burmese mya.traineddata
nep Nepali nep.traineddata
nld Dutch; Flemish nld.traineddata
nor Norwegian nor.traineddata
ori Oriya ori.traineddata
pan Panjabi; Punjabi pan.traineddata
pol Polish pol.traineddata
por Portuguese por.traineddata
pus Pushto; Pashto pus.traineddata
ron Romanian; Moldavian; Moldovan ron.traineddata
rus Russian rus.traineddata
san Sanskrit san.traineddata
sin Sinhala; Sinhalese sin.traineddata
slk Slovak slk.traineddata
slv Slovenian slv.traineddata
spa Spanish; Castilian spa.traineddata
spa_old Spanish; Castilian - Old spa_old.traineddata
sqi Albanian sqi.traineddata
srp Serbian srp.traineddata
srp_latn Serbian - Latin srp_latn.traineddata
swa Swahili swa.traineddata
swe Swedish swe.traineddata
syr Syriac syr.traineddata
tam Tamil tam.traineddata
tel Telugu tel.traineddata
tgk Tajik tgk.traineddata
tgl Tagalog tgl.traineddata
tha Thai tha.traineddata
tir Tigrinya tir.traineddata
tur Turkish tur.traineddata
uig Uighur; Uyghur uig.traineddata
ukr Ukrainian ukr.traineddata
urd Urdu urd.traineddata
uzb Uzbek uzb.traineddata
uzb_cyrl Uzbek - Cyrillic uzb_cyrl.traineddata
vie Vietnamese vie.traineddata
yid Yiddish yid.traineddata

参考: https://github.com/tesseract-ocr/tesseract/wiki/Data-Files

光学字符识别引擎 tesseract-ocr 简介相关推荐

  1. Tesseract OCR简介(一)

    简介 Tesseract(/'tesərækt/) 这个词的意思是"超立方体",指的是几何学里的四维标准方体,又称"正八胞体".右图是一个正八胞体绕着两个四维空 ...

  2. Tesseract OCR简介(三)--安装及参数使用

    参考:AI-Tesseract-OCR简介_花熊的博客-CSDN博客_tesseract坐标 一.windows 1.1 Tesseract安装 适用于Tesseract 3.05和Tesseract ...

  3. Python,OpenCV中的光学字符识别(OCR Optical Character Recognition)

    Python,OpenCV中的光学字符识别(OCR Optical Character Recognition 1. 什么是OCR? 2. 光学字符识别简史 3. 光学字符识别的应用 4. OSD 方 ...

  4. 使用Google的Tesseract和OpenCV构建光学字符识别(OCR)系统

    总览 光学字符识别(OCR)是计算机视觉领域中广泛使用的系统 了解如何为各种任务构建自己的OCR 我们将利用OpenCV库和Tesseract来构建OCR系统 介绍 你还记得考试期间我们必须填写正确答 ...

  5. 使用Tesseract+OpenCV+Python进行光学字符识别 (OCR)

    介绍 我们人类几乎每时每刻都在阅读文本.如果我们的机器或系统也能像我们一样阅读文本,那不是很好吗?但更大的问题是"我们如何让我们的机器阅读"?这就是光学字符识别 (OCR) 出现的 ...

  6. TesseractOCR(光学字符识别)引擎概述(一)

    目录 一.TesseractOCR引擎简介 二.TesseractOCR架构 三.文本行和单词的查找(Text-line and Word Finding) 原文参见<Adapting the ...

  7. OCR技术(光学字符识别)

    什么是OCR? OCR英文全称是optical character recognition,中文叫光学字符识别.它是利用光学技术和计算机技术把印在或者写在纸上的 文字读取出来,并转换成一种计算机能够接 ...

  8. 光学字符识别 OCR

    光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业,一般多是印刷.打印行 ...

  9. ocr字符识别_Google的光学字符识别(OCR)软件适用于248种以上的语言

    ocr字符识别 Google的光学字符识别 (OCR)软件现在可用于248多种世界语言(包括所有主要的南亚语言). 它非常简单易用,并且可以检测大多数语言,且准确性超过90%. 该技术从图像中提取文本 ...

  10. OCR(Optical Character Recognition,光学字符识别)技术详解

    OCR(Optical Character Recognition,光学字符识别)技术是一种将图像中的文字信息转换为文本的技术.在计算机视觉和人工智能领域,OCR 技术是一个非常重要的应用,它可以帮助 ...

最新文章

  1. php获取谷歌地图api接口,谷歌地图 API 开发之信息窗口
  2. Graphpad Prism计算IC50
  3. linux fedora35更改开机默认等待时间timeout
  4. 从 RequireJS 到 SeaJS(2)
  5. java处理json回车_json中换行符的处理方法示例介绍
  6. 发布订阅模式 仿写Vue事件监听手写js实现
  7. MAC OS X 10.9.X下用命令行开启SSD trim的方法汇总
  8. javascript监听键盘事件 - 如表单enter回车提交
  9. java.net.SocketException: Connection reset 问题分析
  10. # Android12 wifi和4G同时使用
  11. 数学 - 基本初等函数导数公式及求导法则
  12. 【生活中的逻辑谬误】功利误导和情感误导
  13. Web of Science的正确打开方式
  14. 如何查看微信image/*.dat文件
  15. winform datagridview 没有出现垂直滚动条 上下_木门安装中出现问题如何解决?
  16. 关于文件关联的图标不能正常显示
  17. Wyn Enterprise 报表数据过滤
  18. 大类资产配置的基本方法
  19. iOS高仿微信完整源码,网易爱玩APP源码等
  20. html标签高度塌陷,CSS中如何解决高度塌陷问题

热门文章

  1. Android 源码编译make的错误处理
  2. 放慢你的额脚步_放慢脚步使我成为更好的领导者
  3. 易大师接口自动化测试平台如何创建不同协议的接口并进行测试
  4. Windows下获取本地IP地址的两种方法
  5. css3动画 --- transform属性值:旋转rotate、扭曲skew、缩放scale和移动translate以及矩阵变形matrix
  6. xyz坐标转换ybc_经纬度转换XYZ
  7. stc12c5a单片机c语言adc,STC12C5A60S2单片机的ADC采样程序分享
  8. 【重磅】凯文.凯利8个小时演讲实录
  9. 修改电脑IP地址和MAC地址
  10. java工程师怎么接私单_Java开发者如何接私活?