光学字符识别引擎 tesseract-ocr 简介
Tesseract是一个 由HP实验室开发 由Google维护的 开源的 光学字符识别 (OCR)引擎,可以在 Apache 2.0 许可 下获得。
它可以直接使用,或者(对于程序员)使用 API 从图像中提取输入,包括手写的或打印的文本。
与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;
如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。
源码地址为:https://github.com/tesseract-ocr/tesseract;
你可以训练它
大体流程为:安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的 traineddata 放 入tessdata 中。
具体细节参考:光学字符识别引擎 tesseract-ocr 样体训练
它是跨平台的,支持:
Linux
macOS
Windows
Tesseract-OCR4.0 版本在 Win7 上的安装过程
Tesseract-OCR4.0版本在VS2015上的编译与运行
它支持很多种的语言,包括:
Lang Code | Language | 4.0 traineddata |
---|---|---|
afr | Afrikaans | afr.traineddata |
amh | Amharic | amh.traineddata |
ara | Arabic | ara.traineddata |
asm | Assamese | asm.traineddata |
aze | Azerbaijani | aze.traineddata |
aze_cyrl | Azerbaijani - Cyrillic | aze_cyrl.traineddata |
bel | Belarusian | bel.traineddata |
ben | Bengali | ben.traineddata |
bod | Tibetan | bod.traineddata |
bos | Bosnian | bos.traineddata |
bul | Bulgarian | bul.traineddata |
cat | Catalan; Valencian | cat.traineddata |
ceb | Cebuano | ceb.traineddata |
ces | Czech | ces.traineddata |
chi_sim | Chinese - Simplified | chi_sim.traineddata |
chi_tra | Chinese - Traditional | chi_tra.traineddata |
chr | Cherokee | chr.traineddata |
cym | Welsh | cym.traineddata |
dan | Danish | dan.traineddata |
deu | German | deu.traineddata |
dzo | Dzongkha | dzo.traineddata |
ell | Greek, Modern (1453-) | ell.traineddata |
eng | English | eng.traineddata |
enm | English, Middle (1100-1500) | enm.traineddata |
epo | Esperanto | epo.traineddata |
est | Estonian | est.traineddata |
eus | Basque | eus.traineddata |
fas | Persian | fas.traineddata |
fin | Finnish | fin.traineddata |
fra | French | fra.traineddata |
frk | Frankish | frk.traineddata |
frm | French, Middle (ca. 1400-1600) | frm.traineddata |
gle | Irish | gle.traineddata |
glg | Galician | glg.traineddata |
grc | Greek, Ancient (-1453) | grc.traineddata |
guj | Gujarati | guj.traineddata |
hat | Haitian; Haitian Creole | hat.traineddata |
heb | Hebrew | heb.traineddata |
hin | Hindi | hin.traineddata |
hrv | Croatian | hrv.traineddata |
hun | Hungarian | hun.traineddata |
iku | Inuktitut | iku.traineddata |
ind | Indonesian | ind.traineddata |
isl | Icelandic | isl.traineddata |
ita | Italian | ita.traineddata |
ita_old | Italian - Old | ita_old.traineddata |
jav | Javanese | jav.traineddata |
jpn | Japanese | jpn.traineddata |
kan | Kannada | kan.traineddata |
kat | Georgian | kat.traineddata |
kat_old | Georgian - Old | kat_old.traineddata |
kaz | Kazakh | kaz.traineddata |
khm | Central Khmer | khm.traineddata |
kir | Kirghiz; Kyrgyz | kir.traineddata |
kor | Korean | kor.traineddata |
kur | Kurdish | kur.traineddata |
lao | Lao | lao.traineddata |
lat | Latin | lat.traineddata |
lav | Latvian | lav.traineddata |
lit | Lithuanian | lit.traineddata |
mal | Malayalam | mal.traineddata |
mar | Marathi | mar.traineddata |
mkd | Macedonian | mkd.traineddata |
mlt | Maltese | mlt.traineddata |
msa | Malay | msa.traineddata |
mya | Burmese | mya.traineddata |
nep | Nepali | nep.traineddata |
nld | Dutch; Flemish | nld.traineddata |
nor | Norwegian | nor.traineddata |
ori | Oriya | ori.traineddata |
pan | Panjabi; Punjabi | pan.traineddata |
pol | Polish | pol.traineddata |
por | Portuguese | por.traineddata |
pus | Pushto; Pashto | pus.traineddata |
ron | Romanian; Moldavian; Moldovan | ron.traineddata |
rus | Russian | rus.traineddata |
san | Sanskrit | san.traineddata |
sin | Sinhala; Sinhalese | sin.traineddata |
slk | Slovak | slk.traineddata |
slv | Slovenian | slv.traineddata |
spa | Spanish; Castilian | spa.traineddata |
spa_old | Spanish; Castilian - Old | spa_old.traineddata |
sqi | Albanian | sqi.traineddata |
srp | Serbian | srp.traineddata |
srp_latn | Serbian - Latin | srp_latn.traineddata |
swa | Swahili | swa.traineddata |
swe | Swedish | swe.traineddata |
syr | Syriac | syr.traineddata |
tam | Tamil | tam.traineddata |
tel | Telugu | tel.traineddata |
tgk | Tajik | tgk.traineddata |
tgl | Tagalog | tgl.traineddata |
tha | Thai | tha.traineddata |
tir | Tigrinya | tir.traineddata |
tur | Turkish | tur.traineddata |
uig | Uighur; Uyghur | uig.traineddata |
ukr | Ukrainian | ukr.traineddata |
urd | Urdu | urd.traineddata |
uzb | Uzbek | uzb.traineddata |
uzb_cyrl | Uzbek - Cyrillic | uzb_cyrl.traineddata |
vie | Vietnamese | vie.traineddata |
yid | Yiddish | yid.traineddata |
参考: https://github.com/tesseract-ocr/tesseract/wiki/Data-Files
光学字符识别引擎 tesseract-ocr 简介相关推荐
- Tesseract OCR简介(一)
简介 Tesseract(/'tesərækt/) 这个词的意思是"超立方体",指的是几何学里的四维标准方体,又称"正八胞体".右图是一个正八胞体绕着两个四维空 ...
- Tesseract OCR简介(三)--安装及参数使用
参考:AI-Tesseract-OCR简介_花熊的博客-CSDN博客_tesseract坐标 一.windows 1.1 Tesseract安装 适用于Tesseract 3.05和Tesseract ...
- Python,OpenCV中的光学字符识别(OCR Optical Character Recognition)
Python,OpenCV中的光学字符识别(OCR Optical Character Recognition 1. 什么是OCR? 2. 光学字符识别简史 3. 光学字符识别的应用 4. OSD 方 ...
- 使用Google的Tesseract和OpenCV构建光学字符识别(OCR)系统
总览 光学字符识别(OCR)是计算机视觉领域中广泛使用的系统 了解如何为各种任务构建自己的OCR 我们将利用OpenCV库和Tesseract来构建OCR系统 介绍 你还记得考试期间我们必须填写正确答 ...
- 使用Tesseract+OpenCV+Python进行光学字符识别 (OCR)
介绍 我们人类几乎每时每刻都在阅读文本.如果我们的机器或系统也能像我们一样阅读文本,那不是很好吗?但更大的问题是"我们如何让我们的机器阅读"?这就是光学字符识别 (OCR) 出现的 ...
- TesseractOCR(光学字符识别)引擎概述(一)
目录 一.TesseractOCR引擎简介 二.TesseractOCR架构 三.文本行和单词的查找(Text-line and Word Finding) 原文参见<Adapting the ...
- OCR技术(光学字符识别)
什么是OCR? OCR英文全称是optical character recognition,中文叫光学字符识别.它是利用光学技术和计算机技术把印在或者写在纸上的 文字读取出来,并转换成一种计算机能够接 ...
- 光学字符识别 OCR
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业,一般多是印刷.打印行 ...
- ocr字符识别_Google的光学字符识别(OCR)软件适用于248种以上的语言
ocr字符识别 Google的光学字符识别 (OCR)软件现在可用于248多种世界语言(包括所有主要的南亚语言). 它非常简单易用,并且可以检测大多数语言,且准确性超过90%. 该技术从图像中提取文本 ...
- OCR(Optical Character Recognition,光学字符识别)技术详解
OCR(Optical Character Recognition,光学字符识别)技术是一种将图像中的文字信息转换为文本的技术.在计算机视觉和人工智能领域,OCR 技术是一个非常重要的应用,它可以帮助 ...
最新文章
- php获取谷歌地图api接口,谷歌地图 API 开发之信息窗口
- Graphpad Prism计算IC50
- linux fedora35更改开机默认等待时间timeout
- 从 RequireJS 到 SeaJS(2)
- java处理json回车_json中换行符的处理方法示例介绍
- 发布订阅模式 仿写Vue事件监听手写js实现
- MAC OS X 10.9.X下用命令行开启SSD trim的方法汇总
- javascript监听键盘事件 - 如表单enter回车提交
- java.net.SocketException: Connection reset 问题分析
- # Android12 wifi和4G同时使用
- 数学 - 基本初等函数导数公式及求导法则
- 【生活中的逻辑谬误】功利误导和情感误导
- Web of Science的正确打开方式
- 如何查看微信image/*.dat文件
- winform datagridview 没有出现垂直滚动条 上下_木门安装中出现问题如何解决?
- 关于文件关联的图标不能正常显示
- Wyn Enterprise 报表数据过滤
- 大类资产配置的基本方法
- iOS高仿微信完整源码,网易爱玩APP源码等
- html标签高度塌陷,CSS中如何解决高度塌陷问题
热门文章
- Android 源码编译make的错误处理
- 放慢你的额脚步_放慢脚步使我成为更好的领导者
- 易大师接口自动化测试平台如何创建不同协议的接口并进行测试
- Windows下获取本地IP地址的两种方法
- css3动画 --- transform属性值:旋转rotate、扭曲skew、缩放scale和移动translate以及矩阵变形matrix
- xyz坐标转换ybc_经纬度转换XYZ
- stc12c5a单片机c语言adc,STC12C5A60S2单片机的ADC采样程序分享
- 【重磅】凯文.凯利8个小时演讲实录
- 修改电脑IP地址和MAC地址
- java工程师怎么接私单_Java开发者如何接私活?