引言:  OCR领域大名鼎鼎的Tesseract,开源项目,可以直接将图片中的文字进行识别,转换成文本信息,本文将简介如何安装以及进行数据的训练操作。

1.  Tesseract-OCR

目前最新的tesseract项目已经全部迁移到了github上,我们可以从中获取所有主要的信息。

地址: https://github.com/tesseract-ocr/tesseract

2.  Tesseract-OCR安装

windows下的安装非常简单,直接安装可执行程序即可。这里重点介绍centos下的安装。这里提示一下,当你选择安装各类语言之时,则需要一个稍微耗时的等待操作,比如下图中所示的信息:

操作系统: centos 7, JDK 8

step1:     yum search tesseract

[root@flybird ~]# yum search tesseract-ocr
Loaded plugins: langpacks
========================================================================================================== Matched: tesseract-ocr ===========================================================================================================
tesseract.x86_64 : Raw OCR Engine
tesseract-devel.x86_64 : Development files for tesseract
tesseract-langpack-afr.noarch : Afrikaans language data for tesseract
tesseract-langpack-amh.noarch : Amharic language data for tesseract
tesseract-langpack-ara.noarch : Arabic language data for tesseract
tesseract-langpack-asm.noarch : Assamese language data for tesseract
tesseract-langpack-aze.noarch : Azerbaijani language data for tesseract
tesseract-langpack-aze_cyrl.noarch : "Azerbaijani language data for tesseract
tesseract-langpack-bel.noarch : Belarusian language data for tesseract
tesseract-langpack-ben.noarch : Bengali language data for tesseract
tesseract-langpack-bod.noarch : "Tibetan language data for tesseract
tesseract-langpack-bos.noarch : Bosnian language data for tesseract
tesseract-langpack-bul.noarch : Bulgarian language data for tesseract
tesseract-langpack-cat.noarch : Catalan language data for tesseract
tesseract-langpack-ceb.noarch : Cebuano language data for tesseract
............

step2:  yum install tesseract.x86_64

[root@flybird ~]# yum install tesseract.x86_64
Loaded plugins: langpacks
Resolving Dependencies
--> Running transaction check
---> Package tesseract.x86_64 0:3.04.00-3.el7 will be installed
--> Processing Dependency: liblept.so.4()(64bit) for package: tesseract-3.04.00-3.el7.x86_64
--> Processing Dependency: libicuuc.so.50()(64bit) for package: tesseract-3.04.00-3.el7.x86_64
--> Processing Dependency: libicui18n.so.50()(64bit) for package: tesseract-3.04.00-3.el7.x86_64
--> Running transaction check
---> Package leptonica.x86_64 0:1.72-2.el7 will be installed
---> Package libicu.x86_64 0:50.1.2-15.el7 will be installed
--> Finished Dependency ResolutionDependencies Resolved=============================================================================================================================================================================================================================================Package                                                   Arch                                                   Version                                                         Repository                                            Size
=============================================================================================================================================================================================================================================
Installing:tesseract                                                 x86_64                                                 3.04.00-3.el7                                                   epel                                                  11 M
Installing for dependencies:leptonica                                                 x86_64                                                 1.72-2.el7                                                      epel                                                 928 klibicu                                                    x86_64                                                 50.1.2-15.el7                                                   base                                                 6.9 MTransaction Summary
=============================================================================================================================================================================================================================================
Install  1 Package (+2 Dependent packages)Total download size: 19 M
Installed size: 67 M
Is this ok [y/d/N]: y
Downloading packages:
(1/3): leptonica-1.72-2.el7.x86_64.rpm                                                                                                                                                                                | 928 kB  00:00:00
(2/3): libicu-50.1.2-15.el7.x86_64.rpm                                                                                                                                                                                | 6.9 MB  00:00:07
(3/3): tesseract-3.04.00-3.el7.x86_64.rpm                                                                                                                                                                             |  11 MB  00:00:11
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Total                                                                                                                                                                                                        1.7 MB/s |  19 MB  00:00:11
Running transaction check
Running transaction test
Transaction test succeeded
Running transactionInstalling : leptonica-1.72-2.el7.x86_64                                                                                                                                                                                               1/3 Installing : libicu-50.1.2-15.el7.x86_64                                                                                                                                                                                               2/3 Installing : tesseract-3.04.00-3.el7.x86_64                                                                                                                                                                                            3/3 Verifying  : tesseract-3.04.00-3.el7.x86_64                                                                                                                                                                                            1/3 Verifying  : libicu-50.1.2-15.el7.x86_64                                                                                                                                                                                               2/3 Verifying  : leptonica-1.72-2.el7.x86_64                                                                                                                                                                                               3/3 Installed:tesseract.x86_64 0:3.04.00-3.el7                                                                                                                                                                                                           Dependency Installed:leptonica.x86_64 0:1.72-2.el7                                                                                         libicu.x86_64 0:50.1.2-15.el7                                                                                        Complete!

step 3: 安装devel

[root@flybird ~]# yum install tesseract-devel.x86_64 tesseract-osd.x86_64
Loaded plugins: langpacks
Resolving Dependencies
--> Running transaction check
---> Package tesseract-devel.x86_64 0:3.04.00-3.el7 will be installed
--> Processing Dependency: pkgconfig(lept) for package: tesseract-devel-3.04.00-3.el7.x86_64
--> Running transaction check
---> Package leptonica-devel.x86_64 0:1.72-2.el7 will be installed
--> Finished Dependency ResolutionDependencies Resolved=============================================================================================================================================================================================================================================Package                                                        Arch                                                  Version                                                      Repository                                           Size
=============================================================================================================================================================================================================================================
Installing:tesseract-devel                                                x86_64                                                3.04.00-3.el7                                                epel                                                 80 k
Installing for dependencies:leptonica-devel                                                x86_64                                                1.72-2.el7                                                   epel                                                108 kTransaction Summary
=============================================================================================================================================================================================================================================
Install  1 Package (+1 Dependent package)Total download size: 188 k
Installed size: 1.1 M
Is this ok [y/d/N]: y
Downloading packages:
(1/2): tesseract-devel-3.04.00-3.el7.x86_64.rpm                                                                                                                                                                       |  80 kB  00:00:00
(2/2): leptonica-devel-1.72-2.el7.x86_64.rpm                                                                                                                                                                          | 108 kB  00:00:00
---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
Total                                                                                                                                                                                                        738 kB/s | 188 kB  00:00:00
Running transaction check
Running transaction test
Transaction test succeeded
Running transactionInstalling : leptonica-devel-1.72-2.el7.x86_64                                                                                                                                                                                         1/2 Installing : tesseract-devel-3.04.00-3.el7.x86_64                                                                                                                                                                                      2/2 Verifying  : leptonica-devel-1.72-2.el7.x86_64                                                                                                                                                                                         1/2 Verifying  : tesseract-devel-3.04.00-3.el7.x86_64                                                                                                                                                                                      2/2 Installed:tesseract-devel.x86_64 0:3.04.00-3.el7                                                                                                                                                                                                     Dependency Installed:leptonica-devel.x86_64 0:1.72-2.el7                                                                                                                                                                                                        Complete!

step 4:  安装lang package tesseract-langpack-chi_sim.noarch, tesseract-langpack-chi_tra.noarch

[root@flybird ~]# yum install tesseract-langpack-chi_sim.noarch
Loaded plugins: langpacks
Resolving Dependencies
--> Running transaction check
---> Package tesseract-langpack-chi_sim.noarch 0:3.04.00-3.el7 will be installed
--> Finished Dependency ResolutionDependencies Resolved=============================================================================================================================================================================================================================================Package                                                                Arch                                               Version                                                    Repository                                        Size
=============================================================================================================================================================================================================================================
Installing:tesseract-langpack-chi_sim                                             noarch                                             3.04.00-3.el7                                              epel                                              15 MTransaction Summary
=============================================================================================================================================================================================================================================
Install  1 PackageTotal download size: 15 M
Installed size: 40 M
Is this ok [y/d/N]: y
Downloading packages:
tesseract-langpack-chi_sim-3.04.00-3.el7.noarch.rpm                                                                                                                                                                   |  15 MB  00:00:15
Running transaction check
Running transaction test
Transaction test succeeded
Running transactionInstalling : tesseract-langpack-chi_sim-3.04.00-3.el7.noarch                                                                                                                                                                           1/1 Verifying  : tesseract-langpack-chi_sim-3.04.00-3.el7.noarch                                                                                                                                                                           1/1 Installed:tesseract-langpack-chi_sim.noarch 0:3.04.00-3.el7                                                                                                                                                                                          Complete!

3.  Tesseract-OCR的使用

a.  识别图片中的文字信息

命令格式:

tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]

操作: tesseract ttest.png out -l lang-type

这里我们选取了两种图片,中文和英文图片;然后我们来看看OCR的效果如何。

b. 检查tesseract支持的语言

[root@flybird practice]# tesseract --list-langs
List of available languages (4):
eng
osd
chi_tra
chi_sim

基于上述的信息可知,支持四种类型,三种语言, osd是开发的脚本

c.  进行基于中文的OCR

原图信息:

进行OCR操作,操作命令: tesseract chin-ocr.png chin-out -l chi_sim

运行结果:

[root@flybird practice]# tesseract chin-ocr.png chin-out -l chi_sim
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
[root@flybird practice]# cat chin-out.txt
11月17日痿言 ′ 文童发文透露租妻子马伊蜊合作的新剧 (剃刀边缘) 快要刮作完
成) 感慨良多′他自称 ″过街者冒″ 租 ″笨人″ ′直言自己虽然忍不任茌片场发脾气′
但 ″i人亘″ 二字是心安理才寻她受了′

大家可以看到,识别率还是有待提高的,很多的信息并未准确识别出来。这里注意背景中有水印信息,造成了一定干扰。

d. 基于英文的OCR识别

原图信息:

进行OCR操作, tesseract english-ocr.png eng-ocr -l eng

运行的结果信息:

[root@flybird practice]# tesseract english-ocr.png eng-ocr -l eng
Tesseract Open Source OCR Engine v3.04.00 with Leptonica
[root@flybird practice]# cat eng-ocr.txt
I have lived in China for a long time and we all like it very much. We do have it done.
It is very funny in a good lucky state.

基于本次的OCR结果还是非常理想的,当然这里是基于干扰非常少的情况下进行的。

4. 总结

这里只是简要介绍了其安装信息与过程,更多的信息还是需要大家自行到tesseract上去获取信息,并自行实践的。

Tesseract-OCR安装简明教程相关推荐

  1. kangle web server源代码安装简明教程

    kangle web server源代码安装简明教程 - kangle使用交流 - kangle软件 是一款高性能web服务器,反向代理服务器,提供虚拟主机管理系统及代理服务器,web服务器架设 - ...

  2. Linux/Unix系统下nginx+php安装简明教程

    本文转载自Linux/Unix系统下nginx+php安装简明教程,请保留转载信息~ 一.安装nginx: 1. 安装pcre库,nginx的rewrite模板需用到pcre库: mkdir -p / ...

  3. Windows环境下smarty安装简明教程

    整个配置过程分为九步走,文章看起来比较长,那是因为站长对每一个步骤都给出了没法再详细的解释,非常浅显,绝对是名副其实的"最简明教程".按照这个教程,智商大于零的用户都能顺利配置好S ...

  4. moe安装指南_macOS 安装简明教程

    这个页面解决什么问题? 这篇文章将引导你在已有 Windows 操作系统的环境下,全新安装 macOS 到你的笔记本上. 适用于哪些机型? 本仓库支持的所有机型,都可以按照这篇教程来安装.当然,鉴于在 ...

  5. 红旗7linux安装教程,红旗Linux7.0硬盘安装简明教程

    红旗Linux7.0安装方式比较简单,但为了帮助更多的朋友,更好的安装了解红旗Linux7.0.希望大家耐心的看完本文,如果你是初次接触红旗 Linux的新手,本文将是带你进入红旗Linux世界大门的 ...

  6. phpstudy下载安装简明教程+软件下载(图文)

    很多朋友在学习php的过程中会看到phpstudy这个东西,那么phpstudy是做什么的呢?有什么用?接下来的这篇文章将个大家来详细的介绍一下phpstudy的内容. 首先在百度百科上对于phpst ...

  7. phpstudy下载安装简明教程+软件下载

    首先在百度百科上对于phpstudy的定义是一个PHP调试环境的程序集成包. 该程序包集成最新的Apache+PHP+MySQL+phpMyAdmin+ZendOptimizer,一次性安装,无须配置 ...

  8. Odoo 15安装简明教程

    一年一度的 Odoo 体验大会只剩下不到一个月了,在7月底 Odoo 获得了2.15亿美金,似乎又让大家多了一重期待,10月即将发布的版本为 Odoo 15,官方正在紧锣密鼓准备发布会上的内容,应该说 ...

  9. Tesseract OCR 训练字库

    Tesseract OCR是一款由HP实验室开发由Google维护的开源OCR引擎,在字符识别领域发挥着举足轻重的作用.除了使用软件自带的中英文识别库,我们可以使用Tesseract OCR训练属于自 ...

  10. Tesseract OCR与文本智能识别

    博主简介 博主是一名大二学生,主攻人工智能研究.感谢让我们在CSDN相遇,博主致力于在这里分享关于人工智能,c++,Python,爬虫等方面知识的分享. 如果有需要的小伙伴可以关注博主,博主会继续更新 ...

最新文章

  1. 设计模式-模板模式-个人理解
  2. server2003-多域间林之间信任配置方法详解(附图)
  3. 关于伪静态和真静态的一点心得
  4. 笔记2014-08-26
  5. oracle等待事件查询,Oracle查看等待事件_yh_zeng2的博客-CSDN博客
  6. python全局变量怎么删除_python 全局变量怎么改
  7. c# 在mongo中查询经纬度范围
  8. 使用弹性布局来解决令人烦恼的垂直居中问题~~
  9. 【原创】定制ROM时自定义默认主题
  10. TCP 拥塞控制算法
  11. 如何使用QXDM 的1477项 转化utc时间
  12. 解决 大漠测试工具 “你的系统没有发现大漠插件”问题
  13. ppt矩形里面的图片怎么放大缩小_PPT5题目要求-矩形放大缩小
  14. 除了装去广告软件,你还能通过「禁止APP联网」来屏蔽广告
  15. vray渲染出图尺寸_3DMax渲染出图尺寸怎么设置?
  16. 实验吧-天下武功唯快不破
  17. 网课研究生学术与职业素养讲座mooc答案
  18. Unity3d学习记录之回合制游戏
  19. vue中企业微信 wx.onHistoryBack详解:
  20. 无法连接至远程计算机 pubg,绝地求生无法连接到steam网络完美解决办法

热门文章

  1. OPEN CASCADE Curve Continuity
  2. html字体制作,用@font-face实现网页特殊字符(制作自定义字体)
  3. PMBOK(第六版) 学习笔记 ——《第十三章 项目相关方管理》
  4. SOLIDWORKS凸台拉伸命令,你真的会用吗?
  5. 前端之JS篇(二)——数据类型基础概念
  6. 【数据挖掘】从“文本”到“知识”:信息抽取(Information Extraction)
  7. LINQ 语句中Take() 和Skip() 总结
  8. 测量网页元素的大小和间距的利器
  9. IOS测试——keychain_dumper工具的使用
  10. css盒模型(标准模式和怪异模式)