Mac下Tesseract-OCR文字识别新手使用入门
引
最近要倒腾一下文字识别,直接上手iOS的识别遇到了一些困难,于是决定先在Mac上做一做,会比较简单。
有一个经常听到的词汇叫做OCR,OCR是什么呢?Optical Character Recognition,光学字符识别,是图片文字识别的官方学术名称。
要做这么一个听起来比较复杂的事情,如果有现成的开源框架那是最好的,如果你大致了解一下,就会发现开源界Tesseract是用的最多的,也是大多数接触这个领域的人最开始拿来练手的东西。简单介绍一下Tesseract的历史,其最早由HP实验室在1985年研发,10年后,也就是1995年已经是业内最准确的识别引擎之一了,但是HP后来放弃了OCR业务,不过好消息是后来HP决定反正不用,不如开源出来,所以2005年,又是10年后,Tesseract开源了,并且委托Google进行改进、优化的工作。
所以现在一说Tesseract往往看到的都是说Google的框架,其实还有这么一段历史在其中。
准备工作
要在Mac下用Tesseract,肯定要进行安装,安装Tesseract之前,我们需要做一些准备工作。
Xcode Command Line Tool
首先安装Xcode Command Line Tool,Command Line Tool是Xcode中的一款工具,从App Store下载Xcode之后,默认没有安装Command Line Tool,安装之后就可以在终端命令行中运行一些C程序。
安装方法很简单,打开终端输入:xcode-select –install,会弹出确认窗口:
直接点击安装就可以了,一段时间之后就安装好了,有进度条显示,十几分钟吧。检查是否安装成功的方法是再次在终端输入上述命令,会提示已经安装过了,或者在Xcode新建工程,选择macOS下,会多出一个Command Line Tool:
MacPorts
平常我们安装Mac上的软件,常用的两种方式是App Store和dmg,除此之外,还可以用MacPorts来安装,它就像apt-get、yum一样,可以通过命令行快速安装一些软件,很方便,类似于我们通过命令行用cocoapods来安装第三方开发库。
进入MacPorts的官网:http://www.macports.org/
下载安装包后安装它,可能会要求重启mac。
我们主要用来安装Tesseract,其他的用法大家可以自己慢慢发掘。
安装Tesseract
准备工作完毕后,就可以安装Tesseract了。
打开终端输入:sudo port install tesseract
会要求输入电脑密码,mac终端中输入密码是看不到的,只管输入就好。
然后等待它自个去安装一大堆依赖和Tesseract。安装完后可以检查一下是否安装成功,终端输入tesseract后回车,会出来一些信息和一些配置方式,或者输入tesseract -v,会显示安装的Tesseract版本信息,目前(2017.6.1)MacPorts安装的Tesseract版本是3.04.01,不过此时github上,包括cocoapods上最新的版本已经是4.0了 。
这时候是不是可以跑Tesseract了呢?还不行,因为Tesseract是一款OCR引擎,要识别文字,一定要有语言库,Tesseract能够识别100多种语言,语言库是比较大的,它不会一开始就都帮你安装了,需要你按需安装,它甚至连英语语言包都没有默认安装,但是运行程序是必须要安装好英语语言包的,注意,是运行程序,不是识别英语,我觉得这一点特别奇怪,如果你必须要那就直接默认自带啊…所以我们还要安装语言包。
还是在终端,输入命令:sudo port install tesseract-<语言包名>,MacPorts支持的语言包名可以在MacPorts tesseract page查看。
注意上面命令中的尖括号并不需要输入,如果你在命令行中包括了尖括号,会显示:
-bash: syntax error near unexpected token `newline'
尖括号是命令行命令的一种习惯表示方法,表示这里要被替换掉。比如我们在网页中找到英语语言包的名称:
那实际上我们需要输入的命令是:sudo port install tesseract-eng
顺便我们可以把中文语言包也给装了,简体中文的名称是”chi_sim”,所以命令是:sudo port install tesseract-chi_sim
至此,Tesseract安装完毕,可以开始体验神奇了。
使用Tesseract
使用Tesseract同样是通过命令行的方式。先准备一张图片,然后通过命令行进入该图片存放的位置(用cd命令)。
Tesseract的命令格式为:
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile...]
其中有几个参数:
imagename是你要识别的图片的名字,不需要打引号,直接输入即可。
outputbase是输出结果文件的名字,不需要文件类型后缀,就是txt,这个参数就是txt的文件名。
lang是要用的语言代码,默认是英语,如果你要识别中文,就写 -l chi_sim,如果你要中英都识别,用 + 号把语言代码连起来:-l chi_sim+eng。
pagesegmode是用来识别的模式,之前输入tesseract命令时应该也看到了,包含这些模式:
- 0 = Orientation and script detection (OSD) only.
- 1 = Automatic page segmentation with OSD.
- 2 = Automatic page segmentation, but no OSD, or OCR
- 3 = Fully automatic page segmentation, but no OSD. (Default)
- 4 = Assume a single column of text of variable sizes.
- 5 = Assume a single uniform block of vertically aligned text.
- 6 = Assume a single uniform block of text.
- 7 = Treat the image as a single text line.
- 8 = Treat the image as a single word.
- 9 = Treat the image as a single word in a circle.
10 = Treat the image as a single character.
现在可以开始演练了。
准备一张英文图片,比如:
放在下载目录,命令行 cd Downloads 进入下载目录,然后输入:
tesseract test.png out
识别完成后会在下载目录多处一个out.txt的文件,里面包含识别出的文字:
英文还是比较准的。
下面我们来识别中文,准备一张中文图片:
输入:
tesseract test.png result -l chi_sim
也可以正确识别出来(识别后的文件为result.txt):
惊不惊喜,意不意外。但是,别看这里都识别出来了,其实中文识别率并不高,越简单、间隔越大、字体越大就识别的越好,如果是:
那么识别结果就崩了:
那怎么办呢,折腾了一圈,结果识别出来是这个鬼样子,机器就是厉害,懂这么多我不认识的字。
Tesseract用来识别英语或者类似的文字比较厉害,但是识别汉字这种象形文字就比较差了,不过还有得救,我们可以训练它,这就是Tesseract训练相关的知识了,之后再讲。
结
通过这篇文章,即使一个纯新手应该也可以顺利感受到文字识别的神奇了,但是要想效果更好,路还很长,共同学习吧。
版权所有:http://blog.csdn.net/cloudox_
Mac下Tesseract-OCR文字识别新手使用入门相关推荐
- Tesseract Ocr文字识别实战(新版本,扩展手写文字识别)
目录 1.Tesseract Ocr文字识别 1.1 运行环境 1.2 python模块 1.3 配置tesseract运行文件 1.4 代码识别 2. 手写汉字识别 2.1 下载库 2.2 代码 1 ...
- 淡谈自然场景下小样本OCR文字识别
淡谈自然场景下小样本OCR文字识别 1. 环境准备 实验中使用了centos7.6,intel core i4710,gtx980M(老机器重装) 安装的时候要注意,linux内核版本和实际版本要一致 ...
- 真正好用的mac版免费OCR文字识别转换工具
Easy Screen OCR Mac版是Mac平台上的一款OCR文字识别软件效率工具.支持多种语言,可以直接获取屏幕上的文字进行识别,简单又好用.感兴趣的朋友快来下载使用吧. Easy Screen ...
- Tesseract Ocr文字识别
Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一.2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于G ...
- 互联网人工智能下的OCR文字识别
悦保云OCR系列产品包括通用文字识别,文档识别,卡证识别,票据识别,资产类识别,汽车类识别,教育类识别,仪器仪表识别,自定义模板文字识别. 各产品包含的接口功能如下: 通用文字识别: 网络图片文字识别 ...
- Text Scanner for Mac(超快速ocr文字识别功能介绍)
text scanner for Mac软件介绍 Text Scanner Mac版是一款功能强大的图片扫描文字识别工具, 基于AI领先的***度学习算法,利用光学字符识别技术,将图片上的文字内容,直 ...
- java怎么实现华为云文字识别,OCR文字识别服务快速入门教程
[入门介绍]OCR服务快速入门汇总 1.[快速入门 01] 申请华为文字识别服务 现阶段,华为文字识别服务处于公测阶段,需要先申请公测,再申请开通服务,具体操作步骤如下: 步骤1 申请华为 ...
- linux系统下的ocr软件,Ubuntu下的ocr文字识别(pdf、tif等)
平时使用扫描件或者pdf查看文档,但是在ipad上当文字比较小的时候不能有效放大,过着每次阅读需要移动屏幕,十分不方便,为此想将pdf或者图片中的文字截取出来,可以有效处理,当然需要ocr技术了,现在 ...
- mac 文字识别软件ocr_mac超快速ocr文字识别软件 mac上超好用的文字识别软件推荐...
OCR文字识别软件是在日常的生活和工作中十分常用的一款软件.而当下使用mac系统的用户也越来越多了,相比较于windows不同的是,mac上能够使用的ocr用具基本上会比较难找.这里就为大家推荐几款在 ...
最新文章
- Spring Session - Cookie VS Session VS Token 以及 Session不一致问题的N种解决方案
- 论文笔记:MobileNet v1
- Jupyter Noteboot 添加kernel 环境
- docker实现宿主机和容器之间数据共享
- kubernetes-dashboard(1.8.3)部署与踩坑
- (转)Java随机数
- leetcode刷题:2.两数之和
- Mac下CUDA开启及Tensorflow-gpu 1.4 安装
- Android开发系列之常用正则语法
- mallplus多商户商城 让支付触手可及,封装了微信支付、QQ支付、支付宝支付、京东支付、银联支付常用的支付方式以及各种常用的接口
- php图片资源管理软件,通用图形资源管理与查询系统FastMap - 飞时达软件
- 使用拉姆达表达式简化代码
- 音视频直播流程及常见视频流协议介绍
- python作图之plt.contour详解
- 【论文阅读】 Object Detection in 20 Years: A Survey
- Description 给出一个N*N的二维数组,求出其中的最大数和其所在的行号、列号(均从0开始计算)。 Input 第1行是一个正整数N(2≤N≤10),表示二维数组的大小。后跟N行,每行N个数。
- 微众银行Solidity智能合约库:区块链工程师的随身工具箱
- html a标签发微信,a标签的特殊和文本的样式
- 红米note3全网通版刷机救砖 9008强刷(无需短接)
- flinkSQL Table转DataStream