OCR引擎-Tesseract
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR技术非常专业,一般多是印刷、打印行业的从业人员使用,可以快速的将纸质资料转换为电子资料。关于中文OCR,目前国内水平较高的有清华文通、汉王、尚书,其产品各有千秋,价格不菲。国外OCR发展较早,像一些大公司,如IBM、微软、HP等,即使没有推出单独的OCR产品,但是他们的研发团队早已掌握核心技术,将OCR功能植入了自身的软件系统。对于我们程序员来说,一般用不到那么高级的,主要在开发中能够集成基本的OCR功能就可以了。
在linux下的OCR软件很多,常用的如下:
- Tesseract 原本由惠普开发的图像识别类库tesseract-ocr已经更新到2.04, 就是最近Google支持的那个OCR。原先是惠普写的,现在Open source了。
* GOCR 是一个开源的OCR光学识别程序。
Tesseract安装
Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。
数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。
Tesseract目前已作为开源项目发布在Google Project,其项目主页在这里查看,其最新版本3.0已经支持中文OCR,并提供了一个命令行工具。
安装信赖
sudo yum install gcc gcc-c++ make autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel
安装leptonica信赖
leptonica 是一个开源的图像处理与分析应用,安装 tesseract 前,需要先安装此软件。
leptonica 官网
leptonica 下载
我下载的是leptonica 1.7.3版
./configure
make
sudo make instasll
安装Tesseract
Tesseract github
./autogen.sh
./configure
下载多语言包
移动到 tesseract-ocr/tessdata目录下
语法:
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfiles...]
安装gocr
sudo yum install gocr
使用方式
转载于:https://www.cnblogs.com/jingwu/articles/5390544.html
OCR引擎-Tesseract相关推荐
- OCR引擎Tesseract以及pytesseract详解及实例
OCR引擎Tesseract以及pytesseract详解及实例 目录 OCR引擎Tesseract以及pytesseract详解及实例 谷歌开源OCR引擎Tesseract Tesseract的安装 ...
- Tesseract OCR 引擎概述
原文: https://github.com/tesseract-ocr/docs/blob/master/tesseracticdar2007.pdf Ray Smith 摘要 Tesseract ...
- 使用Tesseract OCR引擎和层次聚集聚类(HAC)对多列数据进行OCR
这篇博客将介绍如何使用Tesseract OCR引擎和层次聚集聚类(HAC)对多列数据进行OCR.包括学习一些OCR多列数据的提示和技巧,最重要的是,将文本的行/列关联在一起. 层次聚集聚类(HAC ...
- [转]浅谈OCR之Tesseract
转载请注明出处:http://www.cnblogs.com/brooks-dotnet/archive/2010/10/05/1844203.html 浅谈OCR之Tesseract 光学字符识别( ...
- 浅谈OCR之Tesseract
光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业,一般多是印刷.打印行 ...
- 下面介绍一个开源的OCR引擎Tesseract2。值得庆幸的是虽然是开源的但是它的识别率较高,并不比其他引擎差劲。网上介绍Tessnet2也是当时时间排名第三的识别引擎,只是后来慢慢不维护了,目前是G
下面介绍一个开源的OCR引擎Tesseract2.值得庆幸的是虽然是开源的但是它的识别率较高,并不比其他引擎差劲.网上介绍Tessnet2也是当时时间排名第三的识别引擎,只是后来慢慢不维护了,目前是G ...
- java ocr引擎_java 实现 OCR 图片文字识别
OCR图像识别技术的JAVA实现 最近有个需求需要用图像识别,学习记录一下. 目前网络上的开源的图像识别技术有很多,例如 OCRE(OCR Easy).Clara OCR.OCRAD.TESSERAC ...
- 开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用
开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用 一 背景 在日常的一些工作中,偶尔也需要我们把图片转换为文字.目前大部分办公软件还无法实现类似的 ...
- Windows安装用于OCR的Tesseract及使用命令行参数进行OCR
Windows安装用于OCR的Tesseract及使用命令行参数进行OCR 1. 效果图 2. Tesseract 安装及验证 参考 这篇博客将介绍如何安装和使用光学字符识别(OCR Optical ...
最新文章
- python整数二进制有多少个1_LintCode Python 入门级题目 365.二进制有多少个1; 181.将整数A转换为B...
- 初探云原生应用管理之:聊聊 Tekton 项目
- 你不应该忽略的五个机器学习项目一览
- Kubenetes里pod和service绑定的实现方式
- 在ASP.NET Identity 2.0中使用声明(Claims)实现用户组
- springboot 项目中在普通类中调用dao层的mapper 出现空指针异常
- 监控mysql的存储引擎
- 一个果农儿子的心声,你倾听一下吧?
- Android 安装腾讯X5内核
- unity3——Humanoid与generic的区别
- 卡巴斯基7.0最新激活码
- 阿里云服务器可选系统有哪些?如何选择?
- 【每日力扣10】有效的数独
- 人群密度算法_算法人群的力量。
- 树莓派和arduino的串口通信
- 2020南京大学软件学院夏令营模拟机试题集
- 需求文档 | 产品需求文档(PRD)
- android gps 卫星数据格式,Gps开发实战——卫星数量获取
- 最大进程线程数 连接数
- JavaScript String 对象参考手册 italics() 方法
热门文章
- easypoi之IExcelVerifyHandler自定义校验使用
- 如何在 Gitee 上使用 GPG
- win10系统资源管理器打开反应很慢如何解决
- Android开发笔记(二十)顶部导航栏ActionBar
- 分析lammps文件_LAMMPS学习系列(24)
- 使用XLog、Spring-Boot、And-Design-Pro搭建日志系统
- Oracle自增主键的添加[sequence]--表数据已存在
- SVN: bdb: BDB1538 Program version 5.3 doesn't match environment version 4.7
- SQL语法精讲(包括建库、建表、建视图、查询、增加、删除、修改)
- 批量创建用户邮箱并修改别名