光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。OCR技术非常专业,一般多是印刷、打印行业的从业人员使用,可以快速的将纸质资料转换为电子资料。关于中文OCR,目前国内水平较高的有清华文通、汉王、尚书,其产品各有千秋,价格不菲。国外OCR发展较早,像一些大公司,如IBM、微软、HP等,即使没有推出单独的OCR产品,但是他们的研发团队早已掌握核心技术,将OCR功能植入了自身的软件系统。对于我们程序员来说,一般用不到那么高级的,主要在开发中能够集成基本的OCR功能就可以了。

在linux下的OCR软件很多,常用的如下:

  • Tesseract 原本由惠普开发的图像识别类库tesseract-ocr已经更新到2.04, 就是最近Google支持的那个OCR。原先是惠普写的,现在Open source了。
    * GOCR 是一个开源的OCR光学识别程序。

Tesseract安装

        Tesseract的OCR引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而,HP不久便决定放弃OCR业务,Tesseract也从此尘封。
数年以后,HP意识到,与其将Tesseract束之高阁,不如贡献给开源软件业,让其重焕新生--2005年,Tesseract由美国内华达州信息技术研究所获得,并求诸于Google对Tesseract进行改进、消除Bug、优化工作。
Tesseract目前已作为开源项目发布在Google Project,其项目主页在这里查看,其最新版本3.0已经支持中文OCR,并提供了一个命令行工具。

安装信赖
sudo yum install gcc gcc-c++ make autoconf automake libtool libjpeg-devel libpng-devel libtiff-devel zlib-devel

安装leptonica信赖
leptonica 是一个开源的图像处理与分析应用,安装 tesseract 前,需要先安装此软件。
leptonica 官网
leptonica 下载
我下载的是leptonica 1.7.3版

./configure
make
sudo make instasll

安装Tesseract
Tesseract github

./autogen.sh
./configure

下载多语言包
移动到 tesseract-ocr/tessdata目录下

语法:
tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfiles...]

安装gocr

sudo yum install gocr

使用方式

转载于:https://www.cnblogs.com/jingwu/articles/5390544.html

OCR引擎-Tesseract相关推荐

  1. OCR引擎Tesseract以及pytesseract详解及实例

    OCR引擎Tesseract以及pytesseract详解及实例 目录 OCR引擎Tesseract以及pytesseract详解及实例 谷歌开源OCR引擎Tesseract Tesseract的安装 ...

  2. Tesseract OCR 引擎概述

    原文: https://github.com/tesseract-ocr/docs/blob/master/tesseracticdar2007.pdf Ray Smith 摘要 Tesseract ...

  3. 使用Tesseract OCR引擎和层次聚集聚类(HAC)对多列数据进行OCR

    这篇博客将介绍如何使用Tesseract OCR引擎和层次聚集聚类(HAC)对多列数据进行OCR.包括学习一些OCR多列数据的提示和技巧,最重要的是,将文本的行/列关联在一起. 层次聚集聚类(HAC ...

  4. [转]浅谈OCR之Tesseract

    转载请注明出处:http://www.cnblogs.com/brooks-dotnet/archive/2010/10/05/1844203.html 浅谈OCR之Tesseract 光学字符识别( ...

  5. 浅谈OCR之Tesseract

    光学字符识别(OCR,Optical Character Recognition)是指对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程.OCR技术非常专业,一般多是印刷.打印行 ...

  6. 下面介绍一个开源的OCR引擎Tesseract2。值得庆幸的是虽然是开源的但是它的识别率较高,并不比其他引擎差劲。网上介绍Tessnet2也是当时时间排名第三的识别引擎,只是后来慢慢不维护了,目前是G

    下面介绍一个开源的OCR引擎Tesseract2.值得庆幸的是虽然是开源的但是它的识别率较高,并不比其他引擎差劲.网上介绍Tessnet2也是当时时间排名第三的识别引擎,只是后来慢慢不维护了,目前是G ...

  7. java ocr引擎_java 实现 OCR 图片文字识别

    OCR图像识别技术的JAVA实现 最近有个需求需要用图像识别,学习记录一下. 目前网络上的开源的图像识别技术有很多,例如 OCRE(OCR Easy).Clara OCR.OCRAD.TESSERAC ...

  8. 开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用

    开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用 一 背景 在日常的一些工作中,偶尔也需要我们把图片转换为文字.目前大部分办公软件还无法实现类似的 ...

  9. Windows安装用于OCR的Tesseract及使用命令行参数进行OCR

    Windows安装用于OCR的Tesseract及使用命令行参数进行OCR 1. 效果图 2. Tesseract 安装及验证 参考 这篇博客将介绍如何安装和使用光学字符识别(OCR Optical ...

最新文章

  1. python整数二进制有多少个1_LintCode Python 入门级题目 365.二进制有多少个1; 181.将整数A转换为B...
  2. 初探云原生应用管理之:聊聊 Tekton 项目
  3. 你不应该忽略的五个机器学习项目一览
  4. Kubenetes里pod和service绑定的实现方式
  5. 在ASP.NET Identity 2.0中使用声明(Claims)实现用户组
  6. springboot 项目中在普通类中调用dao层的mapper 出现空指针异常
  7. 监控mysql的存储引擎
  8. 一个果农儿子的心声,你倾听一下吧?
  9. Android 安装腾讯X5内核
  10. unity3——Humanoid与generic的区别
  11. 卡巴斯基7.0最新激活码
  12. 阿里云服务器可选系统有哪些?如何选择?
  13. 【每日力扣10】有效的数独
  14. 人群密度算法_算法人群的力量。
  15. 树莓派和arduino的串口通信
  16. 2020南京大学软件学院夏令营模拟机试题集
  17. 需求文档 | 产品需求文档(PRD)
  18. android gps 卫星数据格式,Gps开发实战——卫星数量获取
  19. 最大进程线程数 连接数
  20. JavaScript String 对象参考手册 italics() 方法

热门文章

  1. easypoi之IExcelVerifyHandler自定义校验使用
  2. 如何在 Gitee 上使用 GPG
  3. win10系统资源管理器打开反应很慢如何解决
  4. Android开发笔记(二十)顶部导航栏ActionBar
  5. 分析lammps文件_LAMMPS学习系列(24)
  6. 使用XLog、Spring-Boot、And-Design-Pro搭建日志系统
  7. Oracle自增主键的添加[sequence]--表数据已存在
  8. SVN: bdb: BDB1538 Program version 5.3 doesn't match environment version 4.7
  9. SQL语法精讲(包括建库、建表、建视图、查询、增加、删除、修改)
  10. 批量创建用户邮箱并修改别名