文章目录

  • 1 场景
  • 2 方案
  • 3 windows下安装
    • 3.1 安装
    • 3.2 中文训练集
    • 3.3 识别图片
    • 3.3 查看帮助

1 场景

识别图片中的文字(识别图片中的电话号码、姓名等)

2 方案

使用Tesseract OCR软件来识别图片内容

官网:https://github.com/tesseract-ocr/tesseract

来自官方解释:

这个包包含一个OCR引擎- libtesseract和一个命令行程序- tesseract

Tesseract支持各种输出格式:纯文本、hOCR (HTML)、PDF、不可见的纯文本PDF、TSV。主分支还实验性地支持ALTO (XML)输出。

3 windows下安装

3.1 安装

下载官网:

https://github.com/UB-Mannheim/tesseract/wiki

下载文件:

https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.1.0.20190314.exe

安装路径:

D:\Program Files\Tesseract-OCR

将OCR安装路径,添加到环境变量

查看当前安装版本如下:

C:\Users\admin>tesseract -v
tesseract v4.0.0.20190314leptonica-1.78.0libgif 5.1.4 : libjpeg 8d (libjpeg-turbo 1.5.3) : libpng 1.6.34 : libtiff 4.0.9 : zlib 1.2.11 : libwebp 0.6.1 : libopenjp2 2.2.0Found AVX2Found AVXFound SSE

3.2 中文训练集

有训练集文件,才可进行图片上的文字识别。

默认有英文训练集,可以识别图片中的英文,训练集路径如下:

D:\Program Files\Tesseract-OCR\tessdata\eng.traineddata

命令行输入tesseract --list-langs命令查看当前已按照语言包:

C:\Users\admin>tesseract --list-langs
List of available languages (2):
eng
osd

训练集官网:https://tesseract-ocr.github.io/tessdoc/Data-Files

下载中文训练集:https://github.com/tesseract-ocr/tessdata/raw/master/chi_sim.traineddata

将下载的简体中文训练集文件chi_sim.traineddata,拷贝到tessdata路径下:

D:\Program Files\Tesseract-OCR\tessdata\

再次查看,支持语言,可见已支持简体中文chi_sim

C:\Users\admin>tesseract --list-langs
List of available languages (3):
chi_sim
eng
osd

3.3 识别图片

基本语法命令:

tesseract imagename outputbase [-l lang] [--oem ocrenginemode] [--psm pagesegmode] [configfiles...]

如执行以下命令,选择语言为简体中文(默认为英文):

tesseract myOcrTest.png res -l chi_sim

执行结果如下:

D:\tmp\orcTest02>tesseract myOcrTest.png res -l chi_sim
Tesseract Open Source OCR Engine v4.0.0.20190314 with Leptonica

将在同级目录下生成文件res.txt,文件内容如下:

文 字 识 别 测 试 123ceshi

同测试图片一致。

注意,解析结果将多生成一行,返回解析结果时,需去掉最后一行

3.3 查看帮助

D:\tmp\orcTest02>tesseract --help
Usage:tesseract --help | --help-extra | --versiontesseract --list-langstesseract imagename outputbase [options...] [configfile...]OCR options:-l LANG[+LANG]        Specify language(s) used for OCR.
NOTE: These options must occur before any configfile.Single options:--help                Show this help message.--help-extra          Show extra help for advanced users.--version             Show version information.--list-langs          List available languages for tesseract engine.

Tesseract-OCR图片识别为文字相关推荐

  1. iOS实践:OpenCV、Tesseract OCR结合 识别图片中文字

    前言: 前天领导问,类似扫描文件识别图中文字的功能如何实现,找一下第三方的开源库,尝试下,于是有了这篇文章: 分析: 识别场景中,识别身份证信息当属典型,查阅了几篇文章,后续的实现中也多导入了其代码: ...

  2. OCR图片识别文字源码(支持多国文字识别)

    OCR图片识别文字源码(支持多国文字识别) 程序员帮帮

  3. 阿里云OCR图片识别

    阿里云OCR图片识别 请求参数(Body) 请求示例(java) 正常返回示例 错误码定义 阿里云OCR图片识别: 单字识别,表格识别,旋转功能 准备条件:阿里云OCR图片识别API购买,初次购买1分 ...

  4. [批量重命名工具] 批量图片识别文字来命名文件名,很多网友想看批量图片识别成文字,用图片上的文字来修改文件名,今天它来了

    很多网友想看批量图片识别成文字,用图片上的文字来修改文件名,今天他来了 因为不解决就得手动挨个挨个输入然后把文件命名好 今天又一个文件需求是这样的 图上有姓名文字,要识别出来改成每一张图跟这个一样,有 ...

  5. 怎样将图片识别成文字?2招教你图片转成Word

    大部分时候我们为了方便都会用拍照或截图的方式快速获取并保存一些资料,但这样的偷懒方法最终都要落实到文字才能便于修改整理,所以如何才能将图片识别成文字呢?教你2种快速将图片转换成Word文档的方法. 一 ...

  6. ocr图片识别文字工具笔记(包括汉王)

    文章目录 场景 解决方案 onenote 某昕(xin) pdf编辑器 某讯优图开放平台(推荐) 某里ocr识别 某度ocr识别 某王pdf ocr识别 其他 ocr是什么 场景 网上有些代码考题是图 ...

  7. 深入学习使用ocr算法识别图片中文字的方法

    公司有个需求,简单点说需要从一张图片中识别出中文,通过python来实现,当然其他程序也行,只要能实现,而小编主要学习python,所以就提了python.一个小白在网上遨游了一天,终于找到一丝丝思绪 ...

  8. java 获取文件大小_利用百度AI OCR图片识别,Java实现PDF中的图片转换成文字

    序言:我们在读一些PDF版书籍的时候,如果PDF中不是图片,做起读书笔记的还好:如果PDF中的是图片的话,根本无法编辑,做起笔记来,还是很痛苦的.我是遇到过了.我们搞技术的,当然得自己学着解决现在的痛 ...

  9. 有道智云OCR图片识别文字+返回数据处理技巧(实现语言-按键精灵脚本请求识别+java服务端处理数据)

    一.[开始] 1.按键精灵android手机脚本 1.1.截取手机上指定范围内的图片,通过api上传到有道智云处理后返回识别后的JSON格式数据. 1.2.代码 Import "ShanHa ...

最新文章

  1. java 启动某个类_java – Spring Boot – 如何指定备用启动类? (多个入口点)
  2. 自动驾驶中的车道线跟踪技术
  3. 高斯拟合原理_AlexNet原理和实现
  4. android canvas_Android自定义View之绘制虚线
  5. 算法题003 斐波那契(Fibonacci)数列
  6. Chrome插件(Extensions)开发攻略
  7. 智能家居 (9) ——人脸识别摄像头安装实现监控功能
  8. 360技术笔试+技术能力笔试(1)——能力测评
  9. Git入门——tortoisegit使用问题:git不显示图标?
  10. iar 堆栈设置_IAR开发STM32堆栈设置
  11. gimp 架构_GIMP 2.10正式发布,史无前例的改动
  12. IE11主页被篡改解决方法
  13. 搜索引擎和知识图谱那些事
  14. 《大数据时代》读后感,维克托
  15. impala 看表结构
  16. RabbitMQ交换机类型
  17. 【论文导读】MATRIX FACTORIZATION TECHNIQUES FOR RECOMMENDER SYSTEMS
  18. MATLAB生成骑缝章(png to png)
  19. Discuz 二次开发 (一) 目录结构和运行逻辑
  20. C++缺省参数的具体使用

热门文章

  1. CPU的乱序执行、指令流水线技术
  2. Linux虚拟化KVM-Qemu分析(七)之timer虚拟化
  3. 【GitHub】用Bash编写的 Linux 资源监视器
  4. java的数组(一维)
  5. java难度_你们觉得java难吗?
  6. linux命令 查找包含指定字符串的文件
  7. mysql redis geo_利用Redis的Geo功能实现查找附近的位置
  8. OpenShift Security (10) - 用红帽高级集安全产品监控容器中运行的安全违规操作
  9. OpenShift Security (7) - 风险合规评估
  10. Ansible Tower 入门 1 - 配置主机清单和访问凭证