一直以来,图片识别对我来说是很高深的东西,一直未曾涉猎,有幸在Python是了解到TesseractOCR,终于有个系统的了解,这个能做什么,那就太多了,验证码识别、车牌识别、证件识别等等。

目录

软件的特点

软件的安装

命令行测试

强大在于可以学习

学习工具jTessBoxEditor

Tesseract训练


软件的特点

一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。

软件的安装

源码地址为:https://github.com/tesseract-ocr/tesseract

EXE可执行文件下载地址(4.0.0):TesseractOCRV4.0.0图片识别-Python工具类资源-CSDN下载

EXE安装步骤及注意:(下载后默认双击安装)

上方可以选择其他语言,支持几十种语言,我选择的是第一个和中文简体及繁体,默认英文是自动安装的。

由于选择了其他语言,所以会多出这个下载,你也可以不选,但选择的话需要联网下载(中文简体:>40M,繁体:>50M)。

命令行测试

别人的文章说安装完会自动加入环境变量,我安装后并未加入,直接切换到安装目录(建议手动加入到环境变量),直接执行:tesseract,显示下图表示安装完成:

准备一张图片如:test.png (如下图),我设置了环境变量,并将这个图片放到D盘根目录。

打开D盘生成的output_1.txt发现:162408

遗憾,我上图用的是另一博客的图,他是3.x版本,6识别成了5,4.0我也安装了math包直接就识别出来了。

强大在于可以学习

学习工具jTessBoxEditor

配套训练工具 jTessBoxEditor 来训练样本,特别用于验证码的识别。

Tesseract训练

训练的思路是:1、安装jTessBoxEditor > 2、获取样本文件 > 3、Merge合并样本文件 > 4、生成Box文件 > 5、定义字符配置文件 > 6、字符矫正 > 7、执行批处理文件 > 8、将生成的trainegddata放入tessdata中。

总结:根据范本生成一个语言包,转换时可指定这个语言包即可。

 理工男(作者)自己的公众号:

        一个理工男的成长之路,如果你是理工男,带你“不正经”;如果你想了解理工男,带你认识理工男,他们是生活百事通,他们的生活简约而不简单。

不正经的原则:合规合法,信息保真能看懂,字越少事越大,学到真东西享受真实惠,有兴趣加入我一起“不正经”。

图片识别 - TesseractOCR相关推荐

  1. java+Tesseract-OCR实现图片识别

    1.今天和同事研究如何用java实现图片识别.百度上大部分都是用tesseract去实现的.所以就做了一个demo (1).首先下载Tesseract-OCR 3.02,以及中文包chi_sim.tr ...

  2. tesseract-ocr 实现图片识别功能

    不久前因为项目需要,接触了一下关于图像识别的相关内容,比如Tesseract,这里就在这里分享下. 1.Tesserac-ocr简介 [一个Google支持的开源的OCR图文识别开源项目.去持多语言( ...

  3. Python实现图片识别加翻译,高薪必备技能

    Python使用百度AI接口实现图片识别加翻译 python python诞生30周年 encoding:utf-8 import requests import base64 from PIL im ...

  4. iOS--OCR图片识别

    应公司财务需求,要做一个收据识别功能.所以在网上搜索了下三方SDK,其中tesseract-ocr受到了大多数网友的推荐.我当然是前往https://github.com/gali8/Tesserac ...

  5. python 图片识别_python识别图片文字

    滑稽研究所 python识别图片文字 哈喽,大家好呀,我是滑稽君.大家在写论文时可能经常碰到无法复制文字的文章.明明找到了需要的内容却无法直接复制使用,这让我们十分苦恼.那么本期滑稽君就告诉大家如何使 ...

  6. python做图像识别该学什么_Python实现图片识别加翻译【高薪必学】

    Python使用百度AI接口实现图片识别加翻译 另外很多人在学习Python的过程中,往往因为没有好的教程或者没人指导从而导致自己容易放弃,为此我建了个Python交流.裙 :一久武其而而流一思(数字 ...

  7. python 图片识别_Python—识别图片中的文字

    一.前言 不知道大家有没有遇到过这样的问题,就是在某个软件或者某个网页里面有一篇文章,你非常喜欢,但是不能复制.或者像百度文档一样,只能复制一部分,这个时候我们就会选择截图保存.但是当我们想用到里面的 ...

  8. python 识图点击_Python图片识别——人工智能篇

    一.安装pytesseract和PIL PIL全称:Python Imaging Library,python图像处理库,这个库支持多种文件格式,并提供了强大的图像处理和图形处理能力. 由于PIL仅支 ...

  9. 翻译app上的图片文字信息提取好神奇?如何实现一个文字图片识别程序

    web文字图片识别程序开发 摘要 一.tesseract-ocr介绍 二.安装tesseract 三.使用命令行 四.程序实现(Python) 五.程序实现(Java) 六.实验测试 七.总结 摘要 ...

最新文章

  1. SpringBoot整合RabbitMQ-整合演示
  2. 各种框架实现了经典的 todo 应用
  3. 求护士的心理阴影面积 | 今日最佳
  4. Win10笔记本设置合盖不息屏的方法
  5. Js获取下拉框当前选择项的文本和值
  6. cmdb python 采集虚拟机_Python编程(三十四):CMDB后台管理、封装自定义JS组件、前端td标签定制显示内容及属性...
  7. python--pdb
  8. 超全面!完全没有设计基础的新手如何做好PPT配色?(附神器)
  9. #1.4股市预测数学的产生原因
  10. 2的负x次幂图像_函数Y等于2的X次方图像怎么画?求过程
  11. win7系统64位下安装sql server2000时提示兼容性问题
  12. Frames : 一个特殊的窗口类型
  13. 记一次海康威视笔试题小练手
  14. Nuxt在SPA模式下的鉴权处理(1)
  15. 开始报名啦!——第二届融360“天机”金融风控大数据竞赛火热来袭
  16. 当前国内外微生物学研究的前沿有哪些?
  17. vim使用gf(go file)跳转文件
  18. 二代测序下机数据的数据处理
  19. java支付宝支付官方demo AlipayConfig的配置坑笔记
  20. Java作业 折扣计算

热门文章

  1. 谢雨欣最欣专辑《欣天地》
  2. mac下的流氓mackeeper
  3. 股票学习(K线技术--头肩形态)
  4. Unity基础功能:粒子特效(Shuriken)
  5. 火车头采集器——运行C#代码
  6. Cheery| 樱桃键盘一按f1出现静音如何解决?
  7. vue 实战 之 饿了吗 页头模板
  8. img的title和alt有什么区别
  9. sakai配置(中文版)(四)
  10. 一寸照片 358 *441 小于20KB