简介:

tesseract-ocr可以对图像文字进行识别,为图文转换的工作时省去了大量时间。我们还可以通过不断的训练字库,使图像转换文本的能力不断增强,也可以调试模型使图像文字进行程序的识别率更高,


一.tesseract4.0的安装与配置环境变量:

1、安装包地址: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe

2、下载完之后,直接执行.exe文件进行安装,安装步骤:

(1)选择语言包:

除了默认已经打钩的,再钩上数字公式常用包和简体中文包。

(2)选择安装路径:(需要记住自己的安装路径,后面配置需要用到)

我的安装路径是:D:\Tesseract\tesseract-ocr--4.00.00dev\Tesseract-OCR

(3)目录结构:

(4)配置环境变量:

第一步:在环境变量界面的系统变量中找到Path,点击编辑,新建一个D:\Tesseract\tesseract-ocr--4.00.00dev\Tesseract-OCR(你的安装目录),然后确定。

第二步:在系统变量下面新建一个变量,然后确定。

变量名:TESSDATA_PREFIX

变量值:D:\Tesseract\tesseract-ocr--4.00.00dev\Tesseract-OCR\tessdata(安装目录下的tessdata文件夹)

(5)检验环境变量是否配置成功:打开cmd命令行,在任意路径,输入“tesseract”,出现下面信息则表示配置成功。

二、初步使用tesseract4.0进行简单的图片文字识别:

1、先准备一张图片素材(图片命名是wenzi.png),内容如下图:

2、打开cmd命令行,进入素材图片所在的目录,输入以下命令,就会生成一个test.txt文档,该文档的内容为图片识别后的文字:

tesseract wenzi.png test -l chi_sim+equ+eng

其中,wenzi.png是素材的名字,test是识别后生成的文档的名字,-l是指定使用包(注意:是小写英文字母l,不是阿拉伯数字1),chi_sim是中文识别包,equ是数字公式包,eng是英文包。

识别后的test.txt的文字内容:

3、至此,使用tesseract4.0进行简单的文字识别就完成,虽然识别的成功不高,但是我们可以通过训练字库的方法提高tesseract的识别率,训练tesseract字库的方法在下篇博客再写。

图片文字识别(一):tesseract-ocr-4.00的安装与初步进行图片文字识别相关推荐

  1. python深度文字识别_【OCR技术系列之四】基于深度学习的文字识别(3755个汉字)...

    上一篇提到文字数据集的合成,现在我们手头上已经得到了3755个汉字(一级字库)的印刷体图像数据集,我们可以利用它们进行接下来的3755个汉字的识别系统的搭建.用深度学习做文字识别,用的网络当然是CNN ...

  2. android自动识别文字,Android文字识别tesseract ocr -训练样本库 识别字库

    目录 安装tesseract ocr引擎和jTessBoxEditor 安装jTessBoxEditor 开始制作box 准备好训练的图片 将图片转为tif格式的样本图片 合并样本图片 修改box文件 ...

  3. Tesseract OCR简介(一)

    简介 Tesseract(/'tesərækt/) 这个词的意思是"超立方体",指的是几何学里的四维标准方体,又称"正八胞体".右图是一个正八胞体绕着两个四维空 ...

  4. 安卓手机拍照识别车牌号OCR sdk

    关键词:车牌识别 车牌ocr识别 新能源车牌识别 安卓车牌识别 ios车牌识别 车牌识别已经成为每个城市的车辆管理重点工作之一,有效.准确.及时的车牌识别可以方便警务人员的交通执法.停车场车辆管理等工 ...

  5. 用Tesseract OCR识别图片文字

    用tesseract ocr识别图片中的文字  准备 OCR与Tesseract介绍 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以 ...

  6. Android百度文字识别bitmap,Android集成Tesseract OCR实现图片文字识别

    最近项目需要做图片上的文字识别,在网上找了很久,这方面的知识挺多的,但是很杂.将最近学习到的东西整理一下,仅供参考. 1.Tesseract OCR 介绍我就不说了,自行百度,或者访问:https:/ ...

  7. python图像识别系统_Python图像处理之图片文字识别功能(OCR)

    OCR与Tesseract介绍 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同的几 ...

  8. python文字识别时、当文字不清晰时怎么处理_Python图像处理之图片文字识别功能(OCR)...

    OCR与Tesseract介绍 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同的几 ...

  9. Tesseract Ocr文字识别实战(新版本,扩展手写文字识别)

    目录 1.Tesseract Ocr文字识别 1.1 运行环境 1.2 python模块 1.3 配置tesseract运行文件 1.4 代码识别 2. 手写汉字识别 2.1 下载库 2.2 代码 1 ...

最新文章

  1. Windows系统更新问题汇总(补充修改)
  2. lnmp里面php测试脚本,军哥LNMP V1.4测试版一键脚本安装以及功能上的升级体验
  3. CentOS 6.4 卸载与安装桌面
  4. linux网络编程之IP协议首部格式与其配套使用的四个协议(ARP,RARP,ICMP,IGMP)和TCP、UDP协议头结构总结
  5. oracle存储过程如何传递一个bean对象_对象传输,序列化和反序列化
  6. mybatis resultType resultMap
  7. ActiveMQ, RabbitMQ和ZeroMQ 选型关注点
  8. docker安装fastdfs_【运维面试】面试官:你们公司的docker主要用来做啥?
  9. [MySQL][Spider][VP]Spider-3.1 VP-1.0 发布
  10. 高糊马赛克秒变高清,「脑补」面部细节,表情帝:这还是我吗?
  11. PMP常考知识点整理
  12. 如何解决存在的1px问题?
  13. error:LNK2005解决
  14. php生成器处理数据问题,《PHP经典实例》笔记数组篇 - 4.24 使用生成器高效迭代处理大型数据集...
  15. 响应式开发(六)-----Bootstrap CSS----------Bootstrap文本排版
  16. 华为手机 标题栏 Notification 8.0 不显示
  17. python音乐可视化效果_Python数据可视化 | 网易云音乐年度歌曲
  18. AD936x 系列快速入口
  19. 使用SpringBoot的CommandLineRunner遇到的坑
  20. fish or cut bait 当机立断

热门文章

  1. 四十七、面试前,必须搞懂Java中的线程池ThreadPoolExecutor(上篇)
  2. 任务型对话系统预训练最新研究进展
  3. 从近期两篇论文看大规模商品图嵌入
  4. 奖金+大赛入门,来参加我们的论文有奖复现!
  5. 招募 | 清华大学计算机系副教授黄民烈招募NLP方向博士后
  6. 当我们谈论「Chatbot」时,我们在读什么? | 论文集精选 #05
  7. 怎么获取web项目的webroot根目录下面的文件夹的路径?
  8. oracle监听静态注册,oracle监听器动态注册于静态注册的区别
  9. Spring Cloud——Spring Cloud Alibaba 2021 Nacos Config bootstrap 配置文件失效解决方案
  10. MobaXterm——Portable edition迁移账号信息等到新的版本解决方案