OCR 工具tesseract初体验

@(工具使用)[工具使用, python]

OCR即图片上文字识别

安装tesseract

github地址
tesseract是一个命令行程序,后面安装的pytesseract也只是一层包装,实际还是调用命令行

下载
windows版下载地址

安装
下载完之后安装时点下一步慢点,因为安装的时候可以下载中文语言包

设置环境变量
安装完之后需要设置两个环境变量

  1. 把安装路径添加到PATH环境变量
  2. 设置TESSDATA_PREFIX环境变量,不然找不到语言包
    TESSDATA_PREFIX=D:\Program Files (x86)\Tesseract-OCR\tessdata

这时命令行版tesseract就可以使用了

安装pytesseract

pip install pytesseract

测试程序:

import pytesseract
from PIL import Image# 默认英语
image = Image.open('en.png')
text = pytesseract.image_to_string(image)
print(text)print("====================")# 识别中文, 巨慢
image = Image.open('cn.png')
text = pytesseract.image_to_string(image, lang='chi_sim')
print(text)print("====================")# 设置中文和英语,识别巨慢,而且易错
image = Image.open('en_cn_test.png')
text = pytesseract.image_to_string(image, lang='chi_sim+eng')
print(text)

测试结果:


英文测试

识别后内容


中文测试

识别后内容


中文加英文测试

识别后内容


测试结论:
英文识别能力还行,速度也不错,很快。中文识别就很吃力了,速度慢而且识别率不高,几乎不能直接用

参考:
Python--文字识别--Tesseract

OCR 工具tesseract初体验相关推荐

  1. Linux环境下ARM开发工具TrueSTUDIO初体验

    Linux环境下ARM开发工具TrueSTUDIO初体验 TrueSTUDIO是Atollic公司出品的ARM开发工具,号称"The best FREE C/C++ IDE for ARM® ...

  2. 开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用

    开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用 一 背景 在日常的一些工作中,偶尔也需要我们把图片转换为文字.目前大部分办公软件还无法实现类似的 ...

  3. APPInventor用mySQL_Android app界面设计工具AppInventor初体验

    AppInventor 是谷歌推出一种软件工具,是一种在浏览器里面在线设计安卓app界面和功能,然后打包为apk安装包并下载到用户电脑的一种所见即所得的开发平台.本文演示了在本地快速搭建该平台的步骤, ...

  4. 开源BI报表工具Metabase初体验

    概述 一款开源BI工具,后端是用clojure开发的.官网,GitHub. 安装 安装非常简单,以metabase.jar包(后文简称jar包)方式分发.在GitHub Release页面下载最新版即 ...

  5. 百度NLP工具LAC初体验:分词,词性标注,命名实体识别

    LAC全称Lexical Analysis of Chinese,是百度自然语言处理部研发的一款联合的词法分析工具,实现中文分词.词性标注.专名识别等功能. 输入: from LAC import L ...

  6. 阿里出品的ETL工具dataX初体验

    我的毕设选择了大数据方向的题目.大数据的第一步就是要拿到足够的数据源.现实情况中我们需要的数据源分布在不同的业务系统中,而这些系统往往是异构的,而且我们的分析过程不能影响原有业务系统的运行.为了把不同 ...

  7. 在线文件预览工具kkFileView初体验

    一.使用背景 项目开发中需要使用预览功能查看pdf.MP4.doc.ppt等格式的文件.还有添加水印等其他功能. 二.kkFileView使用(请直接移步官方文档.简单快速上手) https://kk ...

  8. ElectronOCR:基于Electron+React+Tesseract的MACOS下的OCR工具

    Github Repo 地址 文章地址 MAXOS Darwin x64下载 笔者一直在MacOS上没找到太顺心的OCR工具,导致看书的时候很多东西只能手打,略烦.正好前段时间用了Tesseract, ...

  9. 黄聪:C#代码生成工具:文本模板初体验 Hello,World!

    C#代码生成工具:文本模板初体验 Hello World 在VS中的文本模板(也称T4),它给我有点CodeSmith的感觉,也是通过模板加逻辑代码混编批量生成代码的方法,但是关于T4的资料不多,而且 ...

最新文章

  1. mysql jdbc连接 优化_java+mysql连接的优化
  2. ☆聊聊Spring系列_Index
  3. 阿里云mysql服务器太贵_阿里云数据库,跟自己在服务器安装的有什么区别?有人说安装很简单,那为什么要花钱买?...
  4. C# 获得当前目录和执行目录的一些方法
  5. springcloud工作笔记099---springboot集成netty,进行线程管理,socket通讯
  6. c++用类实现高斯消元法求解线性方程组的解_高斯消元
  7. 笔记(2015.8.1)
  8. c/c++编译的程序占用的内存分配
  9. centos8 挂载ntfs_Centos 挂载Ntfs分区
  10. python的try和except_关于python:修复try和except中的无效语法错误
  11. 计算机护眼模式怎么设置的,教你如何开启电脑的护眼模式
  12. 《码农翻身》各章节阅读链接
  13. 分治算法 循环比赛日程表
  14. 郑州财经学院第54次全国计算机,听爷爷讲故事
  15. 数组传参的三种方法:泛型;压扁数组;数组结构
  16. Chips交互操作和集合论
  17. 对客户信息收集,收集用户行为的方法总结
  18. 因虚拟光驱引发的困惑
  19. 计算机毕业设计ssm课堂考勤管理系统t6x5x系统+程序+源码+lw+远程部署
  20. 天润融通入选最具活力云计算服务商,拔得呼叫中心领域头筹

热门文章

  1. android one s5,消费者报告:Galaxy S5比S6更值得购买
  2. java区块作用域_ES6-let、const和块级作用域
  3. c语言数据驱动编程,如何学习智能手机驱动编程
  4. MySQL进阶11--DDL数据库定义语言--库创建/修改/删除--表的创建/修改/删除/复制
  5. style文件的指定
  6. (最短路径算法整理)dijkstra、floyd、bellman-ford、spfa算法模板的整理与介绍
  7. java 开发微信中回调验证一直提示 解密失败处理(Java)
  8. 《数据结构》C++代码 堆(优先队列)
  9. LeetCode(706)——设计哈希映射(JavaScript)
  10. script标签中的defer和async属性