OCR 工具tesseract初体验
OCR 工具tesseract初体验
@(工具使用)[工具使用, python]
OCR即图片上文字识别
安装tesseract
github地址
tesseract是一个命令行程序,后面安装的pytesseract也只是一层包装,实际还是调用命令行
下载
windows版下载地址
安装
下载完之后安装时点下一步慢点,因为安装的时候可以下载中文语言包
设置环境变量
安装完之后需要设置两个环境变量
- 把安装路径添加到PATH环境变量
- 设置TESSDATA_PREFIX环境变量,不然找不到语言包
TESSDATA_PREFIX=D:\Program Files (x86)\Tesseract-OCR\tessdata
这时命令行版tesseract就可以使用了
安装pytesseract
pip install pytesseract
测试程序:
import pytesseract from PIL import Image# 默认英语 image = Image.open('en.png') text = pytesseract.image_to_string(image) print(text)print("====================")# 识别中文, 巨慢 image = Image.open('cn.png') text = pytesseract.image_to_string(image, lang='chi_sim') print(text)print("====================")# 设置中文和英语,识别巨慢,而且易错 image = Image.open('en_cn_test.png') text = pytesseract.image_to_string(image, lang='chi_sim+eng') print(text)
测试结果:
英文测试
识别后内容
中文测试
识别后内容
中文加英文测试
识别后内容
测试结论:
英文识别能力还行,速度也不错,很快。中文识别就很吃力了,速度慢而且识别率不高,几乎不能直接用
参考:
Python--文字识别--Tesseract
OCR 工具tesseract初体验相关推荐
- Linux环境下ARM开发工具TrueSTUDIO初体验
Linux环境下ARM开发工具TrueSTUDIO初体验 TrueSTUDIO是Atollic公司出品的ARM开发工具,号称"The best FREE C/C++ IDE for ARM® ...
- 开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用
开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用 一 背景 在日常的一些工作中,偶尔也需要我们把图片转换为文字.目前大部分办公软件还无法实现类似的 ...
- APPInventor用mySQL_Android app界面设计工具AppInventor初体验
AppInventor 是谷歌推出一种软件工具,是一种在浏览器里面在线设计安卓app界面和功能,然后打包为apk安装包并下载到用户电脑的一种所见即所得的开发平台.本文演示了在本地快速搭建该平台的步骤, ...
- 开源BI报表工具Metabase初体验
概述 一款开源BI工具,后端是用clojure开发的.官网,GitHub. 安装 安装非常简单,以metabase.jar包(后文简称jar包)方式分发.在GitHub Release页面下载最新版即 ...
- 百度NLP工具LAC初体验:分词,词性标注,命名实体识别
LAC全称Lexical Analysis of Chinese,是百度自然语言处理部研发的一款联合的词法分析工具,实现中文分词.词性标注.专名识别等功能. 输入: from LAC import L ...
- 阿里出品的ETL工具dataX初体验
我的毕设选择了大数据方向的题目.大数据的第一步就是要拿到足够的数据源.现实情况中我们需要的数据源分布在不同的业务系统中,而这些系统往往是异构的,而且我们的分析过程不能影响原有业务系统的运行.为了把不同 ...
- 在线文件预览工具kkFileView初体验
一.使用背景 项目开发中需要使用预览功能查看pdf.MP4.doc.ppt等格式的文件.还有添加水印等其他功能. 二.kkFileView使用(请直接移步官方文档.简单快速上手) https://kk ...
- ElectronOCR:基于Electron+React+Tesseract的MACOS下的OCR工具
Github Repo 地址 文章地址 MAXOS Darwin x64下载 笔者一直在MacOS上没找到太顺心的OCR工具,导致看书的时候很多东西只能手打,略烦.正好前段时间用了Tesseract, ...
- 黄聪:C#代码生成工具:文本模板初体验 Hello,World!
C#代码生成工具:文本模板初体验 Hello World 在VS中的文本模板(也称T4),它给我有点CodeSmith的感觉,也是通过模板加逻辑代码混编批量生成代码的方法,但是关于T4的资料不多,而且 ...
最新文章
- mysql jdbc连接 优化_java+mysql连接的优化
- ☆聊聊Spring系列_Index
- 阿里云mysql服务器太贵_阿里云数据库,跟自己在服务器安装的有什么区别?有人说安装很简单,那为什么要花钱买?...
- C# 获得当前目录和执行目录的一些方法
- springcloud工作笔记099---springboot集成netty,进行线程管理,socket通讯
- c++用类实现高斯消元法求解线性方程组的解_高斯消元
- 笔记(2015.8.1)
- c/c++编译的程序占用的内存分配
- centos8 挂载ntfs_Centos 挂载Ntfs分区
- python的try和except_关于python:修复try和except中的无效语法错误
- 计算机护眼模式怎么设置的,教你如何开启电脑的护眼模式
- 《码农翻身》各章节阅读链接
- 分治算法 循环比赛日程表
- 郑州财经学院第54次全国计算机,听爷爷讲故事
- 数组传参的三种方法:泛型;压扁数组;数组结构
- Chips交互操作和集合论
- 对客户信息收集,收集用户行为的方法总结
- 因虚拟光驱引发的困惑
- 计算机毕业设计ssm课堂考勤管理系统t6x5x系统+程序+源码+lw+远程部署
- 天润融通入选最具活力云计算服务商,拔得呼叫中心领域头筹
热门文章
- android one s5,消费者报告:Galaxy S5比S6更值得购买
- java区块作用域_ES6-let、const和块级作用域
- c语言数据驱动编程,如何学习智能手机驱动编程
- MySQL进阶11--DDL数据库定义语言--库创建/修改/删除--表的创建/修改/删除/复制
- style文件的指定
- (最短路径算法整理)dijkstra、floyd、bellman-ford、spfa算法模板的整理与介绍
- java 开发微信中回调验证一直提示 解密失败处理(Java)
- 《数据结构》C++代码 堆(优先队列)
- LeetCode(706)——设计哈希映射(JavaScript)
- script标签中的defer和async属性