1.下载地址:Index of /tesseract

建议选择最新V5.0的,在识别性能和准确度上都有所提升

2.添加环境变量

安装完成后,添加环境变量:

在Path上添加tesseract的安装路径:

添加新的系统变量:TESSDATA_PREFIX, 值为tesseract-OCR testdata路径

3.python 使用

import pytesseract
from PIL import Image
import cv2
img = cv2.imread("y1y2.png")
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
text = pytesseract.image_to_string(gray)
print(text)

此时就能读取出来图片里的文字。

如果识别效果不好,但是图片里的文字是确定的,则可以通过指定识别的文字范围来提高精确度。

4.tesseact限定识别内容

例如要识别数字和英文字母的内容,加了限定以后,识别的准确率有所提升。亲测,比如Y1,Y2;3-position在未加限制之前,识别了 L ¥ 23 position. 加了限定后识别成了Y1,Y2;3-position

具体方法:

打开tesseract安装目录,进入

tessdata/configs/

将digits复制一份,改名为:tmptest,表示增加一份识别规则的配置

使用文字编辑工具,打开文件tmptest

在tessedit_char_whitelist 后面跟随要识别的字符, 叫识别的白名单,保存退出。

tessedit_char_whitelist 0123456789-;...abcdefghigklmnopqrstuvwxyz.&%ABCDEFGHIGKLMNOPQRSTUVWXYZ,

识别的时候,需要在命令里加上tmptest配置,例如

tesseract xxx.jpg result -psm 7 tmptest

python 代码:

import pytesseract
from PIL import Image
import cv2img = cv2.imread("y1y2.png")
gray = cv2.cvtColor(img, cv2.COLOR_BGR2GRAY)
config = "--psm  7"
text = pytesseract.image_to_string(gray, config='--psm 7 tmptest')
print(text)

5.其它

语言叠加

识别多语言,可以这样传:

code = pytesseract.image_to_string(image,lang="chi_sim+eng",config="-psm 6")

-psm的说明

关于config中 -psm配置项的说明可以通过tesseract --help-psm 查看psm

tesseract 学习笔记 psm+限定识别内容提升识别精度相关推荐

  1. MMAction2 学习笔记 (一)——骨骼动作识别模型相关内容

    MMAction2 学习笔记 (一)--骨骼动作识别模型相关内容 0- 写在前面 好久不用CSDN发东西了,近期研究可以说有进展却又没什么进展,达到方向切换到了动作识别,目前正在实习,具体的内容方向是 ...

  2. opencv学习笔记五--文件扫描+OCR文字识别

    opencv学习笔记五--文件扫描+OCR文字识别 文件扫描 定义函数 边缘检测 获取轮廓 变换 OCR文字识别 环境配置 代码 文件扫描 # 导入工具包 import numpy as np imp ...

  3. 深度学习笔记(48) 内容代价函数

    深度学习笔记(48) 内容代价函数 1. 激活函数值 2. 内容代价函数 1. 激活函数值 风格迁移网络的代价函数有一个内容代价部分,还有一个风格代价部分 先定义内容代价部分,不要忘了这就是整个风格迁 ...

  4. vue学习笔记(四)- cmd无法识别vue命令解决方法

    vue学习笔记(四)- cmd无法识别vue命令解决方法 参考文章: (1)vue学习笔记(四)- cmd无法识别vue命令解决方法 (2)https://www.cnblogs.com/suRimn ...

  5. 【K210】K210学习笔记六——MaixHub在线模型训练识别数字

    [K210]K210学习笔记六--MaixHub在线模型训练识别数字 前言 K210准备工作 数据的获取 MaixHub如何在线训练模型 训练模型在K210上的测试 小结 前言 本人大四学生,电赛生涯 ...

  6. Python学习笔记 1.0 基础内容篇章

    Python学习笔记 1.0 基础内容篇章 注释 变量 一.定义变量 二.使用变量 bug和debug bug: Debug工具: 数据类型 认识数据类型 在定义数据类型时发生的错误: 数据类型的补表 ...

  7. 学习笔记之12个月提升计划

    Java世界博大精深,有太多的东西要学.如果一头扎进去,很可能会淹没在Java技术的海洋里.于是,最近一直在思考列一个提纲,作为高级工程师到资深.再到架构之路的路标. 学习笔记一栏,即为本计划的博客记 ...

  8. K210开发板学习笔记(一)——K210人脸识别门禁+SD卡实现人脸数据存储(附代码解读)

    基于K210的人脸门禁系统演示(按键录入人脸ID.人脸断电存储) 哔哩哔哩链接:https://b23.tv/MHXjhGa K210人脸识别门禁系统 一个按键实现所有功能. 具体功能: 在线人脸录入 ...

  9. 学习笔记之范海鹰微表情识别

    微表情识别 1. 微表情由来 1.1 基本情绪和次级情绪 1.2 保罗·埃克罗的贡献 2. 微表情意义 2.1 微表情产生原理 2.2 微表情的形态意义 2.3 微表情的读心内涵 2.4 微表情的应用 ...

  10. 学习笔记:人脸检测和人脸识别

    人脸检测( Face Detection )和人脸识别技术是深度学习的重要应用之一.本章首先会介绍MTCNN算法的原理, 它是基于卷积神经网络的一种高精度的实时人脸检测和对齐技术.接着,还会介绍如何利 ...

最新文章

  1. java基础学习(5)-continue与break
  2. Ubuntu下安装mysql与mysql workbench
  3. 中国为何难学欧盟反垄断
  4. linux怎么删干净mysql,linux怎么干净卸载mysql
  5. python十个一行_python 如何将一系列数字十个一行输出
  6. 如何成为一名更出色的开发者?
  7. 龙卷风视频巨型计算机,[动图]相机捕捉巨大“龙卷风”太阳表面旋转
  8. 使用C#解压缩文件,缺失ZipArchive类
  9. linux配置cookie认证,Nginx配置修改网页cookie属性
  10. 中国互联网发展报告2018年度总结
  11. 显卡的性能看哪些参数?
  12. jQuery入门选择器
  13. win10系统mongodb 5.0安装配置+自动启动
  14. LeetCode 576 出界的路经数
  15. UE4如何使用Left Shift+W增加移动速度
  16. Appium真机运行测试用例讲解
  17. 12306订票候补是个坑_收藏!十一火车票今起开抢秒光,12306官方教你“捡漏”技巧...
  18. 解决Android模拟器打不开的问题
  19. 万象网管2004怎么给自己的会员号加钱
  20. 基于机智云AIoT云平台的仓储机电设备远程控制系统设计

热门文章

  1. php 58房源采集,如何用火车采集器采集二手房数据
  2. NEO dapp开发系列课程 第一组 第二讲
  3. TypeError: this.getOptions is not a function at Object.lessLoader less安装使用报错
  4. php处理苹果支付接口回调
  5. 5.24 通过高级筛选功能将筛选结果放置在其它位置 [原创Excel教程]
  6. CF632E Thief in a Shop 题解
  7. 高效能人士的七个习惯 读书笔记
  8. android用户和AID
  9. 挂载iphone ipsw升级包
  10. 盯市盈亏、浮动盈亏、总盈亏的计算方法