提高Pytesseract识别率的步骤:

1)清理图像数组,只留下文本(字体生成,而不是手写)。字母的边缘应不变形。应用阈值(尝试不同的值)。同时应用一些平滑过滤器。我也推荐使用形态上的开/关-但这只是一个奖励。这是以数组形式进入pytesseract识别的夸张示例:https://i.ytimg.com/vi/1ns8tGgdpLY/maxresdefault.jpg

2)使用要识别的文本将图像大小调整为更高的分辨率

3)Pytesseract通常应该可以识别任何类型的字母,但是通过安装文本所用的字体,您可以极大地提高准确性。

如何在pytesseract中安装新字体:

1)以TIFF格式获取所需字体

3)将训练数据文件(.trained data)添加到此文件夹C:\程序文件(x86)\ Tesseract OCR\tessdata

4)将此字符串命令添加到pytesseract重新复制函数:假设您有两种经过训练的字体:font1.traineddata和font2.traineddata

要同时使用这两个命令

txt=pytesseract.image_to_字符串(img,lang='font1+font2')

这里有一个代码来测试您在网络图像上的识别:import cv2

import pytesseract

import cv2

import numpy as np

import urllib

import requests

pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'

TESSDATA_PREFIX = 'C:/Program Files (x86)/Tesseract-OCR'

from PIL import Image

def url_to_image(url):

resp = urllib.request.urlopen(url)

image = np.asarray(bytearray(resp.read()), dtype="uint8")

image = cv2.imdecode(image, cv2.IMREAD_COLOR)

return image

url='http://jeroen.github.io/images/testocr.png'

img = url_to_image(url)

#img = cv2.GaussianBlur(img,(5,5),0)

img = cv2.medianBlur(img,5)

retval, img = cv2.threshold(img,150,255, cv2.THRESH_BINARY)

txt = pytesseract.image_to_string(img, lang='eng')

print('recognition:', txt)

>>> txt

'This ts a lot of 12 point text to test the\nocr code and see if it works on all types\nof file format\n\nThe quick brown dog jumped over the\nlazy fox The quick brown dog jumped\nover the lazy fox The quick brown dog\njumped over the lazy fox The quick\nbrown dog jumped over the lazy fox'

python ocr识别身份证_如何使用Tesseract训练基于Python的OCR以使用不同的国家身份证?...相关推荐

  1. python自动化工具开发_初识TPOT:一个基于Python的自动化机器学习开发工具

    1. TPOT介绍 一般来讲,创建一个机器学习模型需要经历以下几步: 数据预处理 特征工程 模型选择 超参数调整 模型保存 本文介绍一个基于遗传算法的快速模型选择及调参的方法,TPOT:一种基于Pyt ...

  2. python自动化测试实战 虫师_《Selenium2自动化测试实战--基于Python语言》 --即将面市...

    发展历程: <selenium_webdriver(python)第一版> 将本博客中的这个系列整理为pdf文档,免费. <selenium_webdriver(python)第二版 ...

  3. 使用Tesseract训练lang文件并OCR识别集装箱号

    https://lonelygo.github.io/2017/07/21/使用Tesseract训练lang文件并OCR识别集装箱号/index.html

  4. EmguCV OCR识别实例演示与代码--Tesseract数字识别

    本文作者Color Space,文章未经作者允许禁止转载! 本文将介绍EmguCV OCR识别实例演示与代码--Tesseract数字识别! EmguCV中的OCR识别示例代码可以在安装目录D:\Em ...

  5. Dataset之MNIST:MNIST(手写数字图片识别+ubyte.gz文件)数据集的下载(基于python语言根据爬虫技术自动下载MNIST数据集)

    Dataset之MNIST:MNIST(手写数字图片识别+ubyte.gz文件)数据集的下载(基于python语言根据爬虫技术自动下载MNIST数据集) 目录 数据集下载的所有代码 1.主文件 mni ...

  6. Ch2r_ood_understanding 本文档为论文限定领域口语对话系统中超出领域话语的对话行为识别的部分实验代码。代码基于Python,需要用到的外部库有: Keras(搭建神经网络) S

    Ch2r_ood_understanding 本文档为论文限定领域口语对话系统中超出领域话语的对话行为识别的部分实验代码.代码基于Python,需要用到的外部库有: Keras(搭建神经网络) Sci ...

  7. python 文字识别 准确率_关于OCR图片文本检测、推荐一个 基于深度学习的Python 库!...

    大家好,我是 zeroing~ 1,前言 之前谈到图片文本 OCR 识别时,写过一篇文章介绍了一个 Python 包 pytesseract ,具体内容可参考 介绍一个Python 包 ,几行代码可实 ...

  8. python实现ocr识别算法_基于Python的OCR实现示例

    摘要: 近几天在做一个东西,其中需要对图像中的文字进行识别,看了前辈们的文章,找到两个较简单的方法:使用python的pytesseract库和调用百度AI平台接口.写下这篇文章做一个比较简短的记录和 ...

  9. python截图识别文字_用百度ocr+微信截图实现文字识别

    作用:将图片中的文字识别出来 一.调用微信截图dll控件 将微信截图插件复制到项目文件,使用ctypes加载(胶水语言就是给力) def capture(): try: dll = ctypes.cd ...

  10. python人脸识别库_基于Python的face_recognition库实现人脸识别

    Python Python开发 Python语言 基于Python的face_recognition库实现人脸识别 一.face_recognition库简介 face_recognition是Pyt ...

最新文章

  1. javascript createelement_贝程学院:Selenium与 JavaScript
  2. 7805输入电流有要求吗_PLC输入输出接线全解析,值得收藏!
  3. [CareerCup] 13.10 Allocate a 2D Array 分配一个二维数组
  4. highcharts php 动态数据,php动态传数据到highcharts的方法
  5. Latex可能遇到的一些问题
  6. 深入Redis客户端(redis客户端属性、redis缓冲区、关闭redis客户端)
  7. 运算放大器基本公式_还在被三阶/四阶/运算放大器滤波器PLL这些概念困扰?这篇文章帮你搞懂它...
  8. pytorch torchvision.transforms.Resize
  9. In addition, Microsoft is also developing
  10. java sleep方法_6种快速统计代码执行时间的方法,真香!(史上最全)
  11. 应用多元统计分析第五章判别分析例题python代码
  12. 【LKJ】LKJ2000型记录装置显示界面说明
  13. CellularAutomation(细胞自动机)
  14. 省份简称匹配并分组统计
  15. ThinkPad Tablet2升级Windows10(各种故障及解决方案)
  16. oracle 如何删除库,Oracle删除库
  17. 错误(mailed 59 bytes of output but got status 0x004b#012)
  18. 一起零基础学Python
  19. 用qrcode生成微信支付二维码
  20. 几何学的公理化:塔尔斯基 pk 希尔伯特,谁能取胜?

热门文章

  1. MeasureSpec的简单说明
  2. 软考系统分析师考试大纲
  3. 华为鸿蒙p9刷机包,华为P9原版rom系统刷机包_华为P9最新版升级包更新下载
  4. 【爬虫】微博数据采集
  5. DirectShow播放视频流程
  6. 电脑没声音,音频设备无法使用。扬声器安装程序unknown
  7. DCN神州数码无线理论与配置逻辑
  8. LoadRunner教程(28)-LoadRunner连接mysql
  9. MFC界面库BCGControlBar v32.0 - 网格、报表控件升级
  10. 工资计算器的小demo