需求:识别图片中的文字信息

环境:windows系统

开发语言:python

使用工具类:1.pyocr

2.PIL

3.tesseract-ocr

步骤:

1.pyocr

网络通直接使用命令:

pip install pyocr

网络不通,转至https://pypi.python.org/pypi/pyocr/0.4.1下载安装

2.安装pil

网络通直接使用命令:

pip install PIL

网络不通,转至http://www.pythonware.com/products/pil/index.htm下载安装

3.安装tesseract-ocr

exe文件,下载后直接安装,建议默认安装过程中的选项,安装目录默认C:\Program Files (x86)\Tesseract-OCR,(尝试安装D盘后,在cmd中调用可以,但是在python中会出现找不到tesseract的配置目录的问题,后续再研究)

代码:

# coding=utf-8

__author__ = 'syq'

#https://github.com/tesseract-ocr

import sys

reload(sys)

sys.setdefaultencoding('utf-8')

import os

os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'

try:

from pyocr import pyocr

from PIL import Image

except ImportError:

print '模块导入错误,请使用pip安装,pytesseract依赖以下库:'

print 'http://www.lfd.uci.edu/~gohlke/pythonlibs/#pil'

print 'http://code.google.com/p/tesseract-ocr/'

raise SystemExit

tools = pyocr.get_available_tools()[:]

if len(tools) == 0:

print("No OCR tool found")

sys.exit(1)

print("Using '%s'" % (tools[0].get_name()))

print tools[0].image_to_string(Image.open('D:\\123.png'),lang='eng')

print tools[0].image_to_string(Image.open('D:\\3434.png'),lang='chi_sim')

#print tools[0].image_to_string(Image.open('D:\\3535.png'),lang='chi_sim')

文件内容:

123.png

3434.png

输出:

Using 'Tesseract (sh)'

7364

求彰只另UoCR第 1代

可以看到,在使用英文字库(eng)情况下,对数字识别挺准确的,但是在使用中文简体字库(chi_sim)情况下,对中文文字识别结果有点不尽人意。

在整个过程中可能会遇到的问题

1.如果控制台直接输出:“No OCR tool found”,说明未成功安装tesseract-ocr,debug查看get_available_tools,在该方法中回去查看本机已经安装有的ocr识别库,有三种,

libtesseract,

tesseract,

cuneiform,

本文使用的是第二种tesseract,

tesseract具体安装请转至。

2.在识别带中文的图片,会遇到报“allow_blob_division”的错误,

需要下载tesseract-ocr的中文库,地址:https://codeload.github.com/tesseract-ocr/tessdata/zip/master,里面包含tesseract多有的文字库,chi_sim.traineddata为简体中文库,将该文件放至C:\Program Files (x86)\Tesseract-OCR\tessdata目录下接下来的具体处理方法,转至:http://www.cnblogs.com/syqlp/p/5460971.html

python ocr 识别 开源_OCR识别-python版(一)相关推荐

  1. python工作流引擎 开源_7 款 Python 开源框架的优劣总结

    学习任何一门开发语言都离不开框架,一个框架就好比是一个毛坯房,只需要我们装修就可以入住.如果没有框架我们就只能一砖一瓦的去盖楼房了.框架的种类很多,具体选择要根据实际的业务情况.下面就简单的介绍一下P ...

  2. python ocr安装_详解Python安装tesserocr遇到的各种问题及解决办法

    tesseract的安装及配置 在python爬虫过程中,难免遇到各种各样的验证码问题,最简单的就是 ​这种验证码了,那么在遇到验证码的时候该怎么办呢?我们就需要ocr技术了,ocr-即optical ...

  3. python人脸识别库_基于Python的face_recognition库实现人脸识别

    Python Python开发 Python语言 基于Python的face_recognition库实现人脸识别 一.face_recognition库简介 face_recognition是Pyt ...

  4. Python库大全(涵盖了Python应用的方方面面),建议收藏留用!

    学Python,想必大家都是从爬虫开始的吧.毕竟网上类似的资源很丰富,开源项目也非常多. Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 当我们在浏览器中输入一个url后回车,后台会发生 ...

  5. 以下选项中python用于异常处理结构_《Python 程序设计》复习题

    目录 填空题 一.基础知识 二.序列 三.选择结构与循环结构和函数及面向对象.文件 选择题 一.Python 基础语法 二.基本数据类型 三.程序的控制结构 四.函数和代码复用 五.组合数据类型 六. ...

  6. python ocr高精度识别_OCR识别-python版(一)

    需求:识别图片中的文字信息 环境:windows系统 开发语言:python 使用工具类:1.pyocr 2.PIL 3.tesseract-ocr 步骤: 1.pyocr 网络通直接使用命令: pi ...

  7. 文字识别 python离线_开源易用的中文离线OCR,识别率媲美大厂

    TrWebOCR-开源的离线OCR 介绍 TrWebOCR,基于开源项目 Tr 构建. 在其基础上提供了http调用的接口,便于你在其他的项目中调用. 并且提供了易于使用的web页面,便于调试或日常使 ...

  8. 【Python】轻松识别文字,这款Python OCR库支持超过80种语言

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自|Python大数据分析 什么是OCR? 有一款软件叫扫描全 ...

  9. python ocr 识别中文pdf_轻松识别文字,这款Python OCR库支持超过80种语言

    OCR是什么? 有一款软件叫扫描全能王,想必一些小伙伴听过,这是一个OCR集成软件,可以将图像内容扫描成文字. 所以说,OCR作用是对文本资料的图像文件进行分析识别处理,获取文字及版面信息. OCR的 ...

  10. 宝可梦 图片识别python_初探利用Python进行图文识别(OCR)

    话说什么是OCR????? 简介 OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据.报刊.书籍.文稿及其它印刷品的文字转 ...

最新文章

  1. 清瘦的记录者: 一个比dbutils更小巧、好用的的持久化工具
  2. 我的AngularJS学习轨迹
  3. 数据恢复利器:通过frm文件恢复数据表的sql结构语句
  4. 架构师之路 — 分布式系统 — 分布式一致性难题
  5. android studio安装教程博客园独王,Android Studio安装与配置
  6. 用python公众号开书城步骤_资源 | 开放Python书籍:一本短小精悍的初学者入门指南...
  7. php 正规标题,一些PHP面试标题
  8. Java 程序员必须掌握的 8 道数据结构面试题,你会几道
  9. MySQL锁机制,行锁jingran加在索引上
  10. 【Java】编写Java程序,完成从键盘输入两个运算数据,计算两数之和并输出结果...
  11. Python3练习题系列(03)
  12. python重写和装饰器_Python | 老司机教你 5 分钟读懂 Python 装饰器
  13. 【Elasticsearch】Elasticsearch启动索引恢复流程
  14. 百科人物爬虫-属性解析
  15. 某程序员揭秘“开水团”大厂真实福利
  16. 地产中介门店10用户桌面云方案
  17. 使用计算机有关的活动,与计算机有关的传统文化活动策划书
  18. python图片识别是否p过_python 基于百度aip库 实现识别图片中的文字
  19. web设计与制作|DW故宫景点介绍网页设计制作|web旅游景点网站模板成品|html故宫介绍网页设计制作源码|HTML5期末大作业...
  20. Linux系统库函数之strsep

热门文章

  1. sha1算法源码c版
  2. 蓝桥杯题目练习 基础篇 [蓝桥杯2015初赛]奖券数目
  3. 「罗马人的故事I 罗马不是一天建成的」读后感
  4. Android 自定义View加属性动画实现动画时钟
  5. 教你如何提取小程序素材无水印解析下载视频号视频
  6. 超级人工智能何时能实现?
  7. 2021年11月_IEEE TRANSACTIONS ON MEDICAL IMAGING_科技前言热点调研表
  8. matlab制作数字滤波器(带通滤波器)
  9. c语言编程GetTickCount,c语言计算时间方法---clock-GetTickCount-QueryPerformanceCounter
  10. Webview 非http或者https的网络请求拦截