python ocr 识别 开源_OCR识别-python版(一)
需求:识别图片中的文字信息
环境:windows系统
开发语言:python
使用工具类:1.pyocr
2.PIL
3.tesseract-ocr
步骤:
1.pyocr
网络通直接使用命令:
pip install pyocr
网络不通,转至https://pypi.python.org/pypi/pyocr/0.4.1下载安装
2.安装pil
网络通直接使用命令:
pip install PIL
网络不通,转至http://www.pythonware.com/products/pil/index.htm下载安装
3.安装tesseract-ocr
exe文件,下载后直接安装,建议默认安装过程中的选项,安装目录默认C:\Program Files (x86)\Tesseract-OCR,(尝试安装D盘后,在cmd中调用可以,但是在python中会出现找不到tesseract的配置目录的问题,后续再研究)
代码:
# coding=utf-8
__author__ = 'syq'
#https://github.com/tesseract-ocr
import sys
reload(sys)
sys.setdefaultencoding('utf-8')
import os
os.environ['NLS_LANG'] = 'SIMPLIFIED CHINESE_CHINA.UTF8'
try:
from pyocr import pyocr
from PIL import Image
except ImportError:
print '模块导入错误,请使用pip安装,pytesseract依赖以下库:'
print 'http://www.lfd.uci.edu/~gohlke/pythonlibs/#pil'
print 'http://code.google.com/p/tesseract-ocr/'
raise SystemExit
tools = pyocr.get_available_tools()[:]
if len(tools) == 0:
print("No OCR tool found")
sys.exit(1)
print("Using '%s'" % (tools[0].get_name()))
print tools[0].image_to_string(Image.open('D:\\123.png'),lang='eng')
print tools[0].image_to_string(Image.open('D:\\3434.png'),lang='chi_sim')
#print tools[0].image_to_string(Image.open('D:\\3535.png'),lang='chi_sim')
文件内容:
123.png
3434.png
输出:
Using 'Tesseract (sh)'
7364
求彰只另UoCR第 1代
可以看到,在使用英文字库(eng)情况下,对数字识别挺准确的,但是在使用中文简体字库(chi_sim)情况下,对中文文字识别结果有点不尽人意。
在整个过程中可能会遇到的问题
1.如果控制台直接输出:“No OCR tool found”,说明未成功安装tesseract-ocr,debug查看get_available_tools,在该方法中回去查看本机已经安装有的ocr识别库,有三种,
libtesseract,
tesseract,
cuneiform,
本文使用的是第二种tesseract,
tesseract具体安装请转至。
2.在识别带中文的图片,会遇到报“allow_blob_division”的错误,
需要下载tesseract-ocr的中文库,地址:https://codeload.github.com/tesseract-ocr/tessdata/zip/master,里面包含tesseract多有的文字库,chi_sim.traineddata为简体中文库,将该文件放至C:\Program Files (x86)\Tesseract-OCR\tessdata目录下接下来的具体处理方法,转至:http://www.cnblogs.com/syqlp/p/5460971.html
python ocr 识别 开源_OCR识别-python版(一)相关推荐
- python工作流引擎 开源_7 款 Python 开源框架的优劣总结
学习任何一门开发语言都离不开框架,一个框架就好比是一个毛坯房,只需要我们装修就可以入住.如果没有框架我们就只能一砖一瓦的去盖楼房了.框架的种类很多,具体选择要根据实际的业务情况.下面就简单的介绍一下P ...
- python ocr安装_详解Python安装tesserocr遇到的各种问题及解决办法
tesseract的安装及配置 在python爬虫过程中,难免遇到各种各样的验证码问题,最简单的就是 这种验证码了,那么在遇到验证码的时候该怎么办呢?我们就需要ocr技术了,ocr-即optical ...
- python人脸识别库_基于Python的face_recognition库实现人脸识别
Python Python开发 Python语言 基于Python的face_recognition库实现人脸识别 一.face_recognition库简介 face_recognition是Pyt ...
- Python库大全(涵盖了Python应用的方方面面),建议收藏留用!
学Python,想必大家都是从爬虫开始的吧.毕竟网上类似的资源很丰富,开源项目也非常多. Python学习网络爬虫主要分3个大的版块:抓取,分析,存储 当我们在浏览器中输入一个url后回车,后台会发生 ...
- 以下选项中python用于异常处理结构_《Python 程序设计》复习题
目录 填空题 一.基础知识 二.序列 三.选择结构与循环结构和函数及面向对象.文件 选择题 一.Python 基础语法 二.基本数据类型 三.程序的控制结构 四.函数和代码复用 五.组合数据类型 六. ...
- python ocr高精度识别_OCR识别-python版(一)
需求:识别图片中的文字信息 环境:windows系统 开发语言:python 使用工具类:1.pyocr 2.PIL 3.tesseract-ocr 步骤: 1.pyocr 网络通直接使用命令: pi ...
- 文字识别 python离线_开源易用的中文离线OCR,识别率媲美大厂
TrWebOCR-开源的离线OCR 介绍 TrWebOCR,基于开源项目 Tr 构建. 在其基础上提供了http调用的接口,便于你在其他的项目中调用. 并且提供了易于使用的web页面,便于调试或日常使 ...
- 【Python】轻松识别文字,这款Python OCR库支持超过80种语言
点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达本文转自|Python大数据分析 什么是OCR? 有一款软件叫扫描全 ...
- python ocr 识别中文pdf_轻松识别文字,这款Python OCR库支持超过80种语言
OCR是什么? 有一款软件叫扫描全能王,想必一些小伙伴听过,这是一个OCR集成软件,可以将图像内容扫描成文字. 所以说,OCR作用是对文本资料的图像文件进行分析识别处理,获取文字及版面信息. OCR的 ...
- 宝可梦 图片识别python_初探利用Python进行图文识别(OCR)
话说什么是OCR????? 简介 OCR技术是光学字符识别的缩写(Optical Character Recognition),是通过扫描等光学输入方式将各种票据.报刊.书籍.文稿及其它印刷品的文字转 ...
最新文章
- 清瘦的记录者: 一个比dbutils更小巧、好用的的持久化工具
- 我的AngularJS学习轨迹
- 数据恢复利器:通过frm文件恢复数据表的sql结构语句
- 架构师之路 — 分布式系统 — 分布式一致性难题
- android studio安装教程博客园独王,Android Studio安装与配置
- 用python公众号开书城步骤_资源 | 开放Python书籍:一本短小精悍的初学者入门指南...
- php 正规标题,一些PHP面试标题
- Java 程序员必须掌握的 8 道数据结构面试题,你会几道
- MySQL锁机制,行锁jingran加在索引上
- 【Java】编写Java程序,完成从键盘输入两个运算数据,计算两数之和并输出结果...
- Python3练习题系列(03)
- python重写和装饰器_Python | 老司机教你 5 分钟读懂 Python 装饰器
- 【Elasticsearch】Elasticsearch启动索引恢复流程
- 百科人物爬虫-属性解析
- 某程序员揭秘“开水团”大厂真实福利
- 地产中介门店10用户桌面云方案
- 使用计算机有关的活动,与计算机有关的传统文化活动策划书
- python图片识别是否p过_python 基于百度aip库 实现识别图片中的文字
- web设计与制作|DW故宫景点介绍网页设计制作|web旅游景点网站模板成品|html故宫介绍网页设计制作源码|HTML5期末大作业...
- Linux系统库函数之strsep
热门文章
- sha1算法源码c版
- 蓝桥杯题目练习 基础篇 [蓝桥杯2015初赛]奖券数目
- 「罗马人的故事I 罗马不是一天建成的」读后感
- Android 自定义View加属性动画实现动画时钟
- 教你如何提取小程序素材无水印解析下载视频号视频
- 超级人工智能何时能实现?
- 2021年11月_IEEE TRANSACTIONS ON MEDICAL IMAGING_科技前言热点调研表
- matlab制作数字滤波器(带通滤波器)
- c语言编程GetTickCount,c语言计算时间方法---clock-GetTickCount-QueryPerformanceCounter
- Webview 非http或者https的网络请求拦截