python实现中文图片文字识别--OCR about chinese text--tesseract
0.我的环境:
win7 32bits
python 3.5
pycharm 5.0
1.相关库
安装pillow:
pip install pillow
安装tesseract:
tesseract-ocr-setup-3.02.02.exe
自带了英文语言包,如果需要中文语言包往下找即可。
或者在安装的时候,在选项lang处,点选chi-sim即可。
安装完毕后,会儿自动加入系统环境变量中。
安装pytesseract:
pip install pytesseract
2.修改pytesseract.py原文件
# tesseract_cmd = 'tesseract'
tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'
#如果不修改,会报错:FileNotFoundError: [WinError 2] 系统找不到指定的文件。
#f = open(output_file_name)
f = open(output_file_name, encoding='utf-8')
#如果不修改,会儿报错:UnicodeDecodeError: 'gbk' codec can't decode byte 0xyy in position xxx: illegal multibyte sequence
3.小程序,测试一下
1 #coding:utf-8 2 #Test one page 3 import pytesseract 4 from PIL import Image 5 6 def processImage(): 7 image = Image.open('test.png') 8 9 #背景色处理,可有可无 10 image = image.point(lambda x: 0 if x < 143 else 255) 11 newFilePath = 'raw-test.png' 12 image.save(newFilePath) 13 14 content = pytesseract.image_to_string(Image.open(newFilePath), lang='eng') 15 #中文图片的话,是lang='chi_sim' 16 print(content) 17 18 processImage()
转载于:https://www.cnblogs.com/flyinghorse/p/5765788.html
python实现中文图片文字识别--OCR about chinese text--tesseract相关推荐
- python批量识别图片中文字_python实现中文图片文字识别--OCR about chinese text--tesseract...
0.我的环境: win7 32bits python 3.5 pycharm 5.0 1.相关库 安装pillow: pip install pillow 安装tesseract: 自带了英文语言包, ...
- 吴恩达《Machine Learning》精炼笔记 12:大规模机器学习和图片文字识别 OCR
作者 | Peter 编辑 | AI有道 系列文章: 吴恩达<Machine Learning>精炼笔记 1:监督学习与非监督学习 吴恩达<Machine Learning>精 ...
- 开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用
开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用 一 背景 在日常的一些工作中,偶尔也需要我们把图片转换为文字.目前大部分办公软件还无法实现类似的 ...
- 轻量级图片文字识别 OCR Paddle 使用说明
百度轻量级 图片文字识别OCR 1.原文链接:https://www.paddlepaddle.org.cn/hub/scene/ocr 2.快速安装 https://github.com/P ...
- 吴恩达《机器学习》第十八章:图片文字识别OCR
文章目录 十八.应用实例:图片文字识别OCR 18.1 问题描述和流程图 18.2 滑动窗口 18.3 获取大量数据和人工数据 18.4 上限分析:下一步工作 十八.应用实例:图片文字识别OCR 18 ...
- 图片文字识别OCR模型免费API接口工具及DEMO
jiaying系列 网页版演示地址:ai.moneymeeting.club 一.简介: paddleocr是一个开源的图片文字识别工具. 目前我们提供的免费在线API支持png.jpg文件格式. ...
- python学习----网页图片文字识别(简单)
在接触python后想对图片进行一些处理 python实现的代码很简单 但是关键在于一些包的导入 我使用的python 软件是 pycharm 可以在setting中去下载requests这个包 ...
- 【图片识别】java 图片文字识别 ocr (转)
http://www.cnblogs.com/inkflower/p/6642264.html 最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为 ...
- python图片转文字easyocr_支持40种语言的图片文字识别(OCR)项目
Hi!大家好呀!我是你们努力的喵哥! OCR(光学字符识别)是我们日常很常用的人工智能技术.我们总会有从图片中提取文字的需求.你是不是有需要从图片复制文字的经历?手打是最低效的选择.我们可以使用 OC ...
最新文章
- iOS7系统iLEX RAT冬青鼠安装教程:无需刷机还原纯净越狱系统
- android 有效载荷大图,避OOM
- Docker学习笔记 — Docker私有仓库搭建
- Jquery DataTable服务端分页的最佳实现
- charles抓包ios抓拍教程
- 1,2-二氨基苯行业调研报告 - 市场现状分析与发展前景预测
- C++仿函数和typename的用法
- 《惢客创业日记》2019.05.20(周一)向技术大牛请教(二)
- 基于FairMOT的车流量统计
- [软件人生]耐得住寂寞——积累是低潮时期技术人员的品质
- 真的会有大牛市吗老大?前提条件是破2万美刀,差一刀都不行!
- 智能访客机要注意这些陷阱
- 基于微信跳蚤市场二手交易小程序系统设计与实现 开题报告
- Android 省电模式 降频吗,开启省电模式会降频吗
- 学习遇见狂神说的Java
- NaN是什么?NaN == NaN 的结果是什么?为什么?
- 儿童手表运动轨迹和路径追踪_如何将智能手表或健身追踪器用作静音闹钟
- h3c imc-dig 7 linux,H3C iMC iLP安装指导-7.0-5PW100
- ACM必学知识点清单
- python最好用的第三方库资源下载网址