0.我的环境:

win7 32bits

python 3.5

pycharm 5.0

1.相关库

安装pillow:

pip install pillow

安装tesseract:

tesseract-ocr-setup-3.02.02.exe

自带了英文语言包,如果需要中文语言包往下找即可。

或者在安装的时候,在选项lang处,点选chi-sim即可。

安装完毕后,会儿自动加入系统环境变量中。

安装pytesseract:

pip install pytesseract

2.修改pytesseract.py原文件

# tesseract_cmd = 'tesseract'

tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'

#如果不修改,会报错:FileNotFoundError: [WinError 2] 系统找不到指定的文件。

#f = open(output_file_name)

f = open(output_file_name, encoding='utf-8')

#如果不修改,会儿报错:UnicodeDecodeError: 'gbk' codec can't decode byte 0xyy in position xxx: illegal multibyte sequence

3.小程序,测试一下

 1 #coding:utf-8
 2 #Test one page
 3 import pytesseract
 4 from PIL import Image
 5
 6 def processImage():
 7     image = Image.open('test.png')
 8
 9     #背景色处理,可有可无
10     image = image.point(lambda x: 0 if x < 143 else 255)
11     newFilePath = 'raw-test.png'
12     image.save(newFilePath)
13
14     content = pytesseract.image_to_string(Image.open(newFilePath), lang='eng')
15     #中文图片的话,是lang='chi_sim'
16     print(content)
17
18 processImage()

转载于:https://www.cnblogs.com/flyinghorse/p/5765788.html

python实现中文图片文字识别--OCR about chinese text--tesseract相关推荐

  1. python批量识别图片中文字_python实现中文图片文字识别--OCR about chinese text--tesseract...

    0.我的环境: win7 32bits python 3.5 pycharm 5.0 1.相关库 安装pillow: pip install pillow 安装tesseract: 自带了英文语言包, ...

  2. 吴恩达《Machine Learning》精炼笔记 12:大规模机器学习和图片文字识别 OCR

    作者 | Peter 编辑 | AI有道 系列文章: 吴恩达<Machine Learning>精炼笔记 1:监督学习与非监督学习 吴恩达<Machine Learning>精 ...

  3. 开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用

    开源免费图片文字识别 OCR 工具 tesseract v4.1.0 的 Docker 镜像制作与使用 一 背景 在日常的一些工作中,偶尔也需要我们把图片转换为文字.目前大部分办公软件还无法实现类似的 ...

  4. 轻量级图片文字识别 OCR Paddle 使用说明

    百度轻量级 图片文字识别OCR 1.原文链接:https://www.paddlepaddle.org.cn/hub/scene/ocr 2.快速安装     https://github.com/P ...

  5. 吴恩达《机器学习》第十八章:图片文字识别OCR

    文章目录 十八.应用实例:图片文字识别OCR 18.1 问题描述和流程图 18.2 滑动窗口 18.3 获取大量数据和人工数据 18.4 上限分析:下一步工作 十八.应用实例:图片文字识别OCR 18 ...

  6. 图片文字识别OCR模型免费API接口工具及DEMO

    jiaying系列 网页版演示地址:ai.moneymeeting.club 一.简介: paddleocr是一个开源的图片文字识别工具​. 目前我们提供的免费在线API支持png.jpg​文件格式. ...

  7. python学习----网页图片文字识别(简单)

    在接触python后想对图片进行一些处理  python实现的代码很简单 但是关键在于一些包的导入 我使用的python 软件是 pycharm  可以在setting中去下载requests这个包 ...

  8. 【图片识别】java 图片文字识别 ocr (转)

    http://www.cnblogs.com/inkflower/p/6642264.html 最近在开发的时候需要识别图片中的一些文字,网上找了相关资料之后,发现google有一个离线的工具,以下为 ...

  9. python图片转文字easyocr_支持40种语言的图片文字识别(OCR)项目

    Hi!大家好呀!我是你们努力的喵哥! OCR(光学字符识别)是我们日常很常用的人工智能技术.我们总会有从图片中提取文字的需求.你是不是有需要从图片复制文字的经历?手打是最低效的选择.我们可以使用 OC ...

最新文章

  1. iOS7系统iLEX RAT冬青鼠安装教程:无需刷机还原纯净越狱系统
  2. android 有效载荷大图,避OOM
  3. Docker学习笔记 — Docker私有仓库搭建
  4. Jquery DataTable服务端分页的最佳实现
  5. charles抓包ios抓拍教程
  6. 1,2-二氨基苯行业调研报告 - 市场现状分析与发展前景预测
  7. C++仿函数和typename的用法
  8. 《惢客创业日记》2019.05.20(周一)向技术大牛请教(二)
  9. 基于FairMOT的车流量统计
  10. [软件人生]耐得住寂寞——积累是低潮时期技术人员的品质
  11. 真的会有大牛市吗老大?前提条件是破2万美刀,差一刀都不行!
  12. 智能访客机要注意这些陷阱
  13. 基于微信跳蚤市场二手交易小程序系统设计与实现 开题报告
  14. Android 省电模式 降频吗,开启省电模式会降频吗
  15. 学习遇见狂神说的Java
  16. NaN是什么?NaN == NaN 的结果是什么?为什么?
  17. 儿童手表运动轨迹和路径追踪_如何将智能手表或健身追踪器用作静音闹钟
  18. h3c imc-dig 7 linux,H3C iMC iLP安装指导-7.0-5PW100
  19. ACM必学知识点清单
  20. python最好用的第三方库资源下载网址

热门文章

  1. 290. Word Pattern
  2. 帝国CMS附件大小限制
  3. Oracle数据库升级与补丁
  4. M2第五天DailyScrum——PM(李忠)
  5. Android动画开发——Animation动画效果
  6. 甲骨文指控 Google Android 复制其代码
  7. 27 | 案例篇:为什么我的磁盘I/O延迟很高?
  8. s5-2 Cpu调度算法
  9. 控制论python_[干货]深入浅出LSTM及其Python代码实现
  10. 问题 E: 小鱼的数学问题(递推)