环境概述

|Python|3.9.2 |
|-pytesseract 客户端-|-5.0-|
| pytesseract 依赖库| 0.3.8 |
| 语言包|chi_sim.traineddata、chi_sim_vert.traineddata |

下载地址

CSDN资源地址:https://download.csdn.net/download/yanxilou/76285648
客户端:https://github.com/UB-Mannheim/tesseract/wiki

语言包:https://github.com/tesseract-ocr/tessdata

依赖库: pip install pytesseract

修改配置

语言包放到这里:
修改cmd路径:

目录结构

代码

from PIL import Image
import pytesseractdef read_text(text_path):# 打开图片im = Image.open(text_path)# 转化为8bit的黑白图片imgry = im.convert('L')# 二值化,采用阈值分割算法,threshold为分割点threshold = 140table = []for j in range(256):if j < threshold:table.append(0)else:table.append(1)out = imgry.point(table, '1')# 识别文本text = pytesseract.image_to_string(out, lang="chi_sim", config='--psm 6')return text
if __name__ == '__main__':print(read_text(r'.\img\demo.png'))

效果

Python3 Ocr 初探相关推荐

  1. python3爬虫初探(一)之urllib.request

    #----第一把武器-----urllib.request--------- urllib.request是python3自带的库(python3.x版本特有),我们用它来请求网页,并获取网页源码.话 ...

  2. python3爬虫初探(八)requests

    几个常见的操作: import requests #from PIL import Image #from io import BytesIO def simple_get(url):     res ...

  3. python3爬虫初探(七)使用MySQL

    MySQL是Web世界中使用最广泛的数据库服务器.SQLite的特点是轻量级.可嵌入,但不能承受高并发访问,适合桌面和移动应用.而MySQL是为服务器端设计的数据库,能承受高并发访问,同时占用的内存也 ...

  4. python3爬虫初探(六)之EXCEL

    在爬取数据之后,数据的保存就成为一个新的问题,一般不太大的的数据存储到EXCEL就可以了.这里介绍一个python的第三方库--xlsxwriter. 这个库的安装就不介绍了,pip就可以,不用FQ. ...

  5. python3爬虫初探(五)之从爬取到保存

    想一想,还是写个完整的代码,总结一下前面学的吧. import requests import re# 获取网页源码 url = 'http://www.ivsky.com/tupian/xiaohu ...

  6. python3爬虫初探(四)之文件保存

    接着上面的写,抓取到网址之后,我们要把图片保存到本地,这里有几种方法都是可以的. #-----urllib.request.urlretrieve----- import urllib.request ...

  7. python3爬虫初探(三)之正则表达式

    前面已经写了如何获取网页源码,那么接下来就是该解析网页并提取需要的数据了.这里简单写一下正则表达的用法. 首先,找个要抓取图片的网站,获取源码. import requests import re# ...

  8. python3爬虫初探(二)之requests

    关于请求网页,不得不提requests这个库,这是爬虫经常用到的一个第三方库,用pip安装即可. requests用法很多,这里只写一些基础的,其他高级功能可参考官方文档. import reques ...

  9. linux调用百度接口ocr快速准确提取图片中文字

    有些 pdf 文档没办法复制句子,有些图片上的字想弄下来却不想手敲,一直打算看看有什么好用的 ocr 软件,Windows 上曾用过天若很好用,但是 linux 上没看到很好的现成软件,在网上搜索之后 ...

最新文章

  1. [python] 从GPS坐标获取国家名
  2. ubuntu和windows系统双系统的开机选项界面有很多无关选项
  3. leetcode算法题--0~n-1中缺失的数字
  4. SpringMvc+AngularJS通过CORS实现跨域方案
  5. Java多线程之线程间协作 notify与wait的使用
  6. linux命令之-管理文件和目录的命令
  7. c语言long double位数,int long double 所占位数 和最大值
  8. 机器学习降维算法一:PCA (Principal Component Analysis)
  9. pechakucha范例ppt_国际创意论坛
  10. 10分钟搭建MySQL Binlog分析+可视化方案
  11. Kafka开发--C#生产和消费消息
  12. sublime text配置VBA编辑器插件
  13. 淘宝购物电话错误危急处理
  14. 轻量级日志分析PLG平台Loki安装部署及使用(promtail+loki+Grafana)
  15. 天翼云主攻“5G+云+AI”,新生态革命的冲锋
  16. ufvm可以读哪些网格_FM24C05UFVM8
  17. Android攻城狮OptionsMenu
  18. 磁盘管理之 raid 文件系统 分区
  19. 图解最常用的10个机器学习算法!(必须收藏)
  20. 用python做数据处理怎么挣钱_个人利用python爬虫技术怎么挣钱

热门文章

  1. 如何修改默认浏览器_iPhone可以修改默认浏览器了
  2. php阅读心得,PHP学习路上的一点心得
  3. 计算机网络的自我介绍和评价,计算机网络自我介绍范文
  4. 日志查看技巧_10种Git技巧,让你省时省力又省心!
  5. 备份linux分区到usb,将Linux引导加载程序备份到USB的方法
  6. react native ios 上架
  7. NOIP 2011 聪明的质检员-二分答案
  8. 使用过滤器解决SQL注入和跨站点脚本编制
  9. 上传文件到ftp服务器
  10. 重磅!TensorFlow 2.0 来了!