Python3 Ocr 初探
环境概述
|Python|3.9.2 |
|-pytesseract 客户端-|-5.0-|
| pytesseract 依赖库| 0.3.8 |
| 语言包|chi_sim.traineddata、chi_sim_vert.traineddata |
下载地址
CSDN资源地址:https://download.csdn.net/download/yanxilou/76285648
客户端:https://github.com/UB-Mannheim/tesseract/wiki
语言包:https://github.com/tesseract-ocr/tessdata
依赖库: pip install pytesseract
修改配置
语言包放到这里:
修改cmd路径:
目录结构
代码
from PIL import Image
import pytesseractdef read_text(text_path):# 打开图片im = Image.open(text_path)# 转化为8bit的黑白图片imgry = im.convert('L')# 二值化,采用阈值分割算法,threshold为分割点threshold = 140table = []for j in range(256):if j < threshold:table.append(0)else:table.append(1)out = imgry.point(table, '1')# 识别文本text = pytesseract.image_to_string(out, lang="chi_sim", config='--psm 6')return text
if __name__ == '__main__':print(read_text(r'.\img\demo.png'))
效果
Python3 Ocr 初探相关推荐
- python3爬虫初探(一)之urllib.request
#----第一把武器-----urllib.request--------- urllib.request是python3自带的库(python3.x版本特有),我们用它来请求网页,并获取网页源码.话 ...
- python3爬虫初探(八)requests
几个常见的操作: import requests #from PIL import Image #from io import BytesIO def simple_get(url): res ...
- python3爬虫初探(七)使用MySQL
MySQL是Web世界中使用最广泛的数据库服务器.SQLite的特点是轻量级.可嵌入,但不能承受高并发访问,适合桌面和移动应用.而MySQL是为服务器端设计的数据库,能承受高并发访问,同时占用的内存也 ...
- python3爬虫初探(六)之EXCEL
在爬取数据之后,数据的保存就成为一个新的问题,一般不太大的的数据存储到EXCEL就可以了.这里介绍一个python的第三方库--xlsxwriter. 这个库的安装就不介绍了,pip就可以,不用FQ. ...
- python3爬虫初探(五)之从爬取到保存
想一想,还是写个完整的代码,总结一下前面学的吧. import requests import re# 获取网页源码 url = 'http://www.ivsky.com/tupian/xiaohu ...
- python3爬虫初探(四)之文件保存
接着上面的写,抓取到网址之后,我们要把图片保存到本地,这里有几种方法都是可以的. #-----urllib.request.urlretrieve----- import urllib.request ...
- python3爬虫初探(三)之正则表达式
前面已经写了如何获取网页源码,那么接下来就是该解析网页并提取需要的数据了.这里简单写一下正则表达的用法. 首先,找个要抓取图片的网站,获取源码. import requests import re# ...
- python3爬虫初探(二)之requests
关于请求网页,不得不提requests这个库,这是爬虫经常用到的一个第三方库,用pip安装即可. requests用法很多,这里只写一些基础的,其他高级功能可参考官方文档. import reques ...
- linux调用百度接口ocr快速准确提取图片中文字
有些 pdf 文档没办法复制句子,有些图片上的字想弄下来却不想手敲,一直打算看看有什么好用的 ocr 软件,Windows 上曾用过天若很好用,但是 linux 上没看到很好的现成软件,在网上搜索之后 ...
最新文章
- [python] 从GPS坐标获取国家名
- ubuntu和windows系统双系统的开机选项界面有很多无关选项
- leetcode算法题--0~n-1中缺失的数字
- SpringMvc+AngularJS通过CORS实现跨域方案
- Java多线程之线程间协作 notify与wait的使用
- linux命令之-管理文件和目录的命令
- c语言long double位数,int long double 所占位数 和最大值
- 机器学习降维算法一:PCA (Principal Component Analysis)
- pechakucha范例ppt_国际创意论坛
- 10分钟搭建MySQL Binlog分析+可视化方案
- Kafka开发--C#生产和消费消息
- sublime text配置VBA编辑器插件
- 淘宝购物电话错误危急处理
- 轻量级日志分析PLG平台Loki安装部署及使用(promtail+loki+Grafana)
- 天翼云主攻“5G+云+AI”,新生态革命的冲锋
- ufvm可以读哪些网格_FM24C05UFVM8
- Android攻城狮OptionsMenu
- 磁盘管理之 raid 文件系统 分区
- 图解最常用的10个机器学习算法!(必须收藏)
- 用python做数据处理怎么挣钱_个人利用python爬虫技术怎么挣钱