Python(应用) — Tesseract图片文字识别(一)
Mac安装Tesseract-OCR
安装: brew install tesseract
语言库
下载地址:https://github.com/tesseract-ocr/tessdata
简体中文库:chi_sim.traineddata
下载简体中文库chi_sim.traineddata
,然后将文件拷贝到到:/usr/local/Cellar/tesseract/3.04.01_2/share/tessdata
目录下即可。
库名对应的文件简称
库名 | 语言 |
---|---|
afr | Afrikaans(南非荷兰语) |
amh | Amharic(阿姆哈拉语) |
ara | Arabic(阿拉伯语) |
asm | Assamese(阿萨姆) |
aze | Azerbaijani(阿塞拜疆) |
aze_cyrl | Azerbaijani - Cyrilic(阿塞拜疆-Cyrilic) |
bel | Belarusian(白俄罗斯) |
ben | Bengali(孟加拉) |
bod | Tibetan(西藏) |
bos | Bosnian(波斯尼亚) |
bul | Bulgarian(保加利亚语) |
cat | Catalan; Valencian(加泰罗尼亚语; 巴伦西亚) |
ceb | Cebuano(宿务) |
ces | Czech(捷克) |
chi_sim | Chinese - Simplified(中国-简体) |
chi_tra | Chinese - Traditional(中国-繁体) |
chr | Cherokee(切诺基) |
cym | Welsh(威尔士) |
dan | Danish(丹麦) |
dan_frak | Danish - Fraktur(丹麦-Fraktur) |
deu | German(德国) |
deu_frak | German - Fraktur(德国-Fraktur) |
dzo | Dzongkha(不丹文) |
ell | Greek, Modern (1453-)(希腊,现代(1453-)) |
eng | English(英语) |
enm | English, Middle (1100-1500)(英语,中东(1100-1500)) |
epo | Esperanto(世界语) |
equ | Math / equation detection module(数学/方程式检测模块) |
est | Estonian(爱沙尼亚) |
eus | Basque(巴斯克) |
fas | Persian(波斯) |
fin | Finnish(芬兰) |
fra | French(法语) |
frk | Frankish(法兰克) |
frm | French, Middle (ca.1400-1600)(法国,中东(ca.1400-1600)) |
gle | Irish(爱尔兰) |
glg | Galician(加利西亚) |
grc | Greek, Ancient (to 1453)(希腊语,古(到1453年)) |
guj | Gujarati(古吉拉特语) |
hat | Haitian; Haitian Creole(海天; 海地克里奥尔语) |
heb | Hebrew(希伯来语) |
hin | Hindi(印地文) |
hrv | Croatian(克罗地亚) |
hun | Hungarian(匈牙利) |
iku | Inuktitut(因纽特语) |
ind | Indonesian(印尼) |
isl | Icelandic(冰岛) |
ita | Italian(意大利语) |
ita_old | Italian - Old(意大利语-旧) |
jav | Javanese(爪哇) |
jpn | Japanese(日本) |
kan | Kannada(卡纳达语) |
kat | Georgian(格鲁吉亚) |
kat_old | Georgian - Old(格鲁吉亚-旧) |
kaz | Kazakh(哈萨克斯坦) |
khm | CentralKhmer(中央高棉) |
kir | Kirghiz; Kyrgyz(柯尔克孜; 吉尔吉斯) |
kor | Korean(韩国) |
kur | Kurdish(库尔德人) |
lao | Lao(老挝) |
lat | Latin(拉丁) |
lav | Latvian(拉脱维亚) |
lit | Lithuanian(立陶宛) |
mal | Malayalam(马拉雅拉姆语) |
mar | Marathi(马拉) |
mkd | Macedonian(马其顿) |
mlt | Maltese(马耳他) |
msa | Malay(马来文) |
mya | Burmese(缅甸) |
nep | Nepali(尼泊尔) |
nld | Dutch; Flemish(荷兰; 佛兰芒语) |
nor | Norwegian(挪威) |
ori | Oriya(奥里亚语) |
osd | Orientation and script detection module(定位及脚本检测模块) |
pan | Panjabi; Punjabi(旁遮普语; 旁遮普语) |
pol | Polish(波兰) |
por | Portuguese(葡萄牙语) |
pus | Pushto; Pashto(普什图语; 普什图语) |
ron | Romanian; Moldavian; Moldovan(罗马尼亚; 摩尔多瓦; 摩尔多瓦) |
rus | Russian(俄罗斯) |
san | Sanskrit(梵文) |
sin | Sinhala; Sinhalese(僧伽罗语; 僧伽罗语) |
slk | Slovak(斯洛伐克) |
slk_frak | Slovak - Fraktur(斯洛伐克- Fraktur) |
slv | Slovenian(斯洛文尼亚) |
spa | Spanish; Castilian(西班牙语; 卡斯蒂利亚) |
spa_old | Spanish; Castilian - Old(西班牙语; 卡斯蒂利亚-老) |
sqi | Albanian(阿尔巴尼亚) |
srp | Serbian(塞尔维亚) |
srp_latn | Serbian - Latin(塞尔维亚语-拉丁语) |
swa | Swahili(斯瓦希里语) |
swe | Swedish(瑞典) |
syr | Syriac(叙利亚) |
tam | Tamil(泰米尔) |
tel | Telugu(泰卢固语) |
tgk | Tajik(塔吉克斯坦) |
tgl | Tagalog(菲律宾语) |
tha | Thai(泰国) |
tir | Tigrinya(提格雷语) |
tur | Turkish(土耳其) |
uig | Uighur; Uyghur(维吾尔族; 维吾尔) |
ukr | Ukrainian(乌克兰) |
urd | Urdu(乌尔都语) |
uzb | Uzbek(乌兹别克斯坦) |
uzb_cyrl | Uzbek - Cyrilic(乌兹别克斯坦- Cyrilic) |
vie | Vietnamese(越南语) |
yid | Yiddish(意第绪语) |
Python(应用) — Tesseract图片文字识别(一)相关推荐
- python学习----网页图片文字识别(简单)
在接触python后想对图片进行一些处理 python实现的代码很简单 但是关键在于一些包的导入 我使用的python 软件是 pycharm 可以在setting中去下载requests这个包 ...
- python批量识别图片中文字_利用Python批量进行图片文字识别
实现逻辑 1. 批量获取图片的路径 2. 通过调用百度OCR接口批量识别图片 3. 将返回值写入txt 实现过程 1. 安装百度的Python SDK pip install baidu-aip 2. ...
- python批量图片文字识别_利用Python批量进行图片文字识别
实现逻辑 1. 批量获取图片的路径 2. 通过调用百度OCR接口批量识别图片 3. 将返回值写入txt 实现过程 1. 安装百度的Python SDK pip install baidu-aip 2. ...
- python实现中文图片文字识别--OCR about chinese text--tesseract
0.我的环境: win7 32bits python 3.5 pycharm 5.0 1.相关库 安装pillow: pip install pillow 安装tesseract: tesseract ...
- Python+pytesseract+Tesseract-OCR图片文字识别(只适合新手)
https://blog.csdn.net/zhangshaohua1603/article/details/79722399?utm_source=blogxgwz0
- python图像识别系统_Python图像处理之图片文字识别功能(OCR)
OCR与Tesseract介绍 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同的几 ...
- python文字识别时、当文字不清晰时怎么处理_Python图像处理之图片文字识别功能(OCR)...
OCR与Tesseract介绍 将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR).可以实现OCR 的底层库并不多,目前很多库都是使用共同的几 ...
- python批量识别图片中文字_python实现中文图片文字识别--OCR about chinese text--tesseract...
0.我的环境: win7 32bits python 3.5 pycharm 5.0 1.相关库 安装pillow: pip install pillow 安装tesseract: 自带了英文语言包, ...
- Python图片文字识别——Windows下Tesseract-OCR的安装与使用
Python图片文字识别--Windows下Tesseract-OCR的安装与使用 前言 Windows下Tesseract-OCR的安装与配置 Tesseract-OCR简介与版本选择 tesser ...
- (python)实现一个简单的图片文字识别脚本
文章目录 截图 文字识别## 访问剪切板 总结 快毕业了,除了准备答辩之外,就是看看书,各种瞎晃~ 那么,这两天在看书的时候遇到这么个问题: 首先,部分电子版的书籍是以扫描图片的形式展现的,在阅读过程 ...
最新文章
- 使用SQLServer配置管理器配置SQLServer数据库引擎实例,以便侦听特定的固定1433端口。...
- 软件测试人员找工作,去大公司还是去小公司?今天就和大家唠唠
- 利用Log Explorer将你已经delete,truncate,drop过的数据进行恢复
- 实现在CentOS7环境下搭建个人github博客
- ubuntu 10.10 配置 tomcat6
- sql2008“备份集中的数据库备份与现有的xx数据库不同”解决方法
- java3d曲面图开发_web三维图表的开发
- C语言标准库函数 qsort 详解
- GridView 高级技术
- Bentley.Hammer.XM.v08.09.400.34 1CD(水锤和瞬态分析软件)好用版\
- 笔记:线性代数的本质
- 6、Nacos服务注册——PushService类功能
- Python图形界面实现咖啡店点单系统
- oracle数据库新建用户和赋予权限
- mysql-快速入门
- linux 编辑文件 cat 跳到指定行,Linux基础命令(二)
- Headless Services无头服务
- 阿里云ACP大数据分析师 | 笔记纪要
- 光电器件仿真设计RSoft、COMSOL、FDTD
- webpack5.x 各种开发常见配置大汇总 loader plugin devServer proxy babel 懒加载