Tesseract 教程

介绍

Tesseract 是一个 OCR 库,目前由 Google 赞助(Google 也是一家以 OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源 OCR 系统,除了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体,也可以识别出任何 Unicode 字符。

安装

Window 安装

下载可执行安装文件:https://code.google.com/p/tesseract-ocr/downloads/list 安装。

Ubuntu 安装

 apt-get tesseract-ocr

Mac 安装

 brew install tesseract

安装 python 库

 pip install pytesseract

环境配置

Mac 和 Linux 环境配置

添加环境变量

 # /usr/local/share/Tesseract 为语言训练库路径,可以编辑 ~/.bash_file 终端启动时会执行这个脚本export TESSDATA_PREFIX=/Users/zi/Desktop/Tesseract/tessdata

Window 环境变量配置

添加环境变量

 # C:\Program Files\Tesseract OCR\Tesseract 为语言训练库路径setx TESSDATA_PREFIX C:\Program Files\Tesseract OCR\Tesseract

使用

命令行终端使用

显示帮助

 tesseract --help

显示当前训练语言列表

 tesseract --list-langs

识别

 tesseract 图片 输出路径 -l 训练库名称

python 代码中使用

 # 导入模块import pytesseract# 导入图片库 【注意】需要安装库: pip install Pillow# 导入库from PIL import Image# 创建图片对象image = Image.open("图片路径")# 识别图片pytesseract.image_to_string(numImage, config="-psm 7"))

爬取猫眼电影

 #!/usr/bin/python3# -*- coding: utf-8 -*-from selenium import webdriverfrom PIL import Imagefrom io import BytesIOimport timeimport pytesseract# 定义缩放比例  MAC一个点要两个像素scale = 2.0driver = webdriver.Chrome("/Users/zi/Desktop/chromedriver")driver.implicitly_wait(10)driver.get("http://maoyan.com/films/1218298")time.sleep(2)# 让背景变白色和文字黑色,使它更容易进行识别driver.execute_script('document.querySelector(".banner").style.background = "white"')driver.execute_script('document.querySelector(".stonefont").style.color = "black"')# 截屏整体png_img = driver.get_screenshot_as_png()img = Image.open(BytesIO(png_img))# 寻找元素span_el = driver.find_element_by_xpath('//span[@class="index-left info-num "]/span[@class="stonefont"]')#(".index-left.info-num")print(span_el)# 获取元素位置,学会调试位置location = span_el.locationleft = int(location["x"]) * scaletop = int(location["y"]) * scaleprint(location)size = span_el.size# size = {#     "width":400,#     "height":400# }right = left + int(size["width"]) * scalebottom = top + int(size["height"]) * scale# 构建截图cut_info = (left,top,right,bottom)print(cut_info)img.save("test1.png")# 截取识别图片img = img.crop(cut_info)# 获取最终结果print("结果:",pytesseract.image_to_string(img,config="-psm 7"))img.save('test2.png')driver.quit()

Tesseract 教程相关推荐

  1. OCR-基于OpenCV、Tesseract的银行卡号识别

    title: 'OCR:基于OpenCV.Tesseract的银行卡号识别' type: categories date: 2016-12-01 16:50:30 categories: OC tag ...

  2. Tesseract OCR 下载及安装教程 (中英文语言包)

    Tesseract OCR 下载安装 (中英文语言包) (需要csdn币的下载真没必要,所有的包都在这里免费下) https://github.com/tesseract-ocr/tessdata 这 ...

  3. 基于Tesseract模块Python实现提取图片中的文字信息(安装+使用教程)

    Python实现提取图片中的文字可以使用Optical Character Recognition (OCR) 技术来解决.OCR是指将图像中的文本转换成可编辑的文本的过程.Python有许多OCR库 ...

  4. Tesseract的安装教程

    python 识别图片上的数字,使用pytesseract库从图像中提取文本,而识别引擎采用 tesseract-ocr. pytesseract是python包装器,它为可执行文件提供了python ...

  5. 使用 OpenCV 和 Tesseract 对图像中的感兴趣区域 (ROI) 进行 OCR

    点击上方"小白学视觉",选择加"星标"或"置顶" 重磅干货,第一时间送达 在这篇文章中,我们将使用 OpenCV 在图像的选定区域上应用 O ...

  6. deep_ocr 是使得 OCR 比 tesseract 更好的中文识别、身份证识别等等

    deep ocr 估计很多开发员使用tesseract做中文识别,但是结果不是一般的差,譬如下面的图片 $ tesseract -l chi_sim test_data.png out_test_da ...

  7. PHP 不跳转界面取input值进行验证_【Python】tesseract+uiautomator2+夜神模拟器 悠长假期手游集市识别验证码自动购买 - Amorius...

    开宗明义:这篇文章实际上就是把我的操作记录一遍,以防以后忘记了,又要到处去搜罗.由于我是个python小白,所以这些操作都是各处学来拼到一起的,也因此我确信如果不赶紧记下来,很快就会忘掉.于是就趁热写 ...

  8. Tesseract OCR——Windows 10 + CMake-GUI + Visual Studio 2019下编译和使用解决方案

    基本概念 Tesseract OCR:Tesseract-OCR 引擎最先由HP实验室于1985年开始研发,至1995年时已经成为OCR业内最准确的三款识别引擎之一.然而,HP不久便决定放弃OCR业务 ...

  9. 基于 opencv 的图像处理入门教程

    点击上方"算法猿的成长",关注公众号,选择加"星标"或"置顶" 总第 146 篇文章,本文大约 5000 字,阅读大约需要 20 分钟 前言 ...

最新文章

  1. java音频库_Java是否为音频_synthesis_内置了库?
  2. feign 请求超时,请求没有到服务端
  3. VS 2019要来了,是时候了解一下C# 8.0新功能
  4. 神圣的NLP!一文理解词性标注、依存分析和命名实体识别任务
  5. php+当前+日期+函数是,php时间日期的处理函数
  6. Matplotlib 中文用户指南 3.3 使用 GridSpec 自定义子图位置
  7. Python数据挖掘笔记 七 .PCA降维操作及subplot子图绘制
  8. 刘帅嵌入式系统-MLA指令
  9. Flink reduce详解
  10. 推荐一个免费的论文查重检测软件PaperRight
  11. [论文阅读] Beyond part models: Person retrieval with refined part pooling
  12. Dockerfile 命令详解
  13. 红帽RHCE考试 VSFTP强化实战
  14. 未来是一个三无的世界,三无具体指什么?
  15. 微信企业号之获取所有部门列表
  16. 牛客小白月赛21 J.Jelly
  17. 天池比赛短租数据集分析之数据图表
  18. 挖煤矿小程序又出新功能了
  19. 工业以太网交换机在矿业电力监控系统中的应用
  20. 前端MVC设计模式VSM,V,VM设计模式

热门文章

  1. 台式计算机怎样能搜无线连接,台式机怎么连接wifi,教您连接方法
  2. 通过明道云实现培训机构客户管理
  3. 工行智能客服服务量突破1.7亿笔;迪拜机场拟用人脸识别技术替代护照检查
  4. 360cdn能挡住cc攻击_云防CDN是网页CC攻击的克星?cdn集群防御
  5. HTML的基本结构标签(html,head,title,body)
  6. ORB-SLAM 全文翻译
  7. MYSQL常用的数学函数
  8. [易飞]包材Forcast四周滚动需求
  9. B+树在MySQL索引的应用和InnoDB的索引优化
  10. 青岛再添新动脉|唐河路—安顺路预计年底通车