将图片翻译成文字的技术被称为光学文字识别,即OCR(Optical Character Recognition)技术

  • Tesseract 是有谷歌赞助的,目前公认最优秀、最准确的开源OCR库
  • 安装
    • 下载exe文件,https://digi.bib.uni-mannheim.de/tesseract/,目前最新版本为 tesseract-ocr-w64-setup-v5.0.0-alpha.20201127.exe
    • 下载数据集:链接:https://pan.baidu.com/s/1HQTtLEKAJeF5KT4JcwYHMg
      提取码:apoj
    • 保险起见,尽量降低文件路径深度,并且路径尽量不要含有中文,可参照D:\Tesseract-OCR\tesseract.exe, D:\Tesseract-OCR\tessdata
    • 设置环境变量,如果想要在命令号中使用:将tesseract.exe所在路径添加到PATH环境变量中。同时将训练的数据文件路径也放到环境变量中,如图,在环境变量中添加TESSDATA_PREFIX=tessdata路径
  • 检查安装是否成功:cmd 输入命令tesseract --version,如果显示版本即安装成功
  • 使用
    • 命令行

      • tesseract 图片路径 文件路径
      • 实例 tesseract demo.jpg file1
    • python
      • pip install pytesseract -i https://pypi.douban.com/simple
    import pytesseract
    from PIL import Imagepytesseract.pytesseract.tesseract_cmd = r'D:\Tesseract-OCR\tesseract.exe'
    tessdata_dir_config = r'--tesseract-dir "D:\Tesseract-OCR\tessdata"'
    image = Image.open('bb.png')
    print(pytesseract.image_to_string(image, lang='eng', config=tessdata_dir_config))
    

    最后再说明 一下,这个识别率高是相对于开源的OCR库来说,咳咳,毕竟不要钱嘛,如果对识别率较高可以使用打码云平台来识别,要花点小钱哈。

python爬虫之图片验证码识别相关推荐

  1. Python爬虫--实现图片验证码全自动输入

    爬虫--实现图片验证码全自动输入 爬取网站:豆瓣(https://accounts.douban.com/login) 爬虫思路:1. 使用selenium, 对图片验证码进行截图操作, 2. 接入打 ...

  2. Python爬虫过程中验证码识别的三种解决方案

    在Python爬虫过程中,有些网站需要验证码通过后方可进入网页,目的很简单,就是区分是人阅读访问还是机器爬虫.验证码问题看似简单,想做到准确率很高,也是一件不容易的事情.为了更好学习爬虫,后续推文中将 ...

  3. Python爬虫之网站验证码识别(三)

    视频链接:Python爬虫7天速成(2020全新合集)无私分享 Python: 章节p29-p31 文章目录 前言 一.云打码平台使用流程 操作流程 二.代码编写⭐ 2.1 使用超级鹰云平台 2.2 ...

  4. python识别图片中数字_Python图像处理之图片验证码识别

    在上一篇博客Python图像处理之图片文字识别(OCR)中我们介绍了在Python中如何利用Tesseract软件来识别图片中的英文与中文,本文将具体介绍如何在Python中利用Tesseract软件 ...

  5. 字符识别Python实现 图片验证码识别

    字符型图片验证码识别完整过程及Python实现 1   摘要 验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的 防火墙 功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越 ...

  6. 字符型图片验证码识别完整过程及Python实现

    1   摘要 验证码是目前互联网上非常常见也是非常重要的一个事物,充当着很多系统的 防火墙 功能,但是随时OCR技术的发展,验证码暴露出来的安全问题也越来越严峻.本文介绍了一套字符验证码识别的完整流程 ...

  7. 微博模拟登陆的方法 + 图灵图像图片验证码识别平台 识别验证码(97%正确率)Python + Selenium+Chrome

    最近遇到一个问题,需要频繁切换账号登陆微博,但是需要识别微博的验证码,比较麻烦.而且因为需要24h不间断的操作,所以没法使用人工打码平台,而且打码平台也比较贵,延迟又高.最后找到了一个可以机器识别出来 ...

  8. 基于Python的KNN数字验证码识别

    一.主要内容 本项目基于Python爬虫爬取验证码图片,对图片进行去噪.分割,通过KNN算法训练模型,实现验证其准确率. 二.系统流程 首先从指定的网页中爬取验证码图片数据,然后对数据进行一个去噪和分 ...

  9. 网络爬虫笔记—滑动验证码识别

    网络爬虫笔记-滑动验证码识别 一.什么是滑动验证码 点击之前 点击之后 像这种通过滑动图片,补全缺口的方式,就是滑动验证码. 二.识别思路 1)使用selenium库操作谷歌浏览器,打开目标网站:关于 ...

最新文章

  1. jquery获取元素的值,获取当前对象的父对象等等
  2. webpack 单页面应用实战
  3. Django book 中文
  4. Python数据类型——整型、布尔型、列表、元祖、字典
  5. 微软最爽命令行工具发布!
  6. [html] 举例说明原生的html组件有哪些?
  7. python网络通信传输的数据类型_Python网络编程中的网络数据和网络错误。
  8. AIR SDK 更新方法
  9. Idea 中的快捷键(mac)
  10. 面试题之说几个Object类常用方法以及作用
  11. SD卡无法格式化怎么办的解决方法
  12. ccs定义的函数不变色_ccs使用问题及解决办法
  13. 对ASP.NET程序员非常有用的85个工具
  14. Spark Transformation —— subtract
  15. 鸿蒙系统如何开启快捷方式,鸿蒙系统功能介绍-华为鸿蒙系统功能详细介绍 - 系统家园...
  16. 如何在线赚钱:28 种真正的在线赚钱方式
  17. iOS Mansory 等间隔或等宽高排列多个控件
  18. API 接口设计规范
  19. 知到网课伦理与礼仪考试试题|真题题库(含答案)
  20. setuptools.setup参数说明

热门文章

  1. window.open 打开窗口 最大化 close() 强制 关闭窗口
  2. 奔图3305_奔图打印机耗材型号对照表
  3. 置信椭圆-python
  4. 领智.NET网站管理系统 LeadWit CMS.NET 1.0.1
  5. flutter布局组件:wrap组件实现瀑布流
  6. 9000字通俗易懂的讲解下Java注解,你还看不明白?,实战分析SpringBoot整合JSON
  7. 【第二章】(3)新手必须掌握的Linux命令之《系统状态检查命令》
  8. 合作版机房收费系统SVN的安装步骤
  9. 在Centos7下源代码安装配置Nginx
  10. 连接mysql时报1067错误