在爬虫过程中,有些网页需要登录才能获取里面的数据,在大部分的登录过程中,都会需要一个叫验证码识别,目前的网页有各种各样的验证码,有数字加字母的组合,有物品识别等等

在代码进行网页爬取过程中,如果由人为判断验证码进行,则失去了网络爬虫的意义

网站设置验证码的作用之一就是一种反爬虫措施,但是这种措施目前仍然可以用一些技术手段进行自动识别,帮助爬虫工作者顺利突破验证码

网络上进行验证码识别的平台有很多,如云打码、超级鹰,小编用的是超级鹰,虽然它需要充值,不过识别验证码的效果还是很不错的

超级鹰:http://www.chaojiying.com/about.html

进入网页之后,进行注册登录,用户必须有题分才能享受到平台的服务,大家可以充值1块钱或者绑定微信,都会获得1000个题分,识别一次10--70题分不等,对小编来说,1块钱能用好久

充值后在用户中心--软件ID--生成一个软件ID

其中生成的ID是后续要用的,KEY用不到

开发文档中,点击python,点击右侧下载按钮,将下载的文件解压缩,里面包含一个py文件,就是超级鹰破解验证码的代码,将它放入pycharm中就可以运行,下面具体讲解操作

我们看代码最后面

if __name__ == '__main__':chaojiying = Chaojiying_Client('超级鹰用户名', '密码', '软件ID') #用户中心>>软件ID 生成一个替换 96001im = open('需要识别图片的路径', 'rb').read()                                                   #本地图片文件路径 来替换 a.jpg 有时WIN系统须要//print (chaojiying.PostPic(im, 验证码类型))                                        #1902 验证码类型  官方网站>>价格体系 3.4+版 print 后要加()

其中超级鹰用户名、密码、软件ID、图片路径、验证码类型需要自己更改,其他的代码不需要管他,其中验证码类型参考http://www.chaojiying.com/price.html

注意  下载好的最后一行代码中的print少括号 需要自己加上

运行结束后,返回一个字典

其中识别好的值,在键为pic_str中

在实际的爬虫过程中,要么用resquests抓取验证码的src路径,将其下载后传入超级鹰的图片路径,要么用seleium采取截图的方式,将浏览器的验证码图片截取下来,传入程序进行识别。当然验证码是变化的,建议使用seleium截图的方式进行,这就需要掌握seleium的操作以及截图PIL这个第三方库的基本操作

以上将识别出的值,在传入网页中需要填写的文本位置,就可以通过网页验证码这一关了

下面附上代码工作的视频,提前下载好了两个验证码进行试验

QQ录屏20210714194308

python反爬虫应对之借助平台超级鹰突破网页验证码识别相关推荐

  1. 『python爬虫』26. selenium与超级鹰处理复杂验证码的处理(保姆级图文)

    目录 1. 图片选择类验证码 2. 滑块验证码 3. 滑块出错,不加载 总结 欢迎关注 『python爬虫』 专栏,持续更新中 欢迎关注 『python爬虫』 专栏,持续更新中 1. 图片选择类验证码 ...

  2. python反爬虫应对措施之搭建代理IP池

    通过网络访问服务器时,服务器端会通过IP地址知道是谁来对其进行访问,我们在爬虫过程中,如果经常使用一个IP地址对同一个URL进行访问,此IP很有可能被服务器拉入黑名单,就访问不了此URL了,这是针对具 ...

  3. python3 函数类型限制登录可解封_如何解决python反爬虫限制访问?

    我们想要获取一些大量数据,经常会被拦截住,这是因为访问太频繁的原因,一旦账号不能使用又会带来很大的麻烦.针对于这种情况,小编想了两个应对的方法,一个是网站方面,另一个是地址方面的.本篇会着重于地址方面 ...

  4. 第三方打码平台超级鹰图文识别,md5算法加密

    文章目录 一.注册超级鹰账户 二.利用超级鹰模拟登录古诗文网 网页分析 代码实现解析 为什么要使用session 三.总结 **感谢观看,给个三连支持一下吧** 一.注册超级鹰账户 超级鹰链接:htt ...

  5. python反爬虫技术及其应对

    通常见到的反爬虫技术大致可以分为如下几类: 1.请求头headers 2.用户操作的网站行为 3.网站目录数据加载方式 4.数据加密 5.验证码识别 最为头疼的就是验证码识别,暂时没有完美的解决方案. ...

  6. 大型企业都在用的Python反爬虫手段,破了它!

    SVG 映射反爬虫 很多人学习python,不知道从何学起. 很多人学习python,掌握了基本语法过后,不知道在哪里寻找案例上手. 很多已经做案例的人,却不知道如何去学习更加高深的知识. 那么针对这 ...

  7. 大厂在用的Python反爬虫手段,破了它!

    SVG 映射反爬虫 SVG 是用于描述二维矢量图形的一种图形格式.它基于 XML 描述图形,对图形进行放大或缩小操作都不会影响图形质量.矢量图形的这个特点使得它被广泛应用在 Web 网站中. 接下来我 ...

  8. python爬虫之逆向破解_这种python反爬虫手段有点意思,看我怎么破解

    这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...

  9. 这种python反爬虫手段有点意思,看我怎么P解

    这种反爬虫手段被广泛应用在一线互联网企业的产品中,例如汽车资讯类网站.小说类网站等文字密度较大的站点.在开始学习之前,我们先来看看具体的现象.打开网址: https://implicit-style- ...

最新文章

  1. 公钥(Public Key)与私钥(Private Key)
  2. synergy软件ubuntu配置
  3. android开发 RecyclerView 瀑布列表布局
  4. C# 如何转换生成长整型的时间
  5. 孙叫兽进阶之路之源代码配置管理过程(图文教程)
  6. Win32ASM学习[19]:结构与联合
  7. 平安 开源 数据库 实践_刻意的实践-成为开源
  8. 计算机快捷键知识点,电脑常用快捷键基础的知识点(12页)-原创力文档
  9. 嵩天python爬虫_我自己爬-python爬虫快速入门(一)
  10. 最大数max(x,y,z)(信息学奥赛一本通-T1152)
  11. Log4j2进阶使用(Pattern Layout详细设置)
  12. 05使用jmeter里调试一个下单接口
  13. 刚刚,百度AI公布最新进展:Apollo2.0,新课程,设全球研究院
  14. 腾讯云启动 tomcat 很慢的问题
  15. pandas获取符合条件值的索引
  16. unity界面按钮的位置
  17. socket多人聊天程序C语言版(二)
  18. IMX8mp alsa音频调试
  19. Vue项目的登录和注册界面
  20. 移动云品牌焕新,全新LOGO全新启航!

热门文章

  1. 模拟重力场(多方向运动+碰撞检测+重力加速度+能量损失)
  2. Android 个人中心页面前端代码
  3. 面试题目之:说出至少4种vue当中的指令和它的用法?
  4. 如何批量将多个 PPT 文档按指定页分别拆分成多个文档
  5. HDU6578 2019HDU多校训练赛第一场 1001 (dp)
  6. 解决重装win10系统找不到驱动器
  7. 自从用了低代码开发,开发效率提升10倍
  8. OSI模型 四层发现-nmap(诸神之眼)工具介绍
  9. linux centos 中的挂载是什么意思介绍和解释介绍及如何挂载
  10. ICDE‘22推荐系统论文之Research篇