python爬虫----DAY4-1-----验证码识别实战

实战:识别古诗文网登录页面中的验证码 —https://so.gushiwen.cn/user/login.aspx

文章目录

  • python爬虫----DAY4-1-----验证码识别实战
    • 使用超级鹰平台识别验证码的编码流程:
    • 分析
    • 代码
      • 结果展示

使用超级鹰平台识别验证码的编码流程:

        -将验证码图片进行本地下载-调用平台提供的示例代码进行图片数据识别

分析


其他详细操作写在代码注释中

代码

import requests
from lxml import etree
from ChaoJiYin import Chaojiying_Client# 0. 封装打码平台函数
#第一个参数输入验证码路径,第二个参数为验证码类型
#最后返回一个字典,取出需要的数据
def getCodeText(imgPath, codeType):chaojiying = Chaojiying_Client('1257965244', 'yihen0214', '919873')  # 用户中心>>软件ID 生成一个替换 96001im = open(imgPath, 'rb').read()  # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//print(chaojiying.PostPic(im, codeType))return chaojiying.PostPic(im, codeType)
# 1. 指定url
url='https://so.gushiwen.cn/user/login.aspx'
# 2. UA伪装
headers={"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.67'
}
# 3. 发起请求
page_text=requests.get(url=url,headers=headers).text
# 4. 数据解析
tree=etree.HTML(page_text)
#   https://so.gushiwen.cn/RandCode.ashx 完整地址
code_url="https://so.gushiwen.cn"+tree.xpath('//*[@id="imgCode"]/@src')[0]
#5. 对验证码发起请求,获取验证码图片,图片是二进制数据,用.content
code=requests.get(url=code_url,headers=headers).content
#6. 存储验证码图片
with open("code.jpg",'wb') as fp:fp.write(code)
#7. 调用打码平台,识别验证码
#4~6为英文、数字类型为1902
detail=getCodeText("./code.jpg",1902)
print(detail["pic_str"])

结果展示


验证码识别前置内容,第三方打码平台使用
上面的看不了可以看看这个
python爬虫-古诗文网验证码识别

python爬虫----DAY4-1-----验证码识别实战---识别古诗文网相关推荐

  1. Python使用网络抓包的方式,利用超级鹰平台识别验证码登录爬取古诗文网、上篇--识别验证码

    Python使用网络抓包的方式,利用超级鹰平台识别验证码登录,<爬取古诗文网>. 上篇–识别验证码 序言: 哈喽,各位小可爱们,我又来了,这次我新学习到的内容是python爬虫识别验证码. ...

  2. python爬虫入门_3种方法爬取古诗文网站

    目的: 爬取古诗文网的古诗词,获取详细信息,目标网站:https://www.gushiwen.org/default.aspx?page=1 1.根据网页分析可知 下面包含了当前页面的所有信息,所以 ...

  3. 03-数据解析_正则表达式(03 【实战】古诗文网爬虫)

    目标:爬取中国古诗文网的诗词 注意: 用正则的思路不一样:不存在树结构,在正则眼里只当作'str' 关注zip的用法 中国古诗文网网页示例:   1.xpath方法 # -*- coding: utf ...

  4. Python爬虫实战(3)古诗文网

    Python爬虫实战(3)古诗文网 网页分析 代码 注意事项 输出结果 利用BeautifulSoup和和requests库实现古诗文网的古诗抓取 运行平台: Windows Python版本: Py ...

  5. python爬虫之古诗文网中验证码的识别并登录----第三方平台

    目标网站:古诗文网 目标网址:http://so.gushiwen.org/user/collect.aspx 任务要求: (1)通过selenium的方式模拟该网站的登录,并成功输入用户名和密码: ...

  6. python爬虫-古诗文网验证码识别

    文章目录 一.前期准备 二.示例代码 一.前期准备 古诗文网验证码识别,是通过对古诗文网登陆界面的验证码图片进行识别的,利用专门的验证码识别网站,可以提取验证码图片中的验证码 网站推荐:超级鹰 注册登 ...

  7. Python爬虫开发从入门到实战

    Python爬虫开发从入门到实战(微课版) 第1章 绪论 爬虫的主要目的是获取网页内容并解析.只要能达到这个目的,用什么方法都没有问题. 关于获取网页,本书主要介绍了Python的两个第三方模块,一个 ...

  8. 【Python爬虫7】验证码处理

    文章目录 1.获得验证码图片 2.光学字符识别验证码 3.用API处理复杂验证码 3.1 9kw打码平台 3.1.1 提交验证码 3.1.2 请求已提交验证码结果 3.1.2与注册功能集成 验证码(C ...

  9. 用Python爬虫破解滑动验证码

    我们可以借用opencv来解决这个问题,主要步骤: opencv 是什么? OpenCV(Open Source Computer Vision Library)是开放源代码计算机视觉库,主要算法涉及 ...

最新文章

  1. php中图片上传_php实现图片上传并进行替换操作
  2. Linux目录结构介绍
  3. BATJ面试必会|Jvm 虚拟机篇
  4. 【RK3399Pro学习笔记】十一、ROS服务数据的定义与使用
  5. java的整型_java 整型
  6. Python登录界面
  7. 2020年 2 篇异常算法最佳综述
  8. “一学就会”微服务的架构模式
  9. 省选专练之数学 BZOJ2820 YY的GCD
  10. 【Java小工匠聊密码学】--对称加密--DES
  11. codeforces621C. Wet Shark and Flowers【求期望】
  12. vue生产环境使用localhost请求端口号不是自己设置的?来试试这个
  13. Advanced IP Scanner - 网络扫描器
  14. 微信html5 video自动播放,【微信H5开发】audio/video标签的自动播放
  15. 龙芯3A4000处理器简介
  16. 华为隐藏功能扩大内存代码大全_华为手机隐藏功能代码大 | 手游网游页游攻略大全...
  17. 电力大数据存在的问题和解决方案
  18. Go:实现Abs绝对值函数 (附完整源码)
  19. 计算机一级演示文稿知识点,计算机一级考试ppt演示文稿及上网题考点
  20. 0x7fffffff是多少(也就是INT_MAX,首位是 0,其余都是1,f代表1111)

热门文章

  1. 72 R baging和boosting比较
  2. Google Coral Edge TPU USB加速棒上手体验
  3. XP系统自带快速关机命令的使用:
  4. TCPIP协议学习笔记一(概述三)
  5. CSDN中无代码复制按钮,复制他人代码粘贴变成一行的解决办法
  6. python RE match对象 m.group(0)可以输出 m.group(1)为啥不可以输出第二个呢?
  7. LocalDateTime格式的时间去掉中间的T
  8. C++ Trie树算法
  9. 块内拉升lisp_计算机辅助设计基础试题lpar;完整版rpar;
  10. java vector addall_Java Vector addAll()用法及代码示例