python爬虫----DAY4-1-----验证码识别实战

实战：识别古诗文网登录页面中的验证码 —https://so.gushiwen.cn/user/login.aspx

文章目录

python爬虫----DAY4-1-----验证码识别实战
- 使用超级鹰平台识别验证码的编码流程：
- 分析
- 代码
- - 结果展示

使用超级鹰平台识别验证码的编码流程：

        -将验证码图片进行本地下载-调用平台提供的示例代码进行图片数据识别

分析

其他详细操作写在代码注释中

代码

import requests
from lxml import etree
from ChaoJiYin import Chaojiying_Client# 0. 封装打码平台函数
#第一个参数输入验证码路径，第二个参数为验证码类型
#最后返回一个字典，取出需要的数据
def getCodeText(imgPath, codeType):chaojiying = Chaojiying_Client('1257965244', 'yihen0214', '919873')  # 用户中心>>软件ID 生成一个替换 96001im = open(imgPath, 'rb').read()  # 本地图片文件路径 来替换 a.jpg 有时WIN系统须要//print(chaojiying.PostPic(im, codeType))return chaojiying.PostPic(im, codeType)
# 1. 指定url
url='https://so.gushiwen.cn/user/login.aspx'
# 2. UA伪装
headers={"User-Agent": 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36 Edg/91.0.864.67'
}
# 3. 发起请求
page_text=requests.get(url=url,headers=headers).text
# 4. 数据解析
tree=etree.HTML(page_text)
#   https://so.gushiwen.cn/RandCode.ashx 完整地址
code_url="https://so.gushiwen.cn"+tree.xpath('//*[@id="imgCode"]/@src')[0]
#5. 对验证码发起请求，获取验证码图片,图片是二进制数据，用.content
code=requests.get(url=code_url,headers=headers).content
#6. 存储验证码图片
with open("code.jpg",'wb') as fp:fp.write(code)
#7. 调用打码平台，识别验证码
#4~6为英文、数字类型为1902
detail=getCodeText("./code.jpg",1902)
print(detail["pic_str"])

结果展示

验证码识别前置内容，第三方打码平台使用
上面的看不了可以看看这个
python爬虫-古诗文网验证码识别

python爬虫----DAY4-1-----验证码识别实战---识别古诗文网相关推荐

Python使用网络抓包的方式，利用超级鹰平台识别验证码登录爬取古诗文网、上篇--识别验证码
Python使用网络抓包的方式,利用超级鹰平台识别验证码登录,<爬取古诗文网>. 上篇–识别验证码序言: 哈喽,各位小可爱们,我又来了,这次我新学习到的内容是python爬虫识别验证码. ...
python爬虫入门_3种方法爬取古诗文网站
目的: 爬取古诗文网的古诗词,获取详细信息,目标网站:https://www.gushiwen.org/default.aspx?page=1 1.根据网页分析可知下面包含了当前页面的所有信息,所以 ...
03-数据解析_正则表达式（03 【实战】古诗文网爬虫）
目标:爬取中国古诗文网的诗词注意: 用正则的思路不一样:不存在树结构,在正则眼里只当作'str' 关注zip的用法中国古诗文网网页示例: 1.xpath方法 # -*- coding: utf ...
Python爬虫实战（3）古诗文网
Python爬虫实战(3)古诗文网网页分析代码注意事项输出结果利用BeautifulSoup和和requests库实现古诗文网的古诗抓取运行平台: Windows Python版本: Py ...
python爬虫之古诗文网中验证码的识别并登录----第三方平台
目标网站:古诗文网目标网址:http://so.gushiwen.org/user/collect.aspx 任务要求: (1)通过selenium的方式模拟该网站的登录,并成功输入用户名和密码: ...
python爬虫-古诗文网验证码识别
文章目录一.前期准备二.示例代码一.前期准备古诗文网验证码识别,是通过对古诗文网登陆界面的验证码图片进行识别的,利用专门的验证码识别网站,可以提取验证码图片中的验证码网站推荐:超级鹰注册登 ...
Python爬虫开发从入门到实战
Python爬虫开发从入门到实战(微课版) 第1章绪论爬虫的主要目的是获取网页内容并解析.只要能达到这个目的,用什么方法都没有问题. 关于获取网页,本书主要介绍了Python的两个第三方模块,一个 ...
【Python爬虫7】验证码处理
文章目录 1.获得验证码图片 2.光学字符识别验证码 3.用API处理复杂验证码 3.1 9kw打码平台 3.1.1 提交验证码 3.1.2 请求已提交验证码结果 3.1.2与注册功能集成验证码(C ...
用Python爬虫破解滑动验证码
我们可以借用opencv来解决这个问题,主要步骤: opencv 是什么? OpenCV(Open Source Computer Vision Library)是开放源代码计算机视觉库,主要算法涉及 ...

python爬虫----DAY4-1-----验证码识别实战---识别古诗文网

python爬虫----DAY4-1-----验证码识别实战

文章目录

使用超级鹰平台识别验证码的编码流程：

分析

代码

结果展示

python爬虫----DAY4-1-----验证码识别实战---识别古诗文网相关推荐

最新文章

热门文章