python爬虫滑动验证码_python爬虫21 | 对于b站这样的滑动验证码，不好意思，照样自动识别...

今天

要来说说滑动验证码了

大家应该都很熟悉

点击滑块然后移动到图片缺口进行验证

现在越来越多的网站使用这样的验证方式

为的是增加验证码识别的难度

那么

对于这种验证码

应该怎么破呢

接下来就是

打开 b 站的登录页面

https://passport.bilibili.com/login

可以看到登录的时候需要进行滑块验证

按下 F12

进入 Network

看下我们将滑块移到缺口松开之后做了什么提交

可以看到是一个 GET 请求

但是

这请求链接也太特么长了吧

就是比小帅b短了一点点

我们来看看请求的参数是怎么样的

哇靠

gt？

challenge？

w？

这些都是什么鬼参数

还加密了

完全下不了手啊

那么

本篇完

再见

peace

说

你是不是迷恋我？？

好吧

你居然滑到这里来了

说明你还是有点爱小帅b的

小帅b是那种遇到一点困难就放弃的人吗

显然不是

那么接下来才是真的

既然以请求的方式不好弄

我们从它们的源代码入手

看看有什么突破口

回到 b 站的登录页

按下 F12

进入 Element

然后点击滑块出现了图片

定位一下

发现有两个 a 标签

一个 class 是 gt_bg gt_show

一个 class 是 gt_fullbg gt_show

和小帅b想的一样

这个验证码应该是有两张图片

一张是完全的背景图片

一张是缺口的图片

那把这两张图片下载下来对比一下不就行了

打开 a 标签一看

哇靠

一张图片被切割成很多小块

原来这张图片是拼出来的

我们看看原始图片是怎么样的

什么乱七八糟的

再仔细看下源代码

原来是在同一张图片通过偏移量合成了一张完整的图片

background-position: -277px -58px;

厉害厉害

小帅b看了一下缺口的图片也是如此

到这里

我们的第一个思路就是

下载这两张原始图片

然后通过偏移量合成两张真正的图片

背景图

↓变身

缺口图

↓变身

那么怎么做呢？

因为我们还要模拟滑动滑块

所以呢

打开b站的登录页

然后等到那个滑块显示出来

# 获取滑块按钮driver.get(url)slider = WAIT.until(EC.element_to_be_clickable((By.CSS_SELECTOR, "#gc-box > div > div.gt_slider > div.gt_slider_knob.gt_show")))

接下来我们就获取页面的源码

driver.page_source

然后使用 bs 获取两张原始背景图片的 url

bs = BeautifulSoup(driver.page_source,'lxml')# 找到背景图片和缺口图片的divbg_div = bs.find_all(class_='gt_cut_bg_slice')fullbg_div = bs.find_all(class_='gt_cut_fullbg_slice')# 获取缺口背景图片urlbg_url = re.findall('background-image:\surl$"(.*?)"$',bg_div[0].get('style'))# 获取背景图片urlfullbg_url = re.findall('background-image:\surl$"(.*?)"$',fullbg_div[0].get('style'))

拿到了图片地址之后

将图片下载下来

# 将图片格式存为 jpg 格式bg_url = bg_url[0].replace('webp', 'jpg')fullbg_url = fullbg_url[0].replace('webp', 'jpg')# print(bg_url)# print(fullbg_url)# 下载图片bg_image = requests.get(bg_url).contentfullbg_image = requests.get(fullbg_url).contentprint('完成图片下载')

我们已经把两张原始图片下载下来了

那么接下来就是要合成图片了

我们要根据图片的位置来合成

也就是源码中的 background-position

获取每一个小图片的位置

我们可以通过字典的形式来表示这些位置

然后将数据放到列表中

# 存放每个合成缺口背景图片的位置bg_location_list = []# 存放每个合成背景图片的位置fullbg_location_list = []for bg in bg_div:location = {}location['x'] = int(re.findall('background-position:\s(.*?)px\s(.*?)px;', bg.get('style'))[0][0])location['y'] = int(re.findall('background-position:\s(.*?)px\s(.*?)px;', bg.get('style'))[0][1])bg_location_list.append(location)for fullbg in fullbg_div:location = {}location['x'] = int(re.findall('background-position:\s(.*?)px\s(.*?)px;', fullbg.get('style'))[0][0])location['y'] = int(re.findall('background-position:\s(.*?)px\s(.*?)px;', fullbg.get('style'))[0][1])fullbg_location_list.append(location)

那么

现在我们已经有了原始图片

还知道了每个位置应该显示原始图片的什么部分

接下来我们就写一个方法

用来合成图片

# 写入图片bg_image_file = BytesIO(bg_image)fullbg_image_file = BytesIO(fullbg_image)# 合成图片bg_Image = mergy_Image(bg_image_file, bg_location_list)fullbg_Image = mergy_Image(fullbg_image_file, fullbg_location_list)

那么问题又来了

怎么合成啊

我们再看看一开始分析的图片

这里图片被分割成的每一个小图片的尺寸是

10 * 58

所以我们也要将我们刚刚下载的原始图片切割成相应的尺寸大小

而且

这张图片是由上半部分的小图片和下半部分的小图片合成的

所以我们定义两个 list 来装这些小图片

# 存放上下部分的各个小块upper_half_list =[]down_half_list =[]

然后将原始的图片切割好放进去

image = Image.open(image_file)# 通过 y 的位置来判断是上半部分还是下半部分,然后切割for location in location_list:if location['y'] == -58:# 间距为10，y：58-116im = image.crop((abs(location['x']), 58, abs(location['x'])+10, 116))upper_half_list.append(im)if location['y'] == 0:# 间距为10，y：0-58im = image.crop((abs(location['x']), 0, abs(location['x']) + 10, 58))down_half_list.append(im)

至此

我们这两个 list 就分别放好了各个切割的图片了

那么接下来就创建一张空白的图片

然后将小图片一张一张（间距为10）的粘贴到空白图片里

这样我们就可以得到一张合成好的图片了

哎

我真是个天才

# 创建一张大小一样的图片new_image = Image.new('RGB', (260, 116))# 粘贴好上半部分 y坐标是从上到下（0-116）offset = 0for im in upper_half_list:new_image.paste(im, (offset, 0))offset += 10# 粘贴好下半部分offset = 0for im in down_half_list:new_image.paste(im, (offset, 58))offset += 10

那么到现在

我们可以得到网页上显示的那两张图片了

一张完全的图片

一张带缺口的图片

接下来我们就要通过对比这两张图

看看我们要滑动的距离是多远

# 合成图片bg_Image = mergy_Image(bg_image_file, bg_location_list)fullbg_Image = mergy_Image(fullbg_image_file, fullbg_location_list)# bg_Image.show()# fullbg_Image.show()# 计算缺口偏移距离distance = get_distance(bg_Image, fullbg_Image)print('得到距离：%s' % str(distance))

可以通过图片的 RGB 来计算

我们设定一个阈值

如果 r、g、b 大于这个阈值

我们就返回距离

def get_distance(bg_Image, fullbg_Image):#阈值threshold = 200print(bg_Image.size[0])print(bg_Image.size[1])for i in range(60, bg_Image.size[0]):for j in range(bg_Image.size[1]):bg_pix = bg_Image.getpixel((i, j))fullbg_pix = fullbg_Image.getpixel((i, j))r = abs(bg_pix[0] - fullbg_pix[0])g = abs(bg_pix[1] - fullbg_pix[1])b = abs(bg_pix[2] - fullbg_pix[2])if r + g + b > threshold:return i

现在

我们知道了关键的滑动距离了

激动人心的时刻到了

我们使用 selenium

拿到滑块的元素

然后根据这个距离拖动到缺口位置不就好了么

马上打开 selenium 的文档

看到了这个函数

它可以使用左键点击元素

然后拖动到指定距离

最后释放鼠标左键

挖槽

正合我意

赶紧试一下

knob = WAIT.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#gc-box > div > div.gt_slider > div.gt_slider_knob.gt_show")))ActionChains(driver).drag_and_drop_by_offset(knob, distance, 0).perform()

运行一下试试看吧

哇哦你妹哦～

妖怪吃了拼图了

看来直接拖拽是不行的

容易遇到妖怪

毕竟这太快了

就算加藤鹰也没那么快吧

小帅b试着拖完滑块让它睡一下再释放

ActionChains(driver).click_and_hold(knob).perform()ActionChains(driver).move_by_offset(xoffset=distance, yoffset=0.1).perform()time.sleep(0.5)ActionChains(driver).release(knob).perform()

发现拼图还是特么的被妖怪吃了

后来小帅b发现原来别人也遇到了这样的问题

然后又发现了

有个叫匀速直线运动的东西

什么加速度

什么 v = v0 + at

什么 s = ½at²

哇

这不是高中的知识点么

瞬间想起小帅b高中的时候在最角落的课桌

此刻往右上方抬起头

45 度角

让我的眼泪划出一条美丽的弧线

什么鬼

回到正题

我们可以使用它来构造一个运动路径

该加速时加速

该减速的时候减速

这样的话就更像人类在滑动滑块了

def get_path(distance):result = []current = 0mid = distance * 4 / 5t = 0.2v = 0while current < (distance - 10):if current < mid:a = 2else:a = -3v0 = vv = v0 + a * ts = v0 * t + 0.5 * a * t * tcurrent += sresult.append(round(s))return result

这次

我们使用这个轨迹来滑动

knob = WAIT.until(EC.presence_of_element_located((By.CSS_SELECTOR, "#gc-box > div > div.gt_slider > div.gt_slider_knob.gt_show")))result = get_path(distance)ActionChains(driver).click_and_hold(knob).perform()for x in result:ActionChains(driver).move_by_offset(xoffset=x, yoffset=0).perform()time.sleep(0.5)ActionChains(driver).release(knob).perform()

好了好了

我们再来运行一下吧

哈哈哈

cool

成功识别了哇

我不管

当然了

成功率不是 100%

可以多调戏它几次

以上就是识别滑动验证码的具体过程了

对于其它大部分的滑动验证码

也是可以使用这招搞定的

由于篇幅有限

源代码我放在了这个公众号后台了

你发送〔滑动〕两个字

就可以获取啦

那

这次本篇就真的完啦

听说你想约我？

peace

点个在看啊~~（破音）

python爬虫滑动验证码_python爬虫21 | 对于b站这样的滑动验证码，不好意思，照样自动识别...相关推荐

python爬虫拖动验证码_python爬虫学习：验证码之滑动验证码
前面两个文章提到了普通图片的验证码识别,且尤其对于机器学习的识别方式精度相对会比较高.但是,现在开始流行滑动验证码,所以这里作者提及一点简单的滑动验证码识别技巧. 打开火狐浏览器,按下 F12 ,输入 ...
list @size 验证_python爬虫21 | 对于b站这样的滑动验证码，不好意思，照样自动识别...
今天要来说说滑动验证码了大家应该都很熟悉点击滑块然后移动到图片缺口进行验证现在越来越多的网站使用这样的验证方式为的是增加验证码识别的难度那么对于这种验证码应该怎么破呢接下来就是学习 ...
python 网站发送验证码_Python爬虫模拟登录带验证码网站
爬取网站时经常会遇到需要登录的问题,这是就需要用到模拟登录的相关方法.python提供了强大的url库,想做到这个并不难.这里以登录学校教务系统为例,做一个简单的例子. 首先得明白cookie的作用, ...
python获取登录按钮_python爬虫24 | 搞事情了，用 Appium 爬取你的微信朋友圈
昨天小帅b看到一些事情不顺眼有人偷换概念忍不住就写了一篇反讽 996 的看不下去了,我支持996,年轻人就该996! 没想到有些人看不懂这就算了还来骂我早些时候关注我的小伙伴应该知道我第 ...
python模拟登录网站_Python爬虫实战之（四）| 模拟登录京东商城
作者:xiaoyu 微信公众号:Python数据科学知乎:Python数据分析师前两篇和大家分享了爬虫中http的一些概念和使用方法,基础篇我们主要介绍了http的请求头,高级篇我们主要介绍了co ...
python爬虫开发环境_python爬虫开发教程下载|Python爬虫开发与项目实战(范传辉著)pdf 完整版_ - 极光下载站...
Python爬虫开发与项目实战pdf扫描版下载.Python爬虫开发是一个Pthyon编程语言与HTML基础知识引领读者入门知识,重点讲述了云计算的相关内容及其在爬虫中的应用,进而介绍如何设计自己的爬 ...
python爬虫自学路线_python 爬虫学习路线：从入门到进阶
大家好,我是凉拌今天给大家详解一下我的爬虫学习路线. 对于小白来说,爬虫可能是一件非常复杂.技术门槛很高的事情.比如有的人则认为先要掌握网页的知识,遂开始 HTML\CSS,结果入了前端的坑,浪费了 ...
python爬虫面试问题_Python爬虫面试总结
## Python爬虫面试总结 1. 写一个邮箱地址的正则表达式? [A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$ 2. 谈 ...
python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)
本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式 ...

python爬虫滑动验证码_python爬虫21 | 对于b站这样的滑动验证码，不好意思，照样自动识别...

python爬虫滑动验证码_python爬虫21 | 对于b站这样的滑动验证码，不好意思，照样自动识别...相关推荐

最新文章

热门文章