突破淘宝登录滑块验证反爬,防止识别为Chrome自动控制
文章首发于慕课网手记,已同步到个人博客:https://www.donlex.cn
上次的文章《在爬100万数据的时候,我发现了爬虫的进阶之路》 ,有“怂恿”大家伙去突破淘宝的登录反爬,不知道有没有试了的。反正我是试了,也找到了三种方法。在这里分享一下
- 账号密码登录(有滑块)
- 微博第三方账号登录(无滑块)
- 扫码登录
上面都是使用 Selenium
进行模拟登录的,这样就可以不用手动添加各种Cookie
或者Session
,少了很多工作。
# 淘宝账号登录
一般直接使用Selenium
自动控制登录,都会无法通过滑块验证。所以解决的策略就是让这些网站识别不出来你是用了Selenium
,因此需要将模拟浏览器设置为开发者模式,这样就可以防止被网站识别出来。
只需要在初始化时,添加下面这条语句,就可以设置为开发者模式。
# 此步骤很重要
options.add_experimental_option('excludeSwitches'['enable-automation'])browser = webdriver.Chrome(options=options)
只需要多加一行代码,就能突破淘宝登录滑块,效果如下:
当然这只是让Selenium
通过淘宝的滑块验证而已,至于如何滑动还是需要自己动手撸代码才能实现真正的自动。。。
# 微博账号登录
在淘宝网的登录页面,有第三方登录的入口,试了一下,发现绑定微博的账号跟淘宝更配哦。直接通过Selenium
控制,输入微博账号和密码,不需要滑块验证,不需要滑块验证,不需要滑块验证(重要的事情说**,直接就可以登录。
# 扫码登录
还有一种方法:扫码登录,这种方式检测出是使用自动化工具,但是扫码登录能减去所有的验证环节,并且不需要写登录代码,只需要在扫码的页面停留几秒,等待手机淘宝扫码验证完成。接着就可以继续下面的工作了,不过这有一个缺点,就是不能设置不加载图片,如果设置了不加载图片的话,二维码就显示不了,就别谈登录了,这样一来,爬取的速度肯定会受到影响。
代码:
from time import sleepfrom selenium import webdriver
driver = webdriver.Chrome()
driver.implicitly_wait(5)
def scan_login(url):driver.get(url)# 等待扫码登录sleep(15)# 进入之后开始其他操作if __name__ == '__main__':url = 'https://login.taobao.com/member/login.jhtml'scan_login(url)
效果:
# 最后
个人感觉在需要突破登录部分的反爬措施,直接使用 Selenium
是最通用的,当然得看具体的情况。如果你正在练习登录这方面的爬虫,希望能够对你帮助!如果你有好的方法,也可以后台交流一下!
ps:文中部分代码点击『阅读原文』获取;仅供技术交流使用,请不要用作其他用途!
# 附:
点击获取,源码地址
如果对你有帮助记得Star!
突破淘宝登录滑块验证反爬,防止识别为Chrome自动控制相关推荐
- 最新突破“淘宝”登录接口方法,隐藏selenium,攻克滑块验证码
今日因为工作需要,需要抓取淘宝上一些商品详情信息,而商品详情信息必须要在登陆以后才能进行访问,所以想要抓取商品信息,模拟登陆是第一个必须要解决的问题. 淘宝的模拟登陆说难也不难,说不难,也蛮多坑的.今 ...
- selenium成功绕过淘宝登录反爬机制!
userAgent 信息与正常模式不一致 Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Hea ...
- selenium 成功绕过淘宝登录反爬机制(headless模式)
Selenium在使用headless模式时,有以下几个问题 userAgent 信息与正常模式不一致 Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit ...
- Python使用selenium过天眼查滑块验证码反爬实现模拟登录
Python使用selenium过天眼查滑块验证码反爬实现模拟登录 天眼查的滑块验证码样式 一顿操作到滑块验证码阶段 破解滑块验证码 结束 天眼查的滑块验证码样式 在输入账号和密码后会发现这个令人讨厌 ...
- 淘宝登录验证(猪哥无敌)
import re import os import jsonimport requestss = requests.Session() # cookies序列化文件 COOKIES_FILE_PAT ...
- 零基础带你用python模拟淘宝登录
经过一段时间的学习,并参考各路大神的文章,总结出一些比较适合小白的网络爬虫的小技巧.跟着笔者的思路,循序渐进,可以慢慢找到一点小感觉. 开发环境 笔者选用的是vs code,轻量级,支持各种插件安装. ...
- python爬虫淘宝登录_淘宝的模拟登录(python3+selenium)
淘宝登录 爬数据的前提是要先登录,那么先来说怎么使用python3+selenium登录淘宝的. 一.登录前的准备工作 关于一开始做登录时,一直会出现滑块,这个滑块怎么滑都通过不了,后来才知道是淘宝有 ...
- 关于淘宝登录的四种解决方案
淘宝登录是爬虫的一个老大难的问题,因为淘宝有那么一群人专门针对爬虫客们下足了功夫,无论你是selenium模拟点击登录,还是利用cookies登录,都会被识别出来,验证码验证始终通过不了,其后台可能采 ...
- JS安全防护算法与逆向分析——淘宝登录JS加密算法
淘宝登录JS加密算法 <反爬虫AST原理与还原混淆实战>书稿内容 声明:本教程从安全角度出发讲解,只为增加读者的安全知识,提升读者数据安全意识,以及对于病毒和钓鱼网站的防护能力.绝无其他任 ...
最新文章
- CSS.text不被选中
- Spring MVC-表单(Form)标签-单选按钮集合(RadioButtons)示例(转载实践)
- CentOS7下搭建Nginx+PHP7的安装配置
- JQuery validate表單驗證
- OJ1024: 计算字母序号
- 舞台灯恒流芯片 无频闪无噪音 多路共阳 调光深度0.1% 方案分享
- [雪峰磁针石博客]数据仓库快速入门教程1简介
- 【Music】Never took the time
- kvaser在linux中的应用
- xp计算机找不到音量调节,winxp系统电脑音量无法调节不能调节声音的恢复方案...
- 三极管工作原理_10分钟分析稳压三极管工作原理
- 【OR】ADMMRisk Parity Portfilio Model
- java web架构配置_javaweb(1) tomcat配置和web程序结构
- 拼接两条有重叠区域的核酸序列
- React Native系列——WebView组件使用介绍
- 求助!win10这段时间在使用其间经常性的系统中断这个进程100%cpu的情况
- python清空屏幕
- 芋道 Spring Cloud Alibaba 介绍
- Vue + Element 实现导入导出Excel
- druid 线程池监控