文章首发于慕课网手记,已同步到个人博客:https://www.donlex.cn

上次的文章《在爬100万数据的时候,我发现了爬虫的进阶之路》 ,有“怂恿”大家伙去突破淘宝的登录反爬,不知道有没有试了的。反正我是试了,也找到了三种方法。在这里分享一下

  1. 账号密码登录(有滑块)
  2. 微博第三方账号登录(无滑块)
  3. 扫码登录

上面都是使用 Selenium 进行模拟登录的,这样就可以不用手动添加各种Cookie或者Session,少了很多工作。

# 淘宝账号登录

一般直接使用Selenium自动控制登录,都会无法通过滑块验证。所以解决的策略就是让这些网站识别不出来你是用了Selenium,因此需要将模拟浏览器设置为开发者模式,这样就可以防止被网站识别出来。

只需要在初始化时,添加下面这条语句,就可以设置为开发者模式。

# 此步骤很重要
options.add_experimental_option('excludeSwitches'['enable-automation'])browser = webdriver.Chrome(options=options)

只需要多加一行代码,就能突破淘宝登录滑块,效果如下:

当然这只是让Selenium通过淘宝的滑块验证而已,至于如何滑动还是需要自己动手撸代码才能实现真正的自动。。。

# 微博账号登录

在淘宝网的登录页面,有第三方登录的入口,试了一下,发现绑定微博的账号跟淘宝更配哦。直接通过Selenium控制,输入微博账号和密码,不需要滑块验证,不需要滑块验证,不需要滑块验证(重要的事情说**,直接就可以登录。

# 扫码登录

还有一种方法:扫码登录,这种方式检测出是使用自动化工具,但是扫码登录能减去所有的验证环节,并且不需要写登录代码,只需要在扫码的页面停留几秒,等待手机淘宝扫码验证完成。接着就可以继续下面的工作了,不过这有一个缺点,就是不能设置不加载图片,如果设置了不加载图片的话,二维码就显示不了,就别谈登录了,这样一来,爬取的速度肯定会受到影响。

代码:

from time import sleepfrom selenium import webdriver
driver = webdriver.Chrome()
driver.implicitly_wait(5)
def scan_login(url):driver.get(url)# 等待扫码登录sleep(15)# 进入之后开始其他操作if __name__ == '__main__':url = 'https://login.taobao.com/member/login.jhtml'scan_login(url)

效果:

# 最后

个人感觉在需要突破登录部分的反爬措施,直接使用 Selenium 是最通用的,当然得看具体的情况。如果你正在练习登录这方面的爬虫,希望能够对你帮助!如果你有好的方法,也可以后台交流一下!

ps:文中部分代码点击『阅读原文』获取;仅供技术交流使用,请不要用作其他用途!

# 附:

点击获取,源码地址

如果对你有帮助记得Star

突破淘宝登录滑块验证反爬,防止识别为Chrome自动控制相关推荐

  1. 最新突破“淘宝”登录接口方法,隐藏selenium,攻克滑块验证码

    今日因为工作需要,需要抓取淘宝上一些商品详情信息,而商品详情信息必须要在登陆以后才能进行访问,所以想要抓取商品信息,模拟登陆是第一个必须要解决的问题. 淘宝的模拟登陆说难也不难,说不难,也蛮多坑的.今 ...

  2. selenium成功绕过淘宝登录反爬机制!

    userAgent 信息与正常模式不一致 Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Hea ...

  3. selenium 成功绕过淘宝登录反爬机制(headless模式)

    Selenium在使用headless模式时,有以下几个问题 userAgent 信息与正常模式不一致 Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit ...

  4. Python使用selenium过天眼查滑块验证码反爬实现模拟登录

    Python使用selenium过天眼查滑块验证码反爬实现模拟登录 天眼查的滑块验证码样式 一顿操作到滑块验证码阶段 破解滑块验证码 结束 天眼查的滑块验证码样式 在输入账号和密码后会发现这个令人讨厌 ...

  5. 淘宝登录验证(猪哥无敌)

    import re import os import jsonimport requestss = requests.Session() # cookies序列化文件 COOKIES_FILE_PAT ...

  6. 零基础带你用python模拟淘宝登录

    经过一段时间的学习,并参考各路大神的文章,总结出一些比较适合小白的网络爬虫的小技巧.跟着笔者的思路,循序渐进,可以慢慢找到一点小感觉. 开发环境 笔者选用的是vs code,轻量级,支持各种插件安装. ...

  7. python爬虫淘宝登录_淘宝的模拟登录(python3+selenium)

    淘宝登录 爬数据的前提是要先登录,那么先来说怎么使用python3+selenium登录淘宝的. 一.登录前的准备工作 关于一开始做登录时,一直会出现滑块,这个滑块怎么滑都通过不了,后来才知道是淘宝有 ...

  8. 关于淘宝登录的四种解决方案

    淘宝登录是爬虫的一个老大难的问题,因为淘宝有那么一群人专门针对爬虫客们下足了功夫,无论你是selenium模拟点击登录,还是利用cookies登录,都会被识别出来,验证码验证始终通过不了,其后台可能采 ...

  9. JS安全防护算法与逆向分析——淘宝登录JS加密算法

    淘宝登录JS加密算法 <反爬虫AST原理与还原混淆实战>书稿内容 声明:本教程从安全角度出发讲解,只为增加读者的安全知识,提升读者数据安全意识,以及对于病毒和钓鱼网站的防护能力.绝无其他任 ...

最新文章

  1. CSS.text不被选中
  2. Spring MVC-表单(Form)标签-单选按钮集合(RadioButtons)示例(转载实践)
  3. CentOS7下搭建Nginx+PHP7的安装配置
  4. JQuery validate表單驗證
  5. OJ1024: 计算字母序号
  6. 舞台灯恒流芯片 无频闪无噪音 多路共阳 调光深度0.1% 方案分享
  7. [雪峰磁针石博客]数据仓库快速入门教程1简介
  8. 【Music】Never took the time
  9. kvaser在linux中的应用
  10. xp计算机找不到音量调节,winxp系统电脑音量无法调节不能调节声音的恢复方案...
  11. 三极管工作原理_10分钟分析稳压三极管工作原理
  12. 【OR】ADMMRisk Parity Portfilio Model
  13. java web架构配置_javaweb(1) tomcat配置和web程序结构
  14. 拼接两条有重叠区域的核酸序列
  15. React Native系列——WebView组件使用介绍
  16. 求助!win10这段时间在使用其间经常性的系统中断这个进程100%cpu的情况
  17. python清空屏幕
  18. 芋道 Spring Cloud Alibaba 介绍
  19. Vue + Element 实现导入导出Excel
  20. druid 线程池监控

热门文章

  1. “感动济源”何志强昨做客本报
  2. Green UML Eclipse插件
  3. KingHistorian 3.0——工业实时历史数据库
  4. 杰夫•贝索斯收购《华盛顿邮报》:不是一笔生意,是一种文化的表现
  5. 如何将盒子里的文字水平居中和垂直居中
  6. 通过Python爬虫,发现60%女装大佬游走在cosplay领域…
  7. 微信小程序学习(加深)
  8. notepad++常用设置
  9. Dynamsoft Barcode Reader教程:HTML5中的移动QR码扫描仪
  10. ASI-20160331-MoPub Ad SDK