本文主要讲解使用selenium模拟登录淘宝爬取数据并解决滑块的一个案例,这里提供两个思路,一个是怎么登录淘宝,一个是怎么解决滑块。

1.登录淘宝:

  1. 使用selenium打开淘宝指定页面,会先跳转到淘宝的登陆页面,要求登录,第一次正常登录即可,随后使用browser.get_cookies()得到cookies值并保存下来,等到之后登录的时候先get一次网址,添加cookies,再get一次目标网址,就能够成功进去了。
  2. 代码如下:
    1. 此处注意,获取到的cookies的是列表嵌套字典的格式,而add_cookie需要添加的格式是字典类型,所以需要遍历cookies循环添加进去

2.滑块破解:

  1. 滑块样式:

  2. 破解思路:
    1. 使用selenium打开淘宝网的时候,淘宝网通过检测navigator的值检测你是否使用了自动化脚本,此时需要在页面上按F12,在console中输入window.navigator.webdriver,显示的值为true,则表示被检测到了,这样无论你怎么去滑滑块,都会显示出错。显示的值为undefined,则表示没有被检测到,此时就需要修改navigator的值,代码如下:

      1. 这样就能成功修改navigator的值为undefined了
    2. 使用selenium模拟滑动滑块:
      1. 首先要定位到滑块元素,点击滑动滑块,成功则抓取数据,失败则重新滑动
      2. 这里主要是模拟人的动作,由于淘宝滑块是将滑块从左滑到最右的,速度可能忽快忽慢,但是是需要一定时间才能完成这个动作的,所以使用selenium模拟的时候不能一下子就滑过去,这样失败率极高,网上的思路也很多,我这里提供一种
      3. 主要思路是每隔0.x秒滑动随机px,达到这样的一个效果,成功率还算高,基本都能通过
      4. 代码如下:
        1. 这里需要导入一个库,名为:ActionChains 语法:from selenium.webdriver import ActionChains

至于访问频繁被禁止访问的情况,只需要准备一个cookies池,每访问5页左右换一个cookies就可以了

以上仅为本人的一点理解,亲测可用,如有不足之处,欢迎指正!

selenium淘宝登录和滑块破解最新可用相关推荐

  1. 纯js逆向淘宝阿里云滑块破解

    小小淘宝的滑块风控也敢班门弄斧,纯js逆向直接安排

  2. 最新突破“淘宝”登录接口方法,隐藏selenium,攻克滑块验证码

    今日因为工作需要,需要抓取淘宝上一些商品详情信息,而商品详情信息必须要在登陆以后才能进行访问,所以想要抓取商品信息,模拟登陆是第一个必须要解决的问题. 淘宝的模拟登陆说难也不难,说不难,也蛮多坑的.今 ...

  3. selenium 成功绕过淘宝登录反爬机制

    前言 selenium + webdriver 在登录淘宝时会出现反爬滑块,该滑块无论怎么滑也滑不成功,只会出现 哎呀,出错了,点击刷新再来一次 有两个问题存在,导致 selenium + webdr ...

  4. selenium成功绕过淘宝登录反爬机制!

    userAgent 信息与正常模式不一致 Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Hea ...

  5. python爬虫淘宝登录_淘宝的模拟登录(python3+selenium)

    淘宝登录 爬数据的前提是要先登录,那么先来说怎么使用python3+selenium登录淘宝的. 一.登录前的准备工作 关于一开始做登录时,一直会出现滑块,这个滑块怎么滑都通过不了,后来才知道是淘宝有 ...

  6. 突破淘宝登录滑块验证反爬,防止识别为Chrome自动控制

    文章首发于慕课网手记,已同步到个人博客:https://www.donlex.cn 上次的文章<在爬100万数据的时候,我发现了爬虫的进阶之路> ,有"怂恿"大家伙去突 ...

  7. selenium 成功绕过淘宝登录反爬机制(headless模式)

    Selenium在使用headless模式时,有以下几个问题 userAgent 信息与正常模式不一致 Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit ...

  8. python模拟淘宝登陆_【Python】selenium模拟淘宝登录

    # -*- coding: utf-8 -*- from selenium import webdriver from selenium.webdriver.common.by import By f ...

  9. 190823-自动控制浏览器进行淘宝登录操作(selenium自动化测试框架)

    自动控制浏览器进行淘宝登录操作,利用了selenium这个第三方库,让浏览器自动进行模拟点击页面内容.输入账号密码等操作,以下是其逻辑以及执行代码: 逻辑: 1.分别导入webdriver,和WebD ...

最新文章

  1. java中JUnit单元测试的使用方法
  2. phpstudy php日志,phpstudy开启网站Apache日志并且按照日期划分创建
  3. 4、提高插入数据的速度
  4. 程序员家的精品大闸蟹:青壳、白底、肉多、爆黄,现在是吃大闸蟹的最佳时期...
  5. 中兴中心管理服务器fxh3120,中兴多媒体业务中心ZXMS80
  6. 线程池三种队列使用,SynchronousQueue,LinkedBlockingQueue,ArrayBlockingQueue
  7. 将网卡中断分布到多个cpu上的方法
  8. [tp3.2.1]让默认页面: 加载Home模块的Index控制器;而让admin.php默认去加载Admin模块的Adminc控制器....
  9. Win10使用Xrdp脚本远程桌面连接Ubuntu主机
  10. Linux查看、处理文件方法
  11. 8.卷2(进程间通信)---读写锁
  12. 打砖块游戏代码 c语言,打砖块游戏的源代码(请多指教)
  13. c++ 按行读取txt文件并赋值_C 语言入门 19 读取txt文件中的数字,消除其中连续重复的数字...
  14. Navicat Premium 11.2.7 中文破解版安装
  15. 跟着海盗头子创业是一种怎样的体验?
  16. 使用组策略为域用户配置IE使用代理服务器
  17. uni-app 快手小程序如何设置跟元素样式
  18. QQ音乐for Mac 已经登陆MAC OSX
  19. 如何安装svelte_svelte js框架介绍编译器
  20. 国内知名的信息与通讯调查研究咨询公司情况

热门文章

  1. 反射弧包括那些组成部分_反射弧的组成部分包括
  2. CISSP认证每日知识点和常错题(12月17日)
  3. 如何分析和研究Log文件 ,如何看日志信息
  4. Charles切环境,使用map Local
  5. linux循环显示系统时间,Ubuntu - shell脚本获取当前时间
  6. Android实战:借助百度语音识别SDK实现简单的语音识别
  7. python爬虫获取代理免费ip并检测
  8. 4.导出UnityPackage(AssetDatabase.ExportPackage(assetPathName ,fileName ,ExportPackageOptions.Recurse )
  9. 基于NXP523芯片,射频读卡器,支持二代证ID,ISO14443A/B
  10. 服务器安全与网络安全监测