近遇上一些反Selenium爬虫的情况,爬虫都会碰到某些网站刚刚打开页面就被判定为:非人类行为
因为不少大网站有对selenium的js监测机制。比如navigator.webdrivernavigator.languagesnavigator.plugins.length,
美团,大众,淘宝这些大站点都有这种技术能力。正常情况下 window.navigator.webdriver的值为undefined

而当我们使用selenium 的时候-window.navigator.webdriver的值为True。 如下图

——-那么如何解决呢?

第一种:使用mitmproxy用中间人的方式截取服务器发送来的js,修改js里面函数的参值方式发送给服务器。相当于在browser和server之间做一层中介的拦截。不过此方法要对js非常熟悉的人才好实施。

第二种方法依旧通过selenium,不过是在服务器在第一次发送js并在本地验证的时候,做好‘第一次’的伪装,从而实现‘第一次登陆’有效。。方法简单,适合小白。

pyppeteer 加 asyncio 绕过selenium检测,实现鼠标滑动后自动登陆(代码很简单。主要熟悉异步模块及pyppeteer模块。pyppeteer模块看不懂就去看puppeteer文档,pyppeteer只是在puppeteer之上稍微包装了下而已 )。

代码如下 main.py

import asyncio
import time,random
from pyppeteer.launcher import launch # 控制模拟浏览器用
from retrying import retry #设置重试次数用的async def main(username, pwd, url):# 定义main协程函数,#以下使用await 可以针对耗时的操作进行挂起browser = await launch({'headless': False, 'args': ['--no-sandbox'], }) # 启动pyppeteer 属于内存中实现交互的模拟器page = await browser.newPage()  # 启动个新的浏览器页面await page.setUserAgent('Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36')await page.goto(url) # 访问登录页面# 替换淘宝在检测浏览时采集的一些参数。# 就是在浏览器运行的时候,始终让window.navigator.webdriver=false# navigator是windiw对象的一个属性,同时修改plugins,languages,navigator 且让await page.evaluate('''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''') #以下为插入中间js,将淘宝会为了检测浏览器而调用的js修改其结果。await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {},  }; }''')await page.evaluate('''() =>{ Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); }''')await page.evaluate('''() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''')# 使用type选定页面元素,并修改其数值,用于输入账号密码,修改的速度仿人类操作,因为有个输入速度的检测机制# 因为 pyppeteer 框架需要转换为js操作,而js和python的类型定义不同,所以写法与参数要用字典,类型导入await page.type('.J_UserName', username, {'delay': input_time_random() - 50})await page.type('#J_StandardPwd input', pwd, {'delay': input_time_random()})#await page.screenshot({'path': './headless-test-result.png'})    # 截图测试time.sleep(2)# 检测页面是否有滑块。原理是检测页面元素。slider = await page.Jeval('#nocaptcha', 'node => node.style')  # 是否有滑块if slider:print('当前页面出现滑块')#await page.screenshot({'path': './headless-login-slide.png'}) # 截图测试flag,page = await mouse_slide(page=page) #js拉动滑块过去。if flag:await page.keyboard.press('Enter') # 确保内容输入完毕,少数页面会自动完成按钮点击print("print enter",flag)await page.evaluate('''document.getElementById("J_SubmitStatic").click()''') # 如果无法通过回车键完成点击,就调用js模拟点击登录按钮。time.sleep(2)#cookies_list = await page.cookies()#print(cookies_list)await get_cookie(page) # 导出cookie 完成登陆后就可以拿着cookie玩各种各样的事情了。else:print("")await page.keyboard.press('Enter')print("print enter")await page.evaluate('''document.getElementById("J_SubmitStatic").click()''')await page.waitFor(20)await page.waitForNavigation()try:global error # 检测是否是账号密码错误print("error_1:",error)error = await page.Jeval('.error', 'node => node.textContent')print("error_2:",error)except Exception as e:error = Nonefinally:if error:print('确保账户安全重新入输入')# 程序退出。loop.close()else:print(page.url)await get_cookie(page)#time.sleep(100)
# 获取登录后cookie
async def get_cookie(page):#res = await page.content()cookies_list = await page.cookies()cookies = ''for cookie in cookies_list:str_cookie = '{0}={1};'str_cookie = str_cookie.format(cookie.get('name'), cookie.get('value'))cookies += str_cookieprint(cookies)return cookiesdef retry_if_result_none(result):return result is None@retry(retry_on_result=retry_if_result_none,)
async def mouse_slide(page=None):await asyncio.sleep(2)try :#鼠标移动到滑块,按下,滑动到头(然后延时处理),松开按键await page.hover('#nc_1_n1z') # 不同场景的验证码模块能名字不同。await page.mouse.down()await page.mouse.move(2000, 0, {'delay': random.randint(1000, 2000)})await page.mouse.up()except Exception as e:print(e, ':验证失败')return None,pageelse:await asyncio.sleep(2)# 判断是否通过slider_again = await page.Jeval('.nc-lang-cnt', 'node => node.textContent')if slider_again != '验证通过':return None,pageelse:#await page.screenshot({'path': './headless-slide-result.png'}) # 截图测试print('验证通过')return 1,pagedef input_time_random():return random.randint(100, 151)if __name__ == '__main__':username = 'xxxxxxxxx' # 淘宝用户名pwd = 'xxxxxxxxxxx' #密码url = 'https://login.taobao.com/member/login.jhtml?style=mini&css_style=b2b&from=b2b&full_redirect=true&redirect_url=https://login.1688.com/member/jump.htm?target=https://login.1688.com/member/marketSigninJump.htm?Done=http://login.1688.com/member/taobaoSellerLoginDispatch.htm&reg= http://member.1688.com/member/join/enterprise_join.htm?lead=http://login.1688.com/member/taobaoSellerLoginDispatch.htm&leadUrl=http://login.1688.com/member/'loop = asyncio.get_event_loop()  #协程,开启个无限循环的程序流程,把一些函数注册到事件循环上。当满足事件发生的时候,调用相应的协程函数。loop.run_until_complete(main(username, pwd, url))  #将协程注册到事件循环,并启动事件循环

淘宝爬虫之强行登录如何解决Selenium被检测到的问题?相关推荐

  1. python爬虫笔记(六)网络爬虫之实战(1)——淘宝商品比价定向爬虫(解决淘宝爬虫限制:使用cookies)...

    1.  淘宝商品信息定向爬虫 链接: https://www.taobao.com/ 2. 实例编写 2.1 整体框架 # -*- coding: utf-8 -*-import requests i ...

  2. python淘宝爬虫登陆功能和下单功能_Python爬虫实战五之模拟登录淘宝并获取所有订单 | 静觅...

    经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持. 温馨提示 更新时间,2016-02-01,现在淘宝换成了滑块验证了 ...

  3. selenium淘宝爬虫

    selenium淘宝爬虫 使用selenium做淘宝商品爬虫 1.准备工作 2.页面分析 3.代码实现 3-1.模拟登陆 3-2.商品列表页 3-3.获取商品信息 3-4.数据库设计 3-5.爬虫执行 ...

  4. 如何实现微信和淘宝的扫码登录

    1.引言 扫码登录这个功能,最早应该是微信的PC端开始搞,虽然有点反人类的功能(不扫码也没别的方式登录),但不得不说还是很酷的. 下面这张图,不管是IM开发者还是普通用户,应该很熟悉: 于是,搞IM产 ...

  5. 如何实现微信和淘宝的扫码登录 ?

    点击上方"阿拉奇学Java",选择"置顶或者星标"  每天早晨07点28分, 与你相约! 来源 | my.oschina.net/u/4231722/blog/ ...

  6. 淘宝爬虫、数据分析、童装

    淘宝爬虫.数据分析.童装 requests爬虫 数据处理 数据预处理 处理缺失值 处理sales列 处理location列 保存csv 数据分析 title 词云可视化 关键词的销量分析 店名 价格. ...

  7. 爬虫项目四:2021最新测试可用淘宝爬虫

    文章目录 前言 一.mitmdump配置 二.登陆淘宝 三.解析数据 总结 前言 众所周知淘宝的反爬机制是越来越严格,如果用单纯的用selenium登录淘宝会出现万恶的滑块验证,这是因为淘宝检测出你是 ...

  8. selenium实现淘宝爬虫

    准备工作 安装好selenium和浏览器驱动chromedriver. 淘宝爬虫过程分析加代码 1.页面请求分析 首先请求淘宝页面,然后输入要爬取的数据的关键词,没有登陆,此时会弹出登陆的窗口,采取模 ...

  9. 弘辽科技:淘宝宝贝访问量低该如何解决?影响访问量低的原因有?

    原标题<弘辽科技:淘宝宝贝访问量低该如何解决?影响访问量低的原因有?> 淘宝商家们开了店后,最关心的毋庸置疑是淘宝访问量了,这个访问量影响着店铺的整体运营.那么这个和什么有关呢?这个和店铺 ...

最新文章

  1. IO流操作-图片操作(二)
  2. java逻辑可以判断文本么_Shell逻辑判断符号_Shell中的_与_或_非_Shell_-a_-e_!作用
  3. [BUUCTF-pwn]——pwnable_echo2
  4. Spring 框架 AOP 的总结
  5. 2021年中国独立眼科超声系统市场趋势报告、技术动态创新及2027年市场预测
  6. 基于Python的《庆余年》评论分析
  7. The VMRC console has disconnected solution
  8. Springboot在线电影订票系统
  9. 5G到底有多快?和4G相比的直接数据给你更直观感受
  10. 从AWSome Day你可以学到什么?
  11. Java使用while循环计算调和数列的和并打印
  12. web前端牛人博客整理
  13. 离散数学复习--集合的势证明
  14. 4.16 广推科技现场面试
  15. 解决VBA运行时错误13 类型不匹配问题
  16. Spring Boot事务
  17. pl0语言的扩充之repeat-until语句
  18. 验证手机号是否注册过爱奇艺
  19. UVA - 12627 Erratic Expansion(分治)
  20. 安卓上微信闪退的一种解决方法

热门文章

  1. JavaScript冷门知识
  2. java 小孩报数_N个小孩围成一圈1-3报数,报3出局
  3. 温故而知识--历史清单
  4. SpringCloud:Gateway之鉴权
  5. tpl怎么口_解决tplogin.cn打开是电信登录页面的办法是什么?
  6. TamperMonkey编写脚本常用api中文版(附文档原地址和各种api案例)
  7. ubuntu合盖后不休眠
  8. Linux操作系统的基础知识
  9. pycharm 选中多行,点back space键无法删除
  10. 安徽泾县:如诗似画的桃花潭