From:https://blog.csdn.net/qq_42196922/article/details/89400988

多加一行代码,突破淘宝模拟登录滑块:http://www.imooc.com/article/285729

爬虫自动化:https://www.jianshu.com/p/b3b92f327374

selenium 跳过 webdriver 检测并模拟登录淘宝:https://www.cnblogs.com/cloudbird/p/10524242.html

pyppeteer 绕过 selenium 检测,实现淘宝登陆:https://blog.csdn.net/Chen_chong__/article/details/82950968

Python 使用 selenium 模拟登陆淘宝:https://mp.weixin.qq.com/s?__biz=MzI0OTc0MzAwNA==&mid=2247487680&idx=1&sn=e40947f382116ff59761f250ee45dce3

ichrome

【2021.7.26】更新: 发现一个 ichrome,直接驱动 Chrome 抓淘宝,天猫的数据没啥问题

github 地址:https://github.com/ClericPy/ichrome

这里就不放天猫、淘宝的代码了,贴一个药监局的:

( 流程:药品  --->  药品查询  --->  国产药品 ,然后就一直翻页)

import asyncio
from lxml import etree
from ichrome import AsyncChromeDaemonasync def main():async with AsyncChromeDaemon(headless=0, disable_image=False) as cd:async with cd.connect_tab(index=0, auto_close=True) as tab:url = 'https://www.nmpa.gov.cn/yaopin/index.html'wait_timeout = 5await tab.goto(url, timeout=wait_timeout)await asyncio.sleep(2)data_query_css_string = '#layer3 > div > a:nth-child(9)'await tab.wait_tag(data_query_css_string, max_wait_time=wait_timeout)await tab.click(data_query_css_string, timeout=wait_timeout)await asyncio.sleep(2)yao_query_css_string = '[title="国家局批准的药品批准文号信息"]'await tab.wait_tag(yao_query_css_string, max_wait_time=wait_timeout)await tab.click(yao_query_css_string, timeout=wait_timeout)await asyncio.sleep(2)while True:data_link_css_string = '#content table:nth-child(2) > tbody > tr:nth-child(1) > td > p > a'await tab.wait_tag(data_link_css_string, timeout=wait_timeout)html = await tab.get_html(timeout=wait_timeout)s_html = etree.HTML(text=html)s_table = s_html.xpath('//div[@id="content"]//table')[2]s_tr_list = s_table.xpath('.//tr')for s_tr in s_tr_list:tag_a = s_tr.xpath('string(.)').strip()print(tag_a)# tag_a_href = s_tr.xpath('.//a/@href')# print(tag_a_href)btn_next = '[src="data:images/dataanniu_07.gif"]'await tab.click(btn_next, timeout=wait_timeout)await asyncio.sleep(2)if __name__ == "__main__":asyncio.run(main())

执行结果:

chrome 多开:设置不同的 debug_port 和 user_data_dir 可以达到多开 Chrome

import json
import asyncio
import aiomultiprocess
from loguru import logger
from ichrome import AsyncChromeDaemon
from ichrome.async_utils import Chromeasync def startup_chrome(dp_port=None):"""设置 chrome 参数,然后启动 chrome:param dp_port: 自定义 debug port:return:"""logger.info(f'dp_port ---> {dp_port}')timeout = 5# 也可以给 Chrome 添加代理proxy = '127.0.0.1:8080'udd= f'c:/chrome_user_data_dir_{dp_port}'async with AsyncChromeDaemon(port=dp_port, proxy=proxy, user_data_dir=udd) as cd:async with cd.connect_tab(index=0) as tab:url = 'https://space.bilibili.com/1904149/'await tab.set_url(url, timeout=timeout)await asyncio.sleep(5)cookie = await tab.get_cookies(url, timeout=timeout)cookie_string = json.dumps(cookie, ensure_ascii=False)logger.info(f'cookie_string ---> {cookie_string}')async def main():db_list = [9301 + offset for offset in range(5)]async with aiomultiprocess.Pool() as aio_pool:await aio_pool.map(startup_chrome, db_list)await aio_pool.join()if __name__ == "__main__":asyncio.run(main())pass

方法 1:利用 Chrome DevTools 协议

Chrome DevTools Protocol (协议详细内容):https://chromedevtools.github.io/devtools-protocol/

之前淘宝对于 selenium 还是很友好的,后来 selenium 被检测了 window.navigator.webdriver 等参数,出滑动验证码什么的,selenium 已经很难用了,  网上大片教程都使用的 pyppeteer 修改检测 js 参数去采集,  但是发现chromium 占用内存太高,并且 pyppeteer 参数方法介绍太少,用起来不舒服。

本文介绍了另一种方法:使用 selenium 接管 chrome 浏览器

利用 Chrome DevTools 协议。它允许客户 检查 和 调试 Chrome 浏览器。

添加 chrome 的环境变量

系统环境变量 PATH 里将 chrome的路径 添加进去。

命令行下执行命令

打开cmd,在命令行中输入命令:

chrome.exe --remote-debugging-port=9999 --user-data-dir="C:\selenum\AutomationProfile"

对于-remote-debugging-port值,可以指定任何打开的端口。

对于-user-data-dir 标记,指定创建新 Chrome 配置文件的目录。它是为了确保在单独的配置文件中启动 chrome,不会污染你的默认配置文件。

执行完命令后,会打开一个浏览器页面,我们输入淘宝网址(https://login.taobao.com/member/login.jhtml),输入用户名和密码,登录淘宝后用户信息就保存在 --user-data-dir="C:\selenum\AutomationProfile" 所指定的文件夹中。

执行 js window.open() 打不开窗口时,是因为 chrome 默认不允许弹出窗口,改下 chrome 设置就可以了
在 chrome 浏览器地址栏输入:chrome://settings/content/popups,把 已阻止(推荐)  改成 允许 即可。
或者 chrome -》设置 -》高级 -》隐私设置和安全性 -》网站设置 -》弹出式窗口和重定向,也可以设置。

不要关闭上面浏览器,然后执行 python 代码

python 代码:

在淘宝搜索 "电脑" 关键字,并打印前 5 页 所有 搜索内容

import os
import time
import random
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC# from selenium.webdriver.common.action_chains import ActionChainsdef main():        # os.system(r'C:\Users\Administrator\AppData\Local\Google\Chrome\Application/chrome.exe --remote-debugging-port=9999 --user-data-dir="C:\selenum\AutomationProfile"')chrome_debug_port = 9999chrome_options = Options()# chrome_options.add_argument('--headless')chrome_options.add_experimental_option("debuggerAddress", f"127.0.0.1:{chrome_debug_port}")browser = webdriver.Chrome(chrome_options=chrome_options)wait = WebDriverWait(browser, 5)print(browser.title)# 当前句柄current_handle = browser.current_window_handle# browser.execute_script('window.open("https://login.taobao.com/member/login.jhtml")')browser.execute_script('window.open("http://www.baidu.com")')# 所有句柄all_handle = browser.window_handlessecond_handle = all_handle[-1]# 切回firstbrowser.switch_to.window(current_handle)url = 'https://s.taobao.com/search?q=电脑'browser.get(url)produce_info_xpath = '//div[contains(@class, "J_MouserOnverReq")]//div[@class="row row-2 title"]/a'produce_info = browser.find_elements_by_xpath(produce_info_xpath)for produce in produce_info:print(produce.text.replace(' ', ''))# 这里是演示,所以只爬了前 5 页for page_num in range(2, 6):next_page_xpath = '//li[@class="item next"]'next_page = browser.find_element_by_xpath(next_page_xpath)next_page_enable = False if 'disabled' in next_page.get_attribute('class') else Trueif next_page_enable:print('*' * 100)print(f'第 {page_num} 页')next_page.click()# browser.refresh()produce_info_xpath = '//div[contains(@class, "J_MouserOnverReq")]//div[@class="row row-2 title"]/a'wait.until(EC.presence_of_all_elements_located((By.XPATH, produce_info_xpath)))time.sleep(random.randint(3, 5))produce_info = browser.find_elements_by_xpath(produce_info_xpath)for produce in produce_info:print(produce.text.replace(' ', ''))else:breakif __name__ == '__main__':main()

执行结果截图:

代码 2(根据关键字搜索,然后抓取 店铺名,店铺地址,店铺电话,):

# -*- coding: utf-8 -*-import time
import random
import parsel
import re
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC# from selenium.webdriver.common.action_chains import ActionChainsclass TaoBaoSearch(object):def __init__(self):super(TaoBaoSearch, self).__init__()self.browser = Noneself.wait = Noneself.master_handler = Noneself.slaver_handler = Noneself.temp = Noneself.browser_init()def browser_init(self):chrome_debug_port = 9999chrome_options = Options()chrome_options.add_experimental_option("debuggerAddress", f"127.0.0.1:{chrome_debug_port}")# chrome_options.add_argument('--headless')self.browser = webdriver.Chrome(chrome_options=chrome_options)self.wait = WebDriverWait(self.browser, 5)all_handler = self.browser.window_handlesif len(all_handler) >= 1:for index in all_handler[1:]:self.browser.switch_to.window(index)self.browser.close()# self.master_handler = self.browser.current_window_handleself.master_handler = self.browser.window_handles[0]self.browser.switch_to.window(self.master_handler)self.browser.execute_script('window.open()')# self.browser.execute_script('window.open("_blank")')handlers = self.browser.window_handlesself.slaver_handler = handlers[-1]# print(self.browser.title)def get_detail_info(self, shop_url=None):# 切换到 从 窗口self.browser.switch_to.window(self.slaver_handler)self.browser.get(shop_url)html = self.browser.page_sourcehtml = html.replace('&lt;', '<').replace('&gt;', '>')# print(html)s_html = parsel.Selector(text=html)shop_keeper_xpath = '//div[@class="extend"]//li[@class="shopkeeper"]//a/text()'shop_keeper = s_html.xpath(shop_keeper_xpath).extract_first()phone_reg = '联系电话:(\d+-?\d+)|联系手机:(\d+)'phone = re.findall(phone_reg, html)# 处理完后 一定要切换到 主 窗口self.browser.switch_to.window(self.master_handler)return shop_keeper, phonedef process_item(self, item):self.temp = Noneshop_xpath = './/div[@class="shop"]//a'local_xpath = './/div[@class="location"]'shop = item.find_element_by_xpath(shop_xpath).textshop_url = item.find_element_by_xpath(shop_xpath).get_attribute('href')local = item.find_element_by_xpath(local_xpath).textshop_keeper, phone = self.get_detail_info(shop_url)if phone:print(f'shop : {shop}')print(f'local : {local}')print(f'shop_url : {shop_url}')print(f'shop_keeper : {shop_keeper}')print(f'phone : {phone}')with open('./info.txt', 'a+') as f:f.write(shop + ',')f.write(local + ',')f.write(shop_url + ',')f.write(shop_keeper + ',')f.write(f'{phone}')f.write('\n')def main(self):# 切回 主 窗口self.browser.switch_to.window(self.master_handler)key_word = input('输入淘宝搜索关键字:')if not key_word:print('没有输入关键字。默认搜索 “手机”')key_word = '手机'url = f'https://s.taobao.com/search?q={key_word}'self.browser.get(url)shop_and_local_xpath = '//div[contains(@class, "J_MouserOnverReq")]//div[@class="row row-3 g-clearfix"]'shop_and_local = self.browser.find_elements_by_xpath(shop_and_local_xpath)for item in shop_and_local:self.process_item(item)# 这里是演示,所以只爬了前 5 页for page_num in range(2, 6):next_page_xpath = '//li[@class="item next"]'next_page = self.browser.find_element_by_xpath(next_page_xpath)next_page_enable = False if 'disabled' in next_page.get_attribute('class') else Trueif next_page_enable:print('*' * 100)print(f'第 {page_num} 页')next_page.click()# self.browser.refresh()self.wait.until(EC.presence_of_all_elements_located((By.XPATH, shop_and_local_xpath)))time.sleep(random.randint(3, 5))shop_and_local = self.browser.find_elements_by_xpath(shop_and_local_xpath)for item in shop_and_local:self.process_item(item)else:breakif __name__ == '__main__':tb = TaoBaoSearch()tb.main()

抓取信息保存到 info.txt ,文件截图:

改进:

上面是一直有浏览器窗口的,没法使用 无头模式,可以使用 --user-data-dir 参数,然后设置无头模式。

如果想改变 Chrome 位置,可以设置  chrome_options.binary_location 为 chrome.exe 路径即可。

from selenium import webdriver
from selenium.webdriver.chrome.options import Optionsif __name__ == '__main__':chrome_options = Options()# 不使用默认的Chrome安装版本时,可以设置binary_location 指定 Chrome 路径 。# chrome 和 Chromium 对应 chromedriver.exe 版本不一样chrome_options.binary_location = r'D:\chrome\chrome.exe'# chrome_options.binary_location = r'D:\Chromium\chrome.exe'# chrome_options.add_argument('--headless')chrome_options.add_argument("--no-sandbox")chrome_options.add_argument('disable-infobars')chrome_options.add_argument(r'--user-data-dir=D:\chrome\userdatadir')# chrome_options.add_argument(r'--user-data-dir=D:\Chromium\userdatadir')browser = webdriver.Chrome(chrome_options=chrome_options,executable_path=r'D:\chrome\chromedriver.exe'# executable_path=r'D:\Chromium\chromedriver.exe')browser.get('https://www.taobao.com/')user_name_xpath = '//div[@class="site-nav-user"]/a'user_name = browser.find_element_by_xpath(user_name_xpath).textprint(user_name)

结果截图:

可以看到 无头模式下,使用 --user-data-dir 参数,可以登录淘宝。前提需要先手动登录淘宝,拿到登录信息的文件夹。

方法 2:js 注入,修改浏览器特征

执行代码后,手动输入用户名和密码,滑动滑块,可以正常跳转到登录后个人页面。

提示:这个手动滑动滑块有一定的失败几率,有时候失败几率还很高。有时一次就可以滑过,有时好多次都过不去。

示例代码:

import asyncio
from pyppeteer import launchwidth, height = 1366, 768js1 = '''() =>{Object.defineProperties(navigator,{ webdriver:{ get: () => false}})}'''
js2 = '''() => {alert(window.navigator.webdriver)}'''
js3 = '''() => {window.navigator.chrome = {runtime: {}, }; }'''
js4 = '''() =>{Object.defineProperty(navigator, 'languages', {get: () => ['en-US', 'en']});}'''
js5 = '''() =>{Object.defineProperty(navigator, 'plugins', {get: () => [1, 2, 3, 4, 5,6],});}'''async def page_evaluate(page):# 替换淘宝在检测浏览时采集的一些参数# 需要注意,在测试的过程中发现登陆成功后页面的该属性又会变成True# 所以在每次重新加载页面后要重新设置该属性的值。await page.evaluate('''() =>{ Object.defineProperties(navigator,{ webdriver:{ get: () => false } }) }''')await page.evaluate('''() =>{ window.navigator.chrome = { runtime: {},  }; }''')await page.evaluate('''() =>{ Object.defineProperty(navigator, 'languages', { get: () => ['en-US', 'en'] }); }''')await page.evaluate('''() =>{ Object.defineProperty(navigator, 'plugins', { get: () => [1, 2, 3, 4, 5,6], }); }''')async def main():browser = await launch(headless=False,# userDataDir='./userdata',args=['--disable-infobars', f'--window-size={width},{height}', '--no-sandbox'])page = await browser.newPage()await page.setViewport({"width": width,"height": height})# url = 'https://www.taobao.com'url = 'https://login.taobao.com/member/login.jhtml'await page.goto(url=url)await page.evaluate(js1)await page.evaluate(js3)await page.evaluate(js4)await page.evaluate(js5)# await page_evaluate(page)await asyncio.sleep(100)# await browser.close()asyncio.get_event_loop().run_until_complete(main())

方法 3:将 模拟浏览器 设置为 开发者模式

好像现在这种方法不好用了。。。。。。。。

示例代码:

chrome_options = Options()# 制定 chrome.exe 路径名
# chrome_options.binary_location = f"{current_dir}\\chrome\\chrome.exe" # 此步骤很重要,设置为开发者模式,防止被各大网站识别出来使用了Selenium
chrome_options.add_experimental_option('excludeSwitches', ['enable-automation'])# chrome_options.add_argument("--headless")
chrome_options.add_argument("disable-infobars")
chrome_options.add_argument("--no-sandbox")
chrome_options.add_argument(f"--user-data-dir={current_dir}\\chrome\\userdatadir")
browser = webdriver.Chrome(chrome_options=chrome_options,executable_path=f'{current_dir}\\chrome\\chromedriver.exe'
)

突破淘宝对于 selenium 检测相关推荐

  1. 使用pyppeteer突破淘宝selenium检测实现登陆

    前言 在两年前写过一个selenium驱动的淘宝爬虫,突然今天拿来运行的时候,需要登录才能采集到数据,于是定位一下元素,发现需要解决滑动验证码问题,简单写了模拟滑动的请求,发现怎么滑动都无法通过认证, ...

  2. 突破淘宝登录滑块验证反爬,防止识别为Chrome自动控制

    文章首发于慕课网手记,已同步到个人博客:https://www.donlex.cn 上次的文章<在爬100万数据的时候,我发现了爬虫的进阶之路> ,有"怂恿"大家伙去突 ...

  3. 针对淘宝反selenium的反反爬措施详讲1-----pyautogui

    现在某猫和某宝在反反selenium的道路上越越来恶毒了,大部分是检测webdriver的关键符(网上有很多介绍这里就不一一介绍了)当我们遇到反selenium那该怎么办??????????????? ...

  4. 淘宝封杀selenium的ua算法分析

    接上一回,我们大致梳理了淘宝封杀selenium的思路,找到核心的参数ua,并抛出疑问:为什么ua每次都不一样,并且随着使用次数次数增加长度越来越长. 关于为什么每次获取的ua参数长度都不一样,有个网 ...

  5. 最新突破“淘宝”登录接口方法,隐藏selenium,攻克滑块验证码

    今日因为工作需要,需要抓取淘宝上一些商品详情信息,而商品详情信息必须要在登陆以后才能进行访问,所以想要抓取商品信息,模拟登陆是第一个必须要解决的问题. 淘宝的模拟登陆说难也不难,说不难,也蛮多坑的.今 ...

  6. Python爬虫淘宝基于selenium抓取淘宝商品数据2021年测试过滑动验证

    配置一下"可能需要修改的参数",就可以食用底部代码了,ps:可能已失效 本文章代码功能 准备工作 Python用到的库和准备工作 可能需要修改的参数 在CMD中打开一个Chrome ...

  7. 您的请求参数与订单信息不一致_[淘客订单检测]淘宝客订单检测接口,淘客订单查询API...

    功能 1.输入交易的订单编号,即可查询该订单是否为淘宝客订单.有意向请联系卫星weixiaot168. 2.查询结果 0:不是淘宝客订单:1:是. 3.根据淘宝官方的后台数据,进行检测,数据真实且有效 ...

  8. 淘宝开源代码检测工具!(附源码)

    点击上方[全栈开发者社区]→右上角[...]→[设为星标⭐]          正文   好的代码一定是整洁的,并且能够帮助阅读的人快速理解和定位.好的代码可以加快应用的开发迭代速度,不必花过多的时间 ...

  9. selenium的封杀与突破,记录一次出师未捷身先死,淘宝、美团对爬虫的深入打击

    做爬虫,出师未捷身先死,体会过吗?!!! 最近在做一个国外的网站爬虫中文名叫蝙蝠,有网友这样介绍的:"贸易中介类的网站,PR值是6,网站比较可靠":上面记录了很多公司的信息,如电话 ...

  10. 如何解决selenium被检测,实现淘宝登陆

    爬虫都会碰到某些网站刚刚打开页面就被判定为:非人类行为 因为很多网站有对selenium的js监测机制.比如:navigator.webdriver,navigator.languages,navig ...

最新文章

  1. ASP.NET ListView控件基本操作
  2. Android开发究竟该如何学习,成功入职字节跳动
  3. cadence原理图封装pin名称重复_Cadence原理图库文件引脚名重复处理方法介绍
  4. hdu 1159 Common Subsequence (dp)
  5. CodeForces - 1287D Numbers on Tree(dfs+stl)
  6. POJ 3070 Fibonacci(矩阵高速功率)
  7. plc组态编程需要学多少c语言,快速学习PLC编程,其实很简单!
  8. 中望cad文字显示问号怎么办_中望CAD图纸显示乱码?如何快速解决字体问题
  9. 微信公众号提供的服务器地址,微信测试号与公众号能填同一个服务器地址吗?...
  10. 一级计算机excel打不开,Excel打不开,教您怎么解决Excel打不开
  11. 老哥,Java 中 final 和 effectively final 到底有什么区别?
  12. Android网络通信(一)
  13. C++程序避免触发 Win7下的程序兼容助手
  14. android自动化测试unity,基于Unity3D引擎的UI自动化测试方案
  15. spring boot电商系统前端界面设计与浏览器兼容性研究 毕业设计-附源码231058
  16. VLDB论文解读:阿里云超大规模实时分析型数据库AnalyticDB
  17. 微信 android兼容性问题怎么解决方案,微信7.0版本与EMUI系统兼容性问题,华为官方是这样回复的...
  18. 邮件SMTP ESMTP(命令行方式发送)
  19. 一、考研英语阅读能力高效能提升原则案例剖析-考研英语一2019年完型填空-如何走出迷失的森林(待续)
  20. Python自定义一个异常类【注释详细】

热门文章

  1. 环洋市场咨询:全球OLED收入预计2028年达到502.4亿美元
  2. nginx 配置https 负载均衡
  3. RabbitMQ交换机的讲解
  4. boder sizing:boder-box的使用意义
  5. php 汉字转拼音 扩展,PHP中文转拼音扩展
  6. linux mysqldump 备份所有数据库,mysqldump导出所有数据库
  7. 整数的故事(3)——最小公倍数与哥德巴赫猜想
  8. 如何写好一篇综述类论文?
  9. 阿里云服务器使用宝塔面板管理以及项目部署
  10. DP/eDP协议学习--视频传输格式