python遇到天猫反爬虫_selenium 淘宝登入反爬虫解决方案（亲测有效）

前言

目前在对淘宝进行数据爬取的时候都会碰到，登入时的滑块问题，无论是手动还是脚本都不成功。这里的很重要一个原因是很多的网站都对selenium做了反爬虫机制。接下来是笔者参考网上的网友们的方法亲自测试的一个方法，希望可以帮助到大家。注意这里使用的浏览器是Chrome。所以使用的驱动也是chromedriver

一，淘宝反扒js

在淘宝登入页面加载的js中，可以看到怎么一行代码，如下图：

上图的这一行代码就对selenium进行了检测。所以我们只需要修改驱动的改行代码就可以。

二，修改chromedriver.exe

vim chromedriver.exe

cdc_通过键入/cdc_并按下来搜索return。

按下启用编辑a。

删除任意数量的内容$cdc_lasutopfhvcZLmcfl并用等量字符替换已删除的内容。如果不这样做，chromedriver将会失败。

完成编辑后，按esc。

要保存更改并退出，请键入:wq!并按return。

完成上述步骤就可以了：下图是笔者的修改，就将最后一个字符l 改为 a

三，测试代码

注意下面代码的：chrome_option 以开发者模式，否则依然需要滑块

#!/usr/bin/env python

# -*- coding: utf-8 -*-

from selenium import webdriver

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.common.by import By

from selenium.webdriver.support import expected_conditions as EC

chrome_option = webdriver.ChromeOptions()

chrome_option.add_experimental_option('excludeSwitches', ['enable-automation']) # 以开发者模式

driver = webdriver.Chrome(options=chrome_option)

wait = WebDriverWait(driver, 10)

def search():

driver.get('https://www.taobao.com')

try:

search_input = wait.until(

EC.presence_of_element_located((By.CSS_SELECTOR, '#q'))

)

search_submit = wait.until(

EC.presence_of_element_located((By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button'))

)

finally:

pass

search_input.send_keys('美食'.decode('utf-8'))

search_submit.click()

def login():

try:

login_before = wait.until(

EC.presence_of_element_located((By.CSS_SELECTOR, '#J_QRCodeLogin > div.login-links > a.forget-pwd.J_Quick2Static'))

)

login_before.click()

username = wait.until(

EC.presence_of_element_located((By.CSS_SELECTOR, '#TPL_username_1'))

)

password = wait.until(

EC.presence_of_element_located((By.CSS_SELECTOR, '#TPL_password_1'))

)

username.send_keys('xxxxx') # 用户名

password.send_keys('xxxxx') # 密码

login_submit = wait.until(

EC.presence_of_element_located((By.CSS_SELECTOR, '#J_SubmitStatic'))

)

login_submit.click()

finally:

pass

def main():

search()

if __name__ == '__main__':

main()

python获取淘宝登入cookies

重点:去新浪微博登入接口登入一.代码 # coding=utf-8 import requests from selenium.webdriver.common.by import By from ...

pyppeteer硬钢掉淘宝登入的滑块验证

完整代码我也不好公布,我可以给你们思路,以及部分代码动动脑子看看文档应该也能搞定一.初始化Chromium浏览器相关属性 browser = await pyppeteer.launch({'hea ...

简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家：淘宝天猫商品搜索爬虫自动化工具(第一篇)

Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇) 淘宝改字段,Bugfix,查看https://github.com/hunterhug/taobaoscrapy.git 由于Gith ...

MyEclipse8&period;6启动后提示内存不足的解决方案(亲测，完美解决)

转自:http://www.bubuko.com/infodetail-1625857.html 最近可能由于公司项目大了,启动MyEclipse后经常提示内存不足的警告框,如下: 其实点击close ...

Python攻破淘宝网各类反爬手段，采集淘宝网ZDB(女用)的销量！

声明: 由于某些原因,我这里会用手机代替,其实是一样的! 环境: windows python3.6.5 模块: time selenium re 环境与模块介绍完毕后,就可以来实行我们的操作了. 第 ...

Selenium与phantomJS 登入豆瓣有bug

# -*- coding:utf-8 -*- from selenium import webdriver from selenium.webdriver.common.keys import Key ...

office2010使用mathtype时，出现未找到MathPage&period;WLL解决方案--亲测有用

安装mathtype时,出现如下错误: 解决方案: 参考此网址中的内容:http://www.mathtype.cn/wenti/word-jianrong.html 首先需要找到在Word加载的两个 ...

secureCRT无操作自动登出时间修改(亲测可用)

转自:http://blog.sina.com.cn/s/blog_6bcf42010102vlt9.html secureCRT连接机器经常会因为一段时间无操作就退出了,提示timed out wa ...

linux无界面模式安装selenium+chrome+chromedriver并成功完成脚本(亲测可用)

环境:docker centos 7.4 能通外网写好的selenium脚本. 具体步骤: 一:安装selenium 这是最简单的直接利用 pip3 install selenium 二安装c ...

随机推荐

深入理解redis持久化

持久化方式: 快照(RDB)方式,默认方式,文件以二进制方式保存到RDB文件. 文件追加(AOF)方式,文件以协议文本的方式write到AOF文件. 作用,重启后的数据恢复.当两种方式都启用时,red ...

Server&period;mappath用法

1.Server.MapPath ("/") 应用程序根目录所在的位置如 C:\qq\qqroot\ 2.Server.MapPath ("./") 表示所在 ...

【知识积累】爬虫之网页乱码解决方法(gb2312 -&gt&semi; utf-8)

前言今天在测试爬虫项目时,发现了一个很严肃的问题,当爬取的网页编码格式为gb2312时,按照一般的办法转化为utf-8编码时总是乱码,PS:爬取的所有网页无论何种编码格式,都转化为utf-8格式进行 ...

新鲜出炉的30个精美的 jQuery &amp&semi; CSS3 效果【附演示和教程】

新鲜出炉的30个精美的 jQuery & CSS3 效果[附演示和教程] 作为最流行的 JavaScript 开发框架,jQuery 在现在的 Web 开发项目中扮演着重要角色,它简化了 ...

hcatalog配置

https://cwiki.apache.org/confluence/display/Hive/HCatalog+CLI hive的配置中添加: export PATH=$PATH:$HIVE ...

Ubuntu下安装Skyeye

ubuntu12下安装skyeye1.3.2 1.首先安装skyeye的依赖包,比如gtk的依赖,一般Ubuntu 都默认安装了,稳妥起见,运行下面的代码: sudo apt-get install ...

Unix/Linux环境C编程入门教程(25) C/C++字符测试那些事儿

isalnum isalpha isascii iscntrl isdigit isgraph isislower isprint isspace ispunct isupper isxdigit介绍 ...

VMware vSphere 服务器虚拟化之十七桌面虚拟化之安装View链接服务器

VMware vSphere 服务器虚拟化之十七桌面虚拟化之安装View链接服务器 View链接服务器(View Connection Server)是Vmware Horizon View桌面虚拟 ...

WPF学习随笔

内容控件 Padding内边距,Margin外边距 1.ScrollViewer滚动条控件

python遇到天猫反爬虫_selenium 淘宝登入反爬虫解决方案（亲测有效）相关推荐

织梦dedecms淘宝登入插件
为什么80%的码农都做不了架构师?>>> 织梦淘宝登入插件1.0 应用介绍: 织梦淘宝登入插件,可以让以织梦建立的站点,快速通过淘宝用户绑定本来的会员帐号,实现快速的登入下载 ...
网络爬虫实战||淘宝、股票定向爬虫
正则表达式的概念 regular expression regex RE 正则表达式是用来简洁表达一组字符串的表达式. 正则表达式的优势:简洁正则表达式的语法 ...
python淘宝cookies抢购_python获取淘宝登入cookies
重点:去新浪微博登入接口登入一.代码# coding=utf-8 import requests from selenium.webdriver.common.by import By from s ...
python 淘宝滑块验证_pyppeteer硬钢掉淘宝登入的滑块验证
完整代码我也不好公布,我可以给你们思路,以及部分代码动动脑子看看文档应该也能搞定一.初始化chromium浏览器相关属性 browser = await pyppeteer.launch({'hea ...
网络定向爬虫实例---淘宝商品信息比价
目录一.前言: 二.前期准备: 1.如何绕过防爬虫 2.一些常见的问题及处理方法: 三.爬虫实例结构分析: 1.主体结构: 2.分析: (1)爬虫可行性: (2)网站数据结构四.爬虫实例展示: 1 ...
Python爬虫学习笔记(实例：淘宝商品信息定向爬虫)
淘宝商品信息定向爬虫先贴代码,后看解析: #淘宝商品信息定向爬虫 import requests import re#获得页面 def getHTMLText(url):try:#headers = ...
1499飞天茅台脚本使用过程中遇到的Python问题汇总索引目录【淘宝-天猫超市、京东】
1499飞天茅台脚本使用过程中遇到的Python问题汇总索引目录[淘宝-天猫超市.京东] 1499飞天茅台脚本使用过程中遇到的Python问题汇总索引目录[淘宝-天猫超市.京东] @[TOC] 原文地 ...
Python淘宝美眉图片下载爬虫视频教程-何家胜-专题视频课程
Python淘宝美眉图片下载爬虫视频教程-21985人已学习课程介绍本套视频主要讲述Python项目实训一:如何利用Python的while循环体设计实现网络爬虫刷博器的程序的设计 ...
中国大学排名定向爬虫以及淘宝商品爬虫参考嵩天老师Python爬虫课程遇到的问题及解决
首先附上课程中程序,无法正常运行把2016年的url更改为今年的url:http://www.shanghairanking.cn/rankings/bcur/2020 代码如下: import r ...

python遇到天猫反爬虫_selenium 淘宝登入反爬虫解决方案（亲测有效）

python遇到天猫反爬虫_selenium 淘宝登入反爬虫解决方案（亲测有效）相关推荐

最新文章

热门文章