前言

目前在对淘宝进行数据爬取的时候都会碰到,登入时的滑块问题,无论是手动还是脚本都不成功。这里的很重要一个原因是很多的网站都对selenium做了反爬虫机制。接下来是笔者参考网上的网友们的方法亲自测试的一个方法,希望可以帮助到大家。注意这里使用的浏览器是Chrome。所以使用的驱动也是chromedriver

一,淘宝反扒js

在淘宝登入页面加载的js中,可以看到怎么一行代码,如下图:

上图的这一行代码就对selenium进行了检测。所以我们只需要修改驱动的改行代码就可以。

二,修改chromedriver.exe

vim chromedriver.exe

cdc_通过键入/cdc_并按下来搜索return。

按下启用编辑a。

删除任意数量的内容$cdc_lasutopfhvcZLmcfl并用等量字符替换已删除的内容。如果不这样做,chromedriver将会失败。

完成编辑后,按esc。

要保存更改并退出,请键入:wq!并按return。

完成上述步骤就可以了:下图是笔者的修改,就将最后一个字符l 改为 a

三,测试代码

注意下面代码的:chrome_option 以开发者模式,否则依然需要滑块

#!/usr/bin/env python

# -*- coding: utf-8 -*-

from selenium import webdriver

from selenium.webdriver.support.ui import WebDriverWait

from selenium.webdriver.common.by import By

from selenium.webdriver.support import expected_conditions as EC

chrome_option = webdriver.ChromeOptions()

chrome_option.add_experimental_option('excludeSwitches', ['enable-automation']) # 以开发者模式

driver = webdriver.Chrome(options=chrome_option)

wait = WebDriverWait(driver, 10)

def search():

driver.get('https://www.taobao.com')

try:

search_input = wait.until(

EC.presence_of_element_located((By.CSS_SELECTOR, '#q'))

)

search_submit = wait.until(

EC.presence_of_element_located((By.CSS_SELECTOR, '#J_TSearchForm > div.search-button > button'))

)

finally:

pass

search_input.send_keys('美食'.decode('utf-8'))

search_submit.click()

login()

def login():

try:

login_before = wait.until(

EC.presence_of_element_located((By.CSS_SELECTOR, '#J_QRCodeLogin > div.login-links > a.forget-pwd.J_Quick2Static'))

)

login_before.click()

username = wait.until(

EC.presence_of_element_located((By.CSS_SELECTOR, '#TPL_username_1'))

)

password = wait.until(

EC.presence_of_element_located((By.CSS_SELECTOR, '#TPL_password_1'))

)

username.send_keys('xxxxx') # 用户名

password.send_keys('xxxxx') # 密码

login_submit = wait.until(

EC.presence_of_element_located((By.CSS_SELECTOR, '#J_SubmitStatic'))

)

login_submit.click()

finally:

pass

def main():

search()

if __name__ == '__main__':

main()

python获取淘宝登入cookies

重点:去新浪微博登入接口登入 一.代码 # coding=utf-8 import requests from selenium.webdriver.common.by import By from ...

pyppeteer硬钢掉淘宝登入的滑块验证

完整代码我也不好公布,我可以给你们思路,以及部分代码动动脑子看看文档应该也能搞定 一.初始化Chromium浏览器相关属性 browser = await pyppeteer.launch({'hea ...

简单的抓取淘宝关键字信息、图片的Python爬虫|Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇)

Python3中级玩家:淘宝天猫商品搜索爬虫自动化工具(第一篇) 淘宝改字段,Bugfix,查看https://github.com/hunterhug/taobaoscrapy.git 由于Gith ...

MyEclipse8.6启动后提示内存不足的解决方案(亲测,完美解决)

转自:http://www.bubuko.com/infodetail-1625857.html 最近可能由于公司项目大了,启动MyEclipse后经常提示内存不足的警告框,如下: 其实点击close ...

Python攻破淘宝网各类反爬手段,采集淘宝网ZDB(女用)的销量!

声明: 由于某些原因,我这里会用手机代替,其实是一样的! 环境: windows python3.6.5 模块: time selenium re 环境与模块介绍完毕后,就可以来实行我们的操作了. 第 ...

Selenium与phantomJS 登入豆瓣 有bug

# -*- coding:utf-8 -*- from selenium import webdriver from selenium.webdriver.common.keys import Key ...

office2010使用mathtype时,出现未找到MathPage.WLL解决方案--亲测有用

安装mathtype时,出现如下错误: 解决方案: 参考此网址中的内容:http://www.mathtype.cn/wenti/word-jianrong.html 首先需要找到在Word加载的两个 ...

secureCRT无操作自动登出时间修改(亲测可用)

转自:http://blog.sina.com.cn/s/blog_6bcf42010102vlt9.html secureCRT连接机器经常会因为一段时间无操作就退出了,提示timed out wa ...

linux无界面模式安装selenium+chrome+chromedriver并成功完成脚本(亲测可用)

环境:docker centos 7.4 能通外网 写好的selenium脚本. 具体步骤: 一:安装selenium  这是最简单的 直接利用 pip3 install selenium 二 安装c ...

随机推荐

深入理解redis持久化

持久化方式: 快照(RDB)方式,默认方式,文件以二进制方式保存到RDB文件. 文件追加(AOF)方式,文件以协议文本的方式write到AOF文件. 作用,重启后的数据恢复.当两种方式都启用时,red ...

Server.mappath用法

1.Server.MapPath ("/") 应用程序根目录所在的位置 如 C:\qq\qqroot\ 2.Server.MapPath ("./") 表示所在 ...

【知识积累】爬虫之网页乱码解决方法(gb2312 -> utf-8)

前言 今天在测试爬虫项目时,发现了一个很严肃的问题,当爬取的网页编码格式为gb2312时,按照一般的办法转化为utf-8编码时总是乱码,PS:爬取的所有网页无论何种编码格式,都转化为utf-8格式进行 ...

新鲜出炉的30个精美的 jQuery & CSS3 效果【附演示和教程】

新鲜出炉的30个精美的 jQuery & CSS3 效果[附演示和教程]   作为最流行的 JavaScript 开发框架,jQuery 在现在的 Web 开发项目中扮演着重要角色,它简化了 ...

hcatalog配置

 https://cwiki.apache.org/confluence/display/Hive/HCatalog+CLI hive的配置中添加: export PATH=$PATH:$HIVE ...

Ubuntu下安装Skyeye

ubuntu12下安装skyeye1.3.2 1.首先安装skyeye的依赖包,比如gtk的依赖,一般Ubuntu 都默认安装了,稳妥起见,运行下面的代码: sudo apt-get install ...

Unix/Linux环境C编程入门教程(25) C/C++字符测试那些事儿

isalnum isalpha isascii iscntrl isdigit isgraph isislower isprint isspace ispunct isupper isxdigit介绍 ...

VMware vSphere 服务器虚拟化之十七 桌面虚拟化之安装View链接服务器

VMware vSphere 服务器虚拟化之十七 桌面虚拟化之安装View链接服务器 View链接服务器(View Connection Server)是Vmware Horizon View桌面虚拟 ...

WPF学习随笔

内容控件 Padding内边距,Margin外边距 1.ScrollViewer滚动条控件

python遇到天猫反爬虫_selenium 淘宝登入反爬虫解决方案(亲测有效)相关推荐

  1. 织梦dedecms淘宝登入插件

    为什么80%的码农都做不了架构师?>>>    织梦淘宝登入插件1.0 应用介绍: 织梦淘宝登入插件,可以让以织梦建立的站点,快速通过淘宝用户绑定本来的会员帐号,实现快速的登入 下载 ...

  2. 网络爬虫实战||淘宝、股票定向爬虫

    正则表达式的概念 regular expression           regex          RE 正则表达式是用来简洁表达一组字符串的表达式. 正则表达式的优势:简洁 正则表达式的语法 ...

  3. python淘宝cookies抢购_python获取淘宝登入cookies

    重点:去新浪微博登入接口登入 一.代码# coding=utf-8 import requests from selenium.webdriver.common.by import By from s ...

  4. python 淘宝滑块验证_pyppeteer硬钢掉淘宝登入的滑块验证

    完整代码我也不好公布,我可以给你们思路,以及部分代码动动脑子看看文档应该也能搞定 一.初始化chromium浏览器相关属性 browser = await pyppeteer.launch({'hea ...

  5. 网络定向爬虫实例---淘宝商品信息比价

    目录 一.前言: 二.前期准备: 1.如何绕过防爬虫 2.一些常见的问题及处理方法: 三.爬虫实例结构分析: 1.主体结构: 2.分析: (1)爬虫可行性: (2)网站数据结构 四.爬虫实例展示: 1 ...

  6. Python爬虫学习笔记(实例:淘宝商品信息定向爬虫)

    淘宝商品信息定向爬虫先贴代码,后看解析: #淘宝商品信息定向爬虫 import requests import re#获得页面 def getHTMLText(url):try:#headers = ...

  7. 1499飞天茅台脚本使用过程中遇到的Python问题汇总索引目录【淘宝-天猫超市、京东】

    1499飞天茅台脚本使用过程中遇到的Python问题汇总索引目录[淘宝-天猫超市.京东] 1499飞天茅台脚本使用过程中遇到的Python问题汇总索引目录[淘宝-天猫超市.京东] @[TOC] 原文地 ...

  8. Python淘宝美眉图片下载爬虫视频教程-何家胜-专题视频课程

    Python淘宝美眉图片下载爬虫视频教程-21985人已学习 课程介绍         本套视频主要讲述Python项目实训一:如何利用Python的while循环体设计实现网络爬虫刷博器的程序的设计 ...

  9. 中国大学排名定向爬虫以及淘宝商品爬虫参考嵩天老师Python爬虫课程遇到的问题及解决

    首先附上课程中程序,无法正常运行 把2016年的url更改为今年的url:http://www.shanghairanking.cn/rankings/bcur/2020 代码如下: import r ...

最新文章

  1. 从源码角度来读Handler
  2. oracle中spool卸数,Oracle中如何快速的卸载和加载数据?
  3. 用上 RocketMQ,系统性能提升了 10 倍!
  4. linux配置gprs modem
  5. TotoiseSVN-小乌龟的使用方法总结
  6. 摆脱困境:将环境特定的Cron表达式与@Scheduled批注一起使用
  7. Html5中新增的表单元素详解
  8. 【毕业前夕,畅谈科研】一个清华土著的科研感想
  9. 9076什么意思_(9076)《人力资源开发与管理》网上作业题及答案
  10. Maven解决Failed to instantiate SLF4J LoggerFactory报错
  11. php textarea换行
  12. android 原生 电子邮件 应用 发送邮件附带 中文名附件时 附件名称乱码问题解决...
  13. android实现b站弹幕,B站弹幕库DanmakuFlameMaster源码浅析
  14. Minecraft 1.12.2模组开发(三十七) 3D盔甲
  15. 如何用计算机解开op手机密码,OPPO手机忘记解锁密码怎么办 OPPO R9忘记解锁密码解锁教程...
  16. python编写水仙花数(超完全数字不变数、自恋数、自幂数、阿姆斯特朗数)
  17. (逆向工程)Android一键脱壳工具(MDEX)
  18. 51单片机ADDA数模转换
  19. xms和xmx为什么要相同_为什么结婚蚕丝被,一定要有双宫茧子母被?
  20. mac彻底卸载idea

热门文章

  1. vba 将http.responseText返回的 unicode字符转换成中文
  2. 基于前端Js模块化规范的粗浅应用
  3. leetcode17 Sum of Two Integers
  4. 2010数据库大事记
  5. 安卓手机通讯录恢复教程
  6. 杭电计算机专硕报考人数,杭电考研各科目考试工具规定公布,它的报考人数却……...
  7. 程序员10大境界【走在路上,潜心修行】
  8. 极验第四代滑块验证码破解(四):请求分析及加密参数破解
  9. Windows下Nexus 5的Android 5.0以上版本官方ROM的刷机教程
  10. 山东省第三届ACM省赛