python如何利用淘宝赚钱_Python攻破淘宝网各类反爬手段,采集淘宝网ZDB(女用)的销量!...
声明:由于某些原因,我这里会用手机代替,其实是一样的!环境:windows
python3.6.5模块:time
selenium
re
环境与模块介绍完毕后,就可以来实行我们的操作了。
完整代码:
链接:https://pan.baidu.com/s/1vL59KfVw5QWut9kG_EljeA
提取码:rt9q
(过期后,提醒我补即可!)第一步:
进入淘宝首页:
driver =webdriver.Chrome()driver.get('http://www.taobao.com')
第二步:在输入框中,输入想要查找的商品(keyword),往后用手机代替。
点击搜索按钮
driver.find_element_by_id('q').send_keys(keyword)driver.find_element_by_class_name('btn-search').click()
它会跳转到我们的登陆界面:
我们选择扫码登陆,那么既然要扫码,肯定就需要等待时间。一般提供10S即可,取决于你单身的年龄
time.sleep(10)
登陆后,我们跳转到了 含有信息的页面:
第三步:
提取出我们需要的信息,价格、订单量、商品信息、卖家地址:
很容易发现我们的商品信息都是包括在了class属性为item J_MouserOnverReq的div标签当中。
所以可以写出我们的xpath规则:
info = li.find_element_by_xpath('.//div[@class="row row-2 title"]').text price= li.find_element_by_xpath('.//a[@class="J_ClickStat"]').get_attribute('trace-price') + '元'deal= li.find_element_by_xpath('.//div[@class="deal-cnt"]').textname= li.find_element_by_xpath('.//div[@class="shop"]/a/span[2]').text position= li.find_element_by_xpath('.//div[@class="row row-3 g-clearfix"]/div[@class="location"]').text第四步:
第一页采集完毕后,我们需要进行翻页操作。
记住,这里千万不要去模拟点击下一页,会被反爬虫策略命中!
我们可以构造url,
很容易发现我们的url的步长为44,并且总页数为100。那么我们可以先提取出我们的总页数:
token = driver.find_element_by_xpath('//*[@id="mainsrp-pager"]/div/div/div/div[1]') token=token.text token= int(re.compile('(\d+)').search(token).group(1))
然后循环构造url:
[url=]
[/url] num = 1 while num != token - 1: driver.get('https://s.taobao.com/search?q={}&s={}'.format(keyword, 44 *num)) driver.implicitly_wait(10) drop_down() get_product() num+= 1
[url=]
[/url]效果:
少儿不宜
1813177-20190923161955062-111869.png (247.64 KB, 下载次数: 8)
2019-9-23 18:42 上传
好了今天的教程到此结束,希望对你有所帮助!
python如何利用淘宝赚钱_Python攻破淘宝网各类反爬手段,采集淘宝网ZDB(女用)的销量!...相关推荐
- 懒人动手,用python做一个基础翻译重命名器(破解百度翻译反爬手段)
想法: 在做开发的时候,经常需要命名各种变量,方法/函数,类,包,库等. 走一遍流程就是:想好要起的名字,比如"非常帅气": 然后上翻译网站,比如百度翻译,有道翻译: 将中文输入并 ...
- python网络爬虫系列(八)——常见的反爬手段和解决方法
常见的反爬手段和解决思路 学习目标 了解 服务器反爬的原因 了解 服务器常反什么样的爬虫 了解 反爬虫领域常见的一些概念 了解 反爬的三个方向 了解 常见基于身份识别进行反爬 了解 常见基于爬虫行为进 ...
- Python 常见的反爬手段和解决思路
学习目标: 1.了解 服务器反爬的原因: 2.了解 服务器常反什么样的爬虫: 3.了解 反爬虫领域常见的一些概念: 4.了解 反爬的三个方向: 5.了解 常见基于身份识别进行反爬: 6.了解 常见基于 ...
- pythonttf字体反爬虫_Python爬虫---汽车之家字体反爬
本篇文章给大家带来的内容是关于Python爬虫---汽车之家字体反爬,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 目标网站:汽车之家 目标网址:https://club.autoh ...
- 写python爬虫的第一天,拿百度练手遇到 “ 被反爬遇到<title>百度安全验证</title> ” 的解决方案
博主第一次写博文,第一次学爬虫,就是想分享,大家见怪不怪, 首先我设置了一个自定义UA代理池并没有采用插件pip install fake-useragent形式进行随机获取print(ua.ie) ...
- python中利用字典加密字符串_python 数字字典加密非汉字
简单版 特点是,无需借助任何第三方库. #加密和解密文件#字段内容以 ; 分割 classCrypt():def __init__(self,line): self.line=line self.li ...
- 使用selenium爬取淘宝商品数据,搜索关键词分类(反爬很难?)
环境准备 博主python为3.8,应该3.x的都没问题下载selenium: pip install selenium 也可以使用清华镜像下载 pip install -i https://pypi ...
- python当输入0时结束_python输入-1时结束-女性时尚流行美容健康娱乐mv-ida网
女性时尚流行美容健康娱乐mv-ida网 mvida时尚娱乐网 首页 美容 护肤 化妆技巧 发型 服饰 健康 情感 美体 美食 娱乐 明星八卦 首页 > 高级搜索 python 读取键盘 输入 ...
- python中遍历二维数组_python遍历二维数组-女性时尚流行美容健康娱乐mv-ida网
女性时尚流行美容健康娱乐mv-ida网 mvida时尚娱乐网 首页 美容 护肤 化妆技巧 发型 服饰 健康 情感 美体 美食 娱乐 明星八卦 首页 > 高级搜索 二 维 数组 5.2.1 二 ...
最新文章
- 【原】Java学习笔记020 - 面向对象
- Nmap 7.70新增功能——扫描主机所有IP
- 408最后计算机网络题库,2021考研计算机统考408专业基础综合题库
- DaDa英语宣布12月31日起全面停止所有外教服务
- php beanstalkd使用,如何用PHP设置Beanstalkd
- 宁波市建筑物矢量数据(Shp格式+带高度)
- 后台查询到前台所需,数据结构转换的通用方法(三) 地图-色斑图的对接
- android软件画面共享,安卓两台手机怎么实现屏幕共享?安卓两台手机实现屏幕共享教程...
- 一个以表驱动得汉字转拼音的库
- 解决IE当前脚本发生错误异常
- bat脚本_更改文件夹访问权限
- php post伪装ip,PHP中用CURL伪造IP来源的方法
- Linux查看服务器SN序列码
- 模拟电子经典200问
- 10019---SpringBoot简介
- 远程访问及控制SSH
- 分布式电商项目五:使用人人开源搭建前后分离的后台管理系统
- 简单的注册表代码记录
- 小米手机二季度国内业绩回稳微增,雷军组织架构调整成效初显
- cat5e跑万兆_全网最标准的万兆网线测试!超五类到底能不能跑万兆?