声明:由于某些原因,我这里会用手机代替,其实是一样的!环境:windows

python3.6.5模块:time

selenium

re

环境与模块介绍完毕后,就可以来实行我们的操作了。

完整代码:

链接:https://pan.baidu.com/s/1vL59KfVw5QWut9kG_EljeA

提取码:rt9q

(过期后,提醒我补即可!)第一步:

进入淘宝首页:

driver =webdriver.Chrome()driver.get('http://www.taobao.com')

第二步:在输入框中,输入想要查找的商品(keyword),往后用手机代替。

点击搜索按钮

driver.find_element_by_id('q').send_keys(keyword)driver.find_element_by_class_name('btn-search').click()

它会跳转到我们的登陆界面:

我们选择扫码登陆,那么既然要扫码,肯定就需要等待时间。一般提供10S即可,取决于你单身的年龄

time.sleep(10)

登陆后,我们跳转到了 含有信息的页面:

第三步:

提取出我们需要的信息,价格、订单量、商品信息、卖家地址:

很容易发现我们的商品信息都是包括在了class属性为item J_MouserOnverReq的div标签当中。

所以可以写出我们的xpath规则:

info = li.find_element_by_xpath('.//div[@class="row row-2 title"]').text        price= li.find_element_by_xpath('.//a[@class="J_ClickStat"]').get_attribute('trace-price') + '元'deal= li.find_element_by_xpath('.//div[@class="deal-cnt"]').textname= li.find_element_by_xpath('.//div[@class="shop"]/a/span[2]').text        position= li.find_element_by_xpath('.//div[@class="row row-3 g-clearfix"]/div[@class="location"]').text第四步:

第一页采集完毕后,我们需要进行翻页操作。

记住,这里千万不要去模拟点击下一页,会被反爬虫策略命中!

我们可以构造url,

很容易发现我们的url的步长为44,并且总页数为100。那么我们可以先提取出我们的总页数:

token = driver.find_element_by_xpath('//*[@id="mainsrp-pager"]/div/div/div/div[1]')    token=token.text    token= int(re.compile('(\d+)').search(token).group(1))

然后循环构造url:

[url=]

[/url]    num = 1    while num != token - 1:        driver.get('https://s.taobao.com/search?q={}&s={}'.format(keyword, 44 *num))        driver.implicitly_wait(10)        drop_down()        get_product()        num+= 1

[url=]

[/url]效果:

少儿不宜

1813177-20190923161955062-111869.png (247.64 KB, 下载次数: 8)

2019-9-23 18:42 上传

好了今天的教程到此结束,希望对你有所帮助!

python如何利用淘宝赚钱_Python攻破淘宝网各类反爬手段,采集淘宝网ZDB(女用)的销量!...相关推荐

  1. 懒人动手,用python做一个基础翻译重命名器(破解百度翻译反爬手段)

    想法: 在做开发的时候,经常需要命名各种变量,方法/函数,类,包,库等. 走一遍流程就是:想好要起的名字,比如"非常帅气": 然后上翻译网站,比如百度翻译,有道翻译: 将中文输入并 ...

  2. python网络爬虫系列(八)——常见的反爬手段和解决方法

    常见的反爬手段和解决思路 学习目标 了解 服务器反爬的原因 了解 服务器常反什么样的爬虫 了解 反爬虫领域常见的一些概念 了解 反爬的三个方向 了解 常见基于身份识别进行反爬 了解 常见基于爬虫行为进 ...

  3. Python 常见的反爬手段和解决思路

    学习目标: 1.了解 服务器反爬的原因: 2.了解 服务器常反什么样的爬虫: 3.了解 反爬虫领域常见的一些概念: 4.了解 反爬的三个方向: 5.了解 常见基于身份识别进行反爬: 6.了解 常见基于 ...

  4. pythonttf字体反爬虫_Python爬虫---汽车之家字体反爬

    本篇文章给大家带来的内容是关于Python爬虫---汽车之家字体反爬,有一定的参考价值,有需要的朋友可以参考一下,希望对你有所帮助. 目标网站:汽车之家 目标网址:https://club.autoh ...

  5. 写python爬虫的第一天,拿百度练手遇到 “ 被反爬遇到<title>百度安全验证</title> ” 的解决方案

    博主第一次写博文,第一次学爬虫,就是想分享,大家见怪不怪, 首先我设置了一个自定义UA代理池并没有采用插件pip install fake-useragent形式进行随机获取print(ua.ie) ...

  6. python中利用字典加密字符串_python 数字字典加密非汉字

    简单版 特点是,无需借助任何第三方库. #加密和解密文件#字段内容以 ; 分割 classCrypt():def __init__(self,line): self.line=line self.li ...

  7. 使用selenium爬取淘宝商品数据,搜索关键词分类(反爬很难?)

    环境准备 博主python为3.8,应该3.x的都没问题下载selenium: pip install selenium 也可以使用清华镜像下载 pip install -i https://pypi ...

  8. python当输入0时结束_python输入-1时结束-女性时尚流行美容健康娱乐mv-ida网

    女性时尚流行美容健康娱乐mv-ida网 mvida时尚娱乐网 首页 美容 护肤 化妆技巧 发型 服饰 健康 情感 美体 美食 娱乐 明星八卦 首页  > 高级搜索 python 读取键盘 输入 ...

  9. python中遍历二维数组_python遍历二维数组-女性时尚流行美容健康娱乐mv-ida网

    女性时尚流行美容健康娱乐mv-ida网 mvida时尚娱乐网 首页 美容 护肤 化妆技巧 发型 服饰 健康 情感 美体 美食 娱乐 明星八卦 首页  > 高级搜索 二 维 数组 5.2.1 二 ...

最新文章

  1. 【原】Java学习笔记020 - 面向对象
  2. Nmap 7.70新增功能——扫描主机所有IP
  3. 408最后计算机网络题库,2021考研计算机统考408专业基础综合题库
  4. DaDa英语宣布12月31日起全面停止所有外教服务
  5. php beanstalkd使用,如何用PHP设置Beanstalkd
  6. 宁波市建筑物矢量数据(Shp格式+带高度)
  7. 后台查询到前台所需,数据结构转换的通用方法(三) 地图-色斑图的对接
  8. android软件画面共享,安卓两台手机怎么实现屏幕共享?安卓两台手机实现屏幕共享教程...
  9. 一个以表驱动得汉字转拼音的库
  10. 解决IE当前脚本发生错误异常
  11. bat脚本_更改文件夹访问权限
  12. php post伪装ip,PHP中用CURL伪造IP来源的方法
  13. Linux查看服务器SN序列码
  14. 模拟电子经典200问
  15. 10019---SpringBoot简介
  16. 远程访问及控制SSH
  17. 分布式电商项目五:使用人人开源搭建前后分离的后台管理系统
  18. 简单的注册表代码记录
  19. 小米手机二季度国内业绩回稳微增,雷军组织架构调整成效初显
  20. cat5e跑万兆_全网最标准的万兆网线测试!超五类到底能不能跑万兆?

热门文章

  1. android生命周期测试
  2. Android NDK开发(三)——常见错误集锦以及LOG使用,androidndk
  3. 为什么做UTDD(单元测试驱动开发)
  4. uniapp组件传值的方法(父传子,子传父,对象传值)案例
  5. 什么是vue.js?(概念很清楚)
  6. 全国职称计算机考试取消了吗,全国职称计算机考试取消必考模块 考生自选
  7. 计算递归算法时间复杂度通用公式
  8. 阿里云盘官网登陆入口
  9. 抛弃Acdsee,评论几款看图软件;呼唤能自动翻转照片的功能
  10. 如何走上定制化开发成功之路