现在登录用微博登录的方式已经不行了

参考链接https://zhuanlan.zhihu.com/p/558502415

使用的开发工具是Jupyter_Notebooks

参考视频https://www.bilibili.com/video/BV1qp4y1X7yX/?spm_id_from=333.337.search-card.all.click&vd_source=c40c7008d10b593c356ef95de83e88a3

这个视频没有区分淘宝和天猫,实际爬取的时候淘宝和天猫的html的元素名字不太一样;

from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver import ActionChains
import timeurl = 'https://www.taobao.com/'s = Service(r'C:\Users\addoi\AppData\Local\Google\Chrome\Application\chromedriver.exe')
#driver = webdriver.Chrome(service=s)options = webdriver.ChromeOptions()
# 设置为开发者模式,防止被各大网站识别出来使用了Selenium 没什么用
options.add_argument("--disable-blink-features=AutomationControlled")
options.add_experimental_option('excludeSwitches', ['enable-automation'])
driver = webdriver.Chrome(service=s, options=options)driver.get(url)#在搜索框自动输入内容
driver.find_elements(By.XPATH,'//*[@id="q"]')[0].send_keys("射频电路板")
driver.find_elements(By.XPATH,'//*[@id="J_TSearchForm"]/div[1]/button')[0].click()  #退出当前账号账号
above = driver.find_elements(By.XPATH,'//*[@id="J_SiteNavLogin"]/div[1]/div/a')[0]
ActionChains(driver).move_to_element(above).perform()SearchSetting_Ele = driver.find_elements(By.XPATH,'//*[text()=\"退出\"]')
SearchSetting_Ele[0].click()#点击天猫按钮
#tianmao = driver.find_elements(By.XPATH,'//*[@id="tabFilterMall"]')
#tianmao[0].click()
#点击销量从高到低
driver.find_elements(By.XPATH,'//*[@id="J_relative"]/div[1]/div/ul/li[2]/a')[0].click()#注意是find_elements,find_element是查找第一个
pros = driver.find_elements(By.XPATH,'//div[@class="row row-2 title"]/a')#先爬取3个商品
#c存储
titles = []
prices = []
mcounts = []pros.reverse()  #倒序从最低销量开始
for i in pros[:5]:i.click()driver.switch_to.window(driver.window_handles[1])try:#商品名称title = driver.find_element(By.XPATH,'//h3[@class="tb-main-title"]').textprint(title)#价格price = driver.find_element(By.XPATH,'//em[@class="tb-rmb-num"]').textprint(price)#销量mcount = driver.find_element(By.XPATH,'//strong[@id="J_SellCounter"]').textprint(mcount) # 存储titles.append(title)prices.append(price)mcounts.append(mcount)except:print("没有找到淘宝元素")try:#商品名称title = driver.find_element(By.XPATH,'//h1[@data-spm="1000983"]').textprint(title)#价格price = driver.find_element(By.XPATH,'//span[@class="tm-price"]').textprint(price) #销量mcount = driver.find_element(By.XPATH,'//span[@class="tm-count"]').textprint(mcount) # 存储titles.append(title)prices.append(price)mcounts.append(mcount)except:print("没有找到天猫元素")print('======================')driver.close()driver.switch_to.window(driver.window_handles[0])import pandas as pddata = pd.DataFrame()
data['名称'] = titles
data['价格'] = prices
data['月销量'] = mcountsloca = time.strftime('%Y-%m-%d-%H-%M')
xlsx_name = "数据" + str(loca) + ".xlsx"
print(xlsx_name)
data.to_excel(xlsx_name)

效果

技能梳理36@淘宝/天猫数据爬取相关推荐

  1. 淘宝众筹数据爬取(1)

    众筹是现阶段小微或初创企业比较重要的融资渠道之一,也获得了很多研究者的关注.然而众筹的研究需要获取众筹项目的大量数据,单靠手工录入数据确实比较让人讨厌, 速度慢也比较啰嗦.前文中我们已经了解了静态网页 ...

  2. 淘宝众筹数据爬取(3)

    前文的讲述已经可以将一个页面上的所有项目的项目名称.已筹金额.达成率和支持人数提取出来,并且再通过进入单一页面的方式,将单个项目的上线时间和截止时间以及金额标的提取出来.由此,我们可以形成我们的提取逻 ...

  3. 淘宝众筹数据爬取(2)

    第一部分的写完了好多天,也没几个人浏览,看来确实是技术太低段,只能自己玩玩了.CSDN博客有个很讨厌的设置,博客分数太低的,不让自主设置标签,我离400分的大关还差300多分,太窘了,还麻烦各位看完给 ...

  4. python爬虫学习笔记(三)——淘宝商品比价实战(爬取成功)

    2020年最新淘宝商品比价定向爬取 功能描述 目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格. 理解:淘宝的搜索接口 翻页的处理 技术路线:requests­          re 程序的结 ...

  5. python爬虫—关于淘宝商品的爬取

    之前爬过一次淘宝,当时这个网站没怎么设置很厉害的反爬措施,能够很轻松地获取上面的数据:销量啊.价格啊.以及好评等等,做一些可视化的图表,对于将要在淘宝平台售卖商品的商家具有很好的参考意义. 现在的淘宝 ...

  6. 2.6 实战天猫数据爬取

    6 实战天猫数据爬取 主要用到的知识点 实用技巧1多级页面的抓取-callback函数 实用技巧2图片的抓取- 抓取过程中的常见问题cookie的处理cookie模拟登录 分页 完整代码参见 2.6 ...

  7. 天猫、淘宝运营数据抓取技术概述

    对通用网站的数据抓取,比如:谷歌和百度,都有自己的爬虫,当然,爬虫也都是有程序写出来的.根据百度百科的定义:网络爬虫(又被称为网页蜘蛛,网络机器人),是一种按照一定的规则,自动的抓取万维网信息的程序或 ...

  8. 淘宝天猫数据查询(天猫智能手环数据分析)

    近几年,中国智能可穿戴设备市场规模不断增长,也取得了傲人的成绩.从可穿戴设备市场整体发展来看,智能手环是一大主角.智能手环市场接受度和认可度的逐渐提升,为各类厂商提供了更多机会,同时这也蕴含了更多市场 ...

  9. 天猫厨房大电市场分析(淘宝天猫数据)

    如今,消费者对于厨房电器的需要不断增长,厨房电器领域的发展规模也越来越大.在国内市场中,由于中国人在烹饪时喜欢煎炒烹炸,油烟较重,因此,以油烟机和燃气灶为代表的厨房大电也成为千家万户不可少的厨用电器, ...

最新文章

  1. Fragment生命周期详解
  2. 2017年蓝桥杯省赛
  3. express+mongodb+vue实现增删改查-全栈之路2.0
  4. FPGA Quartus Prime 16.1安装及破解
  5. echarts 弹出放大_Echarts图标增加全屏/放大功能
  6. solr php大小写,Solr 学习(6) —- Solr的PHP客户端
  7. ABAP术语-Business Components
  8. Mariadb数据库设置及操作 一主多从 备份还原(实测笔记)
  9. 北理工-大二数据结构乐学编程题-约瑟夫问题、验证表、循环小数、综教楼后的坑...
  10. Java完全自学手册,从外包到大厂,再到年薪100万都靠它
  11. 图吧主机linux,图吧垃圾佬的LINUX体验
  12. 阿里 达摩院 cv 算法 面经
  13. android parcel分析,android – 从Intent检索时Parcel崩溃
  14. 最受中国人欢迎的10种日本药
  15. 如何实现上传多个图片并依次展示_微信如何一次性发送上传多张图片的方法介绍...
  16. [线段树 标记永久化 单调队列] BZOJ 1171 大sz的游戏 BZOJ 2892 强袭作战
  17. dcs常用的冗余方式_dcs试题
  18. java 基本数据类型所占字节数
  19. 网站接入银联网上支付(B2B)
  20. C++ string类模板

热门文章

  1. 【环境部署系列 06】Ascend 310(推理)X86服务器 Ubuntu系统环境部署
  2. linux_bash/zsh ls(dircolor)_文件夹背景颜色去除(绿色背景)(fit to wsl)(simple solution)
  3. Gin框架组合(Zap、lumberjack、ini)使用手册
  4. LeetCode刷SQL题
  5. 使用C#开发了一个RPG角色扮演类的小游戏^_^
  6. 收藏的JAVA面试题大全
  7. 没在路边改过代码的程序员,不足以谈人生。
  8. YUV数据格式的转换(NV12ToI420)和旋转(旋转90度)
  9. 用浏览器快速开启Docker的体验之旅
  10. javascript基础:元素增删改操作