准备工作

爬虫所需的库和浏览器驱动

  • 本次爬虫所需要的库

selenium

#可使用pip命令安装
pip install selenium

csv
re
time

  • 安装浏览器驱动
    以谷歌浏览器为例,在浏览器地址栏中输入chrome://version/查看浏览器版本

    谷歌的驱动:chromedriver.exe

驱动版本与Chrome版本对应的目录:http://npm.taobao.org/mirrors/chromedriver/2.32/notes.txt

驱动各版本的下载地址:http://npm.taobao.org/mirrors/chromedriver

from selenium import webdriver
bs=webdriver.Chrome('C:\Program Files (x86)\Google\Chrome\Application\chromedriver')
12

hrome的首字母要大写,chromedriver要放到chrome.exe的目录下,调用时要给出chromedriver的全目录包括文件名‘chromedriver.exe’

网页分析工作

首先进入淘宝首页:https://www.taobao.com/

请认真阅读下面这一段文字:本次爬虫我们要完成的效果是代码运行后,我们手动输入一个关键词,程序会自动给我们打开谷歌浏览器,在输入框中填写该关键词并按下搜索按钮(这是程序自动帮我们完成的)。我们以“U盘”关键词为例,程序运行后会进入这一页面:

下面请手动扫描二维码(程序不会自动登录),因为总所周知淘宝的登录反爬机制太变态。扫描进入后程序就又会自动工作了:

本次爬虫我们会爬取淘宝某类商品100页的数据,内容包括:

商品名称商品价格商品付款人数商家店名

网页分析

以关键字“U盘”进行搜索为例,打开https://s.taobao.com/search?q=U%E7%9B%98,按下F12或者鼠标右键点击检查,我们可以在源代码中分析得出以下内容:输入框:

即输入框可以有id =‘q’得到

搜索按钮:

搜索按钮可由class属性得到

页数:

复制该标签对应的xpath为://*[@id="mainsrp-pager"]/div/div/div/div[1]

商品数据:

翻页操作:第一页URL:https://s.taobao.com/search?q=U%E7%9B%98第二页URL:https://s.taobao.com/search?q=U%E7%9B%98&s=44第三页URL:https://s.taobao.com/search?q=U%E7%9B%98&s=88

可以看出每翻一次页s参数的值加了44

好的,以上就是我们的准备工作

代码实操

import re
import csv
import time
from selenium import webdriverdef search_product(key):driver.find_element_by_id('q').send_keys(key)driver.find_element_by_class_name('btn-search').click()driver.maximize_window()time.sleep(15)page = driver.find_elements_by_xpath('//*[@id="mainsrp-pager"]/div/div/div/div[1]').text   #页数page = re.findall('(\d+)',page)[0]return pagedef get_product():'''解析所需要的数据'''divs = driver.find_elements_by_xpath('//div[@class="items"]/div[@class="item J_MouserOnverReq "]')# print(divs)for div in divs:info = div.find_element_by_xpath('.//div[@class="row row-2 title"]/a').text   #商品名称price = div.find_element_by_xpath('.//strong').text + '元'  #商品价格deal = div.find_element_by_xpath('.//div[@class="deal-cnt"]').text  #商品付款人数name = div.find_element_by_xpath('.//div[@class="shop"]/a').text    #商家店名print(info,price,deal,name, sep="|")with open('data.csv',mode='a',newline='') as fp:csvwriter = csv.writer(fp,delimiter=',')csvwriter.writerow([info,price,deal,name])def main():print('正在爬取第一页数据')page = search_product(keyword)get_product()page_num = 1while page_num != page:print('*'*10)print('正在爬取第{}页数据 '.format(page_num+1))print('*' * 10)driver.get('https://s.taobao.com/search?q={}&s={}'.format(keyword,page_num*44))driver.implicitly_wait(10)get_product()page_num += 1if __name__=='__main__':keyword = input("请输入你要搜索的关键字:")driver = webdriver.Chrome()driver.get('https://www.taobao.com/')main()

效果展示

待程序执行完成,会在项目目录下生成一个data.csv文件,里面保存了100页的数据

你学会了吗。记得加上源码教程群哦:1136192749

使用自动化工具selenium爬取淘宝数据!这个框架太牛逼了!相关推荐

  1. 程序员怎样买东西呢---selenium爬取淘宝数据

    江山代有才人出,各领风骚数百年 --清·赵翼 <论诗五首·其二> 长江后浪推前浪,浮事新人换旧人 --宋·刘斧<青琐高议> 东西用时间长了就该换新的了,特别是手机,这几年发展太 ...

  2. [Python3网络爬虫开发实战] 7-动态渲染页面爬取-4-使用Selenium爬取淘宝商品

    在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可 ...

  3. 利用Selenium爬取淘宝商品信息

    文章来源:公众号-智能化IT系统. 一.  Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样. ...

  4. 使用Selenium爬取淘宝商品(绕过登录页面)

    文章目录 1.准备工作 2.接口分析 3.页面分析 4.获取商品列表 5.解析商品列表 6.保存到MongoDB 7.遍历每页 8.异常处理(绕过登录反爬机制) 方法一:修改ChromeDriver. ...

  5. Python + selenium 爬取淘宝商品列表及商品评论 2021-08-26

    Python + selenium 爬取淘宝商品列表及商品评论[2021-08-26] 主要内容 登录淘宝 获取商品列表 获取评论信息 存入数据库 需要提醒 主要内容 通过python3.8+ sel ...

  6. 使用selenium爬取淘宝实战.md

    ##使用selenium爬取淘宝实战 确定要爬取的内容 爬取左侧的一级类型(女装/男装/内衣等等),和右侧的二级类型(秋上新/连衣裙等等) 导入selenium 在这之前需要安装webdriver 可 ...

  7. selenium爬取淘宝商品基础数据以及商品详情(茶叶数据)

    selenium爬取淘宝商品基础数据以及商品详情 目录 网页分析 确定要爬取的数据 分析网页构成 爬取流程 登入 爬取基础数据以及商品详情 爬取基础数据 爬取商品详情 淘宝滑动验证码 保存EXCEL中 ...

  8. python爬虫——用selenium爬取淘宝商品信息

    python爬虫--用selenium爬取淘宝商品信息 1.附上效果图 2.淘宝网址https://www.taobao.com/ 3.先写好头部 browser = webdriver.Chrome ...

  9. 自动化爬取淘宝数据--(保存到文本中)

    普通版本的爬取淘宝网页 #淘宝商品信息 #从selenium中引入webdriver from selenium import webdriver import time #输入查询关键词 keywo ...

最新文章

  1. Oracle:ORA-12560和ORA-01031
  2. 人工智能 信道估计 深度学习_DEMO演示|基于IVP02D 人工智能工作站的深度学习引擎,实现人群热力估计...
  3. Java enum枚举
  4. 简单粗暴入门java之数组概述
  5. 学生开源项目_吸引学生加入您的开源项目的9种方法
  6. 一直误解的memset函数
  7. 超出想象-超级终端显示器
  8. 数学建模之Python-微分方程建模实例
  9. 堆排序代码详解(Java实现)
  10. java逆向工程_逆向工程 - Simon.Jiang - 博客园
  11. 《华为问题管理法》读书笔记2
  12. tecplot批量导出图片_科研画图工具Tecplot使用教程
  13. 谁有html制作3d浪漫相册有代码,3D相册制作代码
  14. [5-26]绿色精品软件每天更新[uc23整理]
  15. sklearn 1.0.1官方文档教程
  16. python如何制作地图热力图
  17. 自定义Android视频播放器 - 切换横竖屏
  18. springMVC+jquery实现图片上传
  19. 损坏的映像 错误0xc0000020
  20. Windows系统中如何释放C盘空间

热门文章

  1. Qt的对话框与窗口--Splash与登录窗口
  2. 【CANN训练营第三季】Pytorch模型迁移
  3. 学生选修课管理系统c语言,学生选修课管理系统设计C语言版.docx
  4. word如何给论文加引用文献
  5. 杨辉三角的组合公式解法
  6. YCbCr色彩空间 (笔记1)
  7. 1994年诺贝尔经济学奖-----约翰-纳什的演讲词
  8. 使用STM32的串口进行大量数据传输
  9. 喷织废水处理工艺—吸附
  10. “用与不用 天壤之别”:图说HDS双活GAD