爬虫--selenium爬取淘宝商品数据
# 导入包
from selenium import webdriver
# 连接驱动器,这里用的是谷歌,版本必须对应
driver = webdriver.Chrome(executable_path='chromedriver.exe')
# 发送请求,selenium只有get请求
driver.get('https://www.taobao.com')
# 获取搜索框,输入关键字,并自动点击搜索
in_put = driver.find_element_by_id('q')
in_put.send_keys('大衣') # 可换成自己想要爬取的商品
driver.find_element_by_class_name('btn-search').click()
# 发现必须先登录,故输入账号跟密码,并自动点击登录
user_id = driver.find_element_by_name('fm-login-id')
user_id.send_keys(账号)
password = driver.find_element_by_name('fm-login-password')
password.send_keys(密码)
driver.find_element_by_class_name('fm-button').click()
# 可能会出现用户条件协议,点击同意
driver.find_element_by_class_name('btn').click()
# 开始获取数据,因为不太敢乱爬,所以只爬了一个页面而已
import time
text_list = driver.find_elements_by_class_name('ctx-box')
lit = [] # 构造空列表,存储字典数据,后方便用于转化数据框
for i in text_list:
# print(i.text)x = i.text.split('\n') # 分割数据,方便后面用于存储dic = {} # 用空字典存储数据dic['价格'] = x[0]dic['购买人数'] = x[1]dic['商品名称'] = x[2]dic['店铺名称'] = x[3]dic['城市'] = x[4]lit.append(dic)time.sleep(1)print(lit)
# 将数据转换为数据框
import pandas as pd
df = pd.DataFrame(lit)
df.head()
价格 | 购买人数 | 商品名称 | 店铺名称 | 城市 | |
---|---|---|---|---|---|
0 | ¥1150.00 | 57人付款 | 高端水貂毛领冬季爸爸男装中老年羊绒呢子大衣过膝超长款羊毛风衣 | 朋克宾威服饰旗舰店 | 江苏 苏州 |
1 | ¥980.00 | 202人付款 | 哥弟2020新款冬装加厚连帽过膝长款毛领羽绒服大衣外套女A400326 | 哥弟官方旗舰店 | 广东 广州 |
2 | ¥989.00 | 85人付款 | 白鸭绒羽绒服20秋冬保暖男士潮流中长外套大衣服装杰克琼斯大码D | jackjones官方旗舰 | 天津 |
3 | ¥828.00 | 1833人付款 | 2020秋冬季新款双面羊绒大衣男中长款过膝韩版帅气男士毛呢子外套 | 鑫汇源海外贸易 | 上海 |
4 | ¥3580.00 | 302人付款 | 水貂内胆皮毛一体真皮皮衣男山羊皮夹克翻领整貂皮大衣外套皮草冬 | jllley | 浙江 嘉兴 |
# 数据处理
df['价格'] = df['价格'].apply(lambda x: x[1:])
df['购买人数'] = df['购买人数'].apply(lambda x: x[:-3])
df['城市1'] = df['城市'].apply(lambda x: x[-2:])
df.head()
价格 | 购买人数 | 商品名称 | 店铺名称 | 城市 | |
---|---|---|---|---|---|
0 | 1150.00 | 57人付款 | 高端水貂毛领冬季爸爸男装中老年羊绒呢子大衣过膝超长款羊毛风衣 | 朋克宾威服饰旗舰店 | 江苏 苏州 |
1 | 980.00 | 202人付款 | 哥弟2020新款冬装加厚连帽过膝长款毛领羽绒服大衣外套女A400326 | 哥弟官方旗舰店 | 广东 广州 |
2 | 989.00 | 85人付款 | 白鸭绒羽绒服20秋冬保暖男士潮流中长外套大衣服装杰克琼斯大码D | jackjones官方旗舰 | 天津 |
3 | 828.00 | 1833人付款 | 2020秋冬季新款双面羊绒大衣男中长款过膝韩版帅气男士毛呢子外套 | 鑫汇源海外贸易 | 上海 |
4 | 3580.00 | 302人付款 | 水貂内胆皮毛一体真皮皮衣男山羊皮夹克翻领整貂皮大衣外套皮草冬 | jllley | 浙江 嘉兴 |
# 数据存储
df.to_excel('taobao.xlsx')
爬虫--selenium爬取淘宝商品数据相关推荐
- 使用selenium爬取淘宝商品数据,搜索关键词分类(反爬很难?)
环境准备 博主python为3.8,应该3.x的都没问题下载selenium: pip install selenium 也可以使用清华镜像下载 pip install -i https://pypi ...
- Python爬虫+selenium——爬取淘宝商品信息和数据分析
浏览器驱动 点击下载chromedrive .将下载的浏览器驱动文件chromedriver丢到Chrome浏览器目录中的Application文件夹下,配置Chrome浏览器位置到PATH环境. 需 ...
- python爬虫——用selenium爬取淘宝商品信息
python爬虫--用selenium爬取淘宝商品信息 1.附上效果图 2.淘宝网址https://www.taobao.com/ 3.先写好头部 browser = webdriver.Chrome ...
- selenium爬取淘宝商品基础数据以及商品详情(茶叶数据)
selenium爬取淘宝商品基础数据以及商品详情 目录 网页分析 确定要爬取的数据 分析网页构成 爬取流程 登入 爬取基础数据以及商品详情 爬取基础数据 爬取商品详情 淘宝滑动验证码 保存EXCEL中 ...
- 利用Selenium爬取淘宝商品信息
文章来源:公众号-智能化IT系统. 一. Selenium和PhantomJS介绍 Selenium是一个用于Web应用程序测试的工具,Selenium直接运行在浏览器中,就像真正的用户在操作一样. ...
- 使用Selenium爬取淘宝商品(绕过登录页面)
文章目录 1.准备工作 2.接口分析 3.页面分析 4.获取商品列表 5.解析商品列表 6.保存到MongoDB 7.遍历每页 8.异常处理(绕过登录反爬机制) 方法一:修改ChromeDriver. ...
- Python + selenium 爬取淘宝商品列表及商品评论 2021-08-26
Python + selenium 爬取淘宝商品列表及商品评论[2021-08-26] 主要内容 登录淘宝 获取商品列表 获取评论信息 存入数据库 需要提醒 主要内容 通过python3.8+ sel ...
- [Python3网络爬虫开发实战] 7-动态渲染页面爬取-4-使用Selenium爬取淘宝商品
在前一章中,我们已经成功尝试分析Ajax来抓取相关数据,但是并不是所有页面都可以通过分析Ajax来完成抓取.比如,淘宝,它的整个页面数据确实也是通过Ajax获取的,但是这些Ajax接口参数比较复杂,可 ...
- 爬虫学习笔记——Selenium爬取淘宝商品信息并保存
在使用selenium来模拟浏览器操作,抓取淘宝商品信息前,先完成一些准备工作. 准备工作:需要安装selenium,pyquery,以及Chrome浏览器并配置ChromeDriver. 安装sel ...
最新文章
- C++ string类的方法
- 全球及中国食品供应区块链行业运行形势及未来投资规模建议报告2021年版
- boost::fusion::push_back用法的测试程序
- 【转】C++ win32窗口创建详解
- Android学习随笔 -- draw9patch的使用
- CCF NOI1011 正方形
- Codeforces 436D Pudding Monsters
- Cocos2d-x3.2 持续动作
- 2021-10-23
- 现在,让客服接管数字化企业
- Python一键清空购物车
- python猴子吃桃问题_用Python解决猴子吃桃问题
- 【PHP】json返回大括弧和中括弧,json返回{}和[]
- Centos 6或7系统 从Kernel panic – not syncing: Attempted to kill init 故障引发的一系列操作
- 本田思域HATCHBACK哪款值得买? CVT潮酷控性价比最高
- 如何使用两台主机实现三个网段之间互通且三个网段均可联网
- 深入学习spring cloud gateway 限流熔断
- 索尼z5显示无法连接服务器,索尼手机 z5 为什么上面wifi会显示(!)无法访问网际网路?...
- GPON介绍及华为OLT网关注册配置流程(转)
- 通信要学很多计算机课吗,大连海事大学通信工程专业要学哪些课程,好学吗?...