基于Scarpy爬取Shopee网站商品数据
一、实现的主要功能:
1、基于Scarpy框架爬取Shopee网站马来西亚站点商品数据,包括商品url,最低价、最高价、销量、商品图片url、店铺名称、店铺开通时间;
2、针对反爬,获取免费ip代理网站的ip自动更换ip;
关注公众号,发送shopee获取项目代码下载链接
二、项目结构:
三、用到的接口有:
接口1、获取当前页50个商品数据:
https://my.xiapibuy.com/api/v2/search_items/?by=sales&limit=50&match_id=17&newest=0&order=desc&page_type=search
第一页newest=0,每增加一页newest加50,第二页newest=50。match_id=17,指的是Men's-Clothing类目。
接口2、获取商品店铺的相关信息:
https://my.xiapibuy.com/api/v2/shop/get?is_brief=1&shopid={}
接口1可以获取商品所在店铺的shopid,shopid传入接口二既可获取店铺的相关信息,本案例只获取了店铺的注册时间和店铺名称。接口2返回的还有店铺的其他数据,像店铺介绍那些。
四、用到的库:
用pip逐一安装,或者运行pip install -r requirements.txt进行安装:
fake_useragent==0.1.11
Twisted==18.7.0
Scrapy==1.5.1
FreeProxy==1.0.2
五、项目启动:
终端下执行start.py即可:
python start.py
六、结果截图:
1、终端运行结果:
获取代理
爬取数据
2、保存的json:
七、需注意的地方:
1、直接安装的FreeProxy会去请求国外代理网站,需要自行修改FreeProxy的源码,注释掉去国外代理网站获取免费ip的方法。
2、本案例只是爬取shopee马来西亚站点Men's-Clothing类目下的数据,也就是接口1里match_id=17,获取所有类目的接口是这个:
https://my.xiapibuy.com/api/v2/category_list/get
请求这个接口就可以找到所有类目的match_id。
关注公众号,发送shopee获取项目代码下载链接
有其他问题问,看到了会及时回复。
本案例仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。
基于Scarpy爬取Shopee网站商品数据相关推荐
- python爬取京东商品图片_python利用urllib实现爬取京东网站商品图片的爬虫实例
本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码! # -* ...
- Python爬取京东任意商品数据实战总结
利用Python爬取京东任意商品数据 今天给大家展示爬取京东商品数据 首先呢还是要分思路的,我分为以下几个步骤: 第一步:得到搜索指定商的url 第二步:获得搜索商品列表信息 第三步:对得到的商品数据 ...
- 爬取电商平台数据,python爬取某维商品数据
本次内容: 爬取电商平台数据,python爬取某维商品数据 课程亮点 动态数据抓包演示 json数据解析 requests模块的使用 保存csv 环境介绍 python 3.8 [最好用和老师一样的版 ...
- 【爬虫】4.5 实践项目——爬取当当网站图书数据
目录 1. 网站图书数据分析 2. 网站图书数据提取 3. 网站图书数据爬取 (1)创建 MySQL 数据库 (2)创建 scrapy 项目 (3)编写 items.py 中的数据项目类 (4)编写 ...
- Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)
Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...
- 利用代理IP爬取京东网站手机数据
1.代理简介 在爬虫过程中如果经常用自己的IP进行爬虫会出现IP被封的可能,这就要用到代理技术,通过爬取代理网站的IP地址,每次爬取页面就随机选择一个IP地址进行爬取,这样就会降低IP被封的可能性. ...
- Python3 + BeautifulSoup 爬取Steam热销商品数据
这次用了BeautifulSoup库来爬取Steam的热销商品,BeautifulSoup更侧重的是从页面的结构解析, 根据标签元素等来爬取数据,这次遇到两个问题: 1.Steam热销商品列表经常有重 ...
- 程序员爬取 5000+ 口红商品数据,差点比女朋友更懂口红?
作者 | YaJie 来源 | Giao数据 责编 | 王晓曼 摘要:本文以"口红"为关键字,爬取了[1]淘宝与天猫官网下100页口红数据,经过去重,得到共计4353条口红商品信息 ...
- python爬虫数据分析项目 双十一_Python爬取淘宝商品数据,价值千元的爬虫外包项目!...
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 完整代码可以点击下方链 ...
最新文章
- poj2154(Polya+欧拉函数优化模版)
- JavaScript中 for、for in、for of、forEach等使用总结
- 『ACM-算法-二分法』在单调递增序列a中查找小于等于x的数中最大的一个(即x或x的前驱)
- 基于英特尔® 优化分析包(OAP)的 Spark 性能优化方案
- ant-pro使用Form表单验证上传图片出现的问题
- 超硬核的 OCR 开发利器推荐:从场景案例到实操演示,快速掌握OCR模型训练
- 关于SQL的基础语法(二)
- 分析打开hdu 3335 (最小路径覆盖)
- 内存cpu占用不高但mysql很卡_为什么cpu占用率不高,内存也不高,电脑会卡
- 运算符、表达式和语句
- Cerebral Cortex:疼痛热刺激引起的脑功能网络分离与整合
- UmiJS基础+UmiUI安装使用+Mock使用示例+DvaJS案例
- 计算机二级考试题目分值,计算机二级考试题目分值
- clannad手游汉化版_clannad游戏中文版
- 代码小白的第一次博客!
- QTableWidget 常见用法总结(一)
- 反复调整,苹果的价格策略还奏效吗?
- 【Python黑帽子】——简易的ZIP文件密码破解器
- 安装 libboost-all-dev 包报错未满足依赖关系
- 抖音上传视频(纯前端实现霸屏软件的功能)进店转发视频功能,详情搜索抖音霸屏软件
热门文章
- android 评论布局,Android评论布局,针对TextView换行和与其他空间对齐的实现
- php中什么是伪静态,thinkphp中什么是伪静态?
- python绘制多边形_在python matplotlib中绘制三维多边形
- 树莓派lnmp安装mysql_在树莓派上搭建LNMP环境
- ios 短信验证码自动填充时总是被复制两遍
- 区块链技术助力实现“资产通证化”
- 4,25黄金原油周一操作策略及趋势分析
- 2021年最新海信电视安装第三方软件两个方法
- 怎么关闭vivo系统自检_vivo手机电池不耐用怎么办
- 同洲、宇龙手机源代码之争