一、实现的主要功能:

1、基于Scarpy框架爬取Shopee网站马来西亚站点商品数据,包括商品url,最低价、最高价、销量、商品图片url、店铺名称、店铺开通时间;

2、针对反爬,获取免费ip代理网站的ip自动更换ip;

关注公众号,发送shopee获取项目代码下载链接

二、项目结构:

三、用到的接口有:

接口1、获取当前页50个商品数据:

https://my.xiapibuy.com/api/v2/search_items/?by=sales&limit=50&match_id=17&newest=0&order=desc&page_type=search

第一页newest=0,每增加一页newest加50,第二页newest=50。match_id=17,指的是Men's-Clothing类目。

接口2、获取商品店铺的相关信息:

https://my.xiapibuy.com/api/v2/shop/get?is_brief=1&shopid={}

接口1可以获取商品所在店铺的shopid,shopid传入接口二既可获取店铺的相关信息,本案例只获取了店铺的注册时间和店铺名称。接口2返回的还有店铺的其他数据,像店铺介绍那些。

四、用到的库:

用pip逐一安装,或者运行pip install -r requirements.txt进行安装:

fake_useragent==0.1.11Twisted==18.7.0Scrapy==1.5.1FreeProxy==1.0.2

五、项目启动:

终端下执行start.py即可:

python start.py

六、结果截图:

1、终端运行结果:

获取代理

爬取数据

2、保存的json:


七、需注意的地方:

1、直接安装的FreeProxy会去请求国外代理网站,需要自行修改FreeProxy的源码,注释掉去国外代理网站获取免费ip的方法。

2、本案例只是爬取shopee马来西亚站点Men's-Clothing类目下的数据,也就是接口1里match_id=17,获取所有类目的接口是这个:

https://my.xiapibuy.com/api/v2/category_list/get

请求这个接口就可以找到所有类目的match_id。

关注公众号,发送shopee获取项目代码下载链接


有其他问题问,看到了会及时回复。


本案例仅限用于学习和研究目的;不得将上述内容用于商业或者非法用途,否则,一切后果请用户自负。

基于Scarpy爬取Shopee网站商品数据相关推荐

  1. python爬取京东商品图片_python利用urllib实现爬取京东网站商品图片的爬虫实例

    本例程使用urlib实现的,基于python2.7版本,采用beautifulsoup进行网页分析,没有第三方库的应该安装上之后才能运行,我用的IDE是pycharm,闲话少说,直接上代码! # -* ...

  2. Python爬取京东任意商品数据实战总结

    利用Python爬取京东任意商品数据 今天给大家展示爬取京东商品数据 首先呢还是要分思路的,我分为以下几个步骤: 第一步:得到搜索指定商的url 第二步:获得搜索商品列表信息 第三步:对得到的商品数据 ...

  3. 爬取电商平台数据,python爬取某维商品数据

    本次内容: 爬取电商平台数据,python爬取某维商品数据 课程亮点 动态数据抓包演示 json数据解析 requests模块的使用 保存csv 环境介绍 python 3.8 [最好用和老师一样的版 ...

  4. 【爬虫】4.5 实践项目——爬取当当网站图书数据

    目录 1. 网站图书数据分析 2. 网站图书数据提取 3. 网站图书数据爬取 (1)创建 MySQL 数据库 (2)创建 scrapy 项目 (3)编写 items.py 中的数据项目类 (4)编写 ...

  5. Python爬虫实战爬取租房网站2w+数据-链家上海区域信息(超详细)

    Python爬虫实战爬取租房网站-链家上海区域信息(过程超详细) 内容可能有点啰嗦 大佬们请见谅 后面会贴代码 带火们有需求的话就用吧 正好这几天做的实验报告就直接拿过来了,我想后面应该会有人用的到吧 ...

  6. 利用代理IP爬取京东网站手机数据

    1.代理简介 在爬虫过程中如果经常用自己的IP进行爬虫会出现IP被封的可能,这就要用到代理技术,通过爬取代理网站的IP地址,每次爬取页面就随机选择一个IP地址进行爬取,这样就会降低IP被封的可能性. ...

  7. Python3 + BeautifulSoup 爬取Steam热销商品数据

    这次用了BeautifulSoup库来爬取Steam的热销商品,BeautifulSoup更侧重的是从页面的结构解析, 根据标签元素等来爬取数据,这次遇到两个问题: 1.Steam热销商品列表经常有重 ...

  8. 程序员爬取 5000+ 口红商品数据,差点比女朋友更懂口红?

    作者 | YaJie 来源 | Giao数据 责编 | 王晓曼 摘要:本文以"口红"为关键字,爬取了[1]淘宝与天猫官网下100页口红数据,经过去重,得到共计4353条口红商品信息 ...

  9. python爬虫数据分析项目 双十一_Python爬取淘宝商品数据,价值千元的爬虫外包项目!...

    前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 完整代码可以点击下方链 ...

最新文章

  1. poj2154(Polya+欧拉函数优化模版)
  2. JavaScript中 for、for in、for of、forEach等使用总结
  3. 『ACM-算法-二分法』在单调递增序列a中查找小于等于x的数中最大的一个(即x或x的前驱)
  4. 基于英特尔® 优化分析包(OAP)的 Spark 性能优化方案
  5. ant-pro使用Form表单验证上传图片出现的问题
  6. 超硬核的 OCR 开发利器推荐:从场景案例到实操演示,快速掌握OCR模型训练
  7. 关于SQL的基础语法(二)
  8. 分析打开hdu 3335 (最小路径覆盖)
  9. 内存cpu占用不高但mysql很卡_为什么cpu占用率不高,内存也不高,电脑会卡
  10. 运算符、表达式和语句
  11. Cerebral Cortex:疼痛热刺激引起的脑功能网络分离与整合
  12. UmiJS基础+UmiUI安装使用+Mock使用示例+DvaJS案例
  13. 计算机二级考试题目分值,计算机二级考试题目分值
  14. clannad手游汉化版_clannad游戏中文版
  15. 代码小白的第一次博客!
  16. QTableWidget 常见用法总结(一)
  17. 反复调整,苹果的价格策略还奏效吗?
  18. 【Python黑帽子】——简易的ZIP文件密码破解器
  19. 安装 libboost-all-dev 包报错未满足依赖关系
  20. 抖音上传视频(纯前端实现霸屏软件的功能)进店转发视频功能,详情搜索抖音霸屏软件

热门文章

  1. android 评论布局,Android评论布局,针对TextView换行和与其他空间对齐的实现
  2. php中什么是伪静态,thinkphp中什么是伪静态?
  3. python绘制多边形_在python matplotlib中绘制三维多边形
  4. 树莓派lnmp安装mysql_在树莓派上搭建LNMP环境
  5. ios 短信验证码自动填充时总是被复制两遍
  6. 区块链技术助力实现“资产通证化”
  7. 4,25黄金原油周一操作策略及趋势分析
  8. 2021年最新海信电视安装第三方软件两个方法
  9. 怎么关闭vivo系统自检_vivo手机电池不耐用怎么办
  10. 同洲、宇龙手机源代码之争