python爬取苏宁商品评论

爬取其他电商物品评论的案例如下:

https://blog.csdn.net/coffeetogether/article/details/114296159
https://blog.csdn.net/coffeetogether/article/details/114274960?spm=1001.2014.3001.5501

以苏宁家电为例

1.找到目标的url:

2.检查响应结果

3.解析数据

注:需要手动将json数据中的干扰信息去除,(还有最后的小括号)。在代码中通过正则去除干扰信息


4.找到翻页规律:

http://review.suning.com/ajax/cluster_review_lists/cluster-37502374-000000012031487720-0000000000-total-1-default-10-----reviewList.htm?callback=reviewList
http://review.suning.com/ajax/cluster_review_lists/cluster-37502374-000000012031487720-0000000000-total-2-default-10-----reviewList.htm?callback=reviewList
http://review.suning.com/ajax/cluster_review_lists/cluster-37502374-000000012031487720-0000000000-total-3-default-10-----reviewList.htm?callback=reviewList

通过对比url发现,不同页url的规律在于参数total之后的数字

解析完毕,上代码:

import requests
import re
import json
import jsonpathif __name__ == '__main__':# 手动输入要爬取的页数pages = int(input('请输入要爬取的页数:'))# 创建for循环进行翻页操作for i in range(pages):page = i+1# 确认目标的urlurl_ = f'http://review.suning.com/ajax/cluster_review_lists/cluster-37502374-000000012031487720-0000000000-total-{page}-default-10-----reviewList.htm?callback=reviewList'# 创建请求头参数headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'}# 发送请求,获取相应response = requests.get(url_,headers=headers)# 通过正则去除多余的信息str_data = re.findall(r'reviewList\((.*?)\)',response.text)[0]# 将数据转换为python 数据py_data = json.loads(str_data)# 提取用户id和评论id_list = jsonpath.jsonpath(py_data,'$..nickName')comment_list = jsonpath.jsonpath(py_data,'$.commodityReviews[*].content')# 创建字典,保存id和评论for i in range(len(id_list)):dict_ = {}dict_[id_list[i]] = comment_list[i]json_data = json.dumps(dict_,ensure_ascii=False)+',\n'with open('翻页苏宁商品评论.json','a',encoding='utf-8')as f:f.write(json_data)

爬取了三页

执行结果如下:

python爬取苏宁商品评论相关推荐

  1. python爬取当当网商品评论

    python爬取当当网商品评论 本案例获取某鞋评论作为例 案例目的: 通过爬取当当网商品评价,介绍通过结合jsonpath和正则表达式获取目标数据的方法. 代码功能: 输入爬取的页数,自动下载保存每页 ...

  2. python 爬取天猫店铺商品评论

    在两三年之前天猫,淘宝,美团等这类的没有加密,很容易采集到数据,刚写了个爬取天猫评论时候,发现不能获取json类的数据,用了所以我用selenium,效果还不错,我们创建对象后,会让我们登录(如下图所 ...

  3. Python爬取某宝宝商品评论等数据

    提前准备参数 import re import requests import random import time import pandas as pddf = [] # 这里的信息要从list_ ...

  4. 爬取电商平台数据,python爬取某维商品数据

    本次内容: 爬取电商平台数据,python爬取某维商品数据 课程亮点 动态数据抓包演示 json数据解析 requests模块的使用 保存csv 环境介绍 python 3.8 [最好用和老师一样的版 ...

  5. python爬取b站评论_学习笔记(1):写了个python爬取B站视频评论的程序

    学习笔记(1):写了个python爬取B站视频评论的程序 import requests import json import os table='fZodR9XQDSUm21yCkr6zBqiveY ...

  6. Python爬取京东任意商品数据实战总结

    利用Python爬取京东任意商品数据 今天给大家展示爬取京东商品数据 首先呢还是要分思路的,我分为以下几个步骤: 第一步:得到搜索指定商的url 第二步:获得搜索商品列表信息 第三步:对得到的商品数据 ...

  7. python爬取淘宝商品图片

    python爬取淘宝商品的图片 话不多说,直接上代码: from selenium import webdriver from selenium.webdriver.common import key ...

  8. python爬取网易云音乐评论分析_python爬取网易云音乐评论

    本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...

  9. python爬b站评论_学习笔记(1):写了个python爬取B站视频评论的程序

    学习笔记(1):写了个python爬取B站视频评论的程序 import requests import json import os table='fZodR9XQDSUm21yCkr6zBqiveY ...

最新文章

  1. java爬虫面试题_使用Java实现网络爬虫
  2. 步入三十岁前的总结:看似经历很多得到很多,但,实际却一无所得
  3. mysql列增减_Mysql基本操作——增减改查
  4. 为什么买入不了创业版_详解实战抄底——如何抄到下引线的最底端。及妖股的首板买入点...
  5. java 不加锁_在java中,在高并发的时候,不加锁的时候。
  6. JAVA面试题(2018)
  7. c语言追加字符串_Redis源码解析二--简单动态字符串
  8. phpcms v9中某些默认的文件路径
  9. activemq spring 集成与测试
  10. 计算机毕业设计springboot门诊管理系统
  11. 零信任时代,开放式安全沙箱让管控更灵活
  12. golang学习之go方法
  13. Linux目录结构和文件、目录常用命令
  14. Packet Tracer –配置多区域OSPFv2
  15. 初识Python必看基础知识~ 续(3)
  16. OSDI 2021 VEGITO 论文阅读
  17. 【实例】使用 PHPExcel 读取excel 文件
  18. IOS m3u8格式视频流截图
  19. 莱佛士毕业生 Amos YEO与快餐巨头KFC街头服饰合作系列
  20. SEO优化要以“大局为重”

热门文章

  1. QT软件如何设置为护眼配色
  2. 查看服务器端口监听情况
  3. 遥感影像道路提取:Improved Road Connectivity by Joint Learning of Orientation and Segmentation
  4. 如何使用手机登录邮箱?
  5. 004 福尔摩斯的约会
  6. scrapy pipelines(MySQL )
  7. [教程]Adblock屏蔽百度投放的页面广告
  8. 阶乘 C语言raptor
  9. 1-线性回归之单变量线性回归基本原理的python实现
  10. Airtest入门篇-1开篇