python爬取苏宁商品评论

爬取其他电商物品评论的案例如下：

https://blog.csdn.net/coffeetogether/article/details/114296159
https://blog.csdn.net/coffeetogether/article/details/114274960?spm=1001.2014.3001.5501

以苏宁家电为例

1.找到目标的url：

2.检查响应结果

3.解析数据

注：需要手动将json数据中的干扰信息去除，（还有最后的小括号)。在代码中通过正则去除干扰信息

4.找到翻页规律：

http://review.suning.com/ajax/cluster_review_lists/cluster-37502374-000000012031487720-0000000000-total-1-default-10-----reviewList.htm?callback=reviewList
http://review.suning.com/ajax/cluster_review_lists/cluster-37502374-000000012031487720-0000000000-total-2-default-10-----reviewList.htm?callback=reviewList
http://review.suning.com/ajax/cluster_review_lists/cluster-37502374-000000012031487720-0000000000-total-3-default-10-----reviewList.htm?callback=reviewList

通过对比url发现，不同页url的规律在于参数total之后的数字。

解析完毕，上代码：

import requests
import re
import json
import jsonpathif __name__ == '__main__':# 手动输入要爬取的页数pages = int(input('请输入要爬取的页数：'))# 创建for循环进行翻页操作for i in range(pages):page = i+1# 确认目标的urlurl_ = f'http://review.suning.com/ajax/cluster_review_lists/cluster-37502374-000000012031487720-0000000000-total-{page}-default-10-----reviewList.htm?callback=reviewList'# 创建请求头参数headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'}# 发送请求，获取相应response = requests.get(url_,headers=headers)# 通过正则去除多余的信息str_data = re.findall(r'reviewList\((.*?)\)',response.text)[0]# 将数据转换为python 数据py_data = json.loads(str_data)# 提取用户id和评论id_list = jsonpath.jsonpath(py_data,'$..nickName')comment_list = jsonpath.jsonpath(py_data,'$.commodityReviews[*].content')# 创建字典，保存id和评论for i in range(len(id_list)):dict_ = {}dict_[id_list[i]] = comment_list[i]json_data = json.dumps(dict_,ensure_ascii=False)+',\n'with open('翻页苏宁商品评论.json','a',encoding='utf-8')as f:f.write(json_data)

爬取了三页

执行结果如下：

python爬取苏宁商品评论相关推荐

python爬取当当网商品评论
python爬取当当网商品评论本案例获取某鞋评论作为例案例目的: 通过爬取当当网商品评价,介绍通过结合jsonpath和正则表达式获取目标数据的方法. 代码功能: 输入爬取的页数,自动下载保存每页 ...
python 爬取天猫店铺商品评论
在两三年之前天猫,淘宝,美团等这类的没有加密,很容易采集到数据,刚写了个爬取天猫评论时候,发现不能获取json类的数据,用了所以我用selenium,效果还不错,我们创建对象后,会让我们登录(如下图所 ...
Python爬取某宝宝商品评论等数据
提前准备参数 import re import requests import random import time import pandas as pddf = [] # 这里的信息要从list_ ...
爬取电商平台数据，python爬取某维商品数据
本次内容: 爬取电商平台数据,python爬取某维商品数据课程亮点动态数据抓包演示 json数据解析 requests模块的使用保存csv 环境介绍 python 3.8 [最好用和老师一样的版 ...
python爬取b站评论_学习笔记(1):写了个python爬取B站视频评论的程序
学习笔记(1):写了个python爬取B站视频评论的程序 import requests import json import os table='fZodR9XQDSUm21yCkr6zBqiveY ...
Python爬取京东任意商品数据实战总结
利用Python爬取京东任意商品数据今天给大家展示爬取京东商品数据首先呢还是要分思路的,我分为以下几个步骤: 第一步:得到搜索指定商的url 第二步:获得搜索商品列表信息第三步:对得到的商品数据 ...
python爬取淘宝商品图片
python爬取淘宝商品的图片话不多说,直接上代码: from selenium import webdriver from selenium.webdriver.common import key ...
python爬取网易云音乐评论分析_python爬取网易云音乐评论
本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...
python爬b站评论_学习笔记(1):写了个python爬取B站视频评论的程序
学习笔记(1):写了个python爬取B站视频评论的程序 import requests import json import os table='fZodR9XQDSUm21yCkr6zBqiveY ...

python爬取苏宁商品评论

python爬取苏宁商品评论

爬取其他电商物品评论的案例如下：

以苏宁家电为例

1.找到目标的url：

2.检查响应结果

3.解析数据

注：需要手动将json数据中的干扰信息去除，（还有最后的小括号)。在代码中通过正则去除干扰信息

4.找到翻页规律：

解析完毕，上代码：

执行结果如下：

python爬取苏宁商品评论相关推荐

最新文章

热门文章