python爬取苏宁商品评论
python爬取苏宁商品评论
爬取其他电商物品评论的案例如下:
https://blog.csdn.net/coffeetogether/article/details/114296159
https://blog.csdn.net/coffeetogether/article/details/114274960?spm=1001.2014.3001.5501
以苏宁家电为例
1.找到目标的url:
2.检查响应结果
3.解析数据
注:需要手动将json数据中的干扰信息去除,(还有最后的小括号)。在代码中通过正则去除干扰信息
4.找到翻页规律:
http://review.suning.com/ajax/cluster_review_lists/cluster-37502374-000000012031487720-0000000000-total-1-default-10-----reviewList.htm?callback=reviewList
http://review.suning.com/ajax/cluster_review_lists/cluster-37502374-000000012031487720-0000000000-total-2-default-10-----reviewList.htm?callback=reviewList
http://review.suning.com/ajax/cluster_review_lists/cluster-37502374-000000012031487720-0000000000-total-3-default-10-----reviewList.htm?callback=reviewList
通过对比url发现,不同页url的规律在于参数total之后的数字。
解析完毕,上代码:
import requests
import re
import json
import jsonpathif __name__ == '__main__':# 手动输入要爬取的页数pages = int(input('请输入要爬取的页数:'))# 创建for循环进行翻页操作for i in range(pages):page = i+1# 确认目标的urlurl_ = f'http://review.suning.com/ajax/cluster_review_lists/cluster-37502374-000000012031487720-0000000000-total-{page}-default-10-----reviewList.htm?callback=reviewList'# 创建请求头参数headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36'}# 发送请求,获取相应response = requests.get(url_,headers=headers)# 通过正则去除多余的信息str_data = re.findall(r'reviewList\((.*?)\)',response.text)[0]# 将数据转换为python 数据py_data = json.loads(str_data)# 提取用户id和评论id_list = jsonpath.jsonpath(py_data,'$..nickName')comment_list = jsonpath.jsonpath(py_data,'$.commodityReviews[*].content')# 创建字典,保存id和评论for i in range(len(id_list)):dict_ = {}dict_[id_list[i]] = comment_list[i]json_data = json.dumps(dict_,ensure_ascii=False)+',\n'with open('翻页苏宁商品评论.json','a',encoding='utf-8')as f:f.write(json_data)
爬取了三页
执行结果如下:
python爬取苏宁商品评论相关推荐
- python爬取当当网商品评论
python爬取当当网商品评论 本案例获取某鞋评论作为例 案例目的: 通过爬取当当网商品评价,介绍通过结合jsonpath和正则表达式获取目标数据的方法. 代码功能: 输入爬取的页数,自动下载保存每页 ...
- python 爬取天猫店铺商品评论
在两三年之前天猫,淘宝,美团等这类的没有加密,很容易采集到数据,刚写了个爬取天猫评论时候,发现不能获取json类的数据,用了所以我用selenium,效果还不错,我们创建对象后,会让我们登录(如下图所 ...
- Python爬取某宝宝商品评论等数据
提前准备参数 import re import requests import random import time import pandas as pddf = [] # 这里的信息要从list_ ...
- 爬取电商平台数据,python爬取某维商品数据
本次内容: 爬取电商平台数据,python爬取某维商品数据 课程亮点 动态数据抓包演示 json数据解析 requests模块的使用 保存csv 环境介绍 python 3.8 [最好用和老师一样的版 ...
- python爬取b站评论_学习笔记(1):写了个python爬取B站视频评论的程序
学习笔记(1):写了个python爬取B站视频评论的程序 import requests import json import os table='fZodR9XQDSUm21yCkr6zBqiveY ...
- Python爬取京东任意商品数据实战总结
利用Python爬取京东任意商品数据 今天给大家展示爬取京东商品数据 首先呢还是要分思路的,我分为以下几个步骤: 第一步:得到搜索指定商的url 第二步:获得搜索商品列表信息 第三步:对得到的商品数据 ...
- python爬取淘宝商品图片
python爬取淘宝商品的图片 话不多说,直接上代码: from selenium import webdriver from selenium.webdriver.common import key ...
- python爬取网易云音乐评论分析_python爬取网易云音乐评论
本文实例为大家分享了python爬取网易云音乐评论的具体代码,供大家参考,具体内容如下 import requests import bs4 import json def get_hot_comme ...
- python爬b站评论_学习笔记(1):写了个python爬取B站视频评论的程序
学习笔记(1):写了个python爬取B站视频评论的程序 import requests import json import os table='fZodR9XQDSUm21yCkr6zBqiveY ...
最新文章
- java爬虫面试题_使用Java实现网络爬虫
- 步入三十岁前的总结:看似经历很多得到很多,但,实际却一无所得
- mysql列增减_Mysql基本操作——增减改查
- 为什么买入不了创业版_详解实战抄底——如何抄到下引线的最底端。及妖股的首板买入点...
- java 不加锁_在java中,在高并发的时候,不加锁的时候。
- JAVA面试题(2018)
- c语言追加字符串_Redis源码解析二--简单动态字符串
- phpcms v9中某些默认的文件路径
- activemq spring 集成与测试
- 计算机毕业设计springboot门诊管理系统
- 零信任时代,开放式安全沙箱让管控更灵活
- golang学习之go方法
- Linux目录结构和文件、目录常用命令
- Packet Tracer –配置多区域OSPFv2
- 初识Python必看基础知识~ 续(3)
- OSDI 2021 VEGITO 论文阅读
- 【实例】使用 PHPExcel 读取excel 文件
- IOS m3u8格式视频流截图
- 莱佛士毕业生 Amos YEO与快餐巨头KFC街头服饰合作系列
- SEO优化要以“大局为重”