python翻页爬取京东商品评价
python翻页爬取京东商品评价
以小米手机评论为案例
1.找到目标的url
2.检查响应结果
3.解析json数据,发现相应数据无法成功解析
注意:json数据一般都是以大括号或中括号开头或者结尾的。这里我们发现,响应的json数据是有干扰信息的。我们需要将这些干扰信息去除,然后才能进行在线解析。(而我们在程序中可以通过正则实现将干扰信息去除)
解析结果如下:
由上图,我们可以得到目标数据的jsonpath语法
4.最后对比前三页的url,找到翻页的规律:
https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10025642911830&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1
https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10025642911830&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0&rid=0&fold=1
https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10025642911830&score=0&sortType=5&page=2&pageSize=10&isShadowSku=0&rid=0&fold=1
由上,找到翻页规律在于page参数
解析完毕,开始上代码:
import requests
import jsonpath
import re
import jsonif __name__ == '__main__':# 输入要爬取评论的页数pages = int(input('请输入要爬取的页数:'))# 创建for循环进行翻页for i in range(pages):page = i# 确认目标的urlurl = f'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10025642911830&score=0&sortType=5&page={page}&pageSize=10&isShadowSku=0&fold=1'# 创建请求头参数headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36','Referer':'https://item.jd.com/','Cookie':'__jdu=738122922; shshshfpa=6d2e8f0f-4894-6aa0-4b01-cff3a242b1f4-1610016278; shshshfpb=zA27bQPLMCh6Pu%20y8W8M9ew%3D%3D; unpl=V2_ZzNtbUUHFBx9AEUAfR5YUGIFFl8RV0BAdVxFVHoeVQVkAhsPclRCFnUUR1RnGlUUZwYZX0FcQB1FCEdkeBBVAWMDE1VGZxBFLV0CFSNGF1wjU00zQwBBQHcJFF0uSgwDYgcaDhFTQEJ2XBVQL0oMDDdRFAhyZ0AVRQhHZH0bVQVkABpeQWdzEkU4dlxyHlUAYzMTbUNnAUEpD05VchlaSGEBG11BVEsWdjhHZHg%3d; __jdv=76161171|baidu-pinzhuan|t_288551095_baidupinzhuan|cpc|0f3d30c8dba7459bb52f2eb5eba8ac7d_0_6af8992e765d4753b12d1e210681208c|1611815549947; areaId=7; ipLoc-djd=7-420-421-0; __jda=122270672.738122922.1610016207.1610097257.1611815550.6; __jdc=122270672; shshshfp=985dab7abfa1bb52f9468aa423f30a12; 3AB9D23F7A4B3C9B=QGPEIVJE44XKXCOI2WZ6PAHNP2MMLBPQLIXQ4EWDPIL3O4SB6PWJXOAGGGTLLRLIZHO2AZRAC4UBTGFYFI76BQ5X4A; jwotest_product=99; JSESSIONID=CE22768EFA71FB9CD36F9B9BBFF2902C.s1; __jdb=122270672.8.738122922|6.1611815550; shshshsID=df7926d2035282c451cca5bca0543fd2_8_1611817303661'}# 发送请求,获取响应response = requests.get(url,headers=headers)# 通过正则去除json外多余的部分content = response.textprint(content)str_data = re.findall(r'fetchJSON_comment98\((.*?)\);',content)[0]# 将数据转换成python数据py_data = json.loads(str_data)# 提取id和评论id_data = jsonpath.jsonpath(py_data,'$.comments[*].nickname')comment_data = jsonpath.jsonpath(py_data,'$.comments[*].content')for i in range(len(id_data)):dict_ = {}dict_[id_data[i]] = comment_data[i]json_data = json.dumps(dict_,ensure_ascii=False)+',\n'with open(f'翻页爬取京东商品用户名及评论共{pages}页.json','a',encoding='utf-8')as f:f.write(json_data)
python翻页爬取京东商品评价相关推荐
- python爬虫爬取京东商品评价_网络爬虫-爬取京东商品评价数据
前段时间做商品评价的语义分析,需要大量的电商数据,于是乎就自己动手爬取京东的数据.第一次接触爬虫是使用selenium爬取CNKI的摘要,基于惯性思维的我仍然想用selenium+Firefox的方法 ...
- Python动态爬虫爬取京东商品评论
Python 动态爬虫爬取京东商品评论 1. 概述 京东商城是Python爬虫初学者试手的经典平台,反爬虫程度较低,但评论采取了动态加载的方式,爬取京东商品评论是学习动态爬虫的一个极佳方法. 动态爬虫 ...
- python制作爬虫爬取京东商品评论教程
python制作爬虫爬取京东商品评论教程 作者:蓝鲸 类型:转载 本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计 ...
- Selenium爬取京东商品评价,并进行基于情感词典的文本情感极性分析
Selenium爬取京东商品评价,并进行基于情感词典的文本情感极性分析 1. 介绍及开发环境 2. 爬虫实现 2.1 请求构造 2.2 提取信息 2.3 数据存储 2.4 运行结果 3. 文本情感分析 ...
- 网络爬虫-爬取京东商品评价数据
前段时间做商品评价的语义分析,需要大量的电商数据,于是乎就自己动手爬取京东的数据.第一次接触爬虫是使用selenium爬取CNKI的摘要,基于惯性思维的我仍然想用selenium+Firefox的方法 ...
- python翻页爬取电影天堂网电影的磁力链接
python翻页爬取电影天堂网电影的磁力链接 案例目的: 介绍如何通过首页的url提取详情页的url以及如何通过xpath语法提取详情页的数据. 代码功能: 输入要爬取的页数,自动保存电影的名称以及对 ...
- python爬虫爬取京东商品评价_python爬取京东商品信息及评论
''' 爬取京东商品信息: 功能: 通过chromeDrive进行模拟访问需要爬取的京东商品详情页(https://item.jd.com/100003196609.html)并且程序支持多个页面爬取 ...
- Python爬虫:爬取京东商品简介
Python爬虫 目录导航 1.前言 目的 关于爬虫 关于Python 2.准备 工具 安装第三方库和包 3.敲代码 1.爬取网站信息 2.筛选需要的信息 3.持久化数据 4.扩展(分页爬取) 4.代 ...
- 爬取京东商品评价并生成词云
上期为大家介绍了requests库的基本信息以及使用requests库爬取某东的商品页,收到了很多同学的反馈说期待猪哥的更新,猪哥感到非常开心,今天就带大家来玩一把刺激的! 一.需求背景 在实际开发过 ...
最新文章
- OpenGL函数功能glutTimerFunc()
- 为什么c程序里一定要写main函数
- JupyterLab 配置远程python、R环境(与Jupyter兼容)
- 为什么apm代购价那么便宜_为什么长焦相机那么便宜而单反相机那么贵
- SqlServer自定义排序
- C#_解决在控制台中输入Ctrl+Z的问题
- matlab fir overflow,实战fir脚本打ipa包
- 如何在Java中初始化List <String>对象?
- robot framework -重点记录
- 映美精(IMAGINGSOURCE)相机与OPENCV库(包含工程源码)
- 横摆角速度传感器原理
- 悉尼大学商业数据科学与计算机学院,悉尼大学数据科学专业
- GE、西门子、PTC、SAP、阿里、腾讯、海尔..工业互联网的『未来战争』
- 机器学习笔记(17)使用XGBoost完成高维数据的分类任务
- 某代理网站免费IP地址抓取测试
- sql2000 sp3、sql2000 sp4升级补丁下载和安装须知
- drools决策表的简单使用
- android 应用后台 闪退,关于安卓应用后台运行后,重新进入,应用闪退问题
- 计算机开机白屏怎么处理,电脑开机白屏怎么办如何解决开机白屏的问题
- 什么叫诚实_诚信是什么
热门文章
- 2022-1-21 Leetcode.645.错误的集合
- html把div下移,Html:zoom div下移
- 2021-08-07黑马c++基础知识——类
- 【电气专业知识问答】问:直流系统及其直流充电装置正常运行监视、检查的项目有哪些?
- 计算机视觉小车论文,汽车设计毕业论文范文
- 怎么打开SQL SERVER 2012的配置管理器
- SQL Server2014找不到SQL Server配置管理器解决办法
- c语言婚姻管理程序,C语言实现婚姻匹配有关问题
- 阿尔伯塔大学 计算机科学,[阿尔伯塔大学]计算机/计算机工程专业
- 已解决解压zip文件,抛出异常:不可预料的压缩文件末端的正确解决方法(亲测有效)