python翻页爬取京东商品评价

以小米手机评论为案例

1.找到目标的url

2.检查响应结果

3.解析json数据,发现相应数据无法成功解析

注意:json数据一般都是以大括号或中括号开头或者结尾的。这里我们发现,响应的json数据是有干扰信息的。我们需要将这些干扰信息去除,然后才能进行在线解析。(而我们在程序中可以通过正则实现将干扰信息去除)
解析结果如下:


由上图,我们可以得到目标数据的jsonpath语法

4.最后对比前三页的url,找到翻页的规律:

https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10025642911830&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1
https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10025642911830&score=0&sortType=5&page=1&pageSize=10&isShadowSku=0&rid=0&fold=1
https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10025642911830&score=0&sortType=5&page=2&pageSize=10&isShadowSku=0&rid=0&fold=1

由上,找到翻页规律在于page参数

解析完毕,开始上代码:

import requests
import jsonpath
import re
import jsonif __name__ == '__main__':# 输入要爬取评论的页数pages = int(input('请输入要爬取的页数:'))# 创建for循环进行翻页for i in range(pages):page = i# 确认目标的urlurl = f'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=10025642911830&score=0&sortType=5&page={page}&pageSize=10&isShadowSku=0&fold=1'# 创建请求头参数headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.104 Safari/537.36','Referer':'https://item.jd.com/','Cookie':'__jdu=738122922; shshshfpa=6d2e8f0f-4894-6aa0-4b01-cff3a242b1f4-1610016278; shshshfpb=zA27bQPLMCh6Pu%20y8W8M9ew%3D%3D; unpl=V2_ZzNtbUUHFBx9AEUAfR5YUGIFFl8RV0BAdVxFVHoeVQVkAhsPclRCFnUUR1RnGlUUZwYZX0FcQB1FCEdkeBBVAWMDE1VGZxBFLV0CFSNGF1wjU00zQwBBQHcJFF0uSgwDYgcaDhFTQEJ2XBVQL0oMDDdRFAhyZ0AVRQhHZH0bVQVkABpeQWdzEkU4dlxyHlUAYzMTbUNnAUEpD05VchlaSGEBG11BVEsWdjhHZHg%3d; __jdv=76161171|baidu-pinzhuan|t_288551095_baidupinzhuan|cpc|0f3d30c8dba7459bb52f2eb5eba8ac7d_0_6af8992e765d4753b12d1e210681208c|1611815549947; areaId=7; ipLoc-djd=7-420-421-0; __jda=122270672.738122922.1610016207.1610097257.1611815550.6; __jdc=122270672; shshshfp=985dab7abfa1bb52f9468aa423f30a12; 3AB9D23F7A4B3C9B=QGPEIVJE44XKXCOI2WZ6PAHNP2MMLBPQLIXQ4EWDPIL3O4SB6PWJXOAGGGTLLRLIZHO2AZRAC4UBTGFYFI76BQ5X4A; jwotest_product=99; JSESSIONID=CE22768EFA71FB9CD36F9B9BBFF2902C.s1; __jdb=122270672.8.738122922|6.1611815550; shshshsID=df7926d2035282c451cca5bca0543fd2_8_1611817303661'}# 发送请求,获取响应response = requests.get(url,headers=headers)# 通过正则去除json外多余的部分content = response.textprint(content)str_data = re.findall(r'fetchJSON_comment98\((.*?)\);',content)[0]# 将数据转换成python数据py_data = json.loads(str_data)# 提取id和评论id_data = jsonpath.jsonpath(py_data,'$.comments[*].nickname')comment_data = jsonpath.jsonpath(py_data,'$.comments[*].content')for i in range(len(id_data)):dict_ = {}dict_[id_data[i]] = comment_data[i]json_data = json.dumps(dict_,ensure_ascii=False)+',\n'with open(f'翻页爬取京东商品用户名及评论共{pages}页.json','a',encoding='utf-8')as f:f.write(json_data)

python翻页爬取京东商品评价相关推荐

  1. python爬虫爬取京东商品评价_网络爬虫-爬取京东商品评价数据

    前段时间做商品评价的语义分析,需要大量的电商数据,于是乎就自己动手爬取京东的数据.第一次接触爬虫是使用selenium爬取CNKI的摘要,基于惯性思维的我仍然想用selenium+Firefox的方法 ...

  2. Python动态爬虫爬取京东商品评论

    Python 动态爬虫爬取京东商品评论 1. 概述 京东商城是Python爬虫初学者试手的经典平台,反爬虫程度较低,但评论采取了动态加载的方式,爬取京东商品评论是学习动态爬虫的一个极佳方法. 动态爬虫 ...

  3. python制作爬虫爬取京东商品评论教程

    python制作爬虫爬取京东商品评论教程 作者:蓝鲸 类型:转载 本文是继前2篇Python爬虫系列文章的后续篇,给大家介绍的是如何使用Python爬取京东商品评论信息的方法,并根据数据绘制成各种统计 ...

  4. Selenium爬取京东商品评价,并进行基于情感词典的文本情感极性分析

    Selenium爬取京东商品评价,并进行基于情感词典的文本情感极性分析 1. 介绍及开发环境 2. 爬虫实现 2.1 请求构造 2.2 提取信息 2.3 数据存储 2.4 运行结果 3. 文本情感分析 ...

  5. 网络爬虫-爬取京东商品评价数据

    前段时间做商品评价的语义分析,需要大量的电商数据,于是乎就自己动手爬取京东的数据.第一次接触爬虫是使用selenium爬取CNKI的摘要,基于惯性思维的我仍然想用selenium+Firefox的方法 ...

  6. python翻页爬取电影天堂网电影的磁力链接

    python翻页爬取电影天堂网电影的磁力链接 案例目的: 介绍如何通过首页的url提取详情页的url以及如何通过xpath语法提取详情页的数据. 代码功能: 输入要爬取的页数,自动保存电影的名称以及对 ...

  7. python爬虫爬取京东商品评价_python爬取京东商品信息及评论

    ''' 爬取京东商品信息: 功能: 通过chromeDrive进行模拟访问需要爬取的京东商品详情页(https://item.jd.com/100003196609.html)并且程序支持多个页面爬取 ...

  8. Python爬虫:爬取京东商品简介

    Python爬虫 目录导航 1.前言 目的 关于爬虫 关于Python 2.准备 工具 安装第三方库和包 3.敲代码 1.爬取网站信息 2.筛选需要的信息 3.持久化数据 4.扩展(分页爬取) 4.代 ...

  9. 爬取京东商品评价并生成词云

    上期为大家介绍了requests库的基本信息以及使用requests库爬取某东的商品页,收到了很多同学的反馈说期待猪哥的更新,猪哥感到非常开心,今天就带大家来玩一把刺激的! 一.需求背景 在实际开发过 ...

最新文章

  1. OpenGL函数功能glutTimerFunc()
  2. 为什么c程序里一定要写main函数
  3. JupyterLab 配置远程python、R环境(与Jupyter兼容)
  4. 为什么apm代购价那么便宜_为什么长焦相机那么便宜而单反相机那么贵
  5. SqlServer自定义排序
  6. C#_解决在控制台中输入Ctrl+Z的问题
  7. matlab fir overflow,实战fir脚本打ipa包
  8. 如何在Java中初始化List <String>对象?
  9. robot framework -重点记录
  10. 映美精(IMAGINGSOURCE)相机与OPENCV库(包含工程源码)
  11. 横摆角速度传感器原理
  12. 悉尼大学商业数据科学与计算机学院,悉尼大学数据科学专业
  13. GE、西门子、PTC、SAP、阿里、腾讯、海尔..工业互联网的『未来战争』
  14. 机器学习笔记(17)使用XGBoost完成高维数据的分类任务
  15. 某代理网站免费IP地址抓取测试
  16. sql2000 sp3、sql2000 sp4升级补丁下载和安装须知
  17. drools决策表的简单使用
  18. android 应用后台 闪退,关于安卓应用后台运行后,重新进入,应用闪退问题
  19. 计算机开机白屏怎么处理,电脑开机白屏怎么办如何解决开机白屏的问题
  20. 什么叫诚实_诚信是什么

热门文章

  1. 2022-1-21 Leetcode.645.错误的集合
  2. html把div下移,Html:zoom div下移
  3. 2021-08-07黑马c++基础知识——类
  4. 【电气专业知识问答】问:直流系统及其直流充电装置正常运行监视、检查的项目有哪些?
  5. 计算机视觉小车论文,汽车设计毕业论文范文
  6. 怎么打开SQL SERVER 2012的配置管理器
  7. SQL Server2014找不到SQL Server配置管理器解决办法
  8. c语言婚姻管理程序,C语言实现婚姻匹配有关问题
  9. 阿尔伯塔大学 计算机科学,[阿尔伯塔大学]计算机/计算机工程专业
  10. 已解决解压zip文件,抛出异常:不可预料的压缩文件末端的正确解决方法(亲测有效)