JD京东爬虫-商品评论爬虫


附源码

本教程适合初学者。

分析开始---------------
打开京东商品链接,打开抓包工具(加载网页后打开抓包工具,发现没有抓到数据包,刷新网页就行),这边直接筛选js了,就不用看那么多内容。然后在响应数据中看看有没有想要的评论数据。
然后双击抓到的数据包,或者复制url进入浏览器。
打开后发现是json数据,看到这里是不是头皮发麻,哈哈哈,不要慌!管它呢么多,咱们要的是文字的评论数据,直接使用正则就好了。有时不得不说,正则真的是很好用的。
但是细心地同志会发现这个网页只有一部分的评论数据,这个时候怎么办呢,我们可以看看url,发现他携带了很多的参数
通过尝试,发现“score=0: 是所有评论, score=1是差评,score=2是中评,score=3是好评,page=0:代表的是评论的页数,”修改后访问url发现,的确如此!!!
分析完毕!
通过分析我们需要,简单的对url进行动态变化再加上,基础爬虫和正则处理就可以拿到想要的数据了。

代码开始:

导包———>>>>>>>这边只需要导入两个包:分别对应爬虫正则

再对url进行动态处理,通过for循环来控制评论页数。
然后进行最基础的爬虫操作。------>>>>>携带请求头通过requests发起get请求
再进行正则匹配操作就好。------>>>正则表达式这边是向别人学习的
评论获取成功!!

注意----->>>>初学者建议每一步都print一下,看一下动态组成的url是否可以手动访问,还可以看看正则处理前是否获取到数据。

源码如下:

# -*- endoding: utf-8 -*-
# @ModuleName:京东
# @Function(功能):
# @Author : 苏穆冰白月晨
# @Time : 2021/3/7 0:56
import requests
import re'''
https://club.jd.com/comment/productPageComments.action?
callback=fetchJSON_comment98
&productId=1233203
&score=0
&sortType=5
&page=1
&pageSize=10
&isShadowSku=0
&fold=1
'''def main():first = 1for i in range(1, 50):url = 'https://club.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98&productId=1233203&score=0&sortType=5&pageSize=10&isShadowSku=0&fold=1&page='finalurl = url + str(i) + '&pageSize=10&isShadowSku=0&fold=1'header = {'User-Agent': "Mozilla/5.0 (Windows NT 10.0; WOW64; rv:38.0) Gecko/20100101 Firefox/38.0",}data = requests.get(url=finalurl,headers=header).textremodel_comment = re.compile(r'\"content\":\"([^"]+)\",\"(?:creationTime|vcontent)\"')  # 匹配评论comment_list = remodel_comment.findall(data)for i in comment_list:print(first,":",i)first += 1main()

JD京东爬虫-商品评论爬虫-----附源码相关推荐

  1. Java豆瓣电影爬虫——小爬虫成长记(附源码)

    以前也用过爬虫,比如使用nutch爬取指定种子,基于爬到的数据做搜索,还大致看过一些源码.当然,nutch对于爬虫考虑的是十分全面和细致的.每当看到屏幕上唰唰过去的爬取到的网页信息以及处理信息的时候, ...

  2. 计算机毕业设计SSM超市商品管理系统【附源码数据库】

    项目运行 环境配置: Jdk1.8 + Tomcat7.0 + Mysql + HBuilderX(Webstorm也行)+ Eclispe(IntelliJ IDEA,Eclispe,MyEclis ...

  3. 20个大数据可视化大屏模板(评论区附源码)

    为什么大屏数据展示模板越来越受欢迎? 大屏在企业中越来越受欢迎,主要有两个方面的原因 第一:全方位的数据展示. 目前企业都有面临"信息孤岛"问题,各个系统平台之间的数据无法实现融合 ...

  4. 【Python自学笔记】10个爬虫入门实例,附源码与注释

    涉及知识点: web是如何交互的 requests库的get.post函数的应用 response对象的相关函数,属性 Python文件的打开,保存 代码中给出了注释,并且可以直接运行哦 如何安装re ...

  5. 新浪微博爬虫手机版(附源码)

    上篇已经说了手机版的比较好爬,本篇就贴出一个新浪微博手机版爬虫....至于电脑版,因为我目前要用,暂时不提供分享 # coding: utf-8 ''' 以关键词收集新浪微博 ''' import w ...

  6. 【Python】一文弄懂python装饰器(附源码例子)

    目录 前言 一.什么是装饰器 二.为什么要用装饰器 三.简单的装饰器 四.装饰器的语法糖@ 五.装饰器传参 六.带参数的装饰器 七.类装饰器 八.带参数的类装饰器 九.装饰器的顺序 总结 写在后面 前 ...

  7. Python爬虫实战,requests+openpyxl模块,爬取手机商品信息数据(附源码)

    前言 今天给大家介绍的是Python爬取手机商品信息数据,在这里给需要的小伙伴们代码,并且给出一点小心得. 首先是爬取之前应该尽可能伪装成浏览器而不被识别出来是爬虫,基本的是加请求头,但是这样的纯文本 ...

  8. python二手交易平台代码_PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二手急速响应捡垃圾平台_3(附源码持续更新)...

    说明 文章首发于HURUWO的博客小站,本平台做同步备份发布. 如有浏览或访问异常图片加载失败或者相关疑问可前往原博客下评论浏览. 原文链接 PYTHON爬虫实战_垃圾佬闲鱼爬虫转转爬虫数据整合自用二 ...

  9. scrapy爬虫之爬取百度手机助手app信息并保存至mongodb数据库(附源码)

    声明: ​ 本文内容仅供学习python爬虫的同学用作学习参考!!! ​ 如有错误,请评论指出,非常感谢!!! 1.使用环境 python 3.8 scrapy 2.5 mongodb pycharm ...

最新文章

  1. 从指纹到眼球识别:漫谈手机安全方案
  2. Gradle 设置本地maven
  3. 马云携阿里17位创始人及合伙人捐赠浙大一院5.6亿,杭州渐成中国硅谷
  4. 032_使用ArrayDeque模拟栈结构
  5. Animatable API介绍
  6. Linux ALSA声卡驱动之七:ASoC架构中的Codec
  7. .Net Core3.0 日志 logging
  8. 成功人士都是这样逼出来的
  9. H3C中标苏州教育城域网改造项目
  10. 【EF】Entity Framework Core 2.0 特性介绍和使用指南
  11. java 开源发布系统_18个Java开源CMS系统一览
  12. Linux操作系统基本知识
  13. python中id是什么意思_什么是python的id函数
  14. 事情永远都没有想象中那么好
  15. 51nod:1079 中国剩余定理(数学)
  16. 熵为什么使用log?
  17. 计算机网络/谢希仁(第八版)第一章习题
  18. oracle minus 是什么意思,oracle minus用法
  19. 使用scrollTo、scrollBy、Scroller实现滚动动画
  20. 【将金令】1.19晚评:欧版QE箭在弦上,破高有望

热门文章

  1. 华为android9王者荣耀卡,华为mate9玩王者荣耀怎么样 mate9玩王者荣耀卡吗
  2. 如何将ppt演示文稿上传到微信公众号?
  3. DPDK内存管理总结
  4. 杨云华师大计算机,2017-2018学年第二学期教师辅导-华东师范大学计算中心网站.DOC...
  5. 【云原生】-Docker部署SQL Server及最佳应用
  6. windows server ----域(D)的创建
  7. 《艾尔登法环》雷亚卢卡利亚结晶坑道的位置
  8. Northleaf扩大业务开发团队,任命Chris O’Connor 为澳大利亚和新西兰地区董事总经理
  9. Discuz论坛管理员密码忘记重置
  10. android 盒子刷机,一加5刷机盒子