python 爬虫-京东用户评论数据和用户评分

在京东页面查找(例如:oppo r15),选择第一个商品点击进入。

点击第一个评论页面:

点击第二个评论页面:

第三个评论页面:

发现第二页和第三页的网址是一样的,我们可以推测,访问第一页评论的网址也可以和2,3一样。

我们再次点击第一页:

发现确实如此

对于这种网站要爬取信息是比较难的(评论翻页,但是网址不变),可能评论信息是异步加载,需要抓包找到位置。

我们按下F12,进入浏览器的开发者模式(我用的是谷歌浏览器),选择其中的几个选项。

上面有很多信息,我们需要找到评论数据。之后点击禁止符号,意思是clear清除原有信息

选择评论的第二页:下面出现了一个文件

这就是我们需要的评论数据和网页地址

https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page=1&pageSize=10&isShadowSku=6560154&rid=0&fold=1

复制到浏览器看到评论数据

进入页面点击第3个页面:

https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page=2&pageSize=10&isShadowSku=6560154&rid=0&fold=1

观察两个页面的规律:只有page参数在变化

https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page=1&pageSize=10&isShadowSku=6560154&rid=0&fold=1

 

https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page=2&pageSize=10&isShadowSku=6560154&rid=0&fold=1

改变:page=3复制到浏览器参看

https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page=3&pageSize=10&isShadowSku=6560154&rid=0&fold=1

现在就找到了需要爬虫的评论数据,观察一个页面信息

从数据可以看到里面的评论数据和用户评分。这是我们需要的数据了。

实验代码如下:

import os
import re
import pandas as pd
import requestsif os.path.exists('comment.txt'):os.remove('comment.txt')
else:f = open('comment.txt','a')count = 0
url = 'https://sclub.jd.com/comment/productPageComments.action?callback=\fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page='
url2 = '&pageSize=10&isShadowSku=6560154&rid=0&fold=1'for i in range(0,10):#输入需要爬虫的页面数try:html = requests.get(url + str(i) + url2)html = html.text#使用正则提取评论信息content1 = re.findall(r'"guid".*?,"content":(.*?),',html)#对提取的评论信息进行去重content2=[]temp = ''for c in content1:if temp != c:content2.append(c)temp = c#使用正则提取score字段信息score = re.findall(r'"referenceImage".*?,"score":(.*?),',html)for s,c in zip(score,content2):count += 1c = c.replace('\\n','')f.write(str(count)+'\t' + str(s)+'\t' + c)f.write('\n')except:print('爬取第'+str(i)+'页出现问题')
#        continuebreak
f.close()
参考:
https://ask.hellobi.com/blog/wangdawei/10230
http://bluewhale.cc/2016-12-15/use-python-to-capture-and-analyze-jingdong-product-reviews-data.html

python 爬虫-京东用户评论数据和用户评分相关推荐

  1. python根据频率画出词云_利用pandas+python制作100G亚马逊用户评论数据词云

    原标题:利用pandas+python制作100G亚马逊用户评论数据词云 数据挖掘入门与实战 公众号: datadw 我们手里面有一个差不多100G的亚马逊用户在购买商品后留下的评论数据(数据格式为j ...

  2. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——使用MongoDB存储爬取的数据

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息 在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...

  3. 利用Python爬取基于AES对称加密算法的网易云音乐用户评论数据

    本文利用Python2.7根据网易云音乐歌曲ID爬取了该歌曲的所有用户评论数据.以id是28875120的歌曲<小岁月太着急>为示例,通过Chrome的DevTools工具获取已加密评论数 ...

  4. pythonallowpos_利用Python抓取并分析京东商品评论数据

    2.1 内容简介 本章主要介绍如何利用Python抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色等颜色, 70B到90D ...

  5. Python爬取京东商品评论数据

    一.前言 本文将承接笔者的上篇文章Python爬取京东商品数据,使用京东商品唯一id字段"sku"拼接url,得到真实的京东商品评论网址,进而解释数据并保存到文件中,所爬取到的数据 ...

  6. python新闻评论分析_使用 python 抓取并分析京东商品评论数据

    本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...

  7. 毕设——电商产品评论数据的用户情感倾向分析

    1.主要研究内容包括:(1)在查阅国内外文献资料的基础上,了解电商产品评论数据情感分析关键技术流程及国内外研究现状:(2)采用网络爬虫工具(如八爪鱼采集器)采集评论数据,实现文本去重.压缩去词等文本评 ...

  8. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...

  9. [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) —— 编写一个基本的 Spider 爬取微博用户信息

    上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) -- 新建爬虫项目 在上一篇我们新建了一个 sina_scrapy 的项目,这一节我们开始正式编写爬虫的代码. 选择目标 ...

最新文章

  1. 10.外观模式(Facade Pattern)
  2. 软件研发工程师转行机器学习之路
  3. Integer Sequence Dividing
  4. docker 部署springboot容器日志处理
  5. maven生成jar包
  6. mysql5.7编译安装
  7. 工程数学线性代数(同济版)第一到六章答案大全线代答案工程数学线代答案
  8. iso27001标准动态
  9. 关于注册测绘师的点点滴滴
  10. Ubuntu 14.04 下安装wiznote客户端
  11. 用Python+Appium自动写网课考试
  12. Spark的Windows本地化部署完整方案
  13. java map取第一个元素_从HashMap获取第一个和最后一个元素
  14. win7 定时开关机命令
  15. awk linux 分隔_Linux:批量修改分隔符(awk、BEGIN、FS、OFS、print、tr命令)
  16. Linux_vi/vim快捷键
  17. python小项目——2048小游戏(详解)
  18. CVPR2017论文
  19. 【PSoC5】使用CY8CKIT-05编写按键控制舵机实验
  20. 单机服务器docker搭建mysql5.7主从同步

热门文章

  1. 寺库拟私有化:报价较发行价缩水75%,趣店为第一大股东
  2. 银行家算法资源分配问题(例子!!!)
  3. 天下文章一大抄看你会抄不会抄devGridView凭证金额录入(万仟百拾元)
  4. 仓库摆放示意图_仓库货物摆放标准
  5. 上传大文件解决方案方法
  6. 如何注册全部DLL文件以及DLL简要说明
  7. Hive的Parquet存储与LZO压缩
  8. python预测模型
  9. 病毒Ytnauexu
  10. 【C语言中如何表示无穷大】