python 爬虫-京东用户评论数据和用户评分

在京东页面查找（例如：oppo r15）,选择第一个商品点击进入。

点击第一个评论页面：

点击第二个评论页面：

第三个评论页面：

发现第二页和第三页的网址是一样的，我们可以推测，访问第一页评论的网址也可以和2,3一样。

我们再次点击第一页：

发现确实如此

对于这种网站要爬取信息是比较难的（评论翻页，但是网址不变），可能评论信息是异步加载，需要抓包找到位置。

我们按下F12，进入浏览器的开发者模式（我用的是谷歌浏览器），选择其中的几个选项。

上面有很多信息，我们需要找到评论数据。之后点击禁止符号，意思是clear清除原有信息

选择评论的第二页：下面出现了一个文件

这就是我们需要的评论数据和网页地址

https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page=1&pageSize=10&isShadowSku=6560154&rid=0&fold=1

复制到浏览器看到评论数据

进入页面点击第3个页面：

https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page=2&pageSize=10&isShadowSku=6560154&rid=0&fold=1

观察两个页面的规律：只有page参数在变化

https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page=1&pageSize=10&isShadowSku=6560154&rid=0&fold=1

https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page=2&pageSize=10&isShadowSku=6560154&rid=0&fold=1

改变：page=3复制到浏览器参看

https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page=3&pageSize=10&isShadowSku=6560154&rid=0&fold=1

现在就找到了需要爬虫的评论数据，观察一个页面信息

从数据可以看到里面的评论数据和用户评分。这是我们需要的数据了。

实验代码如下：

import os
import re
import pandas as pd
import requestsif os.path.exists('comment.txt'):os.remove('comment.txt')
else:f = open('comment.txt','a')count = 0
url = 'https://sclub.jd.com/comment/productPageComments.action?callback=\fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page='
url2 = '&pageSize=10&isShadowSku=6560154&rid=0&fold=1'for i in range(0,10):#输入需要爬虫的页面数try:html = requests.get(url + str(i) + url2)html = html.text#使用正则提取评论信息content1 = re.findall(r'"guid".*?,"content":(.*?),',html)#对提取的评论信息进行去重content2=[]temp = ''for c in content1:if temp != c:content2.append(c)temp = c#使用正则提取score字段信息score = re.findall(r'"referenceImage".*?,"score":(.*?),',html)for s,c in zip(score,content2):count += 1c = c.replace('\\n','')f.write(str(count)+'\t' + str(s)+'\t' + c)f.write('\n')except:print('爬取第'+str(i)+'页出现问题')
#        continuebreak
f.close()

参考：

https://ask.hellobi.com/blog/wangdawei/10230

http://bluewhale.cc/2016-12-15/use-python-to-capture-and-analyze-jingdong-product-reviews-data.html

python 爬虫-京东用户评论数据和用户评分相关推荐

python根据频率画出词云_利用pandas+python制作100G亚马逊用户评论数据词云
原标题:利用pandas+python制作100G亚马逊用户评论数据词云数据挖掘入门与实战公众号: datadw 我们手里面有一个差不多100G的亚马逊用户在购买商品后留下的评论数据(数据格式为j ...
[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（三） —— 数据的持久化——使用MongoDB存储爬取的数据
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...
利用Python爬取基于AES对称加密算法的网易云音乐用户评论数据
本文利用Python2.7根据网易云音乐歌曲ID爬取了该歌曲的所有用户评论数据.以id是28875120的歌曲<小岁月太着急>为示例,通过Chrome的DevTools工具获取已加密评论数 ...
pythonallowpos_利用Python抓取并分析京东商品评论数据
2.1 内容简介本章主要介绍如何利用Python抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色等颜色, 70B到90D ...
Python爬取京东商品评论数据
一.前言本文将承接笔者的上篇文章Python爬取京东商品数据,使用京东商品唯一id字段"sku"拼接url,得到真实的京东商品评论网址,进而解释数据并保存到文件中,所爬取到的数据 ...
python新闻评论分析_使用 python 抓取并分析京东商品评论数据
本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...
毕设——电商产品评论数据的用户情感倾向分析
1.主要研究内容包括:(1)在查阅国内外文献资料的基础上,了解电商产品评论数据情感分析关键技术流程及国内外研究现状:(2)采用网络爬虫工具(如八爪鱼采集器)采集评论数据,实现文本去重.压缩去词等文本评 ...
[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（四） —— 应对反爬技术（选取 User-Agent、添加 IP代理池以及Cookies池）
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...
[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（二） —— 编写一个基本的 Spider 爬取微博用户信息
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) -- 新建爬虫项目在上一篇我们新建了一个 sina_scrapy 的项目,这一节我们开始正式编写爬虫的代码. 选择目标 ...

python 爬虫-京东用户评论数据和用户评分

python 爬虫-京东用户评论数据和用户评分

python 爬虫-京东用户评论数据和用户评分相关推荐

最新文章

热门文章