python 爬虫-京东用户评论数据和用户评分
python 爬虫-京东用户评论数据和用户评分
在京东页面查找(例如:oppo r15),选择第一个商品点击进入。
点击第一个评论页面:
点击第二个评论页面:
第三个评论页面:
发现第二页和第三页的网址是一样的,我们可以推测,访问第一页评论的网址也可以和2,3一样。
我们再次点击第一页:
发现确实如此
对于这种网站要爬取信息是比较难的(评论翻页,但是网址不变),可能评论信息是异步加载,需要抓包找到位置。
我们按下F12,进入浏览器的开发者模式(我用的是谷歌浏览器),选择其中的几个选项。
上面有很多信息,我们需要找到评论数据。之后点击禁止符号,意思是clear清除原有信息
选择评论的第二页:下面出现了一个文件
这就是我们需要的评论数据和网页地址
https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page=1&pageSize=10&isShadowSku=6560154&rid=0&fold=1
复制到浏览器看到评论数据
进入页面点击第3个页面:
https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page=2&pageSize=10&isShadowSku=6560154&rid=0&fold=1
观察两个页面的规律:只有page参数在变化
https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page=1&pageSize=10&isShadowSku=6560154&rid=0&fold=1
https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page=2&pageSize=10&isShadowSku=6560154&rid=0&fold=1
改变:page=3复制到浏览器参看
https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page=3&pageSize=10&isShadowSku=6560154&rid=0&fold=1
现在就找到了需要爬虫的评论数据,观察一个页面信息
从数据可以看到里面的评论数据和用户评分。这是我们需要的数据了。
实验代码如下:
import os
import re
import pandas as pd
import requestsif os.path.exists('comment.txt'):os.remove('comment.txt')
else:f = open('comment.txt','a')count = 0
url = 'https://sclub.jd.com/comment/productPageComments.action?callback=\fetchJSON_comment98vv1&productId=6790503&score=0&sortType=5&page='
url2 = '&pageSize=10&isShadowSku=6560154&rid=0&fold=1'for i in range(0,10):#输入需要爬虫的页面数try:html = requests.get(url + str(i) + url2)html = html.text#使用正则提取评论信息content1 = re.findall(r'"guid".*?,"content":(.*?),',html)#对提取的评论信息进行去重content2=[]temp = ''for c in content1:if temp != c:content2.append(c)temp = c#使用正则提取score字段信息score = re.findall(r'"referenceImage".*?,"score":(.*?),',html)for s,c in zip(score,content2):count += 1c = c.replace('\\n','')f.write(str(count)+'\t' + str(s)+'\t' + c)f.write('\n')except:print('爬取第'+str(i)+'页出现问题')
# continuebreak
f.close()
python 爬虫-京东用户评论数据和用户评分相关推荐
- python根据频率画出词云_利用pandas+python制作100G亚马逊用户评论数据词云
原标题:利用pandas+python制作100G亚马逊用户评论数据词云 数据挖掘入门与实战 公众号: datadw 我们手里面有一个差不多100G的亚马逊用户在购买商品后留下的评论数据(数据格式为j ...
- [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——使用MongoDB存储爬取的数据
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息 在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...
- 利用Python爬取基于AES对称加密算法的网易云音乐用户评论数据
本文利用Python2.7根据网易云音乐歌曲ID爬取了该歌曲的所有用户评论数据.以id是28875120的歌曲<小岁月太着急>为示例,通过Chrome的DevTools工具获取已加密评论数 ...
- pythonallowpos_利用Python抓取并分析京东商品评论数据
2.1 内容简介 本章主要介绍如何利用Python抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色等颜色, 70B到90D ...
- Python爬取京东商品评论数据
一.前言 本文将承接笔者的上篇文章Python爬取京东商品数据,使用京东商品唯一id字段"sku"拼接url,得到真实的京东商品评论网址,进而解释数据并保存到文件中,所爬取到的数据 ...
- python新闻评论分析_使用 python 抓取并分析京东商品评论数据
本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...
- 毕设——电商产品评论数据的用户情感倾向分析
1.主要研究内容包括:(1)在查阅国内外文献资料的基础上,了解电商产品评论数据情感分析关键技术流程及国内外研究现状:(2)采用网络爬虫工具(如八爪鱼采集器)采集评论数据,实现文本去重.压缩去词等文本评 ...
- [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(四) —— 应对反爬技术(选取 User-Agent、添加 IP代理池以及Cookies池 )
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) -- 数据的持久化--使用MongoDB存储爬取的数据 最近项目有些忙,很多需求紧急上线,所以一直没能完善< 使用 ...
- [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) —— 编写一个基本的 Spider 爬取微博用户信息
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(一) -- 新建爬虫项目 在上一篇我们新建了一个 sina_scrapy 的项目,这一节我们开始正式编写爬虫的代码. 选择目标 ...
最新文章
- 10.外观模式(Facade Pattern)
- 软件研发工程师转行机器学习之路
- Integer Sequence Dividing
- docker 部署springboot容器日志处理
- maven生成jar包
- mysql5.7编译安装
- 工程数学线性代数(同济版)第一到六章答案大全线代答案工程数学线代答案
- iso27001标准动态
- 关于注册测绘师的点点滴滴
- Ubuntu 14.04 下安装wiznote客户端
- 用Python+Appium自动写网课考试
- Spark的Windows本地化部署完整方案
- java map取第一个元素_从HashMap获取第一个和最后一个元素
- win7 定时开关机命令
- awk linux 分隔_Linux:批量修改分隔符(awk、BEGIN、FS、OFS、print、tr命令)
- Linux_vi/vim快捷键
- python小项目——2048小游戏(详解)
- CVPR2017论文
- 【PSoC5】使用CY8CKIT-05编写按键控制舵机实验
- 单机服务器docker搭建mysql5.7主从同步