京东mate10评论分析
华为mate10于10月20开售,作为mate9的升级机型、华为首款AI芯片全面屏手机,mate10备受关注,现需了解用户对mate10的使用感受及评价,使用python工具爬取京东官网评论数据,对评论数据进行文本分析,以便客观了解用户使用体验,对下一代机型的改进提供依据。
1. 查看京东官网mate10评价记录
一共有4.2+W条评论记录,晒图记录500条,追评200+,中评100+,差评100+
对评论进行翻页操作发现京东只提供了100页的评论记录,中评数据记录提供10页,差评数据记录提供10页。
2. 对评论页面代码进行分析
2.1使用Google Chorme浏览器来获取网页代码,分析代码结构。按F12查看,点击network选项,点击红点,按F5重新请求加载网页。
2.2评论数据位于productPageComments.action?开头的script文件中
获取该文件请求地址:https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv8955&productId=5544068&score=0&sortType=5&page=0&pageSize=10&isShadowSku=0&fold=1。
在浏览器中粘贴改地址可发现的确为评论地址。
对该地址进行分析,变动其中page=0的数值参数,就是下一页的评论地址。
分析结果:评论主要数据都以(showOrderComment”:”)开头,以(”afterDays”)结尾【注意:】
2.3爬虫代码如下:
import pandas as pd
import numpy as np
import time
import re,os
import requests
import jieba.analyse
from wordcloud import WordCloud
import matplotlib.pyplot as plt
### 网址部分(分为三部分):
url1 = 'https://sclub.jd.com/comment/productPageComments.action?callback=fetchJSON_comment98vv7364&productId=5544068&score=0&sortType=5&page='
url2 = '&pageSize=10&isShadowSku=0&fold=1'
### 获取网页代码
for i in range(100):
i = str(i)
url = url1+i+url2
print(url)
html = requests.get(url).content
time.sleep(0.2)
with open('C:\XXX\JD_spyder.txt','ab') as f:
f.write(html)
### 将爬取到数据存储到外部,方便下次直接读取
html =open("C:\XXX\JD_spyder.txt",encoding='gb18030').read()
print (html)
### 使用正则匹配匹配评论
pattern1 = re.compile(u'showOrderComment.*?afterDays"')
content = re.findall(pattern1, html)
### 提取评论内容,机型颜色,机型版本,机型
contents = []
color = []
Size = []
saleValue = []
isMobile = []
### 爬取发现 代码中内容有些混乱,Size:中会出现标准版 和 64G ,128G的不同内容
salevalue:中会出现标准版 和 64G ,128G的不同内容
### 爬取结束发现 size 为内存大小 则salevalue对应标准版
### size 为标准版版本 则salevalue为内存大小
for i in range(len(content)):
contents.append(content[i].split('content":"')[1].split('","creationTime')[0])
color.append(content[i].split('"productColor":"')[1].split('","productSize"')[0])
Size.append(content[i].split('"productSize":"')[1].split('"')[0])
saleValue.append(content[i].split('saleValue":"')[1].split('"')[0])
###
data = pd.DataFrame(np.zeros((4685,5)))
data.columns = ["content","productColor","productSize","saleValue","isMobile"]
data["content"] = contents
data['productColor'] = color
data['productSize'] = Size
data['saleValue'] = saleValue
data['userClientshow'] = userClientshow
### 转化版本号和内存容量
for i in range(len(data)):
if 'GB' in data.iloc[i,2]:
size = data.iloc[i,3]
value = data.iloc[i,2]
data.iloc[i,2] = size
data.iloc[i,3] = value
3.可视化部分
### 3.1对mate10各个颜色销量做可视化
可以看出在四中颜色当中,亮黑色销量要远高于其他颜色的销量,符合mate10商务机的定位。
### 3.2可以看出各个版本mate10的销量差距不大。
对评论进行分析
京东mate10评论分析相关推荐
- 京东手机评论分析(一):词云
开篇 先做一些简单的评论分析吧,大部分还是借助于不同的python工具,不得不说很多中文的基本任务还是做得效果比较一般的,毕竟中文的复杂程度可不是英文可以比拟的,这篇就是简单地生成一个词云,是以词频为 ...
- 京东商品评论分析(爬虫+分词+词云图)
项目背景: 本文通过抓取京东某笔记本的评论数据,简单从几个维度进行分析,并制作用户评论的词云图. 爬取数据: 商品链接 通过对商品评论页面进行探索,发现评论数据是通过发送请求,然后从数据库调取此商品的 ...
- pythonallowpos_利用Python抓取并分析京东商品评论数据
2.1 内容简介 本章主要介绍如何利用Python抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色等颜色, 70B到90D ...
- 利用python爬取京东平台评论及图片并进行分析
一.背景及目的 在淘宝.京东等网络平台上购物,逐渐成为大众化的购物方式.但假冒伪劣产品在这个摸不着实物的购物平台严重危害着消费者的购物体验,即使我们可以通过七天无理由退货退款来维护我们的合法权益,但是 ...
- python新闻评论分析_使用 python 抓取并分析京东商品评论数据
本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...
- python爬取京东评论分析_【实战好文】|爬取京东书籍评论并分析
原标题:[实战好文]|爬取京东书籍评论并分析 这是菜鸟学Python的粉丝第10篇原创投稿 阅读本文大概需要5分钟 本篇作者:小郑同学 上周的赠书活动中,收到了楼主送的<利用Python进行数据 ...
- python爬取京东商品数据要先登录_京东商品评论情感分析|文本数据预处理
本文爬取了十款热销手机的文本评论数据后,首先对文本评论数据做文本预处理,文本评论数据中存在大量的无价值信息,引入无用的文本数据,对其作情感分析,显然没有价值,得出的文本挖掘结果也不尽人意.所以对于文本 ...
- 使用snownlp对京东购物评论进行情感分析
使用snownlp对京东购物评论进行情感分析 目的:利用snownlp包,对京东评论进行情感分析 涉及: mysql,snownlp,pandas等工具包 代码结构如下: 注意: jd_comment ...
- ## **scrapy+kafka+sparkstream爬取京东Iphone12评论储存数据**
1.scrapy开始创建项目: scrapy startproject Jd_Iphone12_Analyse 2.pycharm打开目录在spiders中写入解析请求部分如图 3.京东iphone1 ...
最新文章
- leetcode 43. 字符串相乘(Multiply Strings)
- BootLoader引导程序制作及移植(二)
- BZOJ1227 [SDOI2009]虔诚的墓主人 【树状数组】
- python希尔排序的优缺点_Pythonの希尔排序
- 数据不一致问题排查1
- 国内各大平台的推荐算法,看到360的时候笑喷了……
- 客户旅程_我们进入微服务世界的旅程-以及从中学到的东西。
- 李超线段树 [Heoi2013]Segment
- flask同源策略解决办法及flask-cors只允许特定域名跨域
- mysql行级锁升级_mysql innodb 行级锁升级
- python 调用dll 参数_python调用dll
- catia怎么将特征参数化_CATIA参数化建模及关系式的创建和使用 | 坐倚北风
- Signature字段
- 沉痛悼念游戏开发技术专家毛星云
- 翁凯java进阶_多项式加法——mooc《零基础学Java语言》-(浙大翁凯)第五周编程题...
- 记录一次烧写Attiny85引导加载程序(Bootloader)的过程(制作badusb)
- 用户绑定手机号的思考
- android 电视 vob格式转换,佳佳Android视频格式转换器
- 电商项目(谷粒商城)
- ubantu 安装jekins
热门文章
- mos管的rc吸收电路计算_RC吸收电路的设计经验分享
- 开关稳压器详解(七)-Buck降压型开关稳压器RC Snubber设计
- windows下nslookup命令
- docker命令安装rap2阿里开源接口管理工具
- (亲测解决)Tomcat启动时卡在“ Deploying web application directory ”很久的解决方法
- 黑马程序员-JS基础-移动端网页特效
- MFC-ProgressControl(进度条)
- 微信公众号--会员数据导出
- html DOM------document
- linux 入门命令,新手入门Linux命令集锦