一、概述

本文主要使用Python对亚马逊智能产品评论数据集进行数据清洗,通过对不同产品的评分进行变换后得到产品的好评数、中评数、差评数以及对应的比率等,通过上述这些指标,找到好评率最高的产品、并尝试通过词云图对差评率最高的产品进行原因分析,了解用户对产品的功能、设计等方面是否满意,对于不满足用户需求的产品,平台可以进行完善,提高产品的用户满意度等;

二、提出问题评论数最高和最低的商品

平均评分最高和最低的商品

好评率和差评率最高及最低的商品

商品的评价数是否与发布时间的长短成正相关

使用词云简单分析差评率最高的商品的原因

商品有无追评的平均评分如何

数据来源:亚马逊智能产品评论https://www.kaggle.com/datafiniti/consumer-reviews-of-amazon-products#1429_1.csv​www.kaggle.com

字段含义id-用户编号

name-产品名称

asins-产品编号

brand-品牌

categories-产品类别

keys-类别关键字

manufacturer-制造商

date-评论时间

dateAdded-追评时间

dateSeen-评论可见时间

doRecommend-评论是否被推荐

numHelpful-帮助性分子数

rating-评分

sourceURLs-评论链接

text-评论文字内容

title-评论标题

username-用户名

三、分析内容

3.1 数据清洗

由于数据集中:reviews.date、reviews.dateAdded的格式为2017-01-13T00:00:00.000Z,需要将评论的格式转换为日期时间格式,考虑到后续分析中只需使用日期,所以上述三个字段均只保留日期

data['reviews.date'] = data['reviews.date'].str.split('T').str[0]

data['reviews.dateAdded'] = data['reviews.dateAdded'].str.split('T').str[0]

pd.to_datetime(data['reviews.date'])

pd.to_datetime(data['reviews.dateAdded'])

3.2 缺失值处理

data.isnull().sum()

name、reviews.didPurchase、reviews.id的缺失值处理name:产品名称缺失,考虑到可以用asins来区分产品,所以将该字段删除;

reviews.didPurchase、reviews.id:这两个字段只有一条数据,所以将其删除;

data = data.drop(['reviews.didPurchase', 'reviews.id', 'name'], axis=1)

reviews.dateAdded的缺失值处理reviews.dateAdded:数据缺失应该是用户没有追加评论造成的,所以使用No来填补缺失值;

data['reviews.dateAdded'] = data['reviews.dateAdded'].fillna('No')

asins、reviews.doRecommend、reviews.numhelpful、reviews.rating、reviews.text、reviews.title、reviews.username,数据集中这些字段有缺失的数据则直接删除;

data = data.dropna(axis=0, how='any',

subset=['reviews.date', 'reviews.title', 'reviews.text',

"reviews.username", 'reviews.doRecommend',

'reviews.numHelpful'])

3.3 分析内容

各商品的评论数、占总评论数的比例商品评论数最多的商品类别是B018Y229OU,一共有10963条评论,占总评论数的32.19%;

评论数最低的商品为B018Y23P7K,只有一条评论,占比不到0.01%;

各商品的评论数、平均评分平均评价最高的商品为B018T075DC和B018Y23P7K,对应的平均评分均为5分,但是评价数分别只有7条、1条;

平均评价最低的商品为B018Y229OU和B00TSUGXKE,对应的平均评分为4.45和4.42,平均得分均低于4.5分,对应的评论数分别为10963条、372条;

评价数超过100条的商品中,平均评价最高的商品是B00OQVZDJM,平均评价为4.77;

商品B018Y229OU的评论数最多,那么它的评论分布是怎么样的呢?5分的评价数最多,占比为59.22%,4分的评价占比为31.44%,二者之和超过了总数的90%;

低分评价相对于高分评价,数量较少,占比接近3%;

商品的好评率及差评率(定义好评为reviews.rating>=4,差评为reviews.rating<=2)商品好评率最高的商品是B018T075DC、B00IOYAM4I、B018Y23P7K、B018Y22C2Y、B00REQKWGA、B018Y22BI4,好评率为100%,这些商品均收获了100%的好评,美中不足的是这些商品的总评论数较少,大部分在10条左右,均不足百条;

而在总评论数超过百条的商品中,好评率最高的商品是B00OQVZDJM,好评率为97.29%

差评率最高的商品为B01AHB9C1E,差评率为7.14%,差评数为1条,但是总评论数仅为14条;

而在总评论数大于100的商品中,差评率前三的商品为B01BH83OOM、B00TSUGXKE、B018Y23MNM ,差评率分别为3.79%、3.76、3.38%,对于这些差评率较高的商品,卖家需要针对性地找出用户给出差评的原因,做出针对性的改善

针对某个差评率较高的商品,以商品B01BH83OOM为例,尝试分析评分为2分以下的评论内容,找到用户给差评的原因(此处分析较为主观,具体原因还要对用户的评论进行分析)

从词云图中,我们看到tap、use、connect、Bluetooth、returned、 terrible等词出现的频率较高,猜测有以下原因:该商品属于触屏类商品,触屏灵敏度不高;

use、connect、bluetooth、phone等词则可能是该产品的蓝牙与手机的连接不顺畅,经常连接不上,使用困难;

terrible、returned则是产品质量有问题导致退货较多;

商品的评价数跟商品发布时间是否存在线性关系,是否存在商品发布时间越长,商品的评论数越多的可能性?

将商品按发布时间进行排序后,其评论数量图商品的评论数与时间之间的关系并不明显,即商品的评论数跟商品发布时间的长短没有关系;

有无追评的商品的评价是否一致?比如,我在购买了某种产品后,使用了一段时间,发现产品质量很好,用户想把它推荐给更多的人,于是追加了评论;

又或者我使用了一段时间后,发现产品的质量跟用户的预期存在偏差,所以我去追加评论;

data[data['reviews.dateAdded'] != 'No']['reviews.rating'].mean() #有追评的商品

data[data['reviews.dateAdded'] == 'No']['reviews.rating'].mean() #没有追评的商品从结果来看,没有追评的商品的平均评分为4.63,而有追评的商品的平均评分为4.57,可以看到又没追评的商品的评分略高于有追评的商品,至于是否存在没有追评的商品的评分比有追评的商品的评价更高,则需要进一步分析用户追评的内容;

四、结论和建议以用户的评论数作为衡量商品是否受欢迎的指标,那么最受欢迎的商品就是B018Y229OU;

商品的上市时间不会影响商品的评论数量;

综合评价最高的商品为B018T075DC和B018Y23P7K,对应的平均评分均为5分,但是评价数分别只有7条、1条;而在评价数超过100条的商品中,平均评价最高和最低的商品分别是B00OQVZDJM,B00TSUGXKE,平均评分分别为4.77、4.42分;

好评率最高的商品为B018T075DC、B00IOYAM4I、B018Y23P7K、B018Y22C2Y、B00REQKWGA、B018Y22BI4,好评率为100%;差评率差评率最高的商品为B01AHB9C1E,差评率为7.14%,差评数为1条,总评论数为14条;

评论数超过100的商品中,好评率最高的商品是B00OQVZDJM,好评率为97.29%;差评率前三的商品为B01BH83OOM、B00TSUGXKE、B018Y23MNM ,差评率分别为3.79%、3.76、3.38%,对于这些差评率较高的商品,卖家需要针对性地找出用户给出差评的原因,做出针对性的改善;

没有追评的商品的平均评分略高于有追评的商品评分,是否存在没有追评的商品评分比有追评的商品评分更高,则需要对用户追评的内容做进一步的分析。

python评论数据分析_Python亚马逊智能产品评论数据分析相关推荐

  1. 利用python对亚马逊智能产品评论进行分析

    一.分析目标 Amazon是网络上最早开始经营电子商务的公司之一,是全球电商行业的佼佼者.而人们在电商平台进行购物时,会根据评论数量以及好评和坏评作为判断依据来购买商品.故本文采取亚马逊智能产品评论作 ...

  2. 用EXCEL分析《亚马逊智能产品评论》

    一.业务分析 数据分析的前提是,对业务流程.业务指标和业务分析方法的熟悉和精通.因此,为了探究<亚马逊智能产品评论>这一数据集能提供怎样有价值的信息,需要对电商领域的业务流程.业务指标和业 ...

  3. 亚马逊推荐python_Python之亚马逊智能产品评论分析

    在万物互联时代,智能产品正在推动着智能生活迅速普及.聚焦广阔的智能产品市场,亚马逊一直致力于扩大智能产品阵容,作为典型的跨境电商B2C平台,与消费者互动的最直接.高效的方法是分析消费者评论. 一.明确 ...

  4. python根据频率画出词云_利用pandas+python制作100G亚马逊用户评论数据词云

    原标题:利用pandas+python制作100G亚马逊用户评论数据词云 数据挖掘入门与实战 公众号: datadw 我们手里面有一个差不多100G的亚马逊用户在购买商品后留下的评论数据(数据格式为j ...

  5. 【数据分析案例】2020年亚马逊商品评论数据分析

    亚马逊商品评论数据分析 <2020年美国数学建模竞赛C题:亚马逊商品评论数据分析>的解题思路与代码. 题目介绍 亚马逊网上商城为客户提供了对交易进行评分和评价的机会.客户可以提供三种评价内 ...

  6. 基于Python获取亚马逊的评论

    上次亚马逊的商品信息都获取到了,自然要看一下评论的部分.用户的评论能直观的反映当前商品值不值得购买,亚马逊的评分信息也能获取到做一个评分的权重. 亚马逊的评论区由用户ID,评分及评论标题,地区时间,评 ...

  7. Python实现通过ASIN爬取亚马逊产品评论

    Python实现通过ASIN爬取亚马逊产品评论 一.最近一直在研究爬取亚马逊评论相关的信息,亚马逊的反爬机制还是比较严格的,时不时就封cookie啊封ip啊啥的.而且他们的网页排版相对没有那么规则,所 ...

  8. selenium爬取亚马逊商品评论

    亚马逊商品评论有反爬虫,所以就用selenium爬了.网速一定要好,不然爬的真的是天昏地暗.配合多线程就会快很多,这个不写了,爬的时候手动复制了N个代码去爬.还有一个点,中文和英文的设置,可以在评论里 ...

  9. 亚马逊商城评论数据分析与可视化(KNN预测评分,绘制云图)

    目录 1.项目源码 2.数据部分 2.1.数据说明 2.2.数据预处理 2.3.文本清理 3.文本特征提取 4.KNN分类器寻找相似产品 5.基于聚类的词关联 1.项目源码 可在github下载: h ...

最新文章

  1. C# API中的模型和它们的接口设计
  2. Zabbix的分布式监控部署
  3. Android自定义顶部栏及侧滑菜单和fragment+viewpag滑动切换的实现
  4. android的热点分配ip_Android 得到连接热点的ip的方法
  5. aws数据库同步区别_了解如何通过使用AWS AppSync构建具有实时数据同步的应用程序
  6. dbgrideh标题排序
  7. update 没有索引导致业务崩了,老板骂了一个小时
  8. 多线程编程学习笔记——线程池(二)
  9. iOS开发之touchesCancelled
  10. 云服务器查看服务端口,云服务器如何查看端口是否连通
  11. Linux —— 文件系统(特殊文件)、tree
  12. “运营商不能沦为管道”是一个错误的理论
  13. SQL列转行问题(踩雷)
  14. 规划风险应对-规划过程组
  15. 揭秘空手套白狼的灰色产业,人性背后的暴利
  16. 小型微型计算机投稿流程,小型微型计算机系统
  17. source bash_profile是干啥的
  18. iccid的PHP规则,中国联通(U)SIM卡ICCID命名规则
  19. 批处理 b站视频批量合并
  20. 【人工智能】谓词表示法与产生式知识表示实验

热门文章

  1. Pantone色卡——安全装备的面板、丝印及铭牌颜色设计参考
  2. 宝塔部署开源云盘Cloudreve
  3. 立体匹配--中值滤波
  4. MQ消息积压了如何处理
  5. RabbitMQ消息积压
  6. 运用node.js连接MySQL数据库
  7. 【云计算】从Serverless说起,谈谈边缘计算的未来;从物理机到Kubernetes的那些坑与心得
  8. 浅谈 | 高低温环境下的车载屏幕功能耐久与触屏精度自动化测试
  9. 【Linux】标准IO库
  10. 华为云会议,开会就是如此简单