一、业务分析
数据分析的前提是,对业务流程、业务指标和业务分析方法的熟悉和精通。因此,为了探究《亚马逊智能产品评论》这一数据集能提供怎样有价值的信息,需要对电商领域的业务流程、业务指标和业务分析方法有一个预先的了解。

1.1 电商业务流程
参考《B2C电子商务的业务流程和盈利模式》,B2C电子商务的核心业务流程由前台购物流程和后台订单处理流程组成。

1.1.1 前台购物流程
B2C前台是直接面向用户的网站,用于发布商品信息,接受用户需求。

1.1.2 后台订单处理流程
B2C后台系统的主要功能是处理用户订单,满足用户的需求。

综上所述,B2C电子商务平台通过促进前台购物流程和后台订单处理流程的交互和循环,一方面源源不断地把特定商品运送到用户手里,一方面源源不断地从用户手里获取资金收入。

1.2 电商业务指标
参考《数据化管理,洞悉零售及电子商务运营》,整理出电商业务的7大指标:流量、转化、营运、会员、财务、风控。

除此之外,还有风控指标。

1.3 电商业务分析方法
为了优化电子商务的运营,我们引入了AARRR模型。

根据上述背景信息可知:
《亚马逊智能产品评论》这一数据集,来源于前台购物流程中,亚马逊用户购买智能产品之后评论行为,数据时间从2010年至2017年,数据是后台运营部门提供的,暂且认为数据是没有问题的。
用户评论之后产生的主要指标有:评分、是否推荐、评论内容、帮助性分数、评论日期。
1) 评分,五分制评分,代表的是用户消费之后的主观满意度,对应的是风控指标,可以进一步分为好评、中评和差评。
用户的评分越高,表明用户的主观满意度越高,表明电商运营的风险越低,反之越高。
评分与流量指标中的回访客数、转化指标中的成交转化率、会员指标中的会员留存率、回购率等正相关,与AARRR模型中的转发率等正相关,因而可以为进一步的推断性统计分析提供依据。
评分高低与否,有两个参照标准:一是行业标准,二是亚马逊累积数据产生的常模。
2) 是否推荐,用户愿意推荐商品,表明了用户对商品的喜爱和认同,预示着比较高的回购率、转发率等。
3) 评论内容,评论内容中的关键词,有助于了解用户的“啊哈”点或非“啊哈”点,为改进运营策略提供依据。
4) 评论日期,可以探寻用户评论的时间规律,为客服排班提供数据支持。
5)帮助性分数,代表用户对某一评论的认同度,可以分为好评帮助性分数和差评帮助性分数两类,进而代表非直接评分用户的主观满意度。
除此之外,还可以从数据集中提取中评论次数这一指标。
6) 评论次数,用户的评论次数越多,表明商品销量越高,反之越低。

二、问题分析
2.1 问题提出
分析思路:
首先,我们想要了解亚马逊智能产品,哪些热销,哪些滞销,这可以通过统计用户评论次数分布间接获知,为商品的“智能推荐”、及时撤架、库存管理提供依据。
其次,我们想要了解亚马逊智能产品的用户满意度如何,这可以通过统计评分分布、好评率分布、差评率分布、好评帮助性分数分布、差评帮助性分数分布来获知,为商品的“智能推荐”、货架调整、营销策略等提供依据。
再次,我们想要了解智能产品的被推荐次数分布是怎样的,为后续病毒式营销提供数据支持。
然后,我们想要了解好评词云和差评词云,为后续运营提供依据。
最后,我们想了解用户的评论日期是否有规律,为客服排班提供依据。
于是提出5个问题:
1)亚马逊智能产品的热销商品是哪些?
2)亚马逊智能产品的用户满意度如何?
3)亚马逊智能产品的哪些商品是被用户高推荐的?
4)亚马逊智能产品的好评词云、差评词云是怎样的?
5)用户的评论日期是否有规律?

2.2 理解数据
该数据集,总共有17个字段,34656行。

2.3 清洗数据
1)隐藏与问题无关的字段;

2)对问题相关字段进行中文命名;

3)重复值处理
原本打算针对“用户编号”字段进行重复值删除,但是数据集中的“用户编号”大量的一致,每个“用户编号”并非唯一的,于是放弃重复值处理。

4)缺失值处理
针对“产品名称”字段进行缺失值处理,删除缺失值所在的行,总共删除6759行,剩下27897行数据。
针对“评分”字段进行缺失值处理,将缺失值替换为“0”。

5)一致化处理
-——日期格式处理
所给格式是2017-07-20T00:00:00.000Z,这里需要改成2017/7/20日期格式。
使用分列功能。


——评分转化
所给评分是1、2、3、4、5 等级评分,这里需要改成好评、中评、差评三种态度。
首先,定义规则。

其次,运用vlookup函数进行匹配。

6)数据排序和异常值处理
针对“评论分数”进行降序排序,未发现异常值。

2.4 建构模型
2.4.1 亚马逊智能产品的热销商品是哪些?
利用数据透视表功能,其中行指标是产品名称,分别计算评论次数和评论占比,计算结果见下图:

于是可知:
1)总共48种商品,其中评论次数最多的top5商品依次为:Fire Tablet、Echo (White)、Amazon Kindle Paper、All-New Fire HD 8 Tablet、Amazon Fire Tv。
2)top5商品在48种商品中占比10.42%,累计的评论占比则达到了81.82%,这一现象大体符合二八定律。建议对热销的top5商品充分备货。

1.4.2 亚马逊智能产品的的用户满意度如何?
1.4.2.1 对评分进行描述性统计分析,结果见下图:

于是可知:评分的均值是4.57,均值比较大。标准差是0.74,标准差相对较小,表明评分的分布相对集中。从而表明用户对亚马逊智能产品的满意度是比较高的,态度也是比较稳定的。

1.4.2.2 对评分进行分组计数,结果见下图:

于是可知:5分和4分累计占比为92.98%。这表明用户对亚马逊智能产品的好评度是非常高的。

1.4.2.3 利用数据透视表功能,其中行指标是产品名称,列指标是客户满意度,分别计算评论次数和评论占比,计算结果见下图:

按好评率进行排序,得出好评top10的智能产品,见下图:

按差评率进行排序,得出差评top10的智能产品,见下图:

于是发现:好评率高的商品基本上差评率也高。
进一步计算top10好评商品和差评商品的相关系数,相关系数高达0.96.
于是可知:用户对亚马逊智能产品的整体满意度是很高的,态度是很稳定的。但是好评和差评主要集中在了top10商品上,top10商品集中了主要的流量。建议一方面对top10商品进行智能推荐,方便用户查找和购买,另一方面探索非top10商品的营销方法。
进一步对top10商品好评率和差评率进行T检验,发现p=0.015,显著小于0.05。
于是可知:用户对top10商品的好评率显著高于差评率。
在top10商品的好评率显著高于差评率的条件之下,哪些热销商品需要重点改进呢?
进一步计算top10商品的评分均值,并计算其与总评分均值的差,结果见下图:

于是可知:Fire Tablet、Fire Kids Edition Tablet、Brand New Amazon Kindle的均值低于评分总均值,需要结合用户差评词云进行改进。

1.4.2.4 代表用户主观满意度的指标,除了评分之外,还有帮助性分数。统计TOP10商品的好评帮助性分数和差评帮助性分数,结果见下图:

于是可知:
1)评论次数TOP10商品中, Fire Tablet、 Echo (White)的差评帮助性分数超过了300。
2)其中, Echo (White)的好评帮助性分数(338)与差评帮助性分数(324)几乎相等。

1.4.3 亚马逊智能产品的哪些商品是被用户高推荐的?
利用数据透视表功能,其中行指标是产品名称,分别计算被推荐次数和被推荐占比,计算结果见下图:

发现被推荐次数top10商品和评论次数top10商品高度相关,计算相关系数为0.99.
于是可知:亚马逊智能产品,评论次数越高,被推荐次数也越高。

1.4.4 亚马逊智能产品的好评词云、差评词云是怎样的?
使用python的wordcloud库来生成词云。
1)导入数据,选择子集,重命名字段。

2)导入wordcloud库,生成好评词云。

可知,好评中love、great、perfect、fun、cool、nice等赞美词汇较多,表明消费者对亚马逊智能产品还是比较满意的。use、easy、screen、size、quality等词汇也出现较多,表明消费者可能对实用、易操作、屏幕、尺寸、质量等方面比较满意。

3)生成差评词云。

可知,差评中出现了hard、app、music、battery、black等词汇,表明消费者可能对难操作、app体验、音乐功能、电池电量、黑色等方面表示不满。

1.4.5 用户的评论日期是否有规律?
利用数据透视表功能,其中行指标是评论日期,计算评分计数,计算结果见下图:

于是可知:用户评论集中在1月和12月,分别占比为23.43%和17.36%。建议在1月和12月增加客服支持力度。

2.5 得出结论
1)亚马逊智能产品评论数据呈两级分化态势:TOP10的商品占有了绝大多数评论,包括好评与差评;也占有了绝大多数被推荐次数。
2)用户对亚马逊智能产品的满意度是比较高的,态度也是比较稳定的,经计算可知用户对top10商品的好评率显著高于差评率。但是Fire Tablet、Fire Kids Edition Tablet、Brand New Amazon Kindle这三件热销商品的评分均值低于总评分均值。
3) Echo (White)比较特殊,直接评分的用户对其满意度超过了总评分均值,但非直接评分的用户对其满意度则毁誉参半。
4)好评中,用户主要对实用、易操作、屏幕、产品尺寸、质量等方面比较满意。差评中,用户反映较多的是难操作、app体验、音乐功能、电池电量、黑色等方面的问题。
5)用户评论集中在1月和12月。

2.6 提出建议
1)建议一方面对top10热销商品充分备货,优化推荐算法,方便用户查找和购买,另一方面探索非top10商品的营销方法,比如提高非top10商品的折扣力度。
2)建议对Fire Tablet、Fire Kids Edition Tablet、Brand New Amazon Kindle这三件热销商品进行重点改进,比如根据差评高频词对产品质量进行抽检,或者客服直接与用户沟通查找改进的方法。
3)建议客服部门重点研究 Echo (White)毁誉参半这一矛盾现象,找出帮助性分数较高的差评,针对性地进行产品或业务改进,提高用户满意度。
4)在宣传推广上,突出操作方便、屏幕好、质量好等优点;对app体验、音乐功能、电池电量、黑色等方面的问题及时反馈给厂商,促其优化产品。
5)在1月和12月增强服务力度。

用EXCEL分析《亚马逊智能产品评论》相关推荐

  1. 亚马逊推荐python_Python之亚马逊智能产品评论分析

    在万物互联时代,智能产品正在推动着智能生活迅速普及.聚焦广阔的智能产品市场,亚马逊一直致力于扩大智能产品阵容,作为典型的跨境电商B2C平台,与消费者互动的最直接.高效的方法是分析消费者评论. 一.明确 ...

  2. 利用python对亚马逊智能产品评论进行分析

    一.分析目标 Amazon是网络上最早开始经营电子商务的公司之一,是全球电商行业的佼佼者.而人们在电商平台进行购物时,会根据评论数量以及好评和坏评作为判断依据来购买商品.故本文采取亚马逊智能产品评论作 ...

  3. python评论数据分析_Python亚马逊智能产品评论数据分析

    一.概述 本文主要使用Python对亚马逊智能产品评论数据集进行数据清洗,通过对不同产品的评分进行变换后得到产品的好评数.中评数.差评数以及对应的比率等,通过上述这些指标,找到好评率最高的产品.并尝试 ...

  4. 基于Python获取亚马逊的评论

    上次亚马逊的商品信息都获取到了,自然要看一下评论的部分.用户的评论能直观的反映当前商品值不值得购买,亚马逊的评分信息也能获取到做一个评分的权重. 亚马逊的评论区由用户ID,评分及评论标题,地区时间,评 ...

  5. python根据频率画出词云_利用pandas+python制作100G亚马逊用户评论数据词云

    原标题:利用pandas+python制作100G亚马逊用户评论数据词云 数据挖掘入门与实战 公众号: datadw 我们手里面有一个差不多100G的亚马逊用户在购买商品后留下的评论数据(数据格式为j ...

  6. selenium爬取亚马逊商品评论

    亚马逊商品评论有反爬虫,所以就用selenium爬了.网速一定要好,不然爬的真的是天昏地暗.配合多线程就会快很多,这个不写了,爬的时候手动复制了N个代码去爬.还有一个点,中文和英文的设置,可以在评论里 ...

  7. 【数据分析案例】2020年亚马逊商品评论数据分析

    亚马逊商品评论数据分析 <2020年美国数学建模竞赛C题:亚马逊商品评论数据分析>的解题思路与代码. 题目介绍 亚马逊网上商城为客户提供了对交易进行评分和评价的机会.客户可以提供三种评价内 ...

  8. Python实现通过ASIN爬取亚马逊产品评论

    Python实现通过ASIN爬取亚马逊产品评论 一.最近一直在研究爬取亚马逊评论相关的信息,亚马逊的反爬机制还是比较严格的,时不时就封cookie啊封ip啊啥的.而且他们的网页排版相对没有那么规则,所 ...

  9. python实现食品推荐_Python分析亚马逊赞不绝口食物评论

    1.背景: 本文是来源于Kaggle平台的亚马逊50多万条食物评论的数据集.此数据集采集时间跨度有十余年,直到2012年十月份共计有56万多条评论信息. 这些信息由食品产品号.用户信息.评分和评价文本 ...

最新文章

  1. bgl 词典_器材屋 篇五十二:“哪里不会点哪里”的后时代——哪里不识扫哪里:科大讯飞扫描词典笔评测_点读机...
  2. python中Json、os、sys、hashlib等内置模块
  3. 动态输出html一些效果失效的处理
  4. sierra mysql_macOS High Sierra 使用 Homebrew 安装 MYSQL 5.7
  5. Struts2的简单介绍
  6. Java基础系列--static关键字
  7. mongoddb常用增删改查命令--推荐查询命令:
  8. 信贷违约风险预测(三)简单的特征工程
  9. prometheus使用cAdvisor监控容器
  10. REVIT模型空间句法分析
  11. 资源管理方案——RAII
  12. decimal比较大小
  13. APP爬虫开发环境准备
  14. Django 项目编码问题1UnicodeDecodeError: ‘utf-8‘ codec can‘t decode byte 0xd2 in position 0: invalid contin
  15. 坚鹏:苏州银行《银行数字化运营之行动篇》课程培训圆满结束
  16. 乘幂法计算矩阵主特征值和特征向量-Matlab实现
  17. Google(谷歌)研究员 吴军
  18. 2022基于微信小程序的图书馆座位预约管理系统.rar(论文+程序设计源码+数据库)毕业设计
  19. 一个小程序云开发教程实例
  20. 连接并查询Access2003数据库

热门文章

  1. RK1109_RK1126GMAC以太网配置问题
  2. 导师喜欢什么样的“真”研究生?(转科学网)
  3. 黑盒测试、白盒测试、灰盒测试的区别
  4. 词法分析器的生成器——lex/flex
  5. 稳定智能的在线考试系统
  6. 使用xcode上传ipa到app store
  7. 华为---ACL配置
  8. Ubuntu下GloVe中文词向量模型训练
  9. 哪款蓝牙耳机适合吃鸡?盘点2022适合苹果吃鸡的蓝牙耳机
  10. Stimulsoft报表使用心得