摘要

挖掘电商商品评论中的潜在价值不仅能为销售、顾客选购商品提供科学、可供决策的信息,而且有利于指导商品用户管理和改善商品用户体验。以网络爬取的三只松鼠商品评论为例,首先对其数据进行清洗,再使用Python的wordcloud包绘制分词后的评论词云图。通过词云图结果可以看出大部分客户对三只松鼠商品的评论是好的,并且大部分会回购。本文以挖掘商品评论中隐含信息为出发点,通过文本挖掘对三只松鼠网络商品评论进行分析,不仅为三只松鼠企业网络销售提供建议,而且对消费者购买商品具有参考价值。

1.背景

近年来伴随着电子商务的快速发展,人们越来越多的选择使用电子商务平台选购商品。为提升顾客忠诚度,吸引消费者,电商平台鼓励消费者在购买商品后对商品进行评论。消费者购物体验后的评论作为一种重要的市场反馈,如何对其进行分析、挖掘,将挖掘的信息运用到网络销售和顾客商品选购中成为商品评论分析的重要研究方向。

2.数据预处理

目前网络商品评论存在两大缺点。其一人们可以自由的发表对评价主体的评论,评论的质量不能保证,人们的评论内容具有一定的随意性;其二,这种在线网络评论数据的基本事实并不总是可以使用的面对网络爬取评论数据存在的缺点,为了保证文本挖掘样本数据的质量, 挖掘效果。本文在Python软件运行环境下,剔除特殊字符及英文。

2.1.1 分词

针对商品评价层次丰富等特点,本文所提出的模型将每条语料通过中英文句号分割成单个语句。中文语料并不具备英文语料天然分词的特点,因此需要针对每一单句进行分词处理。本文使用Jieba分词组件进行分词处理。

2.1.2 去停用词

在中文语料中,存在部分与情感分析无关的符号或词语[7],例如:“,”、“。”、“!”、“ 三只”、“ 松鼠”、“因为”、“ 所以”和“ 的”等。通过人工整理等方式,统计此类词语,并在数据集上去除此类词语。

2.2 词云图

首先导入 Jieba 库进行分词,过滤停用词等操作,再分别进行统计商品评价关键词词频,导入 WordCloud 库对文本进行绘制词云图。通过词云图展示可以明显看出顾客对于三只松鼠商品的看法。从词云图中可以看出“买”、“好”、“好吃”、“不错”、“喜欢”等词突出,说明大部分顾客对商品的评价都是极好的等。

# 导入所需的库
import numpy as np
import pandas as pd
import time
import jieba
import codecs
import matplotlib.pyplot as pltfrom PIL import Image
from wordcloud import WordCloud
comment_dir  = r"评论.xlsx"
col_index = [2]def log(str):#日志函数time_stamp = time.time()local_time = time.localtime(time_stamp)str_time = time.strftime('%Y-%m-%d %H:%M:%S',local_time)with open('log.txt','a+',encoding="UTF-8") as f:logInfo = str_time +  "   " + strprint(logInfo)f.write(logInfo +"\n")def getCommentList(comment_dir,col_index):#数据函数,把excel列表中的数据转化为了一个列表comment_file = pd.read_excel(comment_dir,usecols=col_index)#只读取col_index列comment_list  = comment_file.values#二维#print("目前的读取到的数据是",comment_file.head())log('获取到excel数据,转化为了list')log('读取到{}条评论'.format(len(comment_list)))return comment_listdef getWordList(comment_list):word_list =  []stop_words = [',','。',"!"," ","、","三只","松鼠","因为","所以","就","的",'还是','了','很','都']for comment in comment_list:split_list =  jieba.lcut(str(comment[0]))for word in split_list:if(word not in stop_words):word_list.append(word) #去停用词with open("word.txt",'w',encoding="UTF-8") as f:for item in word_list:f.write(str(item)+' ')log('得到分词文件')def getWordCloud():mask = np.array(Image.open("timg4.jpg"))with open("word.txt","r",encoding="UTF-8") as f:txt=f.read()word=WordCloud(background_color="white",\width=2400,\height=3500,collocations=False,font_path='微软雅黑粗体.ttf',mask=mask,).generate(txt)word.to_file('test.png')#保存词云图到本地log("词云图片已保存")plt.imshow(word,interpolation='bilinear')    #使用plt库显示图片plt.axis("off")plt.show()
if __name__ == "__main__":comment_list =  getCommentList(comment_dir,col_index)getWordList(comment_list)getWordCloud()

图3:三只松鼠商品销量前十名

图4:三只松鼠商品缩略图照片墙

三只松鼠商品评论分析相关推荐

  1. python商品评论分析_NLP实战:用主题建模分析网购评论(附Python代码)

    现在电商行业势头正好,对在线零售商来说,他们不受库存或空间的限制,而实体店则必须在有限的空间中存储产品. 但是,在线购物也有它的局限之处,最大的难题之一就是检验产品的真伪.它的质量是否如宣传所说的那么 ...

  2. 京东商品评论分析(爬虫+分词+词云图)

    项目背景: 本文通过抓取京东某笔记本的评论数据,简单从几个维度进行分析,并制作用户评论的词云图. 爬取数据: 商品链接 通过对商品评论页面进行探索,发现评论数据是通过发送请求,然后从数据库调取此商品的 ...

  3. python商品评论分析_python实现电商评论的情感分析

    现如今各种APP.微信订阅号.微博.购物网站等网站都允许用户发表一些个人看法.意见.态度.评价.立场等信息.针对这些数据,我们可以利用情感分析技术对其进行分析,总结出大量的有价值信息.例如对商品评论的 ...

  4. python商品评论分析_用python3爬取天猫商品评论并分析(1)

    在上一篇文章我们已经完成数据的采集,并将数据存储在mysql,现在我们来继续后面的数据分析工作,先放出项目流程: 0.主要流程 0.数据采集 0. 目标网址获取 1. 爬虫框架选用 注:了解这一步请登 ...

  5. python商品评论分析_亚马逊产品情感评论分析

    import requests from lxml import etree import re import xlwt from openpyxl import workbook # 写入Excel ...

  6. pythonallowpos_利用Python抓取并分析京东商品评论数据

    2.1 内容简介 本章主要介绍如何利用Python抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色等颜色, 70B到90D ...

  7. python新闻评论分析_使用 python 抓取并分析京东商品评论数据

    本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...

  8. 高效构建基于Python的商品评论文本挖掘网页APP

    CDA数据分析师 出品 作者:CDALevel Ⅰ持证人 岗位:数据分析师 行业:大数据 背景 电子商务行业在近几年发展得极为迅猛,很多在传统行业就业但是薪资不理想的都在网电子商务行业去转.这种趋势造 ...

  9. python爬取页面内容由京东提_python制作爬虫爬取京东商品评论教程

    本篇文章是python爬虫系列的第三篇,介绍如何抓取京东商城商品评论信息,并对这些评论信息进行分析和可视化.下面是要抓取的商品信息,一款女士文胸.这个商品共有红色,黑色和肤色三种颜色, 70B到90D ...

最新文章

  1. 轻雀世界知名体育用品零售商D的交流与思考
  2. 树莓派安装python模块_树莓派引脚编号、pypi说明和安装
  3. SharedPreferences记住用户密码 态判断应用是否首次启动等
  4. 轻松理解vuex的运用和常见问题,顺便学会vue企业必备实例
  5. bootstrap 开源框架demo_5 个接私活必备的 Java 开源项目!
  6. 解决Cacti监控图像断断续续问题
  7. 浅谈CC攻击原理与防范
  8. java lambda map用法_Java 中如何使用 lambda 表达式填充 Map?
  9. mysql游标触发器批量_MySQL游标和触发器
  10. 轨迹分析_解析几何中的轨迹问题中经典问题,有详细分析及其解答
  11. 23种设计模式(三)组件协作之策略模式
  12. 传奇服务器修改变量,课程列表-传奇服务端制作修改教程-4.3变量-学传奇
  13. 实现读取txt文本 统计文本单词出现次数
  14. VMware Fusion网络配置相关原理
  15. 盒子综合案例——德云社十八愁与宠物知识栏
  16. 使用echarts画设备拓扑图
  17. Neo4j 4.x 社区版数据导入及Spring-Data-Neo4j 5.x、6.x使用案例
  18. 调试程序路径“C:\Users\{用户名}\vsdbg\vs2017u5”无效
  19. 融汇悦生活赴港递交招股书:母公司依赖症难解,独立性存疑
  20. MySQL单表查询练习题

热门文章

  1. raspberry pi_十个有趣的Raspberry Pi项目:JAXenter的精选
  2. linux文件下生成一个文件,Linux系统下生成一个指定大小的文件要注意什么?
  3. 安全的远程访问是保护知识产权的关键
  4. 【JY】为什么要了解和学习多款仿真软件?
  5. springbootsecurity实现权限管理详细步骤
  6. 第一章 C语言编程(Ivor Horton)
  7. Uber数据泄露事件本可以使用区块链…
  8. 易极天成温怀玉:聚焦垂直领域 提供多元化产品和服务|企服三会系列报道
  9. ElasticSearch的REST APIs 之 索引的别名(alias)管理
  10. php 正则过滤中英文标点